גדלס פואטרי: הוכחת משפטים אוטומטית חדשנית ב-Lean4
מחקר

גדלס פואטרי: הוכחת משפטים אוטומטית חדשנית ב-Lean4

מערכת רב-סוכנים משלבת מודלי שפה ופירוק רקורסיבי להוכחות מדויקות יותר – 90% הצלחה ב-miniF2F

AI
אוטומציות AI
3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • מערכת רב-סוכנים לייצור הוכחות ב-Lean4 עם פירוק משפטים קשים.

  • 90.4% הצלחה ב-miniF2F ללא פירוק, שיפור משמעותי עם פירוק.

  • הרחבת Kimia Lean Server עם ניתוח AST לפירוק אוטומטי.

  • זמינה ב-PyPI ו-GitHub להתאמה אישית.

  • פוטנציאל גבוה לעסקים הדורשים וריפיקציה מתמטית.

הוכחת משפטים אוטומטית נתפסת כאתגר מרכזי לבינה מלאכותית כבר שנים רבות. כעת, חוקרים מציגים גישה חדשה ומרתקת: 'גדלס פואטרי' (Gödel's Poetry), מערכת המשלבת מודלי שפה מיוחדים לייצור הוכחות ב-Lean4 עם פירוק רקורסיבי של משפטים קשים לצעדים פשוטים יותר. הגישה הזו מבטיחה לשנות את כללי המשחק בתחום, ומציעה פתרון פרקטי לאתגרים המורכבים ביותר. המערכת זמינה כבר כחבילה פתוחה ב-PyPI וב-GitHub, מה שמאפשר למפתחים ישראלים להתנסות בה מיד. לפי המאמר שפורסם ב-arXiv (2512.14252v1), המערכת פועלת דרך ארכיטקטורת רב-סוכנים שתואמת בין שלבים שונים: אוטו-פורמליזציה אם נדרש, יצירת הוכחות, פירוק משפטים קשים להצהרות פשוטות יותר שמובילות אליהם, והוכחה רקורסיבית של הצעדים האלה. ללא הפירוק, המערכת משיגה שיעור הצלחה של 90.4% במאגר הבדיקות miniF2F. עם הפירוק הרקורסיבי, התוצאות משתפרות באופן משמעותי, מה שמדגים את העוצמה של הגישה הזו. תרומה טכנית מרכזית היא הרחבת שרת Kimia Lean עם יכולות ניתוח עץ תחביר מופשט (AST), שמאפשרות פירוק אוטומטי ורקורסיבי של הוכחות. זה מאפשר למערכת להתמודד עם משפטים מורכבים על ידי חלוקתם לחלקים קטנים יותר שניתן להוכיח בנפרד. המערכת פורסמה כחבילה 'goedels-poetry' ב-PyPI (https://pypi.org/project/goedels-poetry/) ובמחסן GitHub של Kelly J Davis (https://github.com/KellyJDavis/goedels-poetry), מה שמקל על התאמה למודלי שפה אחרים והוספת פונקציונליות מותאמת. בהקשר עסקי, הוכחת משפטים אוטומטית יכולה לשנות תעשיות כמו פיננסים, רפואה וביטחון, שבהן וריפיקציה מתמטית קריטית. בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות רבות בבינה מלאכותית, כלי כזה יכול להאיץ פיתוח תוכנה בטוחה יותר. בהשוואה למתחרים, הגישה הזו בולטת בשילוב הפירוק הרקורסיבי, שמטפל במורכבות גבוהה יותר. עבור מנהלי טכנולוגיה ומפתחים, 'גדלס פואטרי' מציעה הזדמנות לבדוק גבולות הבינה המלאכותית בהוכחות פורמליות. כדאי להתקין את החבילה, להתנסות במאגרי בדיקות כמו miniF2F ולשלב אותה בפרויקטים. מה תהיה ההשפעה על עתיד התכנות?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות