בעידן שבו מודלי שפה גדולים (LLM) שולטים בעיבוד טקסט, הם עדיין נכשלים בהיגיון מרחבי – תחום קריטי לניווט, תכנון ואפליקציות רובוטיות. מחקר חדש מ-arXiv מציג גישה דו-שלבית שמפרקת היגיון מרחבי לבלוקים בסיסיים ומשלבת אותם לתכנון רב-שלבי. השיטה משפרת ביצועים בסביבות מבנה ומבטיחה יתרון עסקי לחברות AI בישראל ובכלל.
השיטה מתחילה בשלב ראשון של fine-tuning מפוקח על טרנספורמציות מרחביות אלמנטריות: סיבוב, תרגום והקטנה/הגדלה. זה מצייד את המודל ב'פיזיקה מרחבית' בסיסית. לאחר מכן, קופאים את המודל הזה ומאמנים מתאמי LoRA קלים במסגרת GRPO – ללמידת מדיניות שמרכיבה את הבלוקים הללו לתכנון רב-שלבי בסביבות פאזלים, בסגנון closed-loop.
כדי לתמוך בשיטה, החוקרים יצרו באופן סינתטי ערכת נתונים של ASCII-art ובנו סביבת למידה מחוזקת מבוססת ASCII. השיטה מנצחת baselines כמו המודל הגנרי, המודל הפיזיקלי והמודלים RL מקצה לקצה – הן בסביבות דינמיות עם עדכוני מצב מפורשים והן בסביבות סטטיות שדורשות שמירה על מצב פנימי.
בנוסף, הגישה משיגה התכנסות מהירה יותר ואימון יציב בהשוואה ל-RL מקצה לקצה. ניתוח דפוסי קשב מראה שיפורים משמעותיים בהבנת מרחב. זה רלוונטי במיוחד לעסקים ישראליים בתחום הרובוטיקה והאוטומציה, שם היגיון מרחבי הוא מפתח ליישומים תעשייתיים.
הממצאים מצביעים על דרך יעילה לשדרג LLM קיימים ליישומים מורכבים. מנהלי טכנולוגיה צריכים לשקול אימון דומה למודלים שלהם – מה יקרה אם LLM שלכם יוכל לתכנן מסלולים אופטימליים במפעל? קראו את המחקר המלא ב-arXiv.