בעידן שבו מודלי שפה גדולים (LLMs) משתלטים על תחומי הבינה המלאכותית, עולה השאלה: כיצד ניתן לשפר את כישורי התכנון שלהם ללא אימון מסורתי? מחקר חדש מ-arXiv מראה שהפעלה איטרטיבית – שבה כל גרסה חדשה מותאמת על נתונים שנבחרו בקפידה על ידי משתמשים מהפעלות קודמות – משנה באופן משמעותי את תכונות המודלים. במבחנים על תחומי תכנון שונים, הדגימו הגרסאות המאוחרות שיפורים מהותיים, כולל יכולת לגלות תוכניות ארוכות בהרבה מאלו של הגרסאות הראשוניות, מה שמעיד על כללייה מתפתחת.
הפעלה איטרטיבית זו כוללת פריסת מודל, איסוף נתונים איכותיים ממשתמשים, ואז כוונון מחדש של הגרסה הבאה על אותם נתונים. לפי החוקרים, מנגנון זה הוביל לשינויים עמוקים בתכונות המודלים. במבחנים על דומיינים שונים של תכנון, נצפו שיפורים ניכרים בכישורי התכנון. במיוחד, מודלים מאוחרים יותר הציגו יכולת כללייה מתפתחת, שבה הם גילו תוכניות ארוכות ומתוחכמות יותר, מעבר למה שהיה אפשרי בגרסאות המוקדמות.
החוקרים מספקים ניתוח תיאורטי המקשר את ההפעלה האיטרטיבית לאימון למידת חיזוק (RL) במעגל חיצוני, ללא צורך בשילובו באופן מכוון בתהליך האימון. פונקציית התגמול במקרה זה מרומזת, ולא מוגדרת במפורש. קשר זה ל-RL חשוב במיוחד לשני היבטים: ראשית, בתחום בטיחות הבינה המלאכותית, שכן פונקציית התגמול הלא-מפורשת עלולה להוביל להשלכות בלתי צפויות על תכונות הפריסות העתידיות.
שנית, המנגנון מציג חלופה לאימון RL מפורש, המסתמך על אצירות נתונים במקום תגמולים גלויים. זהו גישה חדשנית שיכולה להשפיע על אופן פיתוח מודלי AI עסקיים. עבור מנהלי עסקים ישראלים, שמשקיעים ב-AI, חשוב להבין כיצד הפעלה איטרטיבית כזו יכולה לשפר מודלים פנימיים, אך גם להצביע על סיכונים פוטנציאליים בבטיחות.
לסיכום, ההפעלה האיטרטיבית מציעה דרך יעילה לשיפור כישורי תכנון ב-LLMs, אך מדגישה את הצורך בפיקוח על תהליכי הפיתוח. האם חברות ישראליות יאמצו גישה זו בפיתוח כלי אוטומציה? קריאה מלאה של המחקר מומלצת.