בעידן שבו סוכני AI צריכים להתמודד עם משימות עולם אמיתי דרך אינטראקציות רב-תוריות עם בני אדם וסביבות חיצוניות, אתגר מרכזי הוא אימון יעיל. סוכנים כאלה חייבים לעקוב אחר מצב הדיאלוג, לבצע כלים רב-שלביים ולהקפיד על הוראות מורכבות. אולם, יצירת נתונים איכותיים בקנה מידה גדול קשה, ולמידה מחוזקת (RL) סובלת מרעשי סימולציה. מחקר חדש מציג מסגרת מאוחדת המשלבת סוכן נתונים מתפתח עצמי עם RL מבוסס בודק, ומציעה דרך יעילה יותר.
המערכת, הנקראת EigenData, היא מנוע רב-סוכנים היררכי שמייצר דיאלוגים מבוססי כלים לצד בודקים ניתנים לביצוע לכל מקרה. היא משפרת את האמינות דרך תהליך סגור של התפתחות עצמית, המעדכן פרומפטים וזרימות עבודה. על בסיס נתונים סינתטיים אלה, המחקר מפתח מתכון RL: קודם כל התאמה עדינה של דגם המשתמש, ולאחר מכן אימון בסגנון GRPO עם יתרונות יחסיים ברמת המסלול וסינון דינמי. גישה זו מניבה שיפורים עקביים מעבר להתאמה עדינה פשוטה (SFT).
במבחן tau^2-bench, הדגם הטוב ביותר הגיע ל-73.0% הצלחה ב-Airline ו-98.3% ב-Telecom, תוצאות שמתחרות או עולות על דגמי חזית. המחקר מדגיש כי נתונים סינתטיים איכותיים ובודקים אוטומטיים מאפשרים bootstrapping של התנהגויות מורכבות ללא הערות אנושיות יקרות, ומציעים נתיב מדרגי לאימון סוכנים משתמשים בכלים.
המשמעות העסקית גדולה: חברות ישראליות בתחום ה-AI יכולות ליישם גישות כאלה לפיתוח עוזרים וירטואליים שמטפלים במשימות כמו הזמנת כרטיסי טיסה או תמיכה טכנית ללא צוותי תמיכה גדולים. בהשוואה לשיטות קודמות, EigenData מפחיתה תלות בנתונים אנושיים ומשפרת יעילות האימון, מה שמאיץ חדשנות.
לסיכום, המחקר מציע דרך פרקטית לשדרג סוכני AI אינטראקטיביים. מנהלי טכנולוגיה צריכים לשקול אימוץ נתונים סינתטיים מתפתחים עצמית – מה זה אומר לעסק שלכם?