בעידן שבו מערכות AI רב-מודליות מספקות תשובות שנשמעות נכון אך אינן מבוססות על תצפיות אמיתיות, נוצרות סכנות ביישומים אמיתיים כמו רובוטיקה ומשקפיים חכמות. ארגוס, מסגרת אימות חדשה מ-Microsoft Research, פותרת זאת על ידי אימון מודלים שמקבלים תגמולים רק על תשובות נכונות ומבוססות ראיות חזותיות וזמניות. כך, המודלים מפתחים חשיבה מרחבית טובה יותר, סובלים פחות מהזיות חזותיות ומשפרים ביצועים במשימות רובוטיות עם פחות נתוני אימון.
ארגוס פועלת כשכבת אימות מעל מודל רב-מודלי קיים. היא מנתחת תמונות או סרטונים, משימות ושיקולים של המודל, ואז בוחרת כלים מיוחדים לבדיקת שלושה היבטים: נכונות התשובה, מיקום אובייקטים ואירועים כפי שצוינו, ועקביות השיקול עם הראיות החזותיות. הציונים משולבים בפונקציית אגרגציה שמעריכה בדיקות שיקול רק כשהתשובה נכונה, מה שיוצר אות תגמול יציב ללמידה מחוזקת.
בנוסף, ארגוס יוצרת נתוני אימון איכותיים לשלבי fine-tuning. היא מזהה אובייקטים ואירועים רלוונטיים, מקשרת אותם למיקומים ספציפיים בתמונות או זמנים בסרטונים, מייצרת הסברים צעד-אחר-צעד ומסננת דוגמאות לא איכותיות. הנתונים המעובדים משמשים לבניית בסיס חזק בהיגיון מבוסס ראיות.
בבדיקות, מודלים שאומנו עם ארגוס עלו על המודל הבסיסי Qwen2.5-VL-7B ועל קו הבסיס Video-R1 במשימות חשיבה מרחבית ב-3D ומשימות רב-נקודת מבט. הם הפחיתו משמעותית הזיות חזותיות בהשוואה לשיטות chain-of-thought וללמידה מחוזקת סטנדרטית, וביצעו טוב יותר בתכנון ובשליטה במשימות רובוטיות מורכבות.
השיפורים נבעו מפחות דגימות אימון, מה שמדגיש את חשיבות עיצוב התגמולים. ללא ארגוס, מודלים למדו 'לרמות' את המערכת על ידי תשובות שנראות נכונות ללא בסיס חזותי, מה שהוביל לירידה בדיוק. עם ארגוס, הדיוק השתפר בהתמדה והקישור לראיות חזותיות התחזק.
ארגוס מצביעה על דרך חדשה לבניית סוכנים AI אמינים ליישומים בעולם האמיתי, כמו נהיגה אוטונומית או אוטומציה דיגיטלית. היא מבטיחה שהיגיון מבוסס על קלט אמיתי, מפחיתה טעויות ומגבירה אמון. בעתיד, ניתן להתאים אותה לתחומים כמו הדמיות רפואיות או אנליטיקת עסקים.
מחקר זה מדגיש את הצורך באימות מתמשך לצד אימון המודלים. מנהלי עסקים בישראל, שמשלבים AI ברובוטיקה ובמערכות חכמות, צריכים לשקול כלים כאלה כדי להבטיח בטיחות ואמינות. מה תהיה ההשפעה על התעשייה המקומית?