DaGRPO: שיטה חדשה משפרת חשיבה ארוכת טווח במודלי שפה
מחקר

DaGRPO: שיטה חדשה משפרת חשיבה ארוכת טווח במודלי שפה

חוקרים זיהו בעיות באימון GRPO ומציעים פתרון כפול שמגביר יציבות ויעילות, עם שיאים חדשים במבחני מתמטיקה

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • DaGRPO מתקנת חוסר ייחודיות בדגימות GRPO עם הסתרה דינמית של זוגות דומים.

  • הוספת עוגנים off-policy משפרת אימון למשימות קשות.

  • שיאים חדשים ב-9 מבחני מתמטיקה ו-OOD, +4.7% בממוצע.

  • מפחיתה פיצוצי גרדיאנט ומאיצה חשיבה ארוכת שרשרת.

DaGRPO: שיטה חדשה משפרת חשיבה ארוכת טווח במודלי שפה

  • DaGRPO מתקנת חוסר ייחודיות בדגימות GRPO עם הסתרה דינמית של זוגות דומים.
  • הוספת עוגנים off-policy משפרת אימון למשימות קשות.
  • שיאים חדשים ב-9 מבחני מתמטיקה ו-OOD, +4.7% בממוצע.
  • מפחיתה פיצוצי גרדיאנט ומאיצה חשיבה ארוכת שרשרת.
בעידן שבו מודלי שפה גדולים (LLMs) צריכים להתמודד עם משימות חשיבה מורכבות ארוכות טווח, שיטת GRPO הבטיחה התקדמות משמעותית, אך סבלה מחוסר יציבות באימון ויעילות נמוכה. חוקרים חדשים מציגים את DaGRPO – גרסה מתקדמת שמתמודדת ישירות עם שורש הבעיה: חוסר ייחודיות בדגימות האימון. השיטה משלבת שני מנגנונים מרכזיים שמבטיחים אימון יעיל יותר ומשפרים ביצועים דרמטית. GRPO, שיטת אופטימיזציית מדיניות יחסית קבוצתית, הצטיינה בהפעלת יכולות חשיבה מתקדמות במודלי שפה לאחר אימון ראשוני. עם זאת, היא נתקלה בקשיים: בשאלות שגרתיות, דגימות דומות מאוד גרמו להתנגשויות גרדיאנט הרסניות; ובשאלות קשות, מחסור בדגימות חיוביות תקפות מנע אופטימיזציה אפקטיבית. המחקר מזהה תיאורטית את חוסר הייחודיות בדגימות on-policy כגורם השורשי, ומציע פתרון ישיר. DaGRPO כוללת תיקון גרדיאנט ברמת הרצף, שמשתמש בציונים מפורטים כדי להסתיר זוגות דגימות בעלות ייחודיות נמוכה, ובכך מבטלת התנגשויות גרדיאנט במקור. בנוסף, היא מוסיפה הגברת נתונים off-policy באמצעות עוגנים איכותיים גבוהים, שמספקים אותות אימון למשימות מאתגרות. שילוב זה מאפשר אימון יציב יותר ומאיץ את התפתחות יכולות חשיבה ארוכות שרשרת. בניסויים מקיפים על 9 מבחנים של חשיבה מתמטית והכללה מחוץ להפצה (OOD), DaGRPO עלתה על שיטות SFT, GRPO והיברידיות קיימות, והשיגה שיאים חדשים – כולל שיפור ממוצע של 4.7% בדיוק במבחני מתמטיקה. הניתוח העמוק מאשר כי השיטה מפחיתה פיצוצי גרדיאנט ומקדמת יכולות חשיבה מתקדמות במהירות גבוהה יותר, מה שהופך אותה לכלי חיוני לפיתוח מודלים עסקיים. למנהלי עסקים ישראלים בתחום הטכנולוגיה, DaGRPO פותחת אפשרויות לשדרוג כלי AI פנימיים, במיוחד בתחומי ניתוח נתונים מורכבים וקבלת החלטות אוטומטית. השיטה מדגישה את החשיבות של אופטימיזציה מדויקת באימון, ומזמינה אימוץ מהיר של טכניקות דומות. האם חברתכם מוכנה לשלב חשיבה ארוכת טווח במודלי ה-AI שלה?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד