בעידן שבו מודלי AI ענקיים דורשים משאבים אדירים, חוקרים מפרסמים את CompassMax-V3-Thinking – מודל תערובת מומחים (MoE) בקנה מידה של מאה מיליארד פרמטרים, מאומן במסגרת RL חדשנית. העיקרון המרכזי: כל פרומפט חייב להיות משמעותי. שיטות קודמות סבלו מבזבוז זמן על פרומפטים חסרי שונות, דגימה לא יציבה והפרשי אימון-הסקה. הפתרון החדש מציג חידושים מאוחדים שמאפשרים אימון יציב ויעיל.
החידוש הראשון הוא Multi-Stage Zero-Variance Elimination, שמסנן פרומפטים לא אינפורמטיביים ומקטין בזבוז רולאאוטים. זה מייצב אופטימיזציה מבוססת קבוצות כמו GRPO. בנוסף, ESPO – שיטת אופטימיזציה מותאמת אנטרופיה – מאזנת דגימה ברמת טוקנים ורצפים, ומבטיחה דינמיקת למידה יציבה לאורך אופקים ארוכים. שתי החידושים הללו פותרים בעיות מרכזיות בהגדלת קנה המידה של RL.
השיפורים נמשכים עם Router Replay, אסטרטגיה שמיישרת החלטות הנתב של MoE באימון עם התנהגות ההסקה, ומתקנת מודל תגמול כדי למנוע היפוך יתרונות. המערכת כוללת גם עיבוד RL בעל תפוקה גבוהה: רולאאאוטים בדיוק FP8, חישוב תגמולים מקבילי ותזמון מותאם אורך. כל אלה יוצרים צינור עבודה כולל שמאפשר אימון יציב למודלים בקנה מידה עצום.
בהקשר שוק ה-AI, חידושים אלה רלוונטיים במיוחד לחברות ישראליות המפתחות פתרונות AI. הם מפחיתים עלויות אימון ומשפרים יעילות, מה שמאפשר תחרות מול ענקיות כמו OpenAI או Google. המודל מציג ביצועים חזקים בבחינות פנימיות וציבוריות, ומדגים פוטנציאל לשיפור משמעותי ביכולות חשיבה של מודלי שפה.
למנהלי עסקים בישראל, ההודעה הזו מצביעה על הצורך להשקיע בכלים מתקדמים לאימון מודלים. האם חברתכם מוכנה לנצל את היתרונות של RL יעיל? קראו את המאמר המלא ב-arXiv כדי להעריך את ההשלכות על פרויקטי האוטומציה שלכם.