כל פרומפט חשוב: למידה מחוזקת בקנה מידה מאה מיליארד ל-MoE
מחקר

כל פרומפט חשוב: למידה מחוזקת בקנה מידה מאה מיליארד ל-MoE

חוקרים מציגים את CompassMax-V3-Thinking, מודל תערובת מומחים ענק שמתגבר על בעיות יעילות באימון RL ומשפר ביצועים משמעותיים

AI
אוטומציות AI
3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • CompassMax-V3-Thinking: מודל MoE ענק מאומן ב-RL מתקדם

  • חידושים: סינון פרומפטים חסרי שונות, ESPO לאופטימיזציה יציבה ו-Router Replay

  • מערכת RL יעילה עם FP8 ותזמון חכם

  • ביצועים גבוהים בבחינות, פוטנציאל לשוק ה-AI הישראלי

בעידן שבו מודלי AI ענקיים דורשים משאבים אדירים, חוקרים מפרסמים את CompassMax-V3-Thinking – מודל תערובת מומחים (MoE) בקנה מידה של מאה מיליארד פרמטרים, מאומן במסגרת RL חדשנית. העיקרון המרכזי: כל פרומפט חייב להיות משמעותי. שיטות קודמות סבלו מבזבוז זמן על פרומפטים חסרי שונות, דגימה לא יציבה והפרשי אימון-הסקה. הפתרון החדש מציג חידושים מאוחדים שמאפשרים אימון יציב ויעיל. החידוש הראשון הוא Multi-Stage Zero-Variance Elimination, שמסנן פרומפטים לא אינפורמטיביים ומקטין בזבוז רולאאוטים. זה מייצב אופטימיזציה מבוססת קבוצות כמו GRPO. בנוסף, ESPO – שיטת אופטימיזציה מותאמת אנטרופיה – מאזנת דגימה ברמת טוקנים ורצפים, ומבטיחה דינמיקת למידה יציבה לאורך אופקים ארוכים. שתי החידושים הללו פותרים בעיות מרכזיות בהגדלת קנה המידה של RL. השיפורים נמשכים עם Router Replay, אסטרטגיה שמיישרת החלטות הנתב של MoE באימון עם התנהגות ההסקה, ומתקנת מודל תגמול כדי למנוע היפוך יתרונות. המערכת כוללת גם עיבוד RL בעל תפוקה גבוהה: רולאאאוטים בדיוק FP8, חישוב תגמולים מקבילי ותזמון מותאם אורך. כל אלה יוצרים צינור עבודה כולל שמאפשר אימון יציב למודלים בקנה מידה עצום. בהקשר שוק ה-AI, חידושים אלה רלוונטיים במיוחד לחברות ישראליות המפתחות פתרונות AI. הם מפחיתים עלויות אימון ומשפרים יעילות, מה שמאפשר תחרות מול ענקיות כמו OpenAI או Google. המודל מציג ביצועים חזקים בבחינות פנימיות וציבוריות, ומדגים פוטנציאל לשיפור משמעותי ביכולות חשיבה של מודלי שפה. למנהלי עסקים בישראל, ההודעה הזו מצביעה על הצורך להשקיע בכלים מתקדמים לאימון מודלים. האם חברתכם מוכנה לנצל את היתרונות של RL יעיל? קראו את המאמר המלא ב-arXiv כדי להעריך את ההשלכות על פרויקטי האוטומציה שלכם.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות
מחקר
2 דקות

מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות

ידיים ביוניות מתקדמות נזנחות על ידי חצי מהמשתמשים בגלל קושי בשליטה. חוקרים מאוניברסיטת יוטה פיתחו עוזר AI שמקל על התהליך ומחקה רפלקסים טבעיים. קראו את המאמר המלא כדי להבין את ההשלכות העסקיות.

Jake GeorgeUniversity of Utah
קרא עוד