בעידן שבו דגמי ראייה-שפה (VLMs) מציגים יכולות חשיבה מתקדמות, ביצועיהם בחשיבה מתמטית רב-לשונית נותרים מאתגרים, במיוחד בהשוואה לבני אדם. כדי לגשר על הפער, חוקרים מציגים את M3Kang – מערך הנתונים הראשון מסוגו, רב-לשוני ורב-מודלי לחשיבה מתמטית ב-VLMs. המערך מבוסס על תחרות הקנגורו במתמטיקה, התחרות הגדולה בעולם עם למעלה מ-6 מיליון משתתפים מתחת לגיל 18 ביותר מ-90 מדינות מדי שנה.
M3Kang כולל 1,747 בעיות בחירה מרובת אפשרויות ייחודיות, מסודרות לפי רמות קושי של כיתות לימוד, עם תרגומים ל-108 שפות מגוונות תרבותית. חלק מהבעיות כוללות תרשימים חיוניים לפתרון. החוקרים ביצעו בדיקות מקיפות על דגמים סגורים ופתוחים מתקדמים, ומצאו כי למרות התקדמות, הדגמים מתקשים בבעיות מתמטיקה בסיסיות ובחשיבה מבוססת תרשימים.
ביצועי הדגמים תלויים בנוכחות השפה ובגודל הדגם, אך לא ברמת הקושי של הכיתה. טכניקות רב-לשוניות ניתן להרחיב בהצלחה לסביבה רב-מודלית, מה שמוביל לשיפורים משמעותיים על פני גישות בסיסיות. הניתוח כולל נתוני ביצועים מ-68,000 תלמידים ומאפשר השוואה ישירה לביצועי בני אדם.
מערך M3Kang מדגיש את הצורך בשיפור יכולות VLMs בשפות נדירות ובשילוב מידע חזותי עם מתמטי. בהשוואה לתחרויות מתמטיות אחרות, הוא ייחודי בהיקפו הרב-לשוני והרב-לאומי, מה שמאפשר בדיקה גלובלית אמיתית. עבור חברות ישראליות המפתחות AI, זהו כלי חיוני לבחון התאמה לשוק הבינלאומי.
המערך זמין כקוד פתוח, כולל גרסת M2Kang באנגלית בלבד, לצד המסגרת והקוד לבנייתו. מנהלי טכנולוגיה צריכים לשקול שילובו באימון דגמים כדי להתמודד עם אתגרי רב-לשוניות. מה תהיה ההשפעה על דגמי AI הבאים?