M3Kang: בדיקת חשיבה מתמטית רב-לשונית בדגמי AI
מחקר

M3Kang: בדיקת חשיבה מתמטית רב-לשונית בדגמי AI

מערך נתונים חדשני עם 1,747 בעיות מתחרות הקנגורו, מתורגם ל-108 שפות – חושף חולשות של VLMs

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • M3Kang מבוסס על תחרות קנגורו עם 6 מיליון משתתפים ו-1,747 בעיות ב-108 שפות.

  • דגמי AI מתקשים במתמטיקה בסיסית ובתרשימים, תלוי בשפה ובגודל.

  • שיפורים משמעותיים עם טכניקות רב-לשוניות רב-מודליות.

  • השוואה ל-68,000 תלמידים; זמין כקוד פתוח.

M3Kang: בדיקת חשיבה מתמטית רב-לשונית בדגמי AI

  • M3Kang מבוסס על תחרות קנגורו עם 6 מיליון משתתפים ו-1,747 בעיות ב-108 שפות.
  • דגמי AI מתקשים במתמטיקה בסיסית ובתרשימים, תלוי בשפה ובגודל.
  • שיפורים משמעותיים עם טכניקות רב-לשוניות רב-מודליות.
  • השוואה ל-68,000 תלמידים; זמין כקוד פתוח.
בעידן שבו דגמי ראייה-שפה (VLMs) מציגים יכולות חשיבה מתקדמות, ביצועיהם בחשיבה מתמטית רב-לשונית נותרים מאתגרים, במיוחד בהשוואה לבני אדם. כדי לגשר על הפער, חוקרים מציגים את M3Kang – מערך הנתונים הראשון מסוגו, רב-לשוני ורב-מודלי לחשיבה מתמטית ב-VLMs. המערך מבוסס על תחרות הקנגורו במתמטיקה, התחרות הגדולה בעולם עם למעלה מ-6 מיליון משתתפים מתחת לגיל 18 ביותר מ-90 מדינות מדי שנה. M3Kang כולל 1,747 בעיות בחירה מרובת אפשרויות ייחודיות, מסודרות לפי רמות קושי של כיתות לימוד, עם תרגומים ל-108 שפות מגוונות תרבותית. חלק מהבעיות כוללות תרשימים חיוניים לפתרון. החוקרים ביצעו בדיקות מקיפות על דגמים סגורים ופתוחים מתקדמים, ומצאו כי למרות התקדמות, הדגמים מתקשים בבעיות מתמטיקה בסיסיות ובחשיבה מבוססת תרשימים. ביצועי הדגמים תלויים בנוכחות השפה ובגודל הדגם, אך לא ברמת הקושי של הכיתה. טכניקות רב-לשוניות ניתן להרחיב בהצלחה לסביבה רב-מודלית, מה שמוביל לשיפורים משמעותיים על פני גישות בסיסיות. הניתוח כולל נתוני ביצועים מ-68,000 תלמידים ומאפשר השוואה ישירה לביצועי בני אדם. מערך M3Kang מדגיש את הצורך בשיפור יכולות VLMs בשפות נדירות ובשילוב מידע חזותי עם מתמטי. בהשוואה לתחרויות מתמטיות אחרות, הוא ייחודי בהיקפו הרב-לשוני והרב-לאומי, מה שמאפשר בדיקה גלובלית אמיתית. עבור חברות ישראליות המפתחות AI, זהו כלי חיוני לבחון התאמה לשוק הבינלאומי. המערך זמין כקוד פתוח, כולל גרסת M2Kang באנגלית בלבד, לצד המסגרת והקוד לבנייתו. מנהלי טכנולוגיה צריכים לשקול שילובו באימון דגמים כדי להתמודד עם אתגרי רב-לשוניות. מה תהיה ההשפעה על דגמי AI הבאים?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד