האם דגמי שפה גדולים (LLMs) באמת שולטים בחשיבה מתמטית מורכבת? מחקר חדש שפורסם ב-arXiv בוחן זאת על בעיות מתמטיקה תחרותיות נדירות מתחרות Missouri Collegiate Mathematics Competition. החוקרים בדקו שלושה מודלים מובילים: GPT-4o-mini, Gemini-2.0-Flash ו-DeepSeek-V3, בתחומי חשבון דיפרנציאלי, גיאומטריה אנליטית ומתמטיקה דיסקרטית. התוצאות חושפות פערים משמעותיים, במיוחד בגיאומטריה, ומדגישות את הצורך במבחנים מגוונים יותר.
לפי המחקר, DeepSeek-V3 הצטיין בכל שלושת התחומים – הן בחשיבה והן בתשובות נכונות סופיות. המודל הזה הוכיח יתרון בביצועים על פני המתחרים. לעומת זאת, כל שלושת ה-LLMs הראו ביצועים חלשים במיוחד בגיאומטריה אנליטית. ניתוח התשובות חשף דפוסי שגיאות ספציפיים לכל מודל, מה שמאפשר הבנה מעמיקה יותר של מגבלותיהם.
הרוב של שגיאות DeepSeek-V3 נבעו מטעויות חישוביות ולוגיות. GPT-4o-mini סבל משגיאות לוגיות ובחירת גישה שגויה. Gemini-2.0-Flash נטה להיגיון לא שלם ולמסקנות מהירות מדי. מחקרים קודמים הסתמכו על אותם מאגרי נתונים, מה שהגביל את הכללות. כאן, שימוש בבעיות תחרותיות נדחות מאפשר תובנות חדשות על אתגרים במשימות מתמטיות מגוונות.
הממצאים מדגישים את החשיבות של מבחנים חדשים לבחינת יכולות חשיבה מתמטית של LLMs. בתעשיית ההייטק הישראלית, שבה AI משמש לפיתוח כלים פיננסיים, הנדסיים ומחקריים, הבנת חולשות אלה קריטית. חברות כמו Mobileye או וויקס יכולות להשתמש בתוצאות כדי לשפר אימון מודלים מקומיים. השימוש בבעיות תחרותיות מדגיש את הצורך ברבגוניות נתונים.
לסיכום, הערכה על מאגרי נתונים נדחים חושפת דפוסי שגיאות ייחודיים ומאירה אתגרים מתמשכים בחשיבה מובנית, במיוחד בגיאומטריה. מנהלי עסקים בישראל צריכים לשקול זאת בעת הטמעת LLMs במשימות מדויקות. מה תהיה ההשפעה על פיתוח AI מקומי?