בעידן שבו מודלים גדולים רב-מודליים לשפה (MLLMs) מצטיינים בהבנת תמונות וביצוע הוראות, הם עדיין נכשלים בחשיבה מרחבית – היכולת לעקוב אחר עצמים בין זוויות שונות ומשתנות בזמן. חוקרים מציגים את גמייבנץ', בנצ'מרק חדשני שמעריך חשיבה מרחבית ותכנון 2D ל-3D דרך משימות קיפול אוריגמי, ומגלה כמה מודלים מתקדמים רחוקים עדיין משליטה מלאה במיומנות אנושית בסיסית זו. הפער הזה עלול להשפיע על יישומים עסקיים כמו רובוטיקה ועיבוד וידאו.
גמייבנץ' כולל 186 תבניות קיפול 2D תקינות ו-186 בלתי אפשריות, לצד צורות 3D מקופלות, שצולמו משש זוויות שונות. הבנצ'מרק בוחן שלוש משימות שאלות-תשובה חזותיות (VQA): חיזוי תצורות קיפול 3D, זיהוי זוויות תקפות והבחנה בין תבניות אפשריות לבלתי אפשריות. בניגוד לבנצ'מרקים קודמים שמתמקדים רק בתוצאה הסופית, גמייבנץ' בודק את כל תהליך החשיבה, כולל עקביות בין זוויות ועמידה בחוקי פיזיקה.
הבנצ'מרק מציג מדדים חדשים כמו עקביות זוויות (VC) ושיעור זיהוי קיפולים בלתי אפשריים (IFSR), שמודדים ביצועים בקיפולים מורכבים שונים. הוא מעריך גם פרשנות של שלבי קיפול ביניים, מה שמאפשר אבחון מדויק של חולשות המודלים. לפי הדיווח, גמייבנץ' מספק מסגרת סטנדרטית להערכת הבנה גיאומטרית וחשיבה מרחבית ב-MLLMs.
גם מודלים מובילים כמו GPT-5 ו-Gemini 2.5 Pro מתקשים בהבנה מרחבית בשלב יחיד, מה שמדגיש את האתגר בתחום. הבנצ'מרק חושף כשלים בעקביות בין זוויות ובזיהוי קיפולים בלתי אפשריים, ומצביע על צורך בשיפורים משמעותיים. עבור עסקים ישראליים בתחום ה-AI, כמו סטארט-אפים ברובוטיקה, זה איתות חשוב לפיתוח יכולות כאלה.
גמייבנץ' זמין כעת ב-GitHub עם קוד ומאגר נתונים, ומזמין חוקרים ומפתחים לבחון את מודליהם. מנהלי טכנולוגיה צריכים לשקול כיצד חולשות בחשיבה מרחבית משפיעות על מוצריהם – האם הגיע הזמן להשקיע בבנצ'מרקים כאלה? המחקר הזה פותח דלת לשיפורי AI משמעותיים בעולם העסקי.