בעידן שבו בינה מלאכותית צריכה לפתור בעיות מתמטיות מורכבות מכל מקור, מודלים ויזואליים-לשוניים (VLMs) מפגרים משמעותית אחרי מודלי טקסט בלבד כשהשאלות מוצגות כתמונות. זהו 'פער מודליות' שנובע מקשיים בקריאת נוסחאות צפופות, פריסת דף ומקטעים סמליים-דיאגרמטיים מעורבים. מחקר חדש מציג את VisTIRA – סוכן היגיון משולב כלים שמפרק בעיה מתמטית כתמונה לשלבים: הסברים בשפה טבעית וקוד פייתון לביצוע, כדי להגיע לתשובה מדויקת.
VisTIRA מאפשר פתרון מובנה על ידי איטרציה: המודל מפרק את התמונה לרציונל טקסטואלי ומפעיל צעדים חישוביים. החוקרים בנו גם מתודולוגיה למדידה ושיפור: צינור LaTeX שממיר קורפוסי שרשרת-מחשבה מתמטיים כמו NuminaMath לתמונות מאתגרות, ומסלולי כלים סינתטיים ממאגר SnapAsk – נתוני שיעורי בית אמיתיים כתמונות – לכיול מודלים.
בניסויים, פיקוח משולב כלים שיפר את ההיגיון על תמונות, וקרקוע OCR צמצם את הפער במודלים קטנים יותר, אם כי היתרון פוחת בקנה מידה גדול. הפער קיים בעוצמה הפוכה לגודל המודל: מודלים גדולים סובלים פחות, אך עדיין זקוקים לשיפור.
המשמעות לעסקים ישראליים בתחום הבינה המלאכותית עצומה: כלים כמו VisTIRA יכולים לשפר אפליקציות OCR ומערכות למידה אוטומטיות במסמכים טכניים, כגון דוחות פיננסיים או תוכניות הנדסיות. בהשוואה לפתרונות קיימים, השילוב של היגיון מובנה ו-OCR מציע גישה משלימה שמגדילה דיוק בלי להסתמך רק על גודל מודל.
למנהלי טכנולוגיה, VisTIRA מדגים כיצד אינטגרציה של כלים חיצוניים כמו פייתון יכולה לסגור פערים מודליים. השאלה היא: האם זה יאיץ פיתוח סוכנים AI שמטפלים במסמכים ויזואליים בעולם האמיתי? קראו את המחקר המלא ב-arXiv כדי לבחון יישומים.