בעידן שבו מודלי שפה גדולים רב-מודליים (MLLMs) מבטיחים עיבוד חלק של טקסט ותמונות, מתברר כי הם נכשלים במשימה בסיסית: עיבוד אותו תוכן בשתי המודליות. חוקרים מפרסמים שני בנצ'מרקים חדשים, REST ו-REST+, שחושפים אי-עקביות בין-מודלית חמורה. הבנצ'מרקים כוללים דוגמאות עם אותה מידע סמנטי בשלוש מודליות: תמונה, טקסט ומעורב, ומדגימים כיצד MLLMs מתקשים לייצר תשובות עקביות. זה מעלה שאלות קשות על היכולת האמיתית של המודלים הללו לייצג ויזואליה ושפה באותו מרחב משותף.
הבנצ'מרקים החדשים בודקים 15 MLLMs מובילים ומגלים כי רמת אי-העקביות משתנה באופן משמעותי, גם לאחר התחשבות בבעיות זיהוי טקסט (OCR). המחקר מראה כי גם אם OCR מדויק, מאפיינים ויזואליים כמו צבע הטקסט ורזולוציה משפיעים על הביצועים, בעוד סוג הגופן אינו. מספר הטוקנים הוויזואליים גם הוא גורם מכריע. ניסיונות להמרת טקסט לתמונה או להיפך אינם פותרים את הבעיה, מה שמצביע על פער יסודי במודלים.
אי-העקביות הזו אינה מקרית: היא קשורה לפער המודליות בין טקסט לתמונות, כפי שמוכח בקורלציה בין ציון העקביות לפער זה. הבנצ'מרקים REST+ מוסיפים מבחני לחץ של שוויון רינדור, כדי לבחון אם שינויים קלים בהצגה משנים את התוצאות. התוצאות מצביעות על כך ש-MLLMs אינם מצליחים לבצע משימות זהות בשתי המודליות, למרות האימון המשותף.
לעסקים ישראליים בתחום הבינה המלאכותית, הממצאים הללו חשובים במיוחד. חברות כמו Mobileye או סטארט-אפים בתל אביב מסתמכות על MLLMs לפיתוח מערכות רב-מודליות, כגון ניתוח מסמכים ויזואליים. אי-עקביות עלולה להוביל לשגיאות יקרות ביישומים עסקיים, ולכן יש צורך בבדיקות נוספות לפני הטמעה. המחקר מדגיש את הצורך בשיפורי ארכיטקטורה בסיסיים.
המסקנה: בעוד MLLMs מתקדמים, אי-העקביות הבין-מודלית נותרת אתגר מרכזי. מנהלי טכנולוגיה צריכים להעריך מודלים באמצעות בנצ'מרקים כמו REST, ולשקול השקעות בפיתוחים מקומיים. האם נראה שיפור מהיר? זו שאלה שכל מפתח AI בישראל צריך לשאול.