תוכן זהה, תשובות שונות: אי-עקביות בין-מודלית ב-MLLMs
מחקר

תוכן זהה, תשובות שונות: אי-עקביות בין-מודלית ב-MLLMs

חוקרים חושפים בעיות חמורות במודלי שפה רב-מודליים: אותו מידע בטקסט ובתמונה מניב תוצאות סותרות

AI
אוטומציות AI
3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • הוצגו בנצ'מרקים REST ו-REST+ לבדיקת אי-עקביות בין-מודלית ב-MLLMs

  • 15 מודלים נבדקו ומצאו השפעה של מאפיינים ויזואליים על הביצועים

  • המרות בין מודליות אינן פותרות את הבעיה

  • ציון עקביות קשור לפער בין טקסט לתמונה

  • השלכות לעסקים: צורך בבדיקות מחמירות יותר

בעידן שבו מודלי שפה גדולים רב-מודליים (MLLMs) מבטיחים עיבוד חלק של טקסט ותמונות, מתברר כי הם נכשלים במשימה בסיסית: עיבוד אותו תוכן בשתי המודליות. חוקרים מפרסמים שני בנצ'מרקים חדשים, REST ו-REST+, שחושפים אי-עקביות בין-מודלית חמורה. הבנצ'מרקים כוללים דוגמאות עם אותה מידע סמנטי בשלוש מודליות: תמונה, טקסט ומעורב, ומדגימים כיצד MLLMs מתקשים לייצר תשובות עקביות. זה מעלה שאלות קשות על היכולת האמיתית של המודלים הללו לייצג ויזואליה ושפה באותו מרחב משותף. הבנצ'מרקים החדשים בודקים 15 MLLMs מובילים ומגלים כי רמת אי-העקביות משתנה באופן משמעותי, גם לאחר התחשבות בבעיות זיהוי טקסט (OCR). המחקר מראה כי גם אם OCR מדויק, מאפיינים ויזואליים כמו צבע הטקסט ורזולוציה משפיעים על הביצועים, בעוד סוג הגופן אינו. מספר הטוקנים הוויזואליים גם הוא גורם מכריע. ניסיונות להמרת טקסט לתמונה או להיפך אינם פותרים את הבעיה, מה שמצביע על פער יסודי במודלים. אי-העקביות הזו אינה מקרית: היא קשורה לפער המודליות בין טקסט לתמונות, כפי שמוכח בקורלציה בין ציון העקביות לפער זה. הבנצ'מרקים REST+ מוסיפים מבחני לחץ של שוויון רינדור, כדי לבחון אם שינויים קלים בהצגה משנים את התוצאות. התוצאות מצביעות על כך ש-MLLMs אינם מצליחים לבצע משימות זהות בשתי המודליות, למרות האימון המשותף. לעסקים ישראליים בתחום הבינה המלאכותית, הממצאים הללו חשובים במיוחד. חברות כמו Mobileye או סטארט-אפים בתל אביב מסתמכות על MLLMs לפיתוח מערכות רב-מודליות, כגון ניתוח מסמכים ויזואליים. אי-עקביות עלולה להוביל לשגיאות יקרות ביישומים עסקיים, ולכן יש צורך בבדיקות נוספות לפני הטמעה. המחקר מדגיש את הצורך בשיפורי ארכיטקטורה בסיסיים. המסקנה: בעוד MLLMs מתקדמים, אי-העקביות הבין-מודלית נותרת אתגר מרכזי. מנהלי טכנולוגיה צריכים להעריך מודלים באמצעות בנצ'מרקים כמו REST, ולשקול השקעות בפיתוחים מקומיים. האם נראה שיפור מהיר? זו שאלה שכל מפתח AI בישראל צריך לשאול.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
מסגרת Urania: פרטיות דיפרנציאלית לתובנות מצ'אטבוטי AI
מחקר
4 דקות

מסגרת Urania: פרטיות דיפרנציאלית לתובנות מצ'אטבוטי AI

גוגל ריסרץ' מציגה את Urania: מסגרת פרטיות דיפרנציאלית חדשה לניתוח שימושים בצ'אטבוטי AI מבלי לחשוף שיחות פרטיות. קראו כיצד היא משלבת קיבוץ DP וחילוץ מילות מפתח לתובנות מדויקות ומאובטחות.

Google ResearchUraniaAlexander Knop
קרא עוד