בעידן שבו דגמי שפה גדולים רב-מודליים (MLLMs) משמשים למשימות היגיון מורכבות, הם סובלים מחולשות כמו מודלינג סמנטי מוגבל של רציונלות מרובות, עמידות לוגית חלשה ורגישות לפרשנויות מטעות. מחקר חדש ב-arXiv מציג את מסגרת MIND – Multi-rationale INtegrated Discriminative – שמעניקה ל-MLLMs יכולות קוגניטיביות דמויות אדם: 'הבן → חשוב → תקן'. זו מהפכה ממשית מהיגיון מבוסס חיקוי פסיבי להיגיון אפליקטיבי אקטיבי, שמבטיחה שיפור משמעותי במשימות מדעיות, שכל יומיומי ומתמטיות.
המסגרת מבוססת על פרדיגמת RAD (Rationale Augmentation and Discrimination), שמרחיבה אוטומטית מערכי נתונים קיימים על ידי יצירת רציונלות מגוונות. זה מספק בסיס נתונים מאוחד וניתן להרחבה. בנוסף, אסטרטגיית הלמידה P2CL (Progressive Two-stage Correction Learning) מחולקת לשני שלבים: השלב הראשון מחזק למידה חיובית מרובת-רציונלות, והשלב השני מאפשר אפליקציה לוגית אקטיבית ותיקון שגיאות. כך, MIND מאמנת את הדגמים לזהות ולתקן טעויות בזמן אמת.
כדי להתמודד עם בעיית השזירה בסמנטיקה מרובת-רציונלות, המחקר מציע אופטימיזציה MCA (Multi-rationale Contrastive Alignment). שיטה זו מאגדת סמנטית את ההיגיון הנכון ומפרידה גבולות חדים בין היגיון שגוי. התוצאה: ייצוגים מדויקים יותר שמונעים בלבול ומשפרים את העמידות הלוגית. ניסויים מקיפים מראים כי MIND משיגה ביצועים ברמת SOTA במספר מערכי נתונים ציבוריים.
המשמעות של MIND גדולה במיוחד בתחום ה-AI המתקדם. בעוד דגמי MLLMs קיימים נופלים במשימות מורכבות, הגישה החדשה מספקת פרספקטיבה חדשה לקידום אינטליגנציה קוגניטיבית גבוהה יותר. לפי הדיווח, הקוד זמין בגיטהאב, מה שמאפשר למפתחים ישראליים לבדוק ולשלב אותו במהירות בפרויקטים מקומיים.
לסיכום, MIND פותחת דלת לשיפור דרמטי ביכולות ההיגיון של AI רב-מודלי. עסקים ומפתחים המעוניינים בפתרונות AI עמידים יותר צריכים לשקול אימוץ גישות כאלה. האם זו ההתחלה של דור חדש של MLLMs?