בעולם שבו תחזיות מדויקות יכולות להיות מפתח להצלחה עסקית, מחקר חדש ב-arXiv בוחן האם דיון מובנה בין מודלי שפה גדולים (LLM) יכול לשפר את דיוק התחזיות שלהם, בדומה לבני אדם. החוקרים בדקו דגמים מתקדמים כמו GPT-5, Claude Sonnet 4.5 ו-Gemini Pro 2.5 על 202 שאלות בינאריות פתורות מטורניר התחזיות AI של Metaculus ברבעון השני של 2025. התוצאות מראות שיפור משמעותי בסצנה שבה דגמים מגוונים מקבלים מידע משותף ומבצעים דיון מובנה זה את זה.
המחקר בחן ארבעה תרחישים: (1) דגמים מגוונים עם מידע מפוזר, (2) דגמים מגוונים עם מידע משותף, (3) דגמים זהים עם מידע מפוזר, ו-(4) דגמים זהים עם מידע משותף. בסצנה 2, ההתערבות – שבה הדגמים סוקרים את תחזיות זה של זה לפני עדכון – הפחיתה את Log Loss ב-0.020, שזה כ-4% שיפור יחסי (p=0.017). החוקרים מדווחים כי השיפור סטטיסטי משמעותי ומצביע על פוטנציאל אמיתי.
לעומת זאת, כאשר השתמשו בקבוצות הומוגניות – שלושה עותקים של אותו דגם – לא נצפה שיפור כלשהו. בנוסף, הפתעה: מתן מידע הקשרי נוסף לא שיפר את הדיוק, מה שהגביל את היכולת לבדוק מנגנון של אגירת מידע. המחקר מסתמך על שאלות אמיתיות פתורות, מה שמבטיח תוקף גבוה.
למה זה חשוב לעסקים ישראליים? בתחום ה-AI, תחזיות מדויקות חיוניות להחלטות אסטרטגיות, כמו השקעות או פיתוח מוצרים. דיון מובנה יכול לשמש כלי לשיפור מערכות תחזית מבוססות LLM, במיוחד כשמשלבים דגמים שונים. בהשוואה למתחרים כמו NVidia או Google, זה פותח אפשרויות חדשות לשילובים היברידיים.
המסקנה: דיון מובנה הוא אסטרטגיה ישימה לשיפור תחזיות LLM, בעיקר עם דגמים מגוונים ומידע משותף. מנהלי טכנולוגיה צריכים לשקול יישום זה בפיתוחים עתידיים. השאלה נותרת: האם נראה יישומים כאלה במערכות מסחריות בקרוב?