היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם
מחקר

היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם

מחקר חדש בוחן האם LLMs חושבים כמו בני אדם במשימות סיבתיות מורכבות באמצעות רשתות בייסיאניות רועשות

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • בדיקת 20+ LLMs ו-11 משימות סיבתיות על גרף קוליידר.

  • שימוש בשיטות Direct ו-CoT להערכת הסתברויות.

  • מודל leaky noisy-OR CBN עם פרמטרים θ לבחירת מודל מנצח via AIC.

  • השוואה ישירה לבני אדם חושפת יישור, עקביות וחתימות ייחודיות.

היגיון סיבתי במודלי שפה: השוואה חדשה לבני אדם

  • בדיקת 20+ LLMs ו-11 משימות סיבתיות על גרף קוליידר.
  • שימוש בשיטות Direct ו-CoT להערכת הסתברויות.
  • מודל leaky noisy-OR CBN עם פרמטרים θ לבחירת מודל מנצח via AIC.
  • השוואה ישירה לבני אדם חושפת יישור, עקביות וחתימות ייחודיות.
שאלת טבע הבינה – בבני אדם ובמכונות – מטרידה חוקרים כבר שנים. למרות שאין הגדרה אחידה, היכולת להיגיון סיבתי נחשבת למרכיב מרכזי בבינה (Lake et al., 2017). מחקר חדש, שפורסם ב-arXiv, בודק את היגיון הסיבתי במודלי שפה גדולים (LLMs) ובבני אדם באותן משימות בדיוק, כדי להבין טוב יותר את החוזקות והחולשות שלהם. השאלות המרכזיות: האם LLMs מיושרים עם בני אדם באותן משימות? האם הם עקביים ברמת המשימה? והאם יש להם חתימות היגיון ייחודיות? המחקר בוחן יותר מ-20 מודלי LLMs על 11 משימות סיבתיות בעלות משמעות סמנטית, המבוססות על גרף קוליידר (C1 → E ← C2). המשימות נבדקות בשתי גישות: ישירה (תשובה חד-פעמית כהערכת הסתברות שהצומת שואלת היא 1) ושרשרת מחשבה (CoT – חשיבה קודם, ואז תשובה). לפי המחקר, שיפוטים אלה מודלים באמצעות רשת בייסיאנית סיבתית (CBN) מסוג leaky noisy-OR, עם פרמטרים θ=(b, m1, m2, p(C)) בטווח [0,1], כולל התפלגות קודמת משותפת p(C). מודל המנצח נבחר באמצעות AIC בין וריאנט סימטרי בן 3 פרמטרים (m1=m2) לבין א-סימטרי בן 4 פרמטרים (m1≠m2). גישה זו מאפשרת לפרש את חוזקות הסיבתיות ואת האמונות הדליפות של המודלים. המחקר מדגיש את החשיבות של השוואה ישירה בין LLMs לבני אדם, כדי לבחון אם מכונות מתקרבות ליכולות אנושיות בהיגיון סיבתי – תחום קריטי לפיתוח AI מתקדם. בהקשר עסקי, הבנת היגיון סיבתי ב-LLMs חיונית לחברות ישראליות המפתחות מערכות אוטומציה. אם מודלים כאלה לא מיושרים עם חשיבה אנושית, זה עלול להוביל לשגיאות בקבלת החלטות אוטומטיות. המחקר מציע כלים לניתוח מדויק יותר של תפקוד AI, מה שיכול לשפר אפליקציות כמו ניתוח נתונים סיבתיים או תכנון אסטרטגי. לסיכום, המחקר פותח דלת להערכה מדעית טובה יותר של בינה מכנית. מנהלי טכנולוגיה בישראל צריכים לעקוב אחר התפתחויות כאלה, כדי לשלב AI בצורה אמינה בעסקים. מה תהיה החתימה הסיבתית הייחודית של הדור הבא של LLMs?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד