אלתיאה: מדידת שכנוע קוגניטיבי במודלי חשיבה מתקדמים
מחקר

אלתיאה: מדידת שכנוע קוגניטיבי במודלי חשיבה מתקדמים

פרויקט חדשני חושף משבר בהערכת AGI ומציע שיטה מבוססת פיזיקה קוגניטיבית להפיכת מטריצת בלבול

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • פרויקט אלתיאה משתמש ברגולריזציה של טיכונוב להפיכת מטריצת בלבול

  • פיילוט על DeepSeek-R1 ו-o1 חושף 'הגזמה הגנתית בחשיבה'

  • מדד S_aligned מבטיח ששכנוע אינו פוגע בבטיחות AI

  • המחקר מרחיב את תופעת CHOKE לחשיבה מסוג 2

אלתיאה: מדידת שכנוע קוגניטיבי במודלי חשיבה מתקדמים

  • פרויקט אלתיאה משתמש ברגולריזציה של טיכונוב להפיכת מטריצת בלבול
  • פיילוט על DeepSeek-R1 ו-o1 חושף 'הגזמה הגנתית בחשיבה'
  • מדד S_aligned מבטיח ששכנוע אינו פוגע בבטיחות AI
  • המחקר מרחיב את תופעת CHOKE לחשיבה מסוג 2
בעידן שבו בינה מלאכותית כללית (AGI) נראית באופק, פרדיגמות ההערכה הנוכחיות סובלות ממשבר אפיסטמולוגי עמוק. בדיקות סטטיות מודדות רוחב ידע, אך נכשלות בכימות עומק האמונה של המודלים. מחקר חדש מרחיב את תופעת ה-CHOK המזוהה עם שאלות תשובה סטנדרטיות לשלב חשיבה מסוג 2, ומציג את פרויקט אלתיאה – מסגרת פיזיקה קוגניטיבית המשתמשת ברגולריזציה של טיכונוב להפיכת מטריצת הבלבול של השופט. השיטה מאפשרת כימות 'שכנוע קוגניטיבי' במודלי חשיבה מתקדמים. המחקר, שפורסם ב-arXiv, מציע פרוטוקול פרוקסי סינתטי לאימות ללא נתונים פרטיים חסויים. במחקר פיילוט ראשוני על מודלים מ-2025 כמו DeepSeek-R1 ו-OpenAI o1, נמצא כי מודלי חשיבה פועלים כ'מגן קוגניטיבי', אך עלולים להפגין 'הגזמה הגנתית בחשיבה' (Defensive OverThinking) תחת לחץ עוין. התוצאות מדגישות את הצורך בכלים מדויקים יותר להערכת אמינות. פרויקט אלתיאה מבוסס על הרחבה של עבודת Simhi et al. (2025), שזיהתה את תופעת CHOKE בשאלות תשובה. כאן, החוקרים מפנים את מטריצת הבלבול באמצעות רגולריזציה מתמטית, ומגדירים מדד שכנוע קוגניטיבי חדש. השיטה נועדה להתמודד עם כשלים בהערכות סטנדרטיות, שמתעלמות מעומק ההרשעה של המודל. משמעות הממצאים גדולה לעולם ה-AI: בעוד מודלים מתקדמים משפרים חשיבה סיבתית, הם חשופים ללחצים שגורמים להתנהגות לא צפויה. בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות רבות ב-AI, כלים כאלה חיוניים לבניית אמון בטכנולוגיה. המחקר מדגיש כי שכנוע קוגניטיבי אינו פוגע בבטיחות. המחקר מציג גם את מדד השכנוע המכוון (S_aligned), המאמת כי רמת ההרשעה אינה פוגעת בשיקולים בטיחותיים. עבודה זו משמשת כתוכנית עבודה למדידת שלמות מדעית של AI. מנהלי עסקים צריכים לשקול אימוץ כלים כאלה בפיתוח מודלים, כדי להבטיח אמינות ארוכת טווח.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
פירוק מובנה להיגיון LLM: שילוב עם רשת סמנטית
מחקר
2 דקות

פירוק מובנה להיגיון LLM: שילוב עם רשת סמנטית

בעידן שבו החלטות משפטיות, רפואיות ומדעיות חייבות להיות ניתנות לביקורת, מחקר חדש מציג פירוק מובנה להיגיון LLM שמשלב גמישות עם ערבויות פורמליות. קראו עכשיו על התוצאות המעולות בשלושה תחומים! (112 מילים)

LLMsSWRLOWL 2
קרא עוד