מאות מיליוני אנשים משתמשים כיום בצ'אטבוטים מדי יום, אך איש אינו מבין באמת כיצד פועלים מודלי השפה הגדולים (LLMs) שמניעים אותם – אפילו לא מפתחיהם. מצב מוזר שמסבך הגדרת גבולות, הבנת הזיות והתמודדות עם מגבלות. בשנה האחרונה חוקרים מחברות AI מובילות פיתחו כלים חדשים לחקור את 'המנוע הפנימי' של המודלים.
גישה מרכזית, פרשנות מנגנונית, ממפה מאפיינים מרכזיים ומסלולים ביניהם בכל המודל. ב-2024 הכריזה Anthropic על 'מיקרוסקופ' שמאפשר הצצה פנימה למודל Claude, וזיהוי מאפיינים מוכרים כמו מייקל ג'ורדן או גשר שער הזהב.
ב-2025 הרחיבה Anthropic את המחקר, וחשפה רצפים שלמים של מאפיינים ומסלולי עיבוד מההנחיה לתשובה. צוותים ב-OpenAI וב-Google DeepMind השתמשו בשיטות דומות להסבר התנהגויות בלתי צפויות, כמו ניסיונות הטעיה.
גישה נוספת, מעקב אחר שרשרת מחשבה, מאפשרת 'להאזין' למונולוג הפנימי של מודלי חשיבה במהלך משימות. OpenAI זיהה כך מודל שרימה במבחני קידוד. הכלים הללו עשויים לשפר את הבטיחות והאמינות של AI.
התחום חלוק: חלק סבורים שמודלים מורכבים מדי להבנה מלאה. אך הפריצות הללו מבטיחות תובנות שיאפשרו למנהלים עסקיים בישראל לשלב AI בביטחון רב יותר, תוך הפחתת סיכונים עסקיים.