בעידן שבו מודלי שפה גדולים (LLMs) מציגים יכולות חשיבה דמויות אנוש, כמו חזרה אחורה (backtracking) ואימות חוצה, עדיין קיים אתגר מרכזי: הבחירה האוטונומית שלהם באסטרטגיות אלה עלולה להוביל למסלולים לא יעילים או שגויים. חוקרים מציגים כעת את SAE-Steering, שיטה חדשנית לבקרת אסטרטגיות חשיבה באמצעות אוטואנקודרים מדוללים (SAEs). השיטה מפרקת את מצבי החבויים המורכבים למרחב תכונות מנותק, ומאפשרת שליטה מדויקת ומבוקרת יותר בתהליך החשיבה.
SAE-Steering פועלת בשני שלבים יעילים. בשלב הראשון, היא מזהה תכונות SAE שמגבירות את הלוגיטים של מילות מפתח ספציפיות לאסטרטגיה, ומסננת למעלה מ-99% מהתכונות הלא רלוונטיות. בשלב השני, היא מדרגת את התכונות הנותרות לפי יעילות השליטה שלהן. באמצעות התכונות הספציפיות הללו כווקטורי בקרה, השיטה מצליחה לשפר את הביצועים ביותר מ-15% בהשוואה לשיטות קיימות, לפי הדיווח במאמר.
מודלי חשיבה גדולים (LRMs) מפגינים אסטרטגיות קוגניטיביות אנושיות בתהליך החשיבה שלהם, מה שמשפר את הביצועים במשימות מורכבות. עם זאת, הבחירה העצמאית באסטרטגיות אלה אינה תמיד אופטימלית. SAE-Steering פותרת זאת על ידי פירוק מצבי החבויים המהונטגלים באמצעות SAEs למרחב תכונות מנותק, ומאפשרת זיהוי מדויק של תכונות ספציפיות לאסטרטגיה.
השליטה באסטרטגיות חשיבה מאפשרת למקם מחדש את מודלי ה-LRM ממסלולים שגויים לנכונים, מה שמוביל לשיפור מדויקות של 7% נקודות אחוז. שיטה זו עשויה לשנות את הדרך שבה מפתחים ומשתמשים במודלי AI עסקיים בישראל, שכן היא הופכת את תהליכי החשיבה ליותר אמינים וגמישים. בהשוואה לשיטות קיימות, שמתקשות בשליטה עדינה עקב שזירה קונספטואלית, SAE-Steering מציעה פתרון פרקטי ומבוסס נתונים.
עבור מנהלי עסקים ישראלים בתחום הטכנולוגיה, SAE-Steering פותחת אפשרויות חדשות לאופטימיזציה של כלי AI. השיטה יכולה לשפר יישומים כמו ניתוח נתונים מורכב או קבלת החלטות אוטומטיות. כיצד תשלבו שליטה כזו בכלי ה-AI שלכם?