בעידן מודלי השפה הגדולים שמשנים את עולם העסקים, שתי תופעות מסקרנות מאיימות על הביצועים: למידה בהקשר (ICL) וקריסת מודל. תזה חדשה שפורסמה ב-arXiv חוקרת לעומק את שתי התופעות הללו ומציגה הוכחות מתמטיות מוצקות. המחקר בוחן כיצד למידה בהקשר מובילה למעבר פאזה בפרמטרים של המודל, ומזהיר מפני 'קריסת הקשר' – הידרדרות בביצועים במהלך יצירות ארוכות. עבור מנהלי טכנולוגיה ומפתחי AI בישראל, ההבנה הזו חיונית לפיתוח יישומים יציבים.
החלק הראשון של התזה מתמקד בלמידה בהקשר בטרנספורמר ליניארי עם משקלים קשורים, שאומן על משימות רגרסיה ליניארית. החוקרים מראים כי מזעור הפונקציית אובדן בהקשר מוביל למעבר פאזה בפרמטרים הנלמדים. מעל אורך הקשר קריטי, הפתרון מפתח רכיב נגטיבי-סימטרי (skew-symmetric). הם מוכיחים זאת על ידי הפחתת המעבר קדימה של הטרנספורמר הליניארי תחת קשירת משקלים לירידת גרדיאנט מוקדמת (preconditioned gradient descent), ואז מנתחים את המוקדם האופטימלי. מוקדם זה כולל רכיב נגטיבי-סימטרי שגורם לסיבוב בכיוון הגרדיאנט.
בחלק השני, התזה בוחנת קריסת מודל באמצעות תורת מרטינגל וטיול אקראי בהגדרות מפושטות – רגרסיה ליניארית והתאמה גאוסיאנית – תחת משטרי נתונים מחליפים ומצטברים. המחקר מחזק תוצאות קיימות בכך שהוא מוכיח התכנסות כמעט בוודאות, ומראה כי קריסה מתרחשת אלא אם כן הנתונים גדלים בקצב מהיר מספיק או נשמרים לאורך זמן. זה מדגיש את החשיבות של ניהול נתונים איכותיים באימון מודלים.
המשמעות העסקית של הממצאים אדירה: במודלים גנרטיביים, בעיות כמו קריסת מודל עלולות לפגוע בדיוק וביציבות, במיוחד ביישומים ארוכי טווח כמו שרשראות מחשבה (chain-of-thought). בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות ב-AI, הבנת המנגנונים הללו יכולה למנוע כשלים יקרים. המחקר מדגיש את הצורך באסטרטגיות אימון מתקדמות שמתמודדות עם אורכי הקשר הגדלים.
התזה מציגה את 'קריסת הקשר' כמושג חדשני: הידרדרות ההקשר במהלך יצירות ארוכות, במיוחד בשיטות שרשראות מחשבה. זה מקשר בין הדינמיקה של למידה בהקשר לבין אתגרי יציבות ארוכי טווח. עבור עסקים, המסר ברור: יש לבחון מחדש פרוטוקולי אימון כדי להבטיח ביצועים עקביים. מה תעשו כדי למנוע קריסה במודלים שלכם?