בעידן שבו סוכני LLM משולבים בכלים רבים כמו APIs ומסמכים, קבלת ההחלטות הופכת למאתגרת במיוחד. מרחב הפעולות כולל מיליוני אפשרויות, אך רק חלק זעיר רלוונטי לכל משימה. מחקר חדש מ-arXiv מגדיר את הבעיה כ'בקרה סוכנית מדוללת' (SAC), שבה מדיניות הפעולה מדוללת בלוקים על פני M >> 1 פעולות, והתגמולים תלויים באפקטים ראשיים מדוללים ובשיתופי פעולה אופציונליים. התוצאות מראות כיצד ניתן להשיג יציבות פולינומיאלית בזמן למידה.
המחקר מציג למידת מדיניות מוסדרת ב-l_{1,2} דרך תחליף קעור ומבסס תוצאות חדות בסגנון compressed sensing. ראשית, שגיאת ההערכה ושגיאת הערך תלויות בגודל k (log M / T)^{1/2} תחת תנאי Policy-RSC. שנית, התאוששות מדויקת של תמיכת הכלים מתרחשת דרך טיעוני primal-dual כש-T > k log M, תחת תנאי incoherence ו-beta-min. שלישית, כל מחלקת מדיניות צפופה דורשת Ω(M) דגימות, מה שמסביר את חוסר היציבות של בקרי prompt בלבד.
תחת תצפית חלקית, LLM משפיעים רק דרך שגיאת אמונה/ייצוג ε_b, שגורמת להידרדרות O(ε_b) נוספת תוך שמירה על תלות לוגריתמית ב-M. ההרחבות כוללות SAC ללא כוונון, מקוון, עמיד, קבוצתי-מדולל ומודע לאינטראקציות. תוצאות אלה מדגישות את הצורך במדללות כדי להתמודד עם מרחבי פעולות גדולים במערכות סוכניות.
בהקשר עסקי ישראלי, סוכני LLM כאלה רלוונטיים לחברות כמו Mobileye או Wix שמשלבות AI בכלים מורכבים. ללא מדללות, הלמידה הופכת בלתי מעשית, מה שמאיים על יישומים אוטומטיים בקנה מידה גדול. המחקר מצביע על דרך לפתרון בעיות יציבות במודלים גדולים.
מה זה אומר למנהלי טכנולוגיה? יש להתמקד בשיטות מדוללות כדי להאיץ פיתוח סוכנים יעילים. כדאי לבדוק כיצד ליישם SAC בפרויקטים קיימים – האם זה ישנה את כללי המשחק בסוכנויות AI?