בעידן שבו כל קריאת כלי AI עולה כסף וזמן, חוקרים מגוגל ומאוניברסיטת קליפורניה בסנטה ברברה מציגים מסגרת חדשה שמאפשרת לסוכני מודלי שפה גדולים (LLM) לנהל את תקציבי המחשוב והכלים שלהם ביעילות. המחקר, שפורסם לאחרונה, מציג שתי טכניקות מרכזיות: Budget Tracker הפשוט ו-BATS המקיף – Budget Aware Test-time Scaling. הטכניקות הללו הופכות את הסוכנים למודעים לתקציב הנותר שלהם, ומבטיחות שימוש חכם יותר במשאבים. עבור מנהלי ארגונים ישראלים, זהו צעד קריטי להטמעת סוכני AI ללא עלויות בלתי צפויות.
האתגר המרכזי בשימוש בכלים בסוכני AI הוא ניהול התקציב. סקיילינג בזמן מבחן מסורתי מתמקד בהארכת חשיבה, אך במשימות כמו גלישה באינטרנט, מספר קריאות הכלים קובע את עומק החקירה. 'קריאות כלים כמו תוצאות גלישה מגדילות צריכת טוקנים, מאריכות את ההקשר ומעלות השהיות ולעלויות API נוספות', אמרו זייפנג וואנג וטנגשיאו לו, שותפים למחקר, ל-VentureBeat. ללא מודעות תקציב, סוכנים מבזבזים משאבים על נתיבים ללא מוצא, כמו חקירת רמז לא רלוונטי במשך 10-20 קריאות.
כדי לפתור זאת, החוקרים פיתחו את Budget Tracker – מודול קל משקל הפועל ברמת הפרומפט. הוא מספק לסוכן אות תמידי על זמינות המשאבים, ומאפשר לו להתאים אסטרטגיה ללא אימון נוסף. ביישום של גוגל, המעקב מספק הנחיות מדיניות לתקציבים שונים ומעדכן צריכה בכל שלב. נבדקו פרדיגמות סקיילינג רציף ומקבילי על סוכני חיפוש עם כלי חיפוש וגלישה בסגנון ReAct. התוצאות: Budget Tracker משפר ביצועים בכל תקציב, עם 40.4% פחות קריאות חיפוש, 19.9% פחות גלישה וחיסכון כולל של 31.3% בעלויות, בהשוואה ל-ReAct רגיל.
מעבר לכך, BATS – Budget Aware Test-time Scaling – מסגרת מקיפה שמקסימיזית ביצועים בכל תקציב נתון. היא כוללת מודול תכנון שמתאים מאמץ צעד אחר צעד, ומודול אימות שמחליט אם להעמיק או לעבור נתיבים חלופיים. בתהליך, BATS בונה תוכנית פעולה, מוסיף תוצאות כלים להקשר, מאמת תשובות ומסיים ב-LLM ששופט את הטובה ביותר. נבדק על BrowseComp, BrowseComp-ZH ו-HLE-Search עם Gemini 2.5 Pro ו-Claude Sonnet 4. BATS השיגה 24.6% דיוק ב-BrowseComp לעומת 12.6% ב-ReAct, ו-27% ב-HLE-Search לעומת 20.5%.
הטכניקות הללו משנות את כללי המשחק בהשוואה למתחרים. בעוד ReAct מגיע לפלטו, Budget Tracker ו-BATS ממשיכים לשפר עם תקציב גדול יותר. בהשוואת עלויות, BATS משיגה דיוק גבוה בעלות של כ-23 סנט, לעומת 50 סנט בשיטות מקביליות. זה רלוונטי במיוחד לישראל, שבה חברות כמו וויקס ומובילאיי משלבות סוכני AI בפיתוח, ומחפשות אופטימיזציה לעלויות ענן גבוהות.
למנהלי עסקים, המסגרת פותחת אפליקציות ארוכות טווח כמו תחזוקת קוד מורכבת, בדיקות נאותות, מחקר תחרותי וביקורות ציות. 'זה הופך זרימות עבודה יקרות לכדאיות', אומרים החוקרים. הסוכנים לומדים לאזן דיוק ועלות, מה שיהפוך לדרישה עיצובית קריטית.
בעתיד, קשר בין חשיבה לכלכלה יהיה בלתי נפרד. 'מודלים חייבים לחשוב על ערך', אומרים וואנג וליו. מנהלים ישראלים צריכים לשקול אינטגרציה של BATS בפיתוחים הבאים.
מה תקציב הכלים שלכם לסוכני AI? האם הגיע הזמן לאמץ ניהול תקציב חכם?