גוגל חושפת מסגרת חדשה: סוכני AI מנהלים תקציבי כלים ביעילות
מחקר

גוגל חושפת מסגרת חדשה: סוכני AI מנהלים תקציבי כלים ביעילות

חוקרים מגוגל ו-U.C. סנטה ברברה פיתחו Budget Tracker ו-BATS – טכניקות שמאפשרות לסוכנים לחסוך עד 40% בשימוש בכלים ולשפר ביצועים

AI
אוטומציות AI
4 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • Budget Tracker מפחית 40% קריאות חיפוש ו-31% עלויות כוללות

  • BATS משיגה 24.6% דיוק ב-BrowseComp לעומת 12.6% ב-ReAct

  • הטכניקות מאפשרות אפליקציות ארגוניות ארוכות טווח כמו ביקורות ציות

  • סקיילינג מודע תקציב הופך סוכני AI לכדאיים כלכלית

בעידן שבו כל קריאת כלי AI עולה כסף וזמן, חוקרים מגוגל ומאוניברסיטת קליפורניה בסנטה ברברה מציגים מסגרת חדשה שמאפשרת לסוכני מודלי שפה גדולים (LLM) לנהל את תקציבי המחשוב והכלים שלהם ביעילות. המחקר, שפורסם לאחרונה, מציג שתי טכניקות מרכזיות: Budget Tracker הפשוט ו-BATS המקיף – Budget Aware Test-time Scaling. הטכניקות הללו הופכות את הסוכנים למודעים לתקציב הנותר שלהם, ומבטיחות שימוש חכם יותר במשאבים. עבור מנהלי ארגונים ישראלים, זהו צעד קריטי להטמעת סוכני AI ללא עלויות בלתי צפויות. האתגר המרכזי בשימוש בכלים בסוכני AI הוא ניהול התקציב. סקיילינג בזמן מבחן מסורתי מתמקד בהארכת חשיבה, אך במשימות כמו גלישה באינטרנט, מספר קריאות הכלים קובע את עומק החקירה. 'קריאות כלים כמו תוצאות גלישה מגדילות צריכת טוקנים, מאריכות את ההקשר ומעלות השהיות ולעלויות API נוספות', אמרו זייפנג וואנג וטנגשיאו לו, שותפים למחקר, ל-VentureBeat. ללא מודעות תקציב, סוכנים מבזבזים משאבים על נתיבים ללא מוצא, כמו חקירת רמז לא רלוונטי במשך 10-20 קריאות. כדי לפתור זאת, החוקרים פיתחו את Budget Tracker – מודול קל משקל הפועל ברמת הפרומפט. הוא מספק לסוכן אות תמידי על זמינות המשאבים, ומאפשר לו להתאים אסטרטגיה ללא אימון נוסף. ביישום של גוגל, המעקב מספק הנחיות מדיניות לתקציבים שונים ומעדכן צריכה בכל שלב. נבדקו פרדיגמות סקיילינג רציף ומקבילי על סוכני חיפוש עם כלי חיפוש וגלישה בסגנון ReAct. התוצאות: Budget Tracker משפר ביצועים בכל תקציב, עם 40.4% פחות קריאות חיפוש, 19.9% פחות גלישה וחיסכון כולל של 31.3% בעלויות, בהשוואה ל-ReAct רגיל. מעבר לכך, BATS – Budget Aware Test-time Scaling – מסגרת מקיפה שמקסימיזית ביצועים בכל תקציב נתון. היא כוללת מודול תכנון שמתאים מאמץ צעד אחר צעד, ומודול אימות שמחליט אם להעמיק או לעבור נתיבים חלופיים. בתהליך, BATS בונה תוכנית פעולה, מוסיף תוצאות כלים להקשר, מאמת תשובות ומסיים ב-LLM ששופט את הטובה ביותר. נבדק על BrowseComp, BrowseComp-ZH ו-HLE-Search עם Gemini 2.5 Pro ו-Claude Sonnet 4. BATS השיגה 24.6% דיוק ב-BrowseComp לעומת 12.6% ב-ReAct, ו-27% ב-HLE-Search לעומת 20.5%. הטכניקות הללו משנות את כללי המשחק בהשוואה למתחרים. בעוד ReAct מגיע לפלטו, Budget Tracker ו-BATS ממשיכים לשפר עם תקציב גדול יותר. בהשוואת עלויות, BATS משיגה דיוק גבוה בעלות של כ-23 סנט, לעומת 50 סנט בשיטות מקביליות. זה רלוונטי במיוחד לישראל, שבה חברות כמו וויקס ומובילאיי משלבות סוכני AI בפיתוח, ומחפשות אופטימיזציה לעלויות ענן גבוהות. למנהלי עסקים, המסגרת פותחת אפליקציות ארוכות טווח כמו תחזוקת קוד מורכבת, בדיקות נאותות, מחקר תחרותי וביקורות ציות. 'זה הופך זרימות עבודה יקרות לכדאיות', אומרים החוקרים. הסוכנים לומדים לאזן דיוק ועלות, מה שיהפוך לדרישה עיצובית קריטית. בעתיד, קשר בין חשיבה לכלכלה יהיה בלתי נפרד. 'מודלים חייבים לחשוב על ערך', אומרים וואנג וליו. מנהלים ישראלים צריכים לשקול אינטגרציה של BATS בפיתוחים הבאים. מה תקציב הכלים שלכם לסוכני AI? האם הגיע הזמן לאמץ ניהול תקציב חכם?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות
מחקר
2 דקות

מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות

ידיים ביוניות מתקדמות נזנחות על ידי חצי מהמשתמשים בגלל קושי בשליטה. חוקרים מאוניברסיטת יוטה פיתחו עוזר AI שמקל על התהליך ומחקה רפלקסים טבעיים. קראו את המאמר המלא כדי להבין את ההשלכות העסקיות.

Jake GeorgeUniversity of Utah
קרא עוד