האם סוכנים אוטונומיים מבוססי מודלי שפה גדולים (LLMs) מוכנים לכבוש את עולם העסקים האמיתי? בנצ'מרק AgencyBench, שפותח על ידי חוקרים מ-GAIR-NLP, בודק זאת ב-32 תרחישים יומיומיים של שימוש ב-AI, הכוללים 138 משימות עם שאילתות, תוצרים וקריטריונים מדויקים. כל משימה דורשת בממוצע 90 קריאות לכלים, מיליון טוקנים ושעות ביצוע – אתגר אמיתי שמדמה תרחישים ארוכי טווח.
AgencyBench בוחן 6 יכולות סוכניות מרכזיות, החל מתכנון ועד ביצוע ובקרה עצמית. בניגוד לבנצ'מרקים קיימים שמתמקדים ביכולת אחת בלבד, הבנצ'מרק הזה משלב הערכה אוטומטית באמצעות סוכן סימולציית משתמש שמספק משוב איטרטיבי, וסביבת Docker מבודדת לבדיקת קריטריונים ויזואליים ופונקציונליים. זה מאפשר איסוף נתונים בקנה מידה גדול ללא תלות במשוב אנושי.
בניסויים, מודלים סגורים כמו Claude-4.5-Opus השיגו 48.4% הצלחה, בעוד מודלים פתוחים נותרו על 32.1%. ההבדלים בולטים ביעילות משאבים, תיקון עצמי בעקבות משוב והעדפות בשימוש בכלים. מודלים סגורים מצטיינים בסביבות הילידיות שלהם, כמו Claude-Agent-SDK, בעוד מודלים פתוחים מראים פוטנציאל אופטימיזציה במסגרות ביצוע ספציפיות.
הבנצ'מרק חושף את הצורך באופטימיזציה משותפת של ארכיטקטורת המודל ומסגרות הסוכנים. עבור מנהלי עסקים ישראלים, זה אומר שיש לבחון סוכנים לא רק על יכולות בודדות, אלא על ביצועים בתרחישים מורכבים. בישראל, שבה חברות כמו Mobileye ו-Wix משלבות AI, AgencyBench יכול לשמש כלי לבחירת פתרונות אוטומציה מתאימים.
AgencyBench זמין כעת בגיטהאב, כולל כלי ההערכה המלאים. זהו צעד קריטי לקראת דור הבא של סוכנים אוטונומיים – מה תהיה ההשפעה על אסטרטגיות ה-AI שלכם?