מחקר
2 דקות
מ־arXiv cs.AI
AgencyBench: בנצ'מרק חדש לסוכנים אוטונומיים בעולמות אמיתיים
האם סוכנים אוטונומיים מבוססי LLMs מוכנים לעולם האמיתי? AgencyBench בודק זאת ב-138 משימות מורכבות. מודלים סגורים מנצחים (48.4%) על פתוחים (32.1%). קראו עכשיו לפרטים מלאים.
קרא עוד