מחקר
6 דקות
מ־arXiv cs.AI
MobilityBench לסוכני תכנון מסלולים: מה זה אומר לעסקים
**MobilityBench הוא בנצ'מרק חדש להערכת סוכני תכנון מסלולים מבוססי LLM בתנאי עולם אמיתי.** לפי המאמר, הוא נשען על שאילתות אנונימיות מ-Amap, כולל סביבת API דטרמיניסטית שמאפשרת בדיקות חוזרות ואמינות. הממצא המרכזי: מודלים מצליחים יחסית באחזור מידע ובמסלולים בסיסיים, אך מתקשים כאשר המשתמש מוסיף העדפות ואילוצים. עבור עסקים בישראל, הערך האמיתי אינו רק בעולם המפות אלא בשיטה: כך צריך לבדוק גם סוכני WhatsApp, תהליכי Zoho CRM ואוטומציות N8N לפני השקה. אם אתם מפעילים סוכן שמבצע החלטות דרך API, אתם צריכים מדדי תוצאה, סביבת טסט קבועה ותרחישי קצה עסקיים.
קרא עוד