בעידן שבו סוכני AI ל-GUI במובייל מבטיחים לשנות את אופן האינטראקציה שלנו עם אפליקציות, הבעיה המרכזית היא בבדיקתם. הבנצ'מרקים הנוכחיים סובלים משתי מגבלות יסודיות: בנצ'מרקים offline חד-נתיביים מענישים פעולות חלופיות תקפות, ואילו בנצ'מרקים online חיים אינם מדרגיים ולא ניתנים לשחזור בגלל אופיים הדינמי. בנוסף, הם מתייחסים לסוכנים כקופסה שחורה אחת, ומתעלמים מתרומת המודולים הפרטיים. MobiBench, מסגרת הבנצ'מרק החדשה, פותרת זאת.
MobiBench היא הראשונה מסוגה – מודולרית ומודעת לנתיבים מרובים – ומאפשרת בדיקה offline מלאה, מדויקת ומדרגית. היא משיגה הסכמה של 94.72% עם מעריכים אנושיים, ברמה של בנצ'מרקים online מתוכננים בקפידה, תוך שמירה על יתרונות ה-offline: מדרגיות ושחזור. המחקר מציג ניתוח מודולרי מקיף שחושף תובנות מרכזיות על טכניקות שונות בשימוש בסוכני GUI במובייל.
בניסויים, MobiBench בודקת תצורות אופטימליות של מודולים בקני מידה שונים של מודלים, חושפת מגבלות יסודיות של LFMs (מודלים גדולים יסודיים), ומספקת הנחיות מעשיות לעיצוב סוכנים יעילים וזולים יותר. זה מאפשר השוואות הוגנות בין סוכנים ומזהה צווארי בקבוק ביצועים ספציפיים, מה שמקל על פיתוח מתקדם יותר.
לעומת בנצ'מרקים קיימים, MobiBench מציעה גישה מאוזנת שמתאימה לעולם האמיתי של אפליקציות מובייל דינמיות. בישראל, שבה חברות כמו Mobileye ו-Wix משקיעות רבות ב-AI למובייל, כלי כזה יכול להאיץ חדשנות ולהפחית סיכונים בפיתוח. הוא מאפשר לבדוק סוכנים שמבצעים משימות מורכבות כמו הזמנת אוכל או ניווט באפליקציות בנקים.
השלכות עסקיות: מנהלי טכנולוגיה יכולים כעת לבחון סוכנים פנימיים או צד שלישי בצורה אמינה, לחסוך בעלויות בדיקה ולשפר יעילות. MobiBench מדגיש צורך בשילוב מודולים מתקדמים יותר. מה תהיה ההשפעה על שוק ה-AI הישראלי?