MobiBench: בנצ'מרק מודולרי חדשני לסוכני GUI במובייל
מסגרת בדיקה offline שמתמודדת עם מגבלות הבנצ'מרקים הקיימים ומאפשרת הערכה מדויקת, מדרגית וחוזרת
✨תקציר מנהלים
נקודות עיקריות
MobiBench פותרת מגבלות בנצ'מרקים קיימים עם גישה מודולרית ומודעת לנתיבים מרובים
השגת 94.72% הסכמה עם בני אדם, תוך שמירה על מדרגיות ושחזור
ניתוח מודולים חושף תצורות אופטימליות ומגבלות LFMs
הנחיות מעשיות לעיצוב סוכנים יעילים יותר
שאלות ותשובות
שאלות נפוצות
אהבתם את הכתבה?
הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל
עוד כתבות שיעניינו אותך
לכל הכתבותSMT פוגשת ILP: למידת חוקים עם אילוצים מספריים
תכנות לוגי אינדוקטיבי (ILP) משתלב עם SMT כדי להתגבר על מגבלות מספריות. קראו על הגישה המודולרית החדשה עם PyGol ו-Z3.
סנדבוקס עמיד בפני תקלות: ביטחון אוטונומי לסוכני קוד AI
מודלי שפה גדולים הופכים לסוכנים אוטונומיים, אך עם סיכונים גבוהים. מחקר חדש מציג סנדבוקס עמיד בפני תקלות עם יירוט 100% והשהייה מינימלית. קראו כיצד זה משנה את חוקי המשחק בביטחון AI. קראו עכשיו!
MaRS: ניהול זיכרון חכם לסוכנים גנרטיביים
סוכנים גנרטיביים מתקשים בניהול זיכרון ארוך טווח? מחקר חדש מציג MaRS ו-FiFA – פתרון חכם שמאזן ביצועים ופרטיות. קראו על התוצאות המרשימות. (48 מילים)
Memoria: מסגרת זיכרון סוכני לשיחות AI מותאמות
Memoria מציגה זיכרון סוכני ל-LLM, המשלב סיכומים וגרף ידע להתאמה אישית ארוכת טווח. פתרון מעשי לעסקים. קראו עכשיו! (112 מילים)