ועדות LLM רב-סוכניות: 89.5% הצלחה בבדיקות בטא
מחקר

ועדות LLM רב-סוכניות: 89.5% הצלחה בבדיקות בטא

מסגרת חדשה משלבת סוכנים מגוונים עם הצבעה בשלושה סיבובים – שיפור משמעותי על פני סוכן יחיד ומבחנים מוכרים

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • 89.5% הצלחה כוללת ב-84 ניסויים עם 2-4 סוכנים

  • שיפור 13-22% על סוכן יחיד, זמן פעולה 0.71 שניות

  • 74.7% ב-WebShop ו-82% ב-OWASP Juice Shop

  • F1=0.91 לזיהוי באגים, קוד פתוח זמין

ועדות LLM רב-סוכניות: 89.5% הצלחה בבדיקות בטא

  • 89.5% הצלחה כוללת ב-84 ניסויים עם 2-4 סוכנים
  • שיפור 13-22% על סוכן יחיד, זמן פעולה 0.71 שניות
  • 74.7% ב-WebShop ו-82% ב-OWASP Juice Shop
  • F1=0.91 לזיהוי באגים, קוד פתוח זמין
בעידן הדיגיטלי המהיר, בדיקות בטא ידניות לתוכנות הן צוואר בקבוק יקר וזולל זמן. חוקרים מציגים מסגרת ועדות LLM רב-סוכניות, שבה סוכני AI מבוססי מודלי שפה גדולים עם יכולות ראייה משתפים פעולה באמצעות פרוטוקול הצבעה בשלושה סיבובים. המערכת משלבת גיוון מודלים, התנהגויות מותאמות פרסונה וניתוח ממשקי משתמש חזותיים כדי לחקור באופן שיטתי אפליקציות ווב. בתוצאות ניסויים ב-84 הרצות עם 9 פרסונות בדיקה ו-4 תרחישים, ועדות רב-סוכניות השיגו 89.5% שיעור הצלחה כולל במשימות. (72 מילים) המסגרת מציגה שיפור דרמטי על פני גישות סוכן יחיד. תצורות עם 2 עד 4 סוכנים הגיעו ל-91.7% עד 100% הצלחה, לעומת 78% בלבד בבסיס סוכן יחיד – שיפור של 13.7 עד 22 נקודות אחוז. ברמת הפעולות, המערכת משיגה 93.1% הצלחה עם זמן תגובה חציוני של 0.71 שניות לפעולה, מה שמאפשר בדיקות בזמן אמת ושילוב רציף (CI). סוכנים עם ראייה מזהים אלמנטים בממשק: ניווט ודיווח ב-100% הצלחה, מילוי טפסים ב-99.2%. (98 מילים) במבחנים סטנדרטיים, ועדות ה-LLM מצטיינות. ב-WebShop, הן השיגו 74.7% הצלחה לעומת 50.1% של GPT-3 שפורסם. בבדיקת אבטחה OWASP Juice Shop, 82% הצלחה עם כיסוי 8 מתוך 10 קטגוריות פגיעויות OWASP Top 10. בנוסף, ב-20 רגרסיות מוזרקות, ועדת הסוכנים השיגה ציון F1 של 0.91 לזיהוי באגים, לעומת 0.78 בסוכן יחיד. הקוד פתוח זמין לשימוש מחקרי ויישומי. (92 מילים) המשמעות העסקית גדולה: בדיקות תוכנה מהוות חלק משמעותי מעלויות הפיתוח, ומסגרת זו מאפשרת אוטומציה יעילה יותר. לעומת כלים מסורתיים או סוכנים יחידים הסובלים מהזיות וחוסר עקביות, הגישה הרב-סוכנית מבטיחה קונצנזוס ומדויקות גבוהה. בישראל, שבה תעשיית ההייטק תלויה בשילוב CI/CD מהיר, פתרון כזה יכול להאיץ שחרורים ולהפחית סיכונים. (85 מילים) עבור מנהלי טכנולוגיה ומפתחים, ועדות LLM רב-סוכניות פותחות דלת לשילוב בדיקות אוטונומיות בצנרת CI/CD. כיצד זה ישפיע על תהליכי הבדיקות שלכם? הקוד הפתוח מאפשר ניסויים מיידיים. (48 מילים)

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
הגדרה מאוחדת להזיות ב-AI: הבעיה בדגימת העולם
מחקר
2 דקות

הגדרה מאוחדת להזיות ב-AI: הבעיה בדגימת העולם

בעידן שבו מודלי שפה גדולים מניעים חדשנות עסקית, הבעיית ההזיות נותרת אתגר מרכזי אפילו במודלים המובילים בעולם. מאמר חדש מציע הגדרה מאוחדת ומציע בנצ'מרקים חדשים. קראו עכשיו כדי להבין איך לשפר את המודלים שלכם.

arXiv
קרא עוד
כוונון מודע להיררכיה למודלי ראייה-שפה
מחקר
2 דקות

כוונון מודע להיררכיה למודלי ראייה-שפה

בעידן המודלים הרב-מודליים, מודלי ראייה-שפה (VLMs) מצטיינים בלמידה ממאגרי תמונות וטקסט ענקיים, אך התאמתם לסיווג היררכי נותרה תחום לא מנוצל מספיק. קראו על כוונון מודע להיררכיה שמשפר עקביות ביעילות.

Vision-Language ModelsLoRATP-KL
קרא עוד