בעידן הדיגיטלי המהיר, בדיקות בטא ידניות לתוכנות הן צוואר בקבוק יקר וזולל זמן. חוקרים מציגים מסגרת ועדות LLM רב-סוכניות, שבה סוכני AI מבוססי מודלי שפה גדולים עם יכולות ראייה משתפים פעולה באמצעות פרוטוקול הצבעה בשלושה סיבובים. המערכת משלבת גיוון מודלים, התנהגויות מותאמות פרסונה וניתוח ממשקי משתמש חזותיים כדי לחקור באופן שיטתי אפליקציות ווב. בתוצאות ניסויים ב-84 הרצות עם 9 פרסונות בדיקה ו-4 תרחישים, ועדות רב-סוכניות השיגו 89.5% שיעור הצלחה כולל במשימות. (72 מילים)
המסגרת מציגה שיפור דרמטי על פני גישות סוכן יחיד. תצורות עם 2 עד 4 סוכנים הגיעו ל-91.7% עד 100% הצלחה, לעומת 78% בלבד בבסיס סוכן יחיד – שיפור של 13.7 עד 22 נקודות אחוז. ברמת הפעולות, המערכת משיגה 93.1% הצלחה עם זמן תגובה חציוני של 0.71 שניות לפעולה, מה שמאפשר בדיקות בזמן אמת ושילוב רציף (CI). סוכנים עם ראייה מזהים אלמנטים בממשק: ניווט ודיווח ב-100% הצלחה, מילוי טפסים ב-99.2%. (98 מילים)
במבחנים סטנדרטיים, ועדות ה-LLM מצטיינות. ב-WebShop, הן השיגו 74.7% הצלחה לעומת 50.1% של GPT-3 שפורסם. בבדיקת אבטחה OWASP Juice Shop, 82% הצלחה עם כיסוי 8 מתוך 10 קטגוריות פגיעויות OWASP Top 10. בנוסף, ב-20 רגרסיות מוזרקות, ועדת הסוכנים השיגה ציון F1 של 0.91 לזיהוי באגים, לעומת 0.78 בסוכן יחיד. הקוד פתוח זמין לשימוש מחקרי ויישומי. (92 מילים)
המשמעות העסקית גדולה: בדיקות תוכנה מהוות חלק משמעותי מעלויות הפיתוח, ומסגרת זו מאפשרת אוטומציה יעילה יותר. לעומת כלים מסורתיים או סוכנים יחידים הסובלים מהזיות וחוסר עקביות, הגישה הרב-סוכנית מבטיחה קונצנזוס ומדויקות גבוהה. בישראל, שבה תעשיית ההייטק תלויה בשילוב CI/CD מהיר, פתרון כזה יכול להאיץ שחרורים ולהפחית סיכונים. (85 מילים)
עבור מנהלי טכנולוגיה ומפתחים, ועדות LLM רב-סוכניות פותחות דלת לשילוב בדיקות אוטונומיות בצנרת CI/CD. כיצד זה ישפיע על תהליכי הבדיקות שלכם? הקוד הפתוח מאפשר ניסויים מיידיים. (48 מילים)