בעידן שבו מערכות RAG (יצירה מוגברת על ידי אחזור) מתקדמות במהירות ליישומים רב-מודליים בעלי חשיבות גבוהה בארגונים, חסרים סטנדרטים להערכה בתחומים ספציפיים. מאמר חדש ב-arXiv מציג את MiRAGE – מסגרת רב-סוכנית שמייצרת מאגרי שאלות-תשובות מאומתים, רב-מודליים ורב-קפיצות, המותאמים לתחומים מקצועיים. הכלי הזה פותר בעיות של מאגרי נתונים קיימים, שמסתמכים על טקסט בלבד ומתעלמים ממורכבות מסמכים טכניים.
MiRAGE מפעילה נחיל של סוכנים מתמחים: לולאת אופטימיזציה רקורסיבית לאיסוף ראיות מפוזרות, סוכן מאמת עוין להבטחת עיגון עובדתי, וסוכן שמזהה אישיות מומחה ותחום רלוונטי כדי לחקות תהליכי חשיבה מקצועיים. המסגרת מייצרת נתונים מדויקים יותר, עם מורכבות חשיבה גבוהה (מעל 2.3 קפיצות בממוצע) ומדויקות עובדתית משופרת.
החוקרים בדקו את MiRAGE בארבעה תחומים: רגולציה, פיננסים, ביולוגיה כמותית ועיתונות. התוצאות מראות עלייה משמעותית באיכות המאגרים בהשוואה למתחרים. מחקרי הסרה (ablation) מצביעים כי המערכת יכולה לפעול בעזרת מודלי שפה גדולים (LLMs) אם זמינות תיאורים טקסטואליים של תמונות, אך עיגון ויזואלי נותר אתגר פתוח.
המשמעות העסקית של MiRAGE היא עצומה: ארגונים ישראלים בתחומי הייטק, פיננסים ורגולציה יכולים כעת לבנות סטנדרטי הערכה פנימיים ממאגרי הנתונים הפרטיים שלהם. זה מאפשר בדיקות קפדניות של מערכות RAG, שחיוניות ליישומים ארגוניים כמו ניתוח מסמכים משפטיים או דוחות פיננסיים.
MiRAGE מספקת תשתית להערכת דור הבא של מערכות אחזור מידע. מה תהיה ההשפעה על כלים כמו ChatGPT Enterprise? קראו את המאמר המלא ב-arXiv כדי להעריך את הפוטנציאל.