בעידן שבו מערכות יצירה מוגברת בהשגה (RAG) מתפתחות לרמות מורכבות גבוהות יותר, הבטחת אמינותן דרך הערכה פרשנית ועמידה הופכת לקריטית. מדדים סקלריים קיימים סובלים מחוסר פרשנות, הערכת אי-ודאות לקויה ובזבוז חישובי בהשוואות מרובות, מה שמקשה על פריסה אחראית של טכנולוגיות RAG. חוקרים מציגים את DICE – מסגרת הערכה דו-שלבית המקושרת לראיות, שמקדמת פרשנות ועמידות בהערכת RAG. DICE משלבת ניתוח אנליטי עמוק עם ציון הסתברותי {A, B, Tie} לייצור שיפוטים שקופים ומודעי ביטחון, התומכים בשיפור מערכות באופן אחראי דרך מסלולי ניתוח פרשניים.
DICE פועלת בשני שלבים: ראשון, ניתוח עמוק מבוסס ראיות לייצור הסברים מפורטים; שני, ציון הסתברותי המאפשר קשרים, ניצחונות או תיקו בין מערכות. מסגרת זו מאפשרת אבחון שגיאות שיטתי ותובנות פעולה, בניגוד למדדים מסורתיים חסרי שקיפות. לצורך התמודדות עם אתגרי יעילות בקנה מידה גדול, DICE משתמשת בטורניר שיטת שוויצרי, המפחית מורכבות חישובית מ-O(N²) ל-O(N log N). בבדיקה על שמונה מערכות, השיטה השיגה הפחתה של 42.9% בעלויות חישוב תוך שמירה על דיוק דירוג.
השיטה נבדקה על קבוצת נתונים סינית ממוקדת שאלות-תשובות פיננסיות, והשיגה 85.7% הסכמה עם מומחים אנושיים – תוצאה גבוהה בהרבה ממדדי LLM קיימים כמו RAGAS. תוצאות אלה ממצבות את DICE כפרדיגמה אחראית, פרשנית ויעילה להערכת מערכות RAG אמינות. השיפור בפרשנות מאפשר למפתחים לזהות חולשות ספציפיות ולשפר ביעילות.
בהקשר השוק הישראלי, שבו חברות רבות משלבות RAG בכלים עסקיים כמו צ'טבוטים ושירות לקוחות, DICE מציעה כלי חיוני לבדיקת אמינות. לעומת מתחרים, DICE מציעה לא רק ציונים אלא הסברים פעולה, מה שמקל על החלטות עסקיות מבוססות נתונים. השימוש בטורניר שוויצרי מבטיח השוואות מהירות גם עבור עשרות מערכות.
עבור מנהלי טכנולוגיה בישראל, DICE פותחת דלת לשיפור שיטתי של מערכות AI, עם דגש על שקיפות ואחריות. השקעה בכלים כאלה תאפשר פריסה בטוחה יותר של RAG בסביבות עסקיות רגישות. האם הגיע הזמן לבדוק את מערכות ה-RAG שלכם עם DICE?