בעידן שבו מודלי שפה גדולים (LLM) הפכו לשופטים אוטומטיים להערכת תוכן ותוצרים, עולה השאלה: האם הם באמת יציבים ואמינים ככלי מדידה? חוקרים מציגים מסגרת אבחון דו-שלבית חדשה לאמינות LLM כשופט, המבוססת על תורת תגובת פריט (IRT). המסגרת משלבת את מודל התגובה המדורגת (GRM) ומתמקדת בשתי ממדים מרכזיים: עקביות פנימית והתאמה אנושית. גישה זו חושפת תובנות מעמיקות על ביצועי השופטים, מעבר לבדיקות פשוטות של פלטים.
המסגרת מגדירה עקביות פנימית כיציבות ההתנהגות המדידה תחת שינויי ניסוח בפרומפטים. כך, ניתן לבדוק אם השופט שומר על דירוגים עקביים גם כאשר הנחיות ההערכה משתנות מעט. הממד השני, התאמה אנושית, בוחן את ההתאמה בין דירוגי ה-LLM לדירוגי מומחים אנושיים. לפי החוקרים, שיטה זו מספקת מדדים פרשניים שמאפשרים אבחון שיטתי של בעיות באמינות LLM כשופט, במקום להסתמך על בדיקות שטחיות של תוצאות סופיות.
החוקרים בדקו באופן אמפירי מגוון רחב של שופטי LLM באמצעות המסגרת. התוצאות מראות כי שימוש ב-IRT-GRM מייצר אותות ברורים ומעשיים לאיתור חולשות. אותות אלה עוזרים לזהות גורמים פוטנציאליים לבלתי-אמינות, כמו רגישות יתר לשינויי פרומפט או סטיות מדירוגים אנושיים. הגישה מציעה כלים מעשיים לוידוא אמינות שופטי LLM לפני שילובם בתהליכי הערכה אוטומטיים.
בקונטקסט של עסקים ישראליים המשתמשים ב-AI להערכת תוכן, קוד, או נתונים, מסגרת זו חיונית. כיום, הערכות LLM כשופט חוסכות זמן ומשאבים, אך חוסר אמינות עלול להוביל להחלטות שגויות. השוואה לשיטות מסורתיות מראה כי IRT מספק ניתוח מדויק יותר, בדומה לבדיקות פסיכומטריות. בישראל, שבה חברות כמו Mobileye ו-Wix משלבות AI בקנה מידה גדול, כלי כזה יכול לשפר תהליכי פיתוח.
המסגרת מצביעה על עתיד שבו אמינות LLM כשופט נבדקת בצורה מדעית ומבוקרת. מנהלי טכנולוגיה צריכים לשקול אימוץ גישות כאלה כדי למקסם את היעילות העסקית. השאלה נותרת: האם שופטי LLM יהפכו לכלי מדידה אמין כמו מבחנים סטנדרטיים? המחקר פותח דלת לשיפורים נוספים.