בעידן שבו מודלי שפה גדולים (LLM) משנים את פני הגילויים המדעיים, אתגר מרכזי הוא 'הזיות' – יצירת מידע שגוי שמסכן את אמינות המחקר. חוקרים מציגים את HalluMatData, מערך נתונים חדש לבחינת שיטות זיהוי הזיות, עקביות עובדתית ועמידות תגובות בתוכן מדע החומרים שנוצר על ידי AI. לצדו, הם מציעים את HalluMatDetector – מסגרת זיהוי רב-שלבית המשלבת אימות פנימי, חיפוש ממקורות מרובים, ניתוח גרף סתירות והערכה מבוססת מדדים. ממצאים מראים שרמת ההזיות משתנה בין תת-תחומים במדע החומרים, כאשר שאילתות בעלות אנטרופיה גבוהה סובלות מחוסר עקביות גבוה יותר.
HalluMatData הוא בנצ'מרק מיועד להערכת יכולות זיהוי הזיות בתוכן שנוצר על ידי LLM בתחום מדע החומרים. הוא בודק שלושה היבטים מרכזיים: זיהוי הזיות, עקביות עובדתית ועמידות תגובות. החוקרים מדווחים כי רמות ההזיות משתנות באופן משמעותי בין תת-תחומים שונים, כאשר שאילתות מורכבות יותר – בעלות אנטרופיה גבוהה – נוטות לייצר חוסר עקביות עובדתית רב יותר. זה מדגיש את הצורך בכלים מתקדמים לבקרה על פלטי AI במחקר מדעי מדויק.
HalluMatDetector פועל בשלבים מרובים: ראשית, אימות פנימי של התגובה; אחר כך, חיפוש מידע ממקורות חיצוניים מרובים; שלישית, בניית גרף סתירות לזיהוי ניגודים; ולבסוף, הערכה כמותית באמצעות מדדים. צינור הבדיקה הזה מפחית את שיעור ההזיות ב-30% בהשוואה לפלטים סטנדרטיים של LLM. זהו שיפור משמעותי שמאפשר שימוש אמין יותר ב-AI בתהליכי מחקר.