בעידן שבו מודלים לשונאיים גדולים (LLM) משמשים בכל תחום אפשרי, חששות רבים עולים לגבי אמינותם העובדתית והטיות מובנות בהם. כעת, חוקרים מציגים את FIBER – בנצ'מרק רב-לשוני ראשון מסוגו לבדיקת ידע עובדתי בהקשרים של ישויות בודדות ומשולבות. הבנצ'מרק כולל משימות השלמת משפטים, שאלות-תשובה וחיזוי ספירת אובייקטים בשלוש שפות: אנגלית, איטלקית וטורקית. המטרה: לבחון אם שפת הפרומפט משפיעה על בחירת הישויות בתשובות ומדוע מודלים מתקשים יותר בשאלות מרובות ישויות.
FIBER בוחן באופן שיטתי את ביצועי ה-LLM במשימות מורכבות. התוצאות מראות כי שפת הפרומפט אכן משפיעה על הפלט, במיוחד לגבי ישויות הקשורות למדינה המתאימה לשפה. לדוגמה, ב-31% מהנושאים נמדד ציון הטיית השפעה עובדתית גבוה מ-0.5. ההבדלים בין שפות בולטים: פרומפטים בטורקית הראו הטיה גבוהה יותר מפרומפטים באיטלקית ב-83% מהנושאים, מה שמצביע על דפוס תלוי-שפה.
בנוסף, המודלים מתמודדים בקושי רב יותר עם שאלות הכוללות מספר ישויות מאשר עם ישות בודדת. הביצועים משתנים בין שפות: הממוצע הגבוה ביותר בדיוק ממוצע הושג באנגלית, בעוד שבטורקית ובאיטלקית הניקוד נמוך משמעותית. מודלים גדולים יותר כמו Llama-3.1-8B ו-Qwen-2.5-7B עולים על מודלים קטנים של 3B-4B בביצועים עקביים.
הממצאים מדגישים את האתגרים בשפות שאינן אנגלית, שרלוונטי במיוחד לעסקים ישראליים הפועלים בגלובליזציה. הטיות כאלה עלולות להשפיע על החלטות עסקיות מבוססות AI, כמו ניתוח שוק או המלצות מותאמות. בהשוואה לבנצ'מרקים קיימים המתמקדים בישויות בודדות ובאנגלית בלבד, FIBER מספק תמונה מקיפה יותר על אמינות LLM רב-לשונית.
לסיכום, FIBER קורא לפיתוח מודלים מאוזנים יותר בשפות שונות. מנהלי עסקים צריכים לשקול בדיקות כאלה לפני הטמעת AI רב-לשוני, כדי למנוע טעויות עובדתיות. כיצד זה ישפיע על כלי AI ישראליים?