בעולם הפיננסי שבו דיוק הוא שם המשחק, מודלי שפה גדולים (LLMs) נתקלים בקשיים רציניים בעמידה בהוראות מורכבות ומקושרות. חוקרים מפרסמים את FIFE – בנצ'מרק חדש ומאתגר במיוחד שמעריך את יכולותיהם בתחום ניתוח פיננסי. הבנצ'מרק כולל 88 פרומפטים שנכתבו על ידי בני אדם, ומשלב מערכת אימות עם אילוצים ניתנים לשילוב שמאפשרים אותות תגמול מדויקים. המחקר בדק 53 מודלים – מסחריים, פתוחי משקל וקוד פתוח – בהגדרת zero-shot, ללא אימון מוקדם.
תוצאות הבדיקה חושפות היררכיה ברורה: הדגם הפתוח הטוב ביותר השיג 76.1% בעמידה מחמירה ו-79.5% בעמידה גמישה, ומעביר את המערכת המסחרית המובילה (65.9% מחמיר / 70.5% גמיש). לעומת זאת, מודלי קוד פתוח הטובים ביותר נשארו מאחור עם 45.5% מחמיר ו-48.9% גמיש. אפילו הדגמים המובילים נכשלו בעמידה מושלמת בדרישות המורכבות של FIFE, מה שמדגיש אתגרים מתמשכים.
FIFE נועד להתמודד עם חולשות ידועות של מודלי שפה במשימות פיננסיות בעלות סיכון גבוה, שבהן שגיאות עלולות להיות יקרות. הבנצ'מרק משתמש באילוצים ניתנים לבדיקה כדי לספק משוב מפורט, מה שמאפשר שיפור באמצעות למידת חיזוק (RL). המחקר מדגיש את הצורך במשאבים כאלה לקידום מחקר בתחום הפיננסי.
למנהלי עסקים ישראלים בפיננסים ובטק, התוצאות מצביעות על העדיפות לדגמים פתוחי משקל על פני סגורים במשימות מורכבות. בישראל, שבה תעשיית הפיננסים משלבת AI במהירות, כלי כמו FIFE יכול לסייע בבחירת מודלים אמינים יותר. השקעה בשיפור עמידה בהוראות עשויה להפחית סיכונים ולהגביר יעילות.
המאמר משחרר את הנתונים והקוד כמשאב פתוח, ומזמין חוקרים להשתמש בו. מה תעשו כדי לוודא שמודלי ה-AI שלכם עומדים באתגר הפיננסי?