RIFT: מבחן חדש חושף ירידה של 72% בעקיבת הוראות ב-LLM
מחקר

RIFT: מבחן חדש חושף ירידה של 72% בעקיבת הוראות ב-LLM

חוקרים פיתחו כלי בדיקה שמבודד מבנה הוראות מתוכן ומגלה חולשה בסיסית במודלי שפה גדולים

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • RIFT מבדיל בין מבנה לתוכן בהוראות LLM באמצעות ג'פרדי!.

  • ירידה של עד 72% בדיוק ב-10,000 בדיקות על 6 מודלים.

  • 50% שגיאות מסטיית סדר וסמנטיקה.

  • השלכות על אוטומציה רב-סוכנים.

RIFT: מבחן חדש חושף ירידה של 72% בעקיבת הוראות ב-LLM

  • RIFT מבדיל בין מבנה לתוכן בהוראות LLM באמצעות ג'פרדי!.
  • ירידה של עד 72% בדיוק ב-10,000 בדיקות על 6 מודלים.
  • 50% שגיאות מסטיית סדר וסמנטיקה.
  • השלכות על אוטומציה רב-סוכנים.
בעידן שבו מודלי שפה גדולים (LLM) מנהלים זרימות עבודה מורכבות, מתברר שהיכולת שלהם לשמור על סדר הוראות נותרה בגדר תעלומה. חוקרים מציגים את RIFT – מבחן עקיבה אחר הוראות מסודרות מחדש – שמבודד את מבנה ההנחיות מהתוכן עצמו. לפי המחקר, די בהפרעה בסדר ההוראות כדי לגרום לירידה דרמטית בביצועים, עד 72% פחות מדיוק בהשוואה למצב רגיל. זהו גילוי שמאיים על יישומים כמו אוטומציה של זרימות עבודה ומערכות רב-סוכנים. RIFT בנוי על זוגות שאלות-תשובות מעובדים מחידון ג'פרדי!, שמאפשרים בדיקה נקייה. המבחן משווה בין שני מבנים: הנחיות ליניאריות, שמתקדמות בסדר רציף, לבין הנחיות 'קופצות' ששומרות על אותו תוכן אך דורשות קפיצה לא סדרתית. החוקרים ביצעו 10,000 הערכות על שישה מודלי LLM קוד פתוח מובילים, ומצאו תלות חזקה ברצף מיקומי. במבחן זה, ה-LLM נכשלים כאשר ההוראות אינן עוקבות זו אחר זו. תוצאות המחקר מראות ירידה של עד 72% בדיוק בתנאי 'קפיצה' בהשוואה לבסיס. ניתוח שגיאות חושף שכ-50% מהכשלונות נובעים מהפרת סדר הוראות וסטייה סמנטית. זה מצביע על כך שמודלים נוכחיים מפנימים עקיבה אחר הוראות כדפוס רציף, ולא ככישור חשיבה אמיתי. הבעיה אינה מורכבות המשימה עצמה, אלא הרגישות למבנה ההנחיות. הממצאים חושפים מגבלה יסודית בארכיטקטורות הנוכחיות, עם השלכות ישירות על יישומים הדורשים זרימת שליטה לא סדרתית. בעולם העסקי הישראלי, שבו חברות כמו וויקס ומלאנוקס משלבות AI באוטומציה, זה מעלה שאלות על אמינות LLM בזרימות עבודה אמיתיות. השוואה לבנצ'מרקים קיימים מראה שרובם מערבבים מורכבות מבנית עם תוכן, מה שמקשה על זיהוי הבעיה הזו. למנהלי עסקים, התובנה המרכזית היא לבדוק את LLM שלכם במבחנים כמו RIFT לפני הטמעה. זה יכול למנוע כשלונות יקרים באוטומציה. האם הגיע הזמן לשדרוג ארכיטקטורה? המחקר קורא לפיתוח מודלים גמישים יותר.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
כמה שכיחים דפוסי החלשה בצ'טבוטי AI?
מחקר
2 דקות

כמה שכיחים דפוסי החלשה בצ'טבוטי AI?

האם סיפורי הזוועה על צ'טבוטי AI שמובילים משתמשים לפעולות מזיקות הם מקרים בודדים או בעיה נפוצה? אנתרופיק בדקה 1.5 מיליון שיחות עם קלוד. קראו עכשיו את הניתוח המלא.

AnthropicClaudeUniversity of Toronto
קרא עוד
Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם
מחקר
2 דקות

Table-BiEval: הערכת מבנה ב-LLM ללא בני אדם

מודלי שפה גדולים מתקשים בתרגום שפה טבעית למבנים מדויקים. Table-BiEval, מסגרת חדשה ללא בני אדם, חושפת חולשות ומפתיעה: מודלים בינוניים מנצחים ענקיים. קראו עכשיו על הפריצה הזו!

Table-BiEvalLLMs
קרא עוד