מחקר
2 דקות
מ־arXiv cs.AI
חוסר יכולת נלמד: כיצד LLM מסרבים בנושאים רגישים
מודלי שפה גדולים מיושרים RLHF מציגים חוסר יכולת נלמד (LI): ביצועים רגילים בנושאים ניטרליים אך סירוב תפקודי ברגישים. מחקר חדש חושף את התופעה בדיאלוג ארוך ומציע מסגרת ביקורת. קראו את הניתוח המלא.
קרא עוד