חוסר יכולת נלמד: כיצד LLM מסרבים בנושאים רגישים

17 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

חוסר יכולת נלמד: כיצד LLM מסרבים בנושאים רגישים

מודלי שפה גדולים מיושרים RLHF מציגים חוסר יכולת נלמד (LI): ביצועים רגילים בנושאים ניטרליים אך סירוב תפקודי ברגישים. מחקר חדש חושף את התופעה בדיאלוג ארוך ומציע מסגרת ביקורת. קראו את הניתוח המלא.

RLHF arXiv:2512.13762

קרא עוד