Alignment-Weighted DPO: כך מחזקים סירוב מנומק ל-LLM
**Alignment-Weighted DPO הוא מנגנון אימון שמחזק סירוב מנומק של מודלי שפה ולא רק חסימה שטחית.** לפי המחקר החדש, שיטות כמו SFT, RLHF ו-DPO שיפרו בטיחות, אך עדיין נפרצות דרך ג׳יילברייקים בניסוח עקיף. החוקרים מציעים לשלב Chain-of-Thought עם DPO משוקלל, כך שהמודל ילמד לא רק להגיד "לא" אלא להסביר לעצמו למה הבקשה מסוכנת. עבור עסקים בישראל שמחברים מודלי שפה ל-WhatsApp, ל-Zoho CRM ול-N8N, זו נקודה קריטית: אם המודל מפעיל תהליכים, מסכם שיחות או כותב ללקוח, איכות היישור משפיעה ישירות על סיכון תפעולי, פרטיות ואמינות.