בעידן שבו מודלי שפה גדולים (LLM) משתלטים על עולם הבינה המלאכותית, אתגר מרכזי נותר: כיצד להבטיח שהם מקיימים עקרונות בטיחות מבלי לסרב לבקשות תמימות? OpenAI הציגה את יישור דיברטיבי (DA), שיטה שבה המודל חושב על חוקי בטיחות מפורטים בסגנון 'קוד'. אולם, יעילותה במודלים פתוחים, שחסרים יכולות חשיבה מתקדמות, לא נחקרה מספיק. מחקר חדש בוחן זאת לעומק ומציע חלופה טובה יותר.
החוקרים בדקו שתי גישות: ציון חוקי בטיחות מפורטים במפורש לעומת הדגמה באמצעות מקרים מאיירים. התוצאות מראות כי חוקים מפורטים משפרים באופן לא עקבי את ההתנהגות הלא מזיקה, אך פוגעים באופן שיטתי בתועלתיות. לעומת זאת, אימון על חוקים פשוטים מועשרים במקרים מוביל להתנהגויות בטוחות חזקות יותר וכלליות יותר. גישה זו מאפשרת למודלים להימנע מדבקות נוקשה בחוקים מוגבלים ולהתאים עצמם למגוון רחב יותר של מצבים.
על בסיס ממצאים אלה, החוקרים מציעים את CADA – יישור דיברטיבי מועשר במקרים. השיטה משתמשת בלמידת חיזוק על שרשראות חשיבה בטיחותיות שמייצר המודל עצמו. CADA משפרת את ההתנהגות הלא מזיקה, מגבירה עמידות בפני התקפות ומפחיתה סירוב יתר, תוך שמירה על תועלת במבחנים מגוונים.
בהשוואה לשיטת DA המבוססת חוקים בלבד, CADA מציעה אלטרנטיבה מעשית יותר למודלים פתוחים. היא מאפשרת איזון טוב יותר בין בטיחות לעזרה, מה שחיוני לעסקים ישראליים המפתחים יישומי AI. בישראל, שבה חברות כמו Mobileye ו-Wix משלבות LLM, גישה זו יכולה למנוע סיכונים משפטיים ולהגביר אמון.
למנהלים עסקיים, CADA מסמנת כיוון חדש: שילוב דוגמאות מעשיות באימון יכול לשפר בטיחות ללא פגיעה בפרודוקטיביות. כיצד תשלבו זאת במודלים שלכם?