בעידן שבו מודלי יצירת תמונות מטקסט (T2I) מבוססי דיפוזיה משמשים ליישומים מסחריים רבים, הבטיחות הופכת לאתגר מרכזי. המאמר החדש ב-arXiv (2602.00616) מציג גישה חדשנית: הקרנת פרומפטים בשלב ההסקה בלבד, שמפחיתה את אחוז התכנים הלא הולמים (IP) ב-16.7-60% בהשוואה לבסליינים, מבלי לפגוע בהתאמה של פרומפטים תמימים לתמונות. הגישה הזו פותרת את פשרת הבטיחות-התאמת פרומפט (SPAT) באמצעות ערבויות מתמטיות.
מודלי T2I מאפשרים סינתזה פתוחה ברמה גבוהה, אך פריסה בעולם האמיתי מחייבת מנגנונים שידכאו יצירות לא בטוחות. החוקרים מנסחים את המתח הזה דרך עדשת הווריאציה הכוללת (TV): כל הפחתה משמעותית בתכנים לא בטוחים גורמת לסטייה מההתפלגות התנאיית המקורית. כך נוצרת פשרת SPAT עקרונית. המאמר מדגיש כי יש צורך בגישה שתתערב רק בפרומפטים בסיכון גבוה, מבלי לשנות את המודל עצמו.
הפתרון המוצע הוא מסגרת הקרנת פרומפטים ללא אימון מחדש או פיין-טיונינג. השיטה מזהה פרומפטים בסיכון גבוה באמצעות מטרה תחליפית עם אימות, וממפה אותם לרצף בטוח מבוקר בסובלנות, בעוד פרומפטים תמימים נשארים ללא שינוי. הגישה מבטיחה שינוי מינימלי בפרומפטים הבטוחים, ומשמרת את ההתאמה הטבעית של המודל.
בניסויים על ארבעה מערכי נתונים ושלושה גרמי דיפוזיה שונים, השיטה השיגה הפחתות יחסיות של 16.7-60% באחוז התכנים הלא הולמים בהשוואה לבסליינים של התאמת מודל. במקביל, ההתאמה בין פרומפטים תמימים לתמונות נשמרה קרוב להתפלגות הלא מותאמת על COCO. התוצאות מדגישות את יעילות הגישה בשמירה על איזון בין בטיחות לביצועים.
לעסקים המפתחים יישומי AI, כולל בישראל שבה חברות רבות משלבות מודלי יצירת תמונות, הגישה הזו מציעה דרך פרקטית לפרוס מודלים בטוחים ללא השקעה באימון מחדש. היא מאפשרת התמודדות עם סיכונים משפטיים ותדמיתיים, ומשאירה מקום לחדשנות. מה תהיה ההשפעה על כלי AI הבאים?