מה עושים כשהדירקטוריון דורש תשובות על סיכוני סוכני AI? המאמר הקודם סקר כישלון מחסומי פרומפטים בפעולת ריגול AI. כאן התרופה: תוכנית 8 צעדים פשוטה לשליטה בגבולות – זהות, כלים, נתונים ופלטים. לפי Protegrity, הגישה: טפלו בסוכנים כמו משתמשים חזקים וחצי-אוטונומיים, ואכפו כללים בגבולות המגע.
השלבים מחולקים לשלושה עמודים: הגבלת יכולות (צעדים 1-3). צעד 1: זהות ותחום – הפכו כל סוכן למשתמש אמיתי עם תפקיד צר. הריצו אותם כמשתמש המבקש, בתחום הנכון, עם הרשאות מוגבלות לתפקידו ולגיאוגרפיה. אסרו קיצורי דרך בין-תחומיים. פעולות משמעותיות דורשות אישור אנושי מתועד. כך מיושמים מסגרת SAIF של גוגל והנחיות NIST. שאלת מנכ"ל: האם נוכל להציג רשימת סוכנים ומה מותר לכל אחד?
צעד 2: שליטה בכלים – קבעו גרסאות של שרתי כלים מרוחקים, דרשו אישורים להוספת כלים חדשים או מקורות נתונים, ואסרו שרשור אוטומטי ללא מדיניות. זה מתמודד עם בעיות OWASP של סוכנות יתרית ומחזק חוסן סייבר לפי חוק ה-AI האירופי. צעד 3: הרשאות מעוצבות – קשרו אישורים למשימות, לא לדגמי AI. סובבו אותם באופן קבוע ובדקו. דוגמה: סוכן תפעול פיננסי קורא ללא כתיבה ללא אישור מנכ"ל כספים. שאלת מנכ"ל: האם נוכל לבטל יכולת ספציפית ללא שינוי ארכיטקטורה?
שליטה בנתונים והתנהגות (צעדים 4-6). צעד 4: קלטים, זיכרון ו-RAG – טפלו בתוכן חיצוני כעוין עד הוכחה. בדקו מקורות חדשים, תייגו, השביתו זיכרון קבוע בהקשרים לא מהימנים. OWASP ו-OpenAI מדגישים הפרדה בין הוראות מערכת לתוכן משתמש. שאלת מנכ"ל: האם נוכל לפרט כל מקור תוכן חיצוני שאושר?
צעד 5: טיפול בפלטים – אל תבצעו 'רק כי הדגם אמר'. דרשו ולידציה לפני פעולה או משלוח. צעד 6: פרטיות נתונים בזמן ריצה – הגנו על נתונים בברירת מחדל באמצעות טוקניזציה, והחזירו רק למשתמשים מורשים. זה מקיים GDPR וחוק AI אירופי. שאלת מנכ"ל: האם ההגנה ארכיטקטונית או רק הבטחות?
הוכחת שליטה וחוסן (צעדים 7-8). צעד 7: הערכה רציפה – בנו מערכת בדיקות מתמשכת, red teaming שבועי, לוגים מלאים. מחקר Anthropic על סוכנים נרדמים מדגיש זאת. צעד 8: מלאי ושלטון – קטלוג חי של סוכנים, כלים, אישורים ולוגים מאוחדים. שאלת מנכ"ל: האם נוכל לשחזר שרשרת החלטה של סוכן?
השליטה הזו מחזירה את AI למסגרת ביטחון מוכרת למשתמשים חזקים. עבור עסקים ישראלים, זה רלוונטי במיוחד עם עליית איומי סייבר ומעבר ל-AI ארגוני. מנהלים צריכים לשאול: האם יש לנו ראיות, לא הבטחות? זה יכין אותנו לאיומים כמו GTG-1002 מ-MITRE ATLAS.
קחו אחריות: בדקו את 8 השאלות המרכזיות והטמיעו את התוכנית. מה תעשו קודם?