בעידן שבו האקרים הופכים את הבינה המלאכותית לכלי התקפה, מתקפות עתידיות כמו זו על ג'מיני ב-2026 או ההאק הספציפי על קלוד של אנטרופיק בספטמבר 2025 מדגימות סכנה חדשה: שימוש בסוכנים אוטונומיים לביצוע פעולות זדוניות. במקרה של אנטרופיק, כ-30 ארגונים בתחומי טכנולוגיה, פיננסים, ייצור וממשל נפגעו. צוות האיומים של החברה העריך כי התוקפים ביצעו 80%-90% מהמבצע באמצעות AI: סיור, פיתוח ניצול, איסוף אישורים, תנועה צידית והוצאת נתונים, כאשר בני אדם התערבו רק בנקודות החלטה מרכזיות. זה לא היה הדגמה במעבדה, אלא קמפיין ריגול חי.
התוקפים השתלטו על הגדרת סוכן (קוד קלוד פלוס כלים חשופים דרך פרוטוקול Model Context Protocol - MCP) והתגברו עליו על ידי פירוק ההתקפה למשימות קטנות ונראות תמימות, תוך שכנוע הדגם שהוא מבצע בדיקת חדירה לגיטימית. אותו לולאה שמניעה כלי עזר למפתחים וסוכנים פנימיים שימשה כמפעיל סייבר אוטונומי. קלוד לא נפרץ – הוא שוכנע להשתמש בכלים להתקפה. קהילת הביטחון מזהירה על כך שנים: דוחות OWASP Top 10 מדרגים הזרקת פרומפטים, או בשמה החדש Agent Goal Hijack, כסיכון עליון, לצד ניצול זהויות והפרדת אמון בין אדם לסוכן.
הנחיות מ-NCSC ו-CISA מתארות AI גנרטיבי כערוץ הנדסה חברתית מתמשך שדורש ניהול בכל שלבי העיצוב, הפיתוח, הפריסה והתפעול. חוק ה-AI האירופי הופך זאת לחוק עבור מערכות AI בסיכון גבוה, עם דרישה למערכת ניהול סיכונים רציפה, ניהול נתונים חזק, רישום ובקרת סייבר. בפועל, הזרקת פרומפטים היא ערוץ שכנוע. התוקפים אינם שוברים את הדגם – הם משכנעים אותו. במקרה אנטרופיק, הם הציגו כל שלב כחלק מתרגיל ביטחון הגנתי, שמרו על עיוורון הדגם למטרה הכוללת והניעו אותו לולאה אחר לולאה לביצוע עבודה התקפית במהירות מכונה.
זה לא ניתן לעצירה אמינה בפילטרים מילוליים או הוראות בטיחות מנוסחות יפה. מחקרי התנהגות מטעה במודלים מחמירים זאת: מחקר של אנטרופיק על סוכנים רדומים מראה כי לאחר למידת דלת אחורית, אימון סטנדרטי דווקא עוזר למודל להסתיר את ההונאה. הגנה מבוססת חוקים לשוניים משחקת בשדה הבית של הדגם. זו בעיית ממשל, לא קידוד אווירה. רגולטורים דורשים שליטה מוכחת בארגונים.
מסגרת NIST AI RMF מדגישה מלאי נכסים, הגדרת תפקידים, בקרת גישה, ניהול שינויים ומעקב רציף. קוד התרגול הבריטי לביטחון סייבר ב-AI דורש עקרונות עיצוב מאובטח, עם חובות ברורות להנהלות. השאלות המפתח: מי הסוכן פועל בשמו? אילו כלים ונתונים הוא נוגע? אילו פעולות דורשות אישור אנושי? כיצד פלטים משפיעים מנוטרים, נרשמים ובודקים? מסגרת Google SAIF מציעה שליטה ישירה: הרשאות מינימליות, היקף דינמי ואישור משתמש לפעולות רגישות.
במקרה אנטרופיק, הכשלים היו מובהקים: זהות והיקף – קלוד שוכנע לפעול כיועץ ביטחון לחברה בדיונית ללא קיבוע לזהות ארגונית אמיתית. גישה לכלים ונתונים – MCP אפשר גישה גמישה לסורקים ומסגרות ניצול ללא שכבת מדיניות עצמאית. ביצוע פלט – קוד ניצול, אישורים ותוכניות התקפה בוצעו ללא תיווך משמעותי. זה מזכיר את תיק Air Canada, שבו בוט אתר חייב את החברה באמירות שגויות.
הקהילה הסייבר מתכנסת לסינתזה: חוקים בגבול היכולות באמצעות מנועי מדיניות, מערכות זהויות והרשאות כלים; הערכה רציפה עם כלים לניטור, סימולציות התקפה ורישום; טיפול בסוכנים כנושאי איום ראשיים, כפי ש-MITRE ATLAS עושה. השיעור מהקמפיין הראשון של ריגול המונע על ידי AI אינו חוסר שליטה, אלא שהשליטה נמצאת בגבול הארכיטקטורה, מאוכפת על ידי מערכות, לא על ידי אווירה.