בעולם שבו סוכנים אוטונומיים מבוססי מודלי שפה גדולים (LLM) הופכים לכלי מרכזי בעסקים, חשיפה להתקפות הזרקת פרומפט עקיפה (IPI) מאיימת להשתלט על התנהגותם. התקפות אלה מזהמות מקורות מידע חיצוניים ומביאות לפעולות זדוניות, כמו שימוש בכלים לא מורשים. מחקר חדש מ-arXiv חושף את הפגיעות הזו ומציג פתרון הוליסטי: ארכיטקטורת בקרה קוגניטיבית (CCA), שמבטיחה פיקוח על כל מחזור החיים של הסוכן.
התקפות IPI מתעקפות על הגנות קיימות על ידי ניצול מתחים בסיסיים בין ביטחון לתפקוד. הגנות נוכחיות מפוצלות ומחייבות פשרות רב-ממדיות. החוקרים מדגישים כי כל התקפת IPI, גם הסמויה ביותר, תתגלה בסטייה ממסלול הפעולות הצפוי. CCA בונה על תובנה זו באמצעות שני עמודי תווך: גרף כוונה מוגדר מראש לבקרת זרימת בקרה ונתונים, ומכריע מדורג שמפעיל ניתוח מעמיק בעת זיהוי סטייה.
המכריע המדורג משתמש בציון רב-ממדי להתמודדות עם התקפות מורכבות, כולל כאלה תלויות תנאי. במבחני AgentDojo, CCA עמדה בהצלחה בהתקפות מתקדמות שכשלו הגנות אחרות, תוך שמירה על יעילות גבוהה וחוסן. הפתרון משלב פיקוח יזום מראש עם תגובה חכמה, ומבטל את הצורך בפשרות.
משמעות CCA לעסקים ישראליים גדולה במיוחד, שכן סוכני AI משמשים באוטומציה תעשייתית ובשירותים דיגיטליים. הפתרון מאפשר פריסה בטוחה יותר של סוכנים אוטונומיים, ומפחית סיכונים כמו דליפת מידע או שיבושים. בהשוואה למתחרים, CCA מציעה כיסוי מלא על פני כל צינור הביצוע, מה שמבדיל אותה כגישה סיסטמית אמיתית.
לסיכום, ארכיטקטורת CCA מסמנת קפיצת מדרגה בביטחון סוכני AI. מנהלי טכנולוגיה צריכים לשקול אינטגרציה שלה בפרויקטים עתידיים, כדי להבטיח יישום אמין. האם הגיע הזמן לשדרג את ההגנות שלכם? קראו את המחקר המלא ב-arXiv.