בעידן שבו סוכני שפה גדולים (LLM) משתמשים בכלים לביצוע משימות מורכבות, בדיקת האבטחה שלהם הופכת לקריטית יותר מתמיד. מחקר חדש שפורסם ב-arXiv (2601.00042v1) בוחן את אלגוריתם Go-Explore המותאם לבדיקות Red Team – גישה התקפית לבדיקת חולשות. החוקרים ביצעו 28 ריצות ניסוייות על GPT-4o-mini, תוך בחינת שש שאלות מחקר מרכזיות. התוצאות חושפות תובנות חשובות שיכולות לשנות את הדרך שבה אנו בודקים מודלים מאומנים בבטיחות.
הממצא המרכזי הראשון הוא השליטה של שונות זרע אקראי (random-seed variance) על תוצאות הבדיקות. לפי הדיווח, שונות זו גורמת לפער של פי 8 בתוצאות, מה שהופך השוואות על זרע בודד לבלתי אמינות. לעומת זאת, ממוצע על פני מספר זרעים מפחית באופן משמעותי את השונות בהגדרת הניסוי. עצה מעשית לחברות: השתמשו בריבוי זרעים כדי לקבל תמונה אמינה יותר של ביצועי הבדיקות.
בנוסף, עיצוב תגמולים (reward shaping) פוגע בביצועים. במחקר, גישה זו גרמה לקריסת חקירה ב-94% מהריצות או לייצור 18 תוצאות חיוביות כוזבות ללא התקפות מאומתות. החוקרים ממליצים להימנע מעיצוב תגמולים מורכב, שכן הוא עלול להטעות את תהליך הבדיקה. במקום זאת, חתימות מצב פשוטות עלו על מורכבות בהתנהגות הסביבה הניסויית.
בהקשר רחב יותר, המחקר מדגיש את היתרונות של שימוש באנסמבלים של סוכנים לבדיקת גיוון סוגי התקפות, בעוד סוכן יחיד מתאים לכיסוי מקיף בתוך סוג התקפה ספציפי. תוצאות אלה מצביעות על כך שבבדיקת מודלים מאומנים בבטיחות, שונות הזרעים וידע תחומי ממוקד יכולים להתעלות על רמת הסגפנות האלגוריתמית. עבור מנהלי טכנולוגיה בישראל, שמשלבים LLM בעסקים, זה אומר צורך בגישה פרקטית ומבוססת נתונים.
בסיכום, המחקר מציע לקבלת החלטות עסקיות: אמצו ממוצע רב-זרעים, הימנעו מעיצוב תגמולים, ובחרו חתימות פשוטות. מה זה אומר לעתיד? האם נראה שיפור בבדיקות אבטחה שיביאו ל-LLM בטוחים יותר? קראו את המחקר המלא כדי להעריך את ההשלכות על הפרויקטים שלכם.