חשיפת מידע אישי בצ'אטבוטים מבוססי AI
תופעה מטרידה הולכת ומתרחבת: משתמשים ברחבי העולם, וגם בישראל, מגלים כי צ'אטבוטים מבוססי בינה מלאכותית חושפים את מספרי הטלפון, כתובות המגורים והמידע הרגיש שלהם בפני זרים. התופעה מדגישה פערים משמעותיים באבטחת המידע של מודלי שפה גדולים, ומעלה שאלות מורכבות לגבי היכולת להסיר נתונים שכבר הוטמעו בתוך המערכות האלה.
מה זה חשיפת נתונים אישיים מזהים (PII) במודלי שפה?
חשיפת נתונים אישיים מזהים (Personally Identifiable Information - PII) היא מצב שבו מודל בינה מלאכותית מציג כפלט מידע פרטי של אנשים אמיתיים. בהקשר של מודלי שפה גדולים (LLMs) כמו ChatGPT או Gemini, התופעה מתרחשת מכיוון שהמודלים אומנו על כמויות עצומות של נתונים שנאספו מהאינטרנט הפתוח.
מידע זה כולל לא פעם פוסטים ישנים, רשומות ציבוריות, ואפילו מאגרי מידע שדלפו. כאשר משתמש שואל שאלה תמימה לכאורה, המודל עשוי "לשלוף" מהזיכרון שלו פרטים מדויקים (או מדויקים חלקית) כגון מספרי טלפון, כתובות או פרטי תעסוקה, ולשלב אותם בתשובתו. לדוגמה, אם אדם פרסם את מספרו לפני עשור בפורום נידח, מודל ה-AI עשוי להציג אותו כיום כאיש קשר רשמי של חברה.
הדיווח: זינוק בתלונות ומספרי טלפון ישראליים ברשת
לפי דיווח מעמיק של MIT Technology Review, היקף התופעה גדול בהרבה ממה שידוע לציבור. חברת DeleteMe, המסייעת ללקוחות להסיר את המידע האישי שלהם מהאינטרנט, מדווחת על עלייה מדהימה של 400% בבקשות הקשורות לבינה מלאכותית גנרטיבית בשבעת החודשים האחרונים. מנכ"ל החברה, רוב שאבל, מציין כי 55% מתלונות אלו נוגעות ל-ChatGPT, כ-20% ל-Gemini, וכ-15% ל-Claude של חברת Anthropic.
אחד המקרים הבולטים בדיווח התרחש ממש כאן בישראל. בחודש מרץ האחרון, דניאל אברהם, מפתח תוכנה בן 28, קיבל הודעת וואטסאפ מוזרה מאדם זר שביקש עזרה עם החשבון שלו באפליקציית התשלומים PayBox. "חשבתי שזו הודעת ספאם, שמישהו מנסה להטריל אותי", ציין אברהם. אולם, כשהתעניין כיצד הגיע אליו הפונה, התברר כי הזר השתמש בצ'אטבוט Gemini של גוגל כדי לחפש את שירות הלקוחות של PayBox. הצ'אטבוט, במקום לספק את פרטי החברה (שכלל אינה מפעילה שירות לקוחות בוואטסאפ), הציג למשתמש את מספרו האישי של אברהם עם הוראה מפורשת לפנות אליו.
אברהם גילה בהמשך כי מספרו הופיע באתר מקומי דמוי Quora אי שם בשנת 2015, מה שככל הנראה הוביל את המודל של גוגל לשאוב את המידע ולשלב אותו בתשובותיו. הבעיה לא הסתיימה שם; כאשר אברהם בעצמו שאל את Gemini כיצד ליצור קשר עם PayBox, המערכת הפיקה מספר וואטסאפ של אדם אחר לחלוטין. גם בבדיקה מאוחרת יותר של צוות התחקיר, המודל הפיק מספר טלפון שגוי השייך לחברת אשראי הפועלת בשיתוף עם PayBox.
מקרה נוסף שממחיש את חומרת הבעיה אירע באוניברסיטת וושינגטון (UW). חוקרת בתחום הטכנולוגיה והפרטיות הקלידה ב-Gemini את השם של עמיתתה למחקר, יעל איגר. הצ'אטבוט סיפק תקציר של מחקריה, אך גם צירף את מספר הטלפון האישי שלה – נתון שהיא שיתפה פעם אחת בלבד עבור סדנה טכנולוגית והיה קבור עמוק בתוצאות מנועי החיפוש. בנוסף, קבוצת חוקרים הצליחה לעקוף את מנגנוני ההגנה של ChatGPT וגרמה לו להציג כתובת מגורים מדויקת, מחיר רכישת הבית ושם בן הזוג של פרופסור באוניברסיטה, תוך שימוש בבקשות "בסגנון חקירה".
ההקשר הרחב: כשמנגנוני ההגנה נכשלים מול חוקי הפרטיות
הבעיה המרכזית שניצבת בפני תעשיית ה-AI היא שמודלי שפה גדולים מאומנים על מאגרי נתונים עצומים הכוללים מידע ציבורי מזהה. למרות שחברות כמו גוגל, OpenAI ו-Anthropic משלבות מנגנוני סינון (Guardrails) כדי למנוע דליפת מידע, מסתבר שאמצעים אלו אינם חסינים. על פי הנתונים, הבעיה מחריפה ככל שחברות ה-AI מחפשות מקורות מידע חדשים ואיכותיים. בקליפורניה, למשל, 31 מתוך 578 ברוקרי נתונים רשומים הודו כי מכרו מידע על צרכנים למפתחי מערכות AI בשנה האחרונה.
ג'ניפר קינג, עמיתת מחקר בתחום הפרטיות באוניברסיטת סטנפורד, מסבירה כי קשה מאוד לאלץ חברות למחוק נתונים היסטוריים מתוך המודלים. חקיקת הפרטיות הקיימת, דוגמת ה-GDPR באירופה או ה-CCPA בקליפורניה, חלה לרוב על נתונים שצרכנים מסרו ישירות לחברות, אך ההתמודדות עם מידע ציבורי שנשאב בעבר (Scraped) והוטמע אל תוך המשקולות (Weights) של המודלים היא מורכבת ביותר טכנולוגית ומשפטית. בעוד שלפלטפורמות כמו Hugging Face יש כלים המאפשרים חיפוש נתונים במאגרי קוד פתוח, כמעט בלתי אפשרי לדעת מה בדיוק נמצא בתוך המודלים הסגורים שמפעילים את הצ'אטבוטים הפופולריים.
ההשלכות לעסקים בישראל
עבור עסקים מקומיים, התופעה המודגמת במקרה של חברת PayBox הישראלית מהווה תמרור אזהרה בוהק. חברות ישראליות חייבות לעמוד בדרישות של חוק הגנת הפרטיות, אשר מגדיר בבירור מהו "מידע" ומהו "מידע רגיש". כאשר עסק מאמץ כלי AI ציבוריים, הוא מסתכן בדרכים כפולות: ראשית, אם עובדי החברה מזינים נתוני לקוחות רגישים אל תוך צ'אטבוטים חינמיים לטובת ניתוח או סיכום פגישות, הנתונים עלולים להפוך לחלק ממאגר האימון העתידי של המודל.
שנית, כפי שקרה ל-PayBox שכביכול "הוקצה" לה נציג שירות לקוחות אקראי, גם עסקים שאינם משתמשים ב-AI באופן פעיל עלולים למצוא את עצמם קורבנות של "הזיות" (Hallucinations) של מודלי שפה. לקוחות עלולים לקבל מספרי טלפון פרטיים של עובדים ולהטריד אותם, או גרוע מכך, לקבל הפניה לגורמים עוינים שמתחזים לחברה. השלכה זו רלוונטית במיוחד לקליניקות פרטיות, משרדי עורכי דין, חברות ביטוח וסוכנויות פיננסיות בישראל, בהן אמון הלקוח וסודיות הנתונים הם קריטיים. יישום פתרונות אוטומציה עסקית חייב לפיכך להסתמך על תשתיות סגורות המבטיחות שמידע עסקי אינו דולף החוצה או מתערבב בנתונים ציבוריים זרים.
מה לעשות עכשיו
כדי למזער את הסיכונים לחשיפת מידע עסקי ואישי, עסקים חייבים לפעול באופן אקטיבי ומבוקר:
- מעבר לעבודה עם מפתחות API מסחריים: במקום להשתמש בממשקי הצרכן הפתוחים (כמו האתר של ChatGPT או Gemini), יש להתבסס על שירותי API של ספקיות ה-AI (למשל OpenAI API). על פי רוב הסכמי השימוש, נתונים שעוברים דרך ה-API המסחרי אינם משמשים לאימון מודלים עתידיים, מה ששומר על סודיות הלקוחות.
- ניהול וניתוב נתונים דרך פלטפורמות מאובטחות: בעת הקמת תהליכי עבודה, יש להשתמש במערכות דוגמת N8N שיודעות לאסוף מידע ממוקד מתוך מערכות הליבה של העסק (כמו Zoho CRM) ולהעביר לבינה המלאכותית אך ורק את חלקי המידע ההכרחיים, תוך מיסוך (Anonymization) של מידע מזהה.
- הקפדה על מדיניות פנים-ארגונית (Governance): יש להדריך עובדים באופן שוטף שלא להזין בשום אופן מספרי טלפון, תעודות זהות, נתוני אשראי או כתובות מגורים של לקוחות ישראליים אל תוך צ'אטבוטים גלויים.
- ניטור נוכחות הרשת (Digital Footprint): עסקים ובעלי תפקידים בכירים צריכים לבצע מדי פעם חיפוש של מספרי הטלפון המקצועיים שלהם במנועי חיפוש ובמודלי שפה, ולשקול שימוש בשירותים להסרת מידע ממאגרי ברוקרים ציבוריים כדי להקטין את הסיכוי לשאיבתם.
מבט קדימה
הקושי המובנה של מודלי שפה "לשכוח" מידע שהם כבר אומנו עליו מצביע על כך שדליפות של מידע אישי ימשיכו ללוות אותנו בתקופה הקרובה. עד שהרגולציה הבינלאומית והישראלית ידביקו את הקצב הטכנולוגי, האחריות להגנה מוטלת במלואה על בתי העסק עצמם. הפתרון הבטוח ביותר עובר דרך הטמעת סוכני AI לעסקים הפועלים בתוך סביבות סגורות ומפוקחות, המשלבים מנגנוני בקרת איכות הדוקים וגישה מוגבלת לנתונים המבוססת על הרשאות בלבד. מתודולוגיה כזו לא רק תגן על פרטיות הלקוחות, אלא גם תשמור על המוניטין של העסק מול תקריות מביכות.