מנגנוני בקרה למודלי שפה
קמפבל בראון, מנהלת החדשות לשעבר של חברת מטא (Meta), מזהירה כי מודלי השפה המובילים בשוק נוטים לספק מידע חסר הקשר, בלתי אמין ולעתים קרובות מוטה. על מנת לפתור משבר זה, הוקמה חברת Forum AI במטרה לפתח כלי הערכה ובנצ'מרקים מחמירים, אשר יבטיחו כי מערכות בינה מלאכותית ארגונית יספקו תשובות מדויקות, בטוחות ואמינות עבור עסקים וצרכנים כאחד.
מה זה הערכת מודלי שפה בסיסיים?
הערכת מודלים בסיסיים (Foundation Model Evaluation) היא תהליך שיטתי למדידה, ניתוח ואימות של רמות הדיוק והבטיחות של מערכות בינה מלאכותית מתקדמות לפני הטמעתן. בהקשר עסקי, חברות מחויבות להשתמש בהערכה קפדנית זו על מנת להבטיח שבוטים אוטומטיים לא מספקים מידע שגוי או מסוכן ללקוחותיהם. לדוגמה, חברה פיננסית המפעילה אלגוריתמים לחיתום אשראי, נדרשת לוודא כי המודל נקי לחלוטין מהטיות דמוגרפיות אסורות. על פי מחקרים בתעשייה, מודלי שפה מסחריים שמופעלים ללא מנגנוני בקרה קשוחים מציגים שיעורי 'הזיות' (Hallucinations) העולים לעיתים קרובות על 15 אחוזים, עובדה המדגישה מדוע נדרשים תהליכי אימות קפדניים בכל הטמעה בארגון.
הבעיה עם המודלים הקיימים והפתרון של Forum AI
לפי הדיווח ב-TechCrunch, בראון החליטה לפעול מיד לאחר שחרורו הפומבי של שירות ChatGPT, כאשר הבינה כי טכנולוגיה זו עתידה להפוך למסנן העיקרי שדרכו יזרום המידע העסקי והציבורי בעולם. היא זיהתה חולשה מובנית בשוק: רוב חברות הפיתוח מקדישות את עיקר משאביהן לשיפור יכולות קידוד וחישובים מתמטיים, אך נכשלות בניתוח מעמיק של חדשות, מידע חברתי מורכב וניואנסים. החברה מדווחת כי כלי מוביל כמו Gemini מבית גוגל שאב נתונים היסטוריים מאתרים רשמיים של המפלגה הקומוניסטית הסינית עבור שאילתות משתמשים שלא היו קשורות כלל לסין. בנוסף, צוינה נטייה שמאלית פוליטית כרונית שקיימת ברוב המודלים המובילים.
על פי הנתונים שפורסמו, הסטארט-אפ Forum AI, אשר פועל מניו יורק וגייס השקעת סיד בסך 3 מיליון דולר בהובלת קרן Lerer Hippeau, החליט לאמץ גישת פיתוח שונה. החברה עמלה על בניית מדדי איכות אשר מבוססים על הידע של אנשי אקדמיה, אישי ציבור וממשל, ביניהם ההיסטוריון ניאל פרגוסון ומזכיר המדינה האמריקאי לשעבר טוני בלינקן. היעד העסקי של המיזם הוא לאמן 'שופטים' דיגיטליים מבוססי AI, שיוכלו להעריך בזמן אמת את טיב התשובות של המודלים, תוך הגעה לרמת הסכמה של 90 אחוזים אל מול שיפוט אנושי של אותם מומחים בעלי שם עולמי.
ההקשר הרחב: סיכוני ציות לארגונים ולתאגידים
ההקשר הרחב של הערכת מודלים משפיע ישירות על ניהול סיכונים בארגונים מסחריים מובילים. קמפבל בראון מציינת בגלוי כי מצב הציות לחוק (Compliance) כיום בתעשיית הבינה המלאכותית נותר בגדר 'בדיחה' במקרים רבים. כדוגמה בולטת, צוין הניסיון של עיריית ניו יורק, אשר החילה את החוק המוניציפלי הראשון שמחייב מבדקי הטיה במערכות גיוס עובדים המבוססות על אוטומציה. מבקר המדינה בניו יורק גילה הפרות חמורות אצל למעלה ממחצית מהמערכות הפעילות, אשר כלל לא התגלו קודם לכן במבדקים הסטנדרטיים של ספקיות התוכנה בעצמן.
מציאות זו ממחישה מדוע חברות אשר שוקלות לשלב פתרונות של סוכני AI לעסקים לא יכולות להישען באופן בלעדי על ההבטחות השיווקיות של חברות הענן לגבי רמת איכות המודלים. ענקיות הטכנולוגיה נוטות פעמים רבות לתכנת את המערכות כדי למקסם באופן מלאכותי מעורבות משתמשים (Engagement), בעוד שהמגזר העסקי זקוק דווקא למערכות שמקבלות החלטות שקופות לחלוטין, עובדתיות, ויציבות מול כל בדיקה רגולטורית פוטנציאלית.
ההשלכות לעסקים בישראל: רגולציה ואמינות במבחן המציאות
ההשלכות הניהוליות לעסקים בישראל הן חשובות במיוחד לאור המבנה המשפטי והרגולטורי של השוק המקומי, המאופיין בדרישות מחמירות של חוק הגנת הפרטיות וזכויות צרכן. עסקים ישראליים – החל ממשרדי עורכי דין, דרך סוכנויות ביטוח ועד קליניקות רפואיות – משלבים כיום בקצב מואץ מערכות חכמות כדי לייעל תהליכי מכירה ושירות מול הקהל הרחב. עם זאת, התלות במידע מדויק נותרת התורפה הקריטית ביותר. כאשר חברה מסחרית נעזרת במודל שפה פתוח כדי לנתח בקשת אשראי או לאמת נתונים ביטוחיים לפני חיתום פוליסה, תוצאה מוטה של המודל עלולה להוביל להפרה יסודית של חוק הגנת הפרטיות הישראלי, דבר החושף את הארגון לתביעות גדולות.
מהפרספקטיבה של עסקים ישראליים, הפעלת מודלים כלליים שאינם עוברים בקרת איכות פרטנית עלולה להביא להמצאת נתונים שקריים אודות רמות מלאי, שעות פעילות, או תמחור שגוי של מוצרים. שגיאות טכניות מול הצרכן הישראלי, שנחשב לביקורתי במיוחד, מובילות מידית לפגיעה אנושה במוניטין החברה. עקב סיכונים אלו, המגמה הארגונית חייבת לעבור לאימוץ אקטיבי של מערכות בעלות אדריכלות סגורה, המפוקחות בהתאמה אישית לדרישות העסק הספציפי.
מה לעשות עכשיו
עסקים שמעוניינים באמת להטמיע כלים חכמים מחויבים לפעול באופן מתודי וזהיר:
- בניית מערך אימות נתונים פנימי: הימנעו בכל מחיר מהסתמכות עיוורת על בנצ'מרקים של מודלים פתוחים. בטרם חשיפת הכלי ללקוחות, יש ליצור מאגר רחב של שאלות אופייניות לענף הספציפי שלכם, ולתעד כיצד המערכת מגיבה ומוודאת עמידה מלאה במדיניות התוכן של החברה.
- הטמעת שכבות הגנה טכנולוגיות בעזרת אוטומציה: השתמשו בכלים מתקדמים כמו פלטפורמת N8N למעקב ובקרה על זרימת המידע המשתנה בארגון. ניתן לתכנן תהליך שבו פלט המערכת מוצלב באופן אוטומטי ומבוקר מול בסיסי מידע הקיימים בתוך Zoho CRM. מהלך קריטי זה מהווה אבן יסוד בשירותי אוטומציה עסקית אמינים שלא קורסים בזמן אמת.
- ביצוע מבדקי קצה לשירותי לקוחות: במידה והפעלתם שירות מבוסס WhatsApp Business API עבור פניות מלקוחות, הרחיבו את ספקטרום הבדיקות מעבר לשאלות יומיומיות. אתגרו את הבוט העסקי שלכם עם תלונות סותרות או טענות קשות, וודאו כי המערכת מעבירה בצורה חלקה את השיחה לנציג אנושי ולא מנסה לאלתר תשובות המסכנות אתכם.
- עמידה בהנחיות פרטיות מקומיות: ודאו שכל תהליכי עיבוד הנתונים הולמים את הסטנדרטים של חוק הגנת הפרטיות. מנעו זליגת מידע אישי מזהה לשירותי עיבוד חיצוניים שלא מספקים הבטחות משפטיות כתובות לשמירה על חסיון הלקוח.
מבט קדימה
ענף הבינה המלאכותית בעולם עוזב בהדרגה את שלב ההדגמות הראשוניות, ועובר לדרישת הוכחות מהימנות, בשלות טכנולוגית ואחריות תאגידית. המיזם של חברת Forum AI מבהיר היטב שחברות המחר ימדדו על ידי הציבור לא על בסיס רהיטות הטקסט של הבוטים שלהן, אלא אך ורק על פי יכולתן לספק מידע מדויק, כנה וללא רבב. מבחינת העסק המקומי שלנו, כל פרויקט טכנולוגי חדש, יהיה זה הקמת בוט מתוחכם לניהול לידים או מערכת אוטומטית לתשובות מהירות, חייב להיות עטוף במעטפת בקרה מחמירה. חברות מסחריות שיקדימו להטמיע סטנדרטים עליונים של דיוק ובדיקת עובדות יהיו ללא ספק אלה שיבססו אמון וישגשגו לאורך זמן מול הלקוחות.