בעידן שבו עסקים ישראליים משלבים נוכחות AI לניווט אוטומטי באינטרנט, חוקרים מפרסמים את בנצ'מרק PATHWAYS – קובץ של 250 משימות קבלת החלטות רב-שלביות. הבנצ'מרק בודק אם הנוכחות מצליחות לגלות ולשלב מידע הקשרי נסתר. התוצאות מדאיגות: גם מודלים סגורים וגם פתוחים מגיעים לדפים הרלוונטיים, אך רק באחוז זעיר מהמקרים הן שולפות ראיות מכריעות נסתרות. זהו אתגר קריטי לעסקים שסומכים על AI לחקירות דיגיטליות.
בנצ'מרק PATHWAYS חושף פער עצום בין ניווט ראשוני לבין חקירה אמיתית. הנוכחות מזהות דפים רלוונטיים בקלות יחסית, אך נכשלות בשליפת מידע נסתר. כאשר המשימות דורשות להתגבר על אותות טעויים ברמת הפנים, הביצועים צונחים לרמה קרובה לסיכוי טהור. החוקרים מדווחים כי הנוכחות מדמיינות חקירה ומתייחסות לראיות שלא ניגשו אליהן כלל, מה שמעיד על הזיות בתהליך החשיבה.
גם כאשר הנוכחות מגלות את ההקשר הנכון, הן נכשלות בשילובו בהחלטה הסופית. הוראות מפורשות יותר משפרות את גילוי ההקשר, אך מפחיתות את הדיוק הכולל – תופעה שחושפת מתח בין ציות להוראות לבין שיפוט אפקטיבי. לפי הדיווח, ארכיטקטורות הנוכחות הנוכחיות חסרות מנגנונים אמינים לחקירה אדפטיבית, שילוב ראיות והתגברות על שיפוט שגוי. זהו ממצא מרכזי שמשפיע על כלים עסקיים.
בהקשר עסקי ישראלי, PATHWAYS מדגיש את הסיכונים בשימוש בנוכחות AI למשימות כמו מחקר שוק או בדיקת מתחרים. חברות כמו גוגל או אופן-אי מקדמות נוכחות מתקדמות, אך הבנצ'מרק מוכיח כי הן עדיין רחוקות מיכולת אנושית. לעומת זאת, משימות פשוטות יותר מצליחות, מה שמצביע על צורך בפיתוח ממוקד. העסקים צריכים לשקול אימות אנושי לצד AI כדי למנוע טעויות יקרות.
המסקנה העסקית: בנצ'מרק PATHWAYS קורא לפיתוח מהיר של מנגנוני חקירה חכמים יותר. מנהלי טכנולוגיה בישראל צריכים לבחון כלים כאלה בקפידה, לשלב בדיקות מקומיות ולהשקיע בשיפור שילוב ראיות. מה תהיה ההשפעה על אוטומציה עסקית?