מחקר
5 דקות
מ־arXiv cs.AI
הערכת סוכני חיפוש לעולם מקביל: מה עסקים צריכים לדעת
**הערכת סוכני חיפוש היא בדיקה של היכולת האמיתית של מודל לחפש, לאסוף ראיות ולהחליט מתי יש מספיק מידע — ולא רק לענות מתוך זיכרון פנימי.** מחקר חדש, Evaluating the Search Agent in a Parallel World, מציג את MPW-Bench: בנצ'מרק אינטראקטיבי עם 1,608 משימות ב-19 תחומים, שנועד להתמודד עם בעיות של התיישנות מידע, תלות במנועי חיפוש מסחריים ועמימות בין זיכרון מודל לחיפוש אמיתי. עבור עסקים בישראל, המסר ברור: אם אתם מחברים AI ל-WhatsApp, ל-Zoho CRM או ל-N8N, אל תמדדו רק את איכות התשובה. מדדו כיסוי מקורות, זמן תגובה, ציטוטים והחלטות עצירה — במיוחד בענפים כמו משפטים, ביטוח, רפואה ונדל"ן.
קרא עוד