הערכת החלטות של סוכני AI ב-AutoML: למה התוצאה כבר לא מספיקה
**הערכת החלטות של סוכני AI ב-AutoML היא שיטה שבוחנת את איכות החלטות הביניים של הסוכן, לא רק את התוצאה הסופית.** מחקר חדש ב-arXiv מציג Evaluation Agent שפועל כמשקיף, מזהה החלטות שגויות ב-F1 של 0.919 ומראה כיצד החלטה בודדת יכולה לשנות ביצועים בטווח של מינוס 4.9% עד פלוס 8.3%. עבור עסקים בישראל, המשמעות רחבה יותר מ-AutoML: כל תהליך שמחבר סוכן AI, WhatsApp Business API, Zoho CRM ו-N8N צריך audit trail, מדדי חריגה ונקודות בקרה אנושיות. בלי זה, גם מערכת עם תוצאה "טובה" עלולה לייצר ניתוב לידים שגוי, סיכון רגולטורי ופגיעה בשירות.