מחקר
6 דקות
מ־arXiv cs.AI
BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים
**BotzoneBench הוא בנצ'מרק שמודד יכולות אסטרטגיות של מודלי שפה בצורה יציבה לאורך זמן—באמצעות השוואה לעוגנים קבועים של בוטים מדורגים (AI למשחקים) במקום טורנירי LLM-מול-LLM.** לפי המאמר arXiv:2602.13214v1, ההערכה מכסה 8 משחקים ונשענת על 177,047 זוגות מצב-פעולה, כך שניתן לקבל מדידה “מוחלטת” ולא דירוג שתלוי במאגר מודלים משתנה. לעסקים בישראל זה מתרגם לצורך בהערכה מעוגנת של מערכות החלטה בוואטסאפ וב-CRM: הגדירו תרחישים מדורגים (קל/בינוני/קשה), מדיניות פעולה קבועה (למשל SLA של 5 דקות והסלמה אחרי 2 ניסיונות), ולוגים ב-N8N כדי להשוות מודלים לאורך זמן בצורה הוגנת.
קרא עוד