מחקר
5 דקות
מ־arXiv cs.AI
LogicGraph בוחן מסלולי הוכחה מרובים ב-LLM
**LogicGraph הוא בנצ'מרק חדש שבודק אם מודלי שפה יודעים להגיע לאותה מסקנה דרך כמה מסלולי הוכחה תקפים, ולא רק לייצר תשובה נכונה אחת.** לפי המחקר, מודלים מתקדמים נוטים להינעל מוקדם על מסלול יחיד, והפער בכיסוי החלופות גדל ככל שעומק ההסקה עולה. עבור עסקים בישראל זו נקודה קריטית: כשמחברים מודל שפה ל-WhatsApp Business API, ל-Zoho CRM ול-N8N, כל החלטה מפעילה פעולה עסקית אמיתית. לכן לפני שמטמיעים סוכן AI בשירות, ביטוח, נדל"ן או מרפאה, צריך למדוד לא רק דיוק אלא גם כיסוי של חלופות, טיפול בחריגים ובקשות הבהרה.
קרא עוד