בקמעונאות הגדולה, ניטור תחזיות מדויק קובע בין רווח להפסד. חוקרים מציגים את Forecast Critic – מערכת אוטומטית מבוססת מודלי שפה גדולים (LLM) שמבקרת תחזיות ומזהה כאלה שנראות לא סבירות. המערכת משתמשת בידע הרחב וביכולות ההיגיון של LLM כדי לשפר יעילות תפעולית ולשמור על שביעות רצון לקוחות. מחקר חדש ב-arXiv בודק אם LLM יכולים להחליף פיקוח אנושי.
המחקר בוחן שלוש שאלות מרכזיות: האם LLM מזהים תחזיות לא סבירות? האם הם משלבים מידע חיצוני לא מובנה? וכיצד ביצועים משתנים בין מודלים? בניסויים סינתטיים ואמיתיים, LLM זיהו שגיאות כמו חוסר התאמה זמנית, אי התאמות מגמות ושגיאות פסגות. המודל הטוב ביותר השיג ציון F1 של 0.88, קרוב לביצועי אדם (0.97).
LLM הצליחו לשלב אותות הקשר לא מובנים, כמו מבצעים קודמים. כשסופקה היסטוריה של מבצעים, הם זיהו פסגות חסרות או שגויות בציון F1 של 0.84. זה מאפשר הערכה מדויקת יותר של סבירות תחזית בהתבסס על נתונים חיצוניים, ללא צורך באימון ספציפי לדומיין.
בנתונים אמיתיים ממאגר M5, המערכת זיהתה תחזיות לא סבירות שבהן מדד sCRPS גבוה ב-10% לפחות מאלו הסבירות. זה מוכיח פוטנציאל יישומי בקמעונאות, שבה תחזיות שגויות פוגעות במבצעים ובמלאי. לעסקים ישראליים, שמתמודדים עם תנודתיות דומה, זה פתרון מדרגי.
Forecast Critic מציע חלופה אוטומטית לניטור ידני, חוסך זמן ומשאבים. עסקים יכולים ליישם אותו לשיפור דיוק תחזיות ולגילוי שגיאות מוקדם. השאלה היא: האם LLM יחליפו אנליסטים בתחום הזה?