בעולם שבו בינה מלאכותית כובשת משחקי לוח ומשחקי וידאו, עדיין חסרים בנצ'מרקים מאתגרים שיבחנו את גבולותיה. OpenGuanDan, בנצ'מרק חדש שפורסם ב-arXiv, מציג פתרון: סימולציה יעילה של גואן דאן – משחק קלפים סיני פופולרי ל-4 שחקנים על פני סבבים רבים. הפרויקט מאפשר הערכה מקיפה של סוכני AI מבוססי למידה וכללים, ומדגיש את הצורך במחקר נוסף בתחום קבלת ההחלטות הרב-סוכנית.
OpenGuanDan מביא אתגרים משמעותיים: מידע חלקי, מרחבי מידע ופעולות עצומים, מטרה מעורבת של שיתוף פעולה ותחרות, קבלת החלטות ארוכת טווח, מרחבי פעולות משתנים והרכב צוותים דינמי. מאפיינים אלה הופכים אותו לשדה ניסוי תובעני לשיטות קבלת החלטות אינטליגנטיות קיימות. בנוסף, API עצמאי לכל שחקן מאפשר אינטראקציה בין-אדם-AI ושילוב עם מודלי שפה גדולים (LLM).
החוקרים ביצעו שתי הערכות: תחרויות זוגיות בין כל סוכני גואן דאן AI, ומשחקים בין אדם ל-AI. התוצאות מראות כי סוכנים מבוססי למידה עולים בהרבה על אלה מבוססי כללים, אך עדיין לא מגיעים לביצועים על-אנושיים. ממצאים אלה מדגישים את הפער שנותר בתחום קבלת ההחלטות הרב-סוכנית.
לישראל, שבה חברות AI כמו Mobileye ו-Wiz מובילות בחדשנות, OpenGuanDan רלוונטי במיוחד. הוא יכול לשמש לבדיקת אלגוריתמים רב-סוכניים בתעשיות כמו גיימינג, פיננסים ולוגיסטיקה, שבהן שיתוף פעולה תחרותי נפוץ. הפרויקט זמין בגיטהאב, מה שמקל על חוקרים ומפתחים מקומיים להתנסות בו.
OpenGuanDan פותח דלת למחקר מתקדם יותר ב-AI רב-סוכן. מנהלי עסקים וחוקרים ישראלים צריכים לשקול לשלב אותו בפיתוחים שלהם – האם תהיה ישראל הראשונה להגיע לביצועים על-אנושיים?