מחקר
2 דקות
מ־arXiv cs.AI
Omni-MATH-2: בנצ'מרק מתמטי נקי חושף כשלי שופטי AI
בעידן שבו מודלי שפה גדולים משיגים תוצאות מדהימות במבחנים מתמטיים, הבנצ'מרקים נתקעים בגלל רעש. Omni-MATH-2, גרסה מתוקנת, מפחיתה רעש ומגלה כשלי שופטים. קראו עכשיו על ההשלכות לעסקים.
קרא עוד