מחקר
4 דקות
מ־arXiv cs.AI
LiveMedBench: בנצ'מרק רפואי חדשני למודלי שפה גדולים
LiveMedBench חושף חולשות במודלי LLM ברפואה עקב זיהום נתונים. בנצ'מרק חדשני זה מבטיח בדיקות אמיתיות ומגלה הצלחה נמוכה של 39.2% במודלים הטובים ביותר. חיוני לעסקי בריאות בישראל.
קרא עוד