מחקר
5 דקות
מ־arXiv cs.AI
COMPOSITE-STEM: מבחן חדש שמראה עד כמה סוכני AI עוד רחוקים
**COMPOSITE-STEM הוא בנצ'מרק חדש שמודד עד כמה סוכני AI מסוגלים לבצע משימות מדעיות מורכבות, ולא רק להחזיר תשובה קצרה שנראית נכונה.** לפי המאמר ב-arXiv, הבנצ'מרק כולל 70 משימות שנכתבו בידי חוקרי דוקטורט בפיזיקה, ביולוגיה, כימיה ומתמטיקה, והמודל המוביל השיג 21% בלבד. מבחינת עסקים בישראל, זו תזכורת חשובה: אסור למדוד מערכות AI רק לפי דמו או תחושת בטן. אם אתם מחברים AI ל-WhatsApp, ל-Zoho CRM או ל-N8N, אתם צריכים לבדוק תהליך שלם — דיוק, תיעוד, העברה לאדם ועמידה בדרישות פרטיות. הלקח המרכזי: הטמעה חכמה מתחילה במדידה קשוחה, פיילוט מוגבל ובקרת איכות.
קרא עוד