בעידן שבו רכבים אוטונומיים מתקרבים לרחובות, אתגר מרכזי נותר: כיצד לבדוק ול訓練 מודלי AI אג'נטיים שמקבלים החלטות בזמן אמת? חוקרים משיקים את AgentDrive, משבצת פתוחה חדשה הכוללת 300,000 תרחישי נהיגה שנוצרו על ידי מודלי שפה גדולים (LLM). המשבצת מאפשרת אימון, כוונון ובדיקה של סוכנים אוטונומיים בתנאים מגוונים, ומתמודדת עם מחסור בבנצ'מרקים בטוחים ומבניים בקנה מידה גדול. (72 מילים)
AgentDrive בונה מרחב תרחישים מפורק על פני שבעה צירים אורתוגונליים: סוג תרחיש, התנהגות נהג, סביבה, פריסת כביש, מטרה, רמת קושי וצפיפות תנועה. תהליך הייצור משלב צינורית prompt-to-JSON המונעת על ידי LLM, שמייצרת מפרטים עשירים סמנטית המוכנים לסימולציה. כל תרחיש מאומת מול אילוצים פיזיים ומבניים, עובר סימולציות, חישוב מדדי בטיחות תחליפיים ותיוג תוצאות על בסיס כללים. כך נוצר מאגר איכותי ומגוון לשיפור תפיסה, תכנון והחלטה. (98 מילים)
לצד הבנצ'מרק הסימולטיבי, AgentDrive מציגה את AgentDrive-MCQ – מבחן שאלות רב-ברירה עם 100,000 שאלות על פני חמש ממדי חשיבה: פיזיקה, מדיניות, היברידי, תרחיש והשוואתי. הערכה בקנה מידה גדול של 50 מודלי LLM מובילים חושפת כי מודלים קנייניים מובילים מצטיינים בחשיבה הקשרית ומדיניות, אך מודלים פתוחים מתקדמים סוגרים את הפער בחשיבה מבנית ומבוססת פיזיקה. התוצאות מדגישות התקדמות מהירה בתחום. (92 מילים)
משמעות AgentDrive עבור תעשיית הרכב האוטונומי עצומה: היא מספקת כלי סטנדרטי לאימון סוכנים בטוחים יותר, ומאפשרת השוואה הוגנת בין מודלים. בישראל, שבה חברות כמו Mobileye מובילות, המשבצת יכולה לשמש לפיתוח מערכות נהיגה מתקדמות המותאמות לכבישים מקומיים. היא מדגישה את חשיבות נתונים איכותיים ובדיקות מקיפות להפחתת סיכונים. (85 מילים)
עם שחרור המאגר, קוד הבדיקה וחומרים נלווים ב-GitHub, מפתחי AI יכולים להתחיל לבדוק את מודליהם עוד היום. מה זה אומר לעסקים? הזדמנות להשקיע בטכנולוגיות אג'נטיות בטוחות שמקדמות אוטומציה. האם AgentDrive תהפוך לסטנדרט חדש? (58 מילים)