בעידן שבו רכבים אוטונומיים צפויים לשתף פעולה עם נהגים אנושיים בכבישים, עולה השאלה: כיצד ניתן להפוך אותם לאלטרואיסטיים? מחקר חדש מציג גישה חדשנית שבה רכבים אוטונומיים לומדים להעריך את תועלת סביבתם הקרובה בתהליך קבלת ההחלטות. במקום להסתמך על מודלים מוכנים מראש של התנהגות נהגים אנושיים, החוקרים מאפשרים לרכבים ללמוד ישירות מניסיון. זהו צעד משמעותי לקראת סביבה מעורבת של אוטונומיה חלקית.
המחקר מתמקד בבעיית תכנון התמרונים לרכבים אוטונומיים בסביבה מעורבת. החוקרים מציעים מבנה תגמול מבוזר שמעודד התנהגות אלטרואיסטית. הרכבים האוטונומיים לומדים להשפיע על התנהגות הנהגים האנושיים סביבם, תוך שיפור זרימת התנועה והבטיחות הכללית. הם משתמשים בגרסה רב-סוכנית של אלגוריתם Advantage Actor-Critic (A2C) סינכרוני, שמאפשר תיאום בין הסוכנים.
בניגוד לעבודות קודמות שמסתמכות על מודלי התנהגות מפורטים של נהגים אנושיים, הגישה כאן היא end-to-end: הרכבים לומדים את תהליך קבלת ההחלטות של בני האדם רק מהניסיון. זה פותר בעיות אי-ודאות לגבי נכונות השתף פעולה של נהגים אנושיים עם רכבים אוטונומיים. האלגוריתם מאומן כך שהסוכנים מתאמים פעולותיהם ומשפיעים חיובית על הסביבה.
משמעות המחקר גדולה לעולם התחבורה העתידי. בסביבות מעורבות, התנהגות אלטרואיסטית יכולה להפחית עומסי תנועה, למנוע תאונות ולהאיץ את אימוץ הטכנולוגיה. בישראל, שבה כבישים צפופים ופרויקטים של רכבים אוטונומיים מתקדמים, זה רלוונטי במיוחד. החברות המקומיות יכולות לשלב גישות כאלה כדי לשפר בטיחות ציבורית.
המחקר מדגים כיצד למידת מכונה רב-סוכנית יכולה להוביל להתנהגות שיתופית אמיתית בכבישים. עבור מנהלי עסקים בתחום, זהו אות לקדם פיתוחים דומים: לבחון כיצד אלגוריתמים כאלה משפרים ROI בהשקעות בתשתיות חכמות. מה תהיה ההשפעה על עירוניות חכמה?