בעידן שבו בני שיח AI צריכים להבין לא רק מילים אלא גם טון, פרוסודיה ועוצמה רגשית, מודלים קיימים נכשלים בשמירה על הקשר רגשי בדיאלוגים רב-תוריים. חוקרים מציגים את ES4R, מסגרת חדשנית לדור תגובות אמפתיות מבוססות דיבור. המערכת מדגישה מודלים רגשיים מובנים לפני עיבוד הדיבור, במקום להסתמך על למידה סמויה או פיקוח רגשי ישיר. כך, ES4R מבטיחה הבנה עמוקה יותר של מצבים רגשיים.
החדשנות המרכזית ב-ES4R היא מנגנון תשומת לב דו-רמתי: רמה ראשונה לוכדת מצבים רגשיים ברמת התור, והשנייה עוקבת אחר דינמיקות רגשיות ברמת הדיאלוג כולו. ייצוגים רגשיים אלה משולבים עם משמעות טקסטואלית באמצעות תשומת לב חוצה-מודלית מונחית דיבור. גישה זו מחזקת את הקוהרנטיות ההקשרית ומשמרת מידע פרלינגוויסטי עשיר, בניגוד למודלים שמסתמכים על תמלול ASR או קידוד סמוי שמחליש רגשות.
לשם יצירת פלט דיבור אמפתי, ES4R משתמשת באסטרטגיית בחירת אסטרטגיה מבוססת אנרגיה ובמיזוג סגנון. שיטות אלה מאפשרות סינתזה דיבורית שמתאימה את הטון והפרוסודיה לתגובה הרגשית הנכונה. לפי החוקרים, ES4R עולה על מודלים מתחרים חזקים בהערכות אוטומטיות ובדיקות אנושיות, ומציגה עמידות גבוהה עם גרעיני LLM שונים.
המשמעות של ES4R עולה בקנה אחד עם מגמות AI בישראל, שבהן חברות כמו Mobileye ו-Wiz משלבות AI רגשי במוצרי צ'טבוטים ועוזרים וירטואליים. מסגרת זו יכולה לשפר יישומים מקומיים בתמיכת לקוחות, טיפול נפשי דיגיטלי וחינוך מותאם אישית, תוך התאמה לתרבות הדיבור העברית.
עבור מנהלי עסקים ישראלים, ES4R מדגישה את הצורך בשילוב מודלים רגשיים מתקדמים כדי להעלות את שביעות רצון הלקוחות. כיצד תיישמו זאת במוצרי ה-AI שלכם? קראו את המחקר המלא ב-arXiv כדי להתקדם.