בעידן שבו דגמי שפה גדולים לקול (Speech LLMs) מנהלים שיחות טבעיות, הם נתקלים בקושי גדול בזיהוי ישויות חדשות כמו שמות אנשי קשר, רשימות השמעה או מונחי מקצוע ספציפיים. שינויים תרבותיים, טרנדים מתפתחים ונתוני משתמשים אישיים יוצרים אתגר זה, בעוד שהידע הסטטי מהאימון מגביל את היכולות. פתרונות קיימים כמו פרומפטינג סובלים מבעיות מדרגיות, ו-GEC גורם להזיות. מחקר חדש מציג פתרון מהפכני.
הפרומפטינג, שמזריק הקשר ישירות לקלט, נתקל במגבלות חלון הקשר, זמן השהיה מוגבר והתופעה של 'אבדן באמצע'. גישה חלופית, תיקון שגיאות גנרטיבי (GEC), מנסה לתקן תמלילים לאחר מעבד אך סובל מעודף תיקונים והמצאת ישויות שלא נאמרו. לפי המחקר, שיטות אלה אינן מדרגיות ומסכנות את הדיוק.
כאן נכנס LOGIC – Logit-Space Integration for Contextual Biasing, מסגרת יעילה הפועלת ישירות בשכבת הפענוח. בניגוד לפרומפטינג, LOGIC מפריד בין הזרקת ההקשר לעיבוד הקלט, ומבטיח מורכבות זמן קבועה ביחס לאורך הפרומפט. השיטה משלבת הטיות הקשר במרחב הלוגיטים, ומאפשרת זיהוי מדויק של ישויות ספציפיות ללא פגיעה בביצועים הכלליים.
בניסויים נרחבים עם דגם Phi-4-MM ב-11 שפות, LOGIC השיגה הפחתה ממוצעת של 9% בשיעור שגיאות זיהוי ישויות (Entity WER), עם עלייה זניחה של 0.30% בשיעור אזעקות שווא. התוצאות מדגישות את היתרונות שלה בשפות רבות, כולל עברית פוטנציאלית, ומצביעות על עליונות על שיטות קודמות.
למנהלי עסקים בתחום הטכנולוגיה, LOGIC פותחת דלתות ליישומים מתקדמים יותר כמו עוזרים קוליים אישיים ומערכות שירות לקוחות. השיטה מאפשרת התאמה מהירה לטרנדים מקומיים ולנתונים ארגוניים, ומשפרת את חוויית המשתמש. כיצד תשלבו זאת במוצריכם הבא?