בעולם שבו מודלי שפה גדולים (LLM) זקוקים לנתונים איכותיים בכתב הוראות כדי להתאים לתחומים ספציפיים, הפקת מערכי נתונים כאלה ממקורות לא מובנים כמו הקלטות מוקדי שיחה היא אתגר מרכזי. כעת, מחקר חדש מציג את Call2Instruct – צינור אוטומטי מקצה לקצה שפותר בעיה זו ומאפשר יצירת נתוני Q&A איכותיים. השיטה הזו יכולה לשנות את הדרך שבה עסקים מנצלים נתוני שירות לקוחות לאימון AI מתקדם.
הצינור מתחיל בעיבוד אודיו: זיהוי דוברים (diarization), הסרת רעשים והעתקה אוטומטית. לאחר מכן, עיבוד טקסטואלי כולל ניקוי, נרמול והסתרה של פרטים אישיים. השלב הבא הוא חילוץ סמנטי של דרישות הלקוחות ותגובות הנציגים באמצעות וקטורי embeddings, ומשם ביצוע התאמה באמצעות חיפוש סמנטי כדי ליצור זוגות Q&A מוכנים. כל התהליך אוטומטי לחלוטין ומבטיח נתונים נקיים ומדויקים.
השיטה הוכחה בפועל על ידי יצירת מערך נתונים המיועד לכוונון עדין (Instruct Fine-Tuning). החוקרים ביצעו כוונון מוצלח של מודל Llama 2 7B על בסיס הנתונים שנוצרו, מה שמאמת את הערך המעשי והיעילות של הצינור. קוד המקור פורסם לציבור, מה שמאפשר שחזור ומחקר נוסף.
המשמעות העסקית גדולה במיוחד עבור חברות ישראליות עם מוקדי שירות גדולים, כמו בנקים וחברות טלקום. במקום לבזבז משאבים על סימון נתונים ידני, ניתן להפוך שעות של שיחות לקורפוס אימון שישפר בוטים לשירות לקוחות. זה מצמצם עלויות ומאיץ פיתוח AI מותאם אישית.
לסיכום, Call2Instruct פותח דלתות ליצירת מערכות AI יעילות יותר למשימות Q&A בשירות לקוחות. מנהלי עסקים צריכים לשקול אימוץ שיטות כאלה כדי להפיק תועלת מנתונים קיימים. מה תהיה ההשפעה על מוקדי השירות שלכם?