בעידן שבו מודלי שפה גדולים (LLMs) הם לב ליבה של אינטליגנציה מלאכותית, שינוי הידע שלהם דורש בדרך כלל אימון מחדש יקר. מחקר חדש מציג את MeG – שיטת עריכת ידע המונית מבוססת יצירת משקלות דינמיים, שמאפשרת שינויים נרחבים בעלות נמוכה. השיטה מצמידה נוירון משקל דינמי לשכבות ספציפיות במודל ומשתמשת במודל דיפיוז'ן כדי לייצר את המשקלות בהתאם לשאילתת הקלט. כך, נוירון אחד בלבד מספיק לעריכות בקנה מידה גדול, תוך שמירה על מדדי אמינות, כללייה ומקומיות גבוהים.
עריכת ידע (KE) היא תחום שחוקר כיצד לשנות ידע ספציפי ב-LLMs ללא צורך באימון מחדש מלא. כיום, עריכות בקנה מידה גדול סובלות מבעיות: אמינות נמוכה (השינוי לא נשמר), חוסר כללייה (פוגע בתשובות דומות) ומקומיות ירודה (משפיע על ידע לא קשור). המחקר החדש, שפורסם ב-arXiv, מציע את MeG כפתרון אלה. השיטה מוסיפה נוירון דינמי שמשקלותיו נוצרים באופן מותנה על ידי מודל דיפיוז'ן, בהתאם לשאילתה הרצויה.
בניסויים, MeG שיפרה משמעותית את הביצועים בהשוואה לשיטות קיימות. היא הגבירה את מדד האמינות, הכללייה והמקומיות, עם שיפור דרמטי במקומיות – עלייה של נקודות אחוזים רבות בערכים המוחלטים. זה מאפשר עריכות נרחבות מבלי לפגוע בשאר יכולות המודל, מה שהופך אותה ליעילה במיוחד למודלים גדולים.
לעומת שיטות מסורתיות שדורשות שינויים כבדים או אימון נוסף, MeG מציעה גישה מינימליסטית: נוירון אחד דינמי. זה רלוונטי במיוחד לעסקים ישראליים שמשתמשים ב-LLMs להתאמה אישית, כמו בתחומי פינטק או בריאות, שבהם עדכון ידע ספציפי חיוני. השיטה מפחיתה עלויות ומסכונים, ומאפשרת התאמה מהירה לשינויים בשוק.
לסיכום, MeG פותחת דלת לעידן חדש של עריכת ידע גמישה ב-LLMs. מנהלי טכנולוגיה צריכים לשקול אימוץ שיטות כאלה כדי לשמור על יתרון תחרותי. האם זה הצעד הבא לעבר מודלים 'חיים' שמתעדכנים בעצמם?