חיפוש מאמרים אקדמיים הוא משימה יומיומית קריטית לחוקרים, אך שיטות מסורתיות נתקעות בשאילתות מורכבות ומשתנות. עכשיו, PaperScout – סוכן אוטונומי חדשני – משנה את חוקי המשחק. הסוכן הזה הופך את חיפוש המאמרים לתהליך קבלת החלטות רציף, שבו הוא מחליט באופן דינמי מתי, איך וכיצד להפעיל כלי חיפוש והרחבה בהתבסס על ההקשר שנצבר. לפי המחקר, PaperScout מתמודד טוב יותר עם שאילתות מורכבות מאשר זרימות עבודה קשיחות.
PaperScout פועל כסוכן אוטונומי שמבצע החלטות רצופות, בניגוד לזרימות עבודה סטטיות. הוא בוחן את ההקשר הנצבר ומחליט אם להפעיל חיפוש חדש או להרחיב תוצאות קיימות. אתגר מרכזי באימון סוכנים כאלה הוא התאמת שיטות למידה מחוזקת (RL) למשימות רב-מהלכיות. שיטות RL סטנדרטיות, המיועדות למשימות חד-מהלכיות, סובלות מחוסר התאמה בגרנולריות: אופטימיזציה ברמת טוקנים לא תואמת אינטראקציות ברמת רצף, מה שגורם להקצאת אשמה רועשת.
כדי לפתור זאת, החוקרים מציגים את Proximal Sequence Policy Optimization (PSPO) – שיטת אופטימיזציה ברמת רצף שמודעת לתהליך. PSPO מיישרת את האופטימיזציה עם האינטראקציה בין הסוכן לסביבה, ומאפשרת אימון יעיל יותר. ניסויים מקיפים על סטים סינתטיים ובנצ'מרקים אמיתיים מראים כי PaperScout מנצח baselines של זרימות עבודה ו-RL חזקות בשיפור זיכרון (recall) וברלוונטיות.
החדשנות של PaperScout בולטת בהשוואה לכלים קיימים, שמסתמכים על זרימות קבועות מראש. הסוכן מאפשר גמישות להתמודדות עם שאילתות מורכבות ומשתנות, מה שחשוב במיוחד לחוקרים ישראלים בתחומי AI והיי-טק שמחפשים מידע עדכני במהירות. השיטה יכולה לשפר כלי חיפוש במערכות ארגוניות, כמו בסביבות מחקר תעשייתיות.
עבור מנהלי טכנולוגיה ועסקים בישראל, PaperScout מדגים כיצד סוכנים אוטונומיים יכולים לייעל תהליכי מידע. עם פרסום המאמר ב-arXiv, כדאי לעקוב אחר התפתחויות PSPO שישפיעו על פיתוח AI מתקדם. האם סוכנים כאלה ישנו את אופן עבודת החוקרים?