בעידן שבו מודלי שפה גדולים (LLM) ומודלי חזון-שפה (VLM) כובשים את עולם הבינה המלאכותית, חוקרים מציגים את Semore – מסגרת חדשנית ללמידה מחוזקת חזותית (visual RL) שמשפרת ייצוגים סמנטיים ותנועתיים. השיטה מתמודדת עם אתגרים קיימים בשיטות מבוססות LLM, שמתמקדות בעיקר בהנחיית מדיניות בקרה אך סובלות מייצוגים מוגבלים של רשתות הגב. Semore משתמשת בזרמי RGB כדי לחלץ מידע עשיר יותר, ומבטיחה ביצועים טובים יותר. (72 מילים)
Semore מציגה גב כפול-נתיב (dual-path backbone) שמחלץ במקביל ייצוגים סמנטיים ותנועתיים מזרמי תמונה. השיטה מנצלת VLM עם ידע שכל יומיומי כדי לשלוף מידע מפתח מהתצפיות, תוך שימוש ב-CLIP מקדים להשגת התאמה בין טקסט לתמונה. כך, היא משלבת ייצוגים אמיתיים בגב הרשת. גישה זו מאפשרת הבנה עמוקה יותר של הסביבה החזותית, בניגוד לשיטות מסורתיות. (85 מילים)
לשילוב יעיל של הייצוגים לקבלת החלטות, Semore מאמצת גישה של פיקוח נפרד שמנחה חילוץ סמנטי ותנועתי במקביל, תוך אפשרות לאינטראקציה טבעית ביניהם. שיטות קיימות מתמקדות בהנחיה ברמת מדיניות, אך Semore פועלת ברמת התכונות (feature level), מה שמאפשר הסתגלות ויעילות גבוהה יותר. כל הקודים זמינים לשחרור, מה שמקל על שכפול ומחקר נוסף. (78 מילים)
השיטה מציגה יתרונות משמעותיים בהשוואה לשיטות מתקדמות אחרות (SOTA), עם יכולת הסתגלות טובה יותר בסביבות חזותיות מורכבות. עבור עסקים ישראליים בתחום הבינה המלאכותית, Semore יכולה לשפר יישומים כמו רובוטיקה אוטונומית ורכבים עצמאיים, שבהם למידה מחוזקת חיונית. השילוב של ידע שכל VLM עם ניתוח תנועה פותח דלתות ליישומים פרקטיים. (82 מילים)
לסיכום, Semore מסמנת קפיצה קדימה בלמידה מחוזקת חזותית, ומציעה כלים למהנדסי AI להתמודד עם אתגרי ייצוגים מוגבלים. כיצד תשלבו את Semore בפרויקטים שלכם? קוד פתוח זמין כעת – הזדמנות למחקר ישראלי חדשני. (52 מילים)