בעולם שבו תינוקות בני 6 חודשים כבר מבינים את קיום עצמים מאחורי מחיצות, חוקרים ממטא פיתחו מודל AI שמדמה אינטואיציה פיזיקלית דומה. V-JEPA, ראשי תיבות של Video Joint Embedding Predictive Architecture, לומד את חוקי הפיזיקה מהעולם האמיתי מסרטוני וידאו יומיומיים, ללא הנחות מוקדמות.
מודלים מסורתיים עובדים ב'מרחב הפיקסלים', שם כל פיקסל שווה חשיבות, מה שגורם להסחות דעת כמו תנועת עלים במקום זיהוי מכוניות. V-JEPA משתמש בייצוגים סמויים (latent representations) – מידע מופשט שמתמקד בעיקר: צורה, צבע, תנועה. הארכיטקטורה כוללת שני מקודדים (encoders) ומחזה (predictor): המקודד הראשון מעבד פריטות חלקיות עם מסכות, השני פריטות שלמות, והמחזה מנבא את הייצוגים הסמויים.
תהליך האימון כולל חסימת חלקים מסרטונים והשוואת ניבויים למציאות. בתוצאות, V-JEPA הצליח ב-98% במבחן IntPhys, שמבדיל אירועים פיזיקליים אפשריים מבלתי אפשריים – הרבה מעל מודלים פיקסליים. המודל אף 'מתפלא': שגיאת ניבוי גבוהה באירועים כמו כדור שלא חוזר אחרי מחסום.
יאן לקון, ראש מחקר AI במטא, פיתח את JEPA הקודמת לתמונות. עכשיו, V-JEPA 2 עם 1.2 מיליארד פרמטרים, מאומן על 22 מיליון סרטונים, מיושם ברובוטיקה: התאמה ב-60 שעות בלבד מאפשרת תכנון פעולות. אך אתגרים נותרים: זיכרון קצר כמו דג זהב, חוסר הערכת אי ודאות.
לעסקים ישראליים, זה מבשר עתיד של רובוטים אוטונומיים חכמים יותר – ממכוניות ללא נהג ועד אוטומציה תעשייתית. מומחים כמו מיכה היילברון מאוניברסיטת אמסטרדם משבחים: 'זה מלמד פיזיקה אינטואיטיבית ללא ידע מולד'. קרל פריסטון מציין צורך בשיפור אי ודאות.
V-JEPA מדגים כיצד AI יכולה ללמוד כמו ילדים: מתוך תצפיות פשוטות. זה צעד משמעותי לעבר בינה מלאכותית שמבינה את העולם הפיזי, עם השלכות עסקיות רחבות.