מהו אופק הזמן בגרף METR?

זמן אנושי למשימות שמודל AI מצליח בהן ב-50%, בעיקר קידוד.

האם הגרף מנבא AGI?

לא, הוא מראה מגמה אך מוגבל לקידוד ולא לעולם אמיתי.

מה השגיאה הנפוצה?

חשיבה שהוא מודד זמן פעולה עצמאי של AI, לא זמן אנושי.

ניתוח

הגרף הכי מוסבר-שגוי בבינה מלאכותית

גרף METR חושף קצב אקספוננציאלי להתקדמות AI, אבל רבים מפרשים אותו באופן שגוי – מה באמת הוא מודד?

צוות אוטומציות AI

5 בפברואר 2026

4 דקות קריאה

מבוסס על כתבה שלMIT Technology Review ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

Key Takeaways

גרף METR מראה הכפלת 'אופק זמן' כל 7 חודשים במשימות קידוד.
Claude Opus 4.5: יכולת למשימות של 2-20 שעות אנושיות, עם שגיאות.
המגמה אקספוננציאלית אך מוגבלת לקידוד, לא לעולם אמיתי.
METR מדגישה סיכונים ומגבלות, אך מאמינה במגמה.
עבור עסקים: הכינו את צוותי הפיתוח לשינוי מהיר.

הגרף הכי מוסבר-שגוי בבינה מלאכותית

גרף METR מראה הכפלת 'אופק זמן' כל 7 חודשים במשימות קידוד.
Claude Opus 4.5: יכולת למשימות של 2-20 שעות אנושיות, עם שגיאות.
המגמה אקספוננציאלית אך מוגבלת לקידוד, לא לעולם אמיתי.
METR מדגישה סיכונים ומגבלות, אך מאמינה במגמה.
עבור עסקים: הכינו את צוותי הפיתוח לשינוי מהיר.

בעולם הבינה המלאכותית, כל השקת מודל שפה גדול חדש מחברות כמו OpenAI, גוגל או Anthropic מעוררת מתח רב. כולם ממתינים לעדכון הגרף האיקוני של METR, ארגון מחקר ללא מטרות רווח ששמו מייצג Model Evaluation & Threat Research. הגרף הזה, שפורסם לראשונה במרץ האחרון, מציג התקדמות אקספוננציאלית ביכולות AI, והדגמים החדשים עוקפים אפילו את המגמה הזו. לדוגמה, Claude Opus 4.5 של Anthropic, שהושק בנובמבר, הוכיח יכולת לבצע משימות שדורשות מבני אדם כחמש שעות – שיפור עצום מעבר לתחזיות.

בדצמבר פרסמה METR כי Opus 4.5 מסוגל לבצע באופן עצמאי משימה שתופסת אדם חמש שעות, מה שגרם לחוקרי בטיחות באנטרופיק לשנות כיווני מחקר ואף להביע חשש ציבורי. אולם, ההערכות מגיעות עם רצועות שגיאה גדולות: ייתכן שהמודל מצליח רק במשימות של שעתיים, או עד 20 שעות. "יש דרכים רבות שבהן אנשים קוראים יותר מדי לתוך הגרף", אומרת סידני וון ארקס, חברת צוות טכני ב-METR. הגרף אינו מודד יכולות AI כלליות, אלא בעיקר משימות קידוד, כאשר קושי נמדד בזמן שמפתחים אנושיים לוקחים.

כדי לבנות את הגרף, אספה METR מאגר משימות מקודדות, החל משאלות רב-ברירה ועד אתגרים מורכבים. בני אדם ביצעו אותן כדי לקבוע זמן בסיס אנושי – משניות עד שעות. כשהודרכו מודלי שפה גדולים על המשימות, חושב "אופק הזמן" שלהם: הנקודה שבה הם מצליחים ב-50% מהמשימות המקבילות לזמן אנושי מסוים. כך, מודלים מתקדמים מגיעים לאופק של שעות, והמגמה מראה הכפלה כל שבעה חודשים בערך: 9 שניות ב-2020, 4 דקות ב-2023, 40 דקות בסוף 2024.

הגרף הפך לסמל, אך סובל מפרשנויות שגויות נפוצות. רבים חושבים שהמספרים מייצגים זמן פעולה עצמאי של המודל, אך הם מודדים זמן אנושי למשימות שהמודל מצליח בהן. תומאס קווה, אחד ממחברי המאמר המקורי, נאלץ לתקן זאת שוב ושוב. מומחים כמו איניולובה דבורה ראג'י שואלים אם זמן הוא מדד אמין לקושי, שכן משימות ארוכות לא תמיד קשות יותר. וון ארקס הודתה כי גם היא ספקנית בהתחלה, אך הנתונים שכנעו אותה במגמה.

הגרף זכה לתהודה רבה, כולל בסיפור מדע בדיוני ויראלי AI 2027 שחזה סופר-אינטליגנציה עד 2030, ובפוסט של Sequoia Capital שטען כי AGI יגיע ב-2026. אולם, הוא מתמקד במשימות קידוד "מסודרות", לא בעולם האמיתי המלא בבלגן. מחקרים של METR מראים כי AI מקודד עלול להאט מהנדסים, והמגמה קיימת גם בתחומים אחרים אך פחות פורמלית.

למרות מגבלותיו, הגרף מספק כלי מדעי חשוב להבנת התקדמות AI. מומחים כמו דניאל קאנג וגארי מרקוס משבחים את העבודה המדוקדקת. עבור מנהלי עסקים ישראלים, זה אומר לשקול כיצד AI ישנה תהליכי פיתוח תוכנה: האם להשקיע בכלי קידוד מתקדמים שמקצרים זמני עבודה? המגמה מצביעה על פוטנציאל אוטומציה גבוה, אך עם סיכונים ש-METR בודקת.

METR נוסדה להערכת סיכוני AI מתקדם, ועובדת עם חברות על בדיקות מפורטות. הצוות מודה בפגמים – הגרף אינו מושלם – אך מאמין שהמגמה תימשך. מה זה אומר לעתיד? מנהלים צריכים להתכונן לשינוי מהיר, לבחון כלים חדשים ולשלב בדיקות בטיחות. האם הגרף הזה ישנה את חוקי המשחק בעסקים שלכם?

שאלות ותשובות

FAQ

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של MIT Technology Review. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־MIT Technology Review

כל הכתבות מ־MIT Technology Review

אימוץ טכנולוגיות בינה מלאכותית: למה דרום קוריאה מובילה את המהפכה?

ניתוח

לפני 20 שעות

5 דקות

מ־MIT Technology Review

אימוץ טכנולוגיות בינה מלאכותית: למה דרום קוריאה מובילה את המהפכה?

מאמר זה מנתח את סוד ההצלחה של דרום קוריאה באימוץ טכנולוגיות בינה מלאכותית (AI) והפיכתה לבירת הטכנולוגיה הגלובלית. בזמן שבמערב גוברים החששות הציבוריים, בקוריאה רושמים שיעורי תמיכה יוצאי דופן של אזרחים וממשל כאחד. הניתוח מציג את האסטרטגיה הממשלתית האגרסיבית, את החיבור הכלכלי לענקיות השבבים סמסונג ו-SK Hynix, ומצביע על ההשלכות והלקחים החשובים עבור עסקים בישראל המעוניינים לשלב כלי אוטומציה ובינה מלאכותית בצורה בטוחה וחוקית.

Pew Research Center Ministry of Culture, Sports, and Tourism Korea Chamber of Commerce and Industry

קרא עוד

אבטחת סוכני בינה מלאכותית: גוגל דיפמיינד מזהירה מאינטראקציית סוכנים

חדשות

לפני 5 ימים

4 דקות

מ־MIT Technology Review

אבטחת סוכני בינה מלאכותית: גוגל דיפמיינד מזהירה מאינטראקציית סוכנים

חברת Google DeepMind הכריזה על הקמת קרן מחקר בגובה 10 מיליון דולר בשיתוף Schmidt Sciences וגורמים נוספים, במטרה לבחון את סכנות האבטחה של מערכות מרובות סוכני AI. המעבר המהיר לפריסת סוכנים אוטונומיים המסוגלים לקבל החלטות ולתקשר זה עם זה ללא פיקוח אנושי יוצר מחלקת סיכונים חדשה לחלוטין – החל מהונאות מבוססות הזרקת הנחיות (Prompt Injections) ועד למתקפות סייבר מתואמות. מומחי אבטחה ישראלים, בהם רפאל אנג'ל מחברת Akeyless, מדגישים כי סוכני AI שוברים את הנחות היסוד המסורתיות של הגנת הסייבר ומחייבים מעבר מיידי למודל אבטחה של 'אמון אפס' (Zero Trust) כדי להגן על נכסים ארגוניים ומידע רגיש.

Google DeepMind Rohin Shah Schmidt Sciences

קרא עוד

שילוב סוכני AI בסביבת העבודה: מהפכת הצוותים ההיברידיים

ניתוח

9 ביוני 2026

5 דקות

מ־MIT Technology Review

שילוב סוכני AI בסביבת העבודה: מהפכת הצוותים ההיברידיים

דוח חדש של MIT Technology Review Insights חושף כי אימוץ סוכני AI בארגונים צפוי לזנק ב-300% בשנתיים הקרובות. השינוי יוביל להגדרה מחדש של כ-75% מהתפקידים עד שנת 2030, תוך מעבר של עובדים אנושיים למשימות יצירתיות וניהוליות בעלות ערך מוסף גבוה. החלפת משימות אדמיניסטרטיביות שגרתיות בסוכנים אוטונומיים, כפי שהדגימה ענקית הטכנולוגיה Wipro עם קיצור זמני תגובה מ-48 שעות ל-5 שניות, משנה את יחסי העבודה ומחייבת מנהלים לפתח מיומנויות הובלה חדשות, ניהול סיכונים חכם והקפדה על חוק הגנת הפרטיות הישראלי.

Wipro Ateet Jayaswal MIT Technology Review Insights

קרא עוד

פרצת אבטחה בסוכני בינה מלאכותית: הלקח מהפריצה לאינסטגרם

ניתוח

5 ביוני 2026

4 דקות

מ־MIT Technology Review

פרצת אבטחה בסוכני בינה מלאכותית: הלקח מהפריצה לאינסטגרם

פרצת אבטחה חמורה שהתגלתה לאחרונה בסוכן התמיכה מבוסס הבינה המלאכותית של חברת Meta מדגישה את הסיכונים של מתקפות הנדסה חברתית ישירות על מערכות אוטומטיות. תוקפים הצליחו להשתלט על חשבונות אינסטגרם בולטים, כולל חשבון הבית הלבן של אובמה לשעבר, פשוט על ידי בקשה ישירה מסוכן ה-AI לשנות את כתובת הדואר האלקטרוני המשויכת אליהם. במקום להשתמש בקוד מתוחכם, התוקפים ניצלו את נטייתו של מודל השפה הגדול לרצות את המשתמש ולבצע את המשימה ללא אימות בסיסי. האירוע מדגיש כי פריצה לסוכני AI פועלת לעיתים בשיטות פשוטות להפליא, ומחייבת עסקים המטמיעים פתרונות אוטומציה לבנות חומות הגנה קשיחות ואימותים דו-שלביים.

Meta 404 Media Instagram

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

מערכות ניטור AI לקשישים: המהפכה שמסעירה את ענף הטיפול הביתי

ניתוח

לפני 27 דקות

5 דקות

מ־Wired

מערכות ניטור AI לקשישים: המהפכה שמסעירה את ענף הטיפול הביתי

ההתקדמות הטכנולוגית מביאה את מהפכת ה-AI ישירות אל בתיהם של בני הגיל השלישי. מערכות ניטור אקוסטיות וויזואליות כמו Sensi.ai, שגייסה כ-100 מיליון דולר ומשולבת בכ-80% מרשתות הטיפול הגדולות בארה"ב, מציעות פתרון למספר גדל והולך של אתגרים ומחסור חמור במטפלים סיעודיים. בעזרת חיישנים ומכשירי מכ"ם, המערכות מזהות נפילות, שיעולים ושינויים בשגרה היומית ומזעיקות עזרה בזמן אמת. עם זאת, השימוש במערכות אלו מעורר דילמות אתיות קשות סביב פגיעה בפרטיות, הסכמה מדעת והפיכת המרחב הביתי המוגן לאזור מעקב קבוע. עבור עסקים וארגוני בריאות בישראל, האתגר הגדול יהיה לאזן בין היעילות התפעולית לבין עמידה בחוק הגנת הפרטיות הישראלי.

Sensi.ai Earzz Ally Cares

קרא עוד

ניתוח

לפני 20 שעות

5 דקות

מ־MIT Technology Review

אימוץ טכנולוגיות בינה מלאכותית: למה דרום קוריאה מובילה את המהפכה?

Pew Research Center Ministry of Culture, Sports, and Tourism Korea Chamber of Commerce and Industry

קרא עוד

גל הפיטורים בהייטק בגלל בינה מלאכותית: מציאות או תירוץ נוח?

ניתוח

אתמול

4 דקות

מ־TechCrunch

גל הפיטורים בהייטק בגלל בינה מלאכותית: מציאות או תירוץ נוח?

גל הפיטורים בהייטק בגלל בינה מלאכותית מעורר סערה בשנת 2026. בעוד חברות ענק כמו Meta ו-Block מדווחות על רווחי שיא ומפטרות עשרות אלפי עובדים תוך ציון ה-AI כגורם המרכזי, מומחים ומשקיעים כמו מארק אנדריסן טוענים כי מדובר בתירוץ קוסמטי שנועד לכסות על גיוס היתר מתקופת הקורונה. במקביל, יזמי AI מציגים עשיית הון דמיונית דרך הנפקות ענק של חברות כמו Cerebras ו-SpaceX. בישראל, ההשלכות שונות: חוק הגנת הפרטיות והתרבות המקומית מובילים חברות לאמץ אוטומציה וסוכני AI ככלי להעצמת עובדים קיימים ושיפור הפריון, ולא כפתרון מהיר לפיטורים המוניים.

TrueUp Challenger, Gray & Christmas Block

קרא עוד

הנפקות של חברות AI: מפת הדרכים החדשה של ענקיות הטכנולוגיה

ניתוח

אתמול

4 דקות

מ־TechCrunch

הנפקות של חברות AI: מפת הדרכים החדשה של ענקיות הטכנולוגיה

עידן חדש החל בשוק ההון הציבורי עם המעבר ממועדון ה-FAANG הוותיק לעידן ה-MANGOS (הכולל את Meta, Anthropic, NVIDIA, Google, OpenAI, SpaceX). הגל הנוכחי, המובל על ידי הנפקת הענק של SpaceX וההכנות של OpenAI ו-Anthropic, מעביר מאות מיליארדי דולרים מתחומי הצרכנות והסטרימינג ישירות לעבר מעבדות בינה מלאכותית עמוקה ותשתיות מחשוב מתקדמות. המגמה הזו מחוללת גלי הדף רחבים, שמשפיעים אפילו על תעשיות מסורתיות כמו יצרניות הרכב פורד וג'נרל מוטורס המנתבות משאבים לאספקת חשמל לדאטה סנטרים של AI. עבור עסקים ישראליים, המהפכה התשתיתית הזו מחייבת מעבר מהיר לאימוץ פתרונות אוטומציה וניהול מידע חכמים כדי לשמור על יתרון תחרותי.

SpaceX OpenAI Anthropic

קרא עוד