תקרת הדיוק 70%: מדד FACTS של גוגל מזהיר את עולם ה-AI
מחקר

תקרת הדיוק 70%: מדד FACTS של גוגל מזהיר את עולם ה-AI

צוות FACTS של גוגל ו-Kaggle משיקים חבילת בדיקות חדשה שחושפת כשלים בדיוק מודלי AI – אף מודל לא עובר 70%

AI
אוטומציות AI
4 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • Gemini 3 Pro מוביל במדד FACTS עם 68.8%, אך אף מודל לא חצה 70%.

  • פער גדול בין חיפוש (עד 83%) לרב-מודלי (<50%) – אל תסמכו על זיכרון פנימי.

  • חיבור ל-RAG חובה להגברת דיוק בייצור.

  • רב-מודלי אינו מוכן להפקה אוטונומית ללא פיקוח.

  • מדד FACTS: סטנדרט חדש לבחירת מודלי AI ארגוניים.

בעידן שבו בינה מלאכותית מניעה החלטות עסקיות קריטיות בתחומי משפט, פיננסים ורפואה, חסר כלי סטנדרטי לבדיקת דיוק התשובות. רוב הבנצ'מרקים בודקים יכולות כמו כתיבת קוד או שימוש בכלים, אך מתעלמים משאלות עובדתיות – במיוחד כשמדובר בתמונות או גרפים. היום זה משתנה: צוות FACTS של גוגל יחד עם Kaggle השיקו את חבילת מדד FACTS, מסגרת מקיפה לבדיקת 'עובדתיות'. המחקר החדש מגדיר עובדתיות בשני מישורים: 'עובדתיות הקשרית' – הצמדה לנתונים נתונים, ו'עובדתיות ידע עולמי' – שחזור מידע מזיכרון או רשת. תוצאות ראשוניות מראות כי אף מודל, כולל Gemini 3 Pro המוביל, GPT-5 או Claude 4.5 Opus, לא חצה את רף 70%. Gemini 3 Pro מוביל עם 68.8%, בעוד אחרים נמוכים יותר. זה סימן ברור למנהלי טכנולוגיה: עידן 'סמוך אך בדוק' רחוק מלהסתיים. חבילת FACTS כוללת ארבעה מבחנים המדמים כשלים אמיתיים: מבחן פרמטרי (ידע פנימי) – שאלות טריוויה מזיכרון האימון; מבחן חיפוש (שימוש בכלי) – סינתזה ממידע חי מהרשת; מבחן רב-מודלי (ראייה) – פרשנות גרפים ותמונות ללא הזיות; ומבחן עיגון v2 (הקשר) – היצמדות לטקסט נתון. גוגל פרסמה 3,513 דוגמאות ציבוריות, ו-Kaggle מחזיקה סט פרטי נגד זיהום נתונים. בלוח הניצחון, Gemini 3 Pro מוביל עם 68.8% ממוצע, כולל 83.8% בחיפוש ו-46.1% ברב-מודלי. Gemini 2.5 Pro שני עם 62.1%, GPT-5 שלישי ב-61.8%. הפער הבולט הוא בין ידע פנימי (פרמטרי) לבין חיפוש: Gemini 3 Pro מצטיין בחיפוש (83.8%) אך נמוך יותר בפרמטרי (76.4%). זה מאמת את הארכיטקטורה הארגונית הנוכחית: אל תסמוך על זיכרון המודל לעובדות קריטיות. במיוחד מדאיגים תוצאות הרב-מודלי: אף מודל לא עבר 50%, כולל 46.9% ל-Gemini 2.5 Pro המוביל. המבחנים כללו קריאת גרפים, דיאגרמות וזיהוי עצמים. זה אזהרה למנהלי מוצר: AI רב-מודלי אינו מוכן עדיין להפקת נתונים אוטונומית, כמו סריקת חשבוניות או ניתוח גרפים פיננסיים ללא פיקוח אנושי. למפתחי RAG (Retrieval-Augmented Generation), מדד החיפוש קריטי. התוצאות מוכיחות כי חיבור לכלי חיפוש או מסד נתונים וקטורי הוא חובה להגעה לרמות דיוק ייצור. בעת רכש מודלים, בדקו תת-מדדים ספציפיים: grounding לקוחות תמיכה (Gemini 2.5 Pro עדיף כאן), חיפוש לעוזרי מחקר, ורב-מודלי – בזהירות יתרה. מדד FACTS צפוי להפוך לסטנדרט רכש ארגוני. צוות FACTS מציין כי כל המודלים נמוכים מ-70%, מה שמשאיר מקום להתקדמות. כרגע, תכננו מערכות בהנחה ששליש מהפעמים המודל עלול לטעות. מה המשמעות לעסקים ישראליים? חברות כמו וויקס או צ'ק פוינט יכולות להשתמש במדד זה לבחירת כלים מדויקים יותר. האם הגיע הזמן לשדרג את אסטרטגיית ה-AI שלכם? קראו את המחקר המלא והתחילו לבדוק.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות
מחקר
2 דקות

מדענים פיתחו עוזר AI לידיים ביוניות מתקדמות

ידיים ביוניות מתקדמות נזנחות על ידי חצי מהמשתמשים בגלל קושי בשליטה. חוקרים מאוניברסיטת יוטה פיתחו עוזר AI שמקל על התהליך ומחקה רפלקסים טבעיים. קראו את המאמר המלא כדי להבין את ההשלכות העסקיות.

Jake GeorgeUniversity of Utah
קרא עוד