בעידן שבו מודלי שפה גדולים ומודלים רב-מודליים כובשים את עולם המחקר המדעי, חוקרים חושפים פער עצום: הדגמים מצטיינים בקריאה בסיסית, אך נכשלים בגילויים יצירתיים. HiSciBench, בנצ'מרק היררכי חדשני, בודק חמש רמות של אינטליגנציה מדעית – מליטרסיה מדעית ועד גילוי מדעי – ומאפשר אבחון מדויק של חולשות המודלים. הבנצ'מרק מכיל 8,735 דוגמאות מתומצתות מ-6 תחומים מרכזיים: מתמטיקה, פיזיקה, כימיה, ביולוגיה, גיאוגרפיה ואסטרונומיה. הוא תומך בקלט רב-מודלי כולל טקסט, משוואות, תרשימים וטבלאות, ומאפשר הערכה חוצת-שפות. זהו כלי משנה משחקים למפתחי AI שרוצים לבנות דגמים אמינים יותר.
HiSciBench מחולק לחמש רמות היררכיות שמשקפות את תהליך העבודה המדעי המלא: רמה 1 (ליטרסיה מדעית) בודקת הבנת ידע בסיסי; רמה 2 (ניתוח ספרות) מתמקדת בפירוק מאמרים; רמה 3 (שאלות מבוססות ספרות) דורשת תשובות מדויקות על בסיס טקסטים; רמה 4 (יצירת סקירות ספרות) בונה סיכומים מקיפים; ורמה 5 (גילוי מדעי) מאתגרת את היכולת לייצר תובנות חדשות. החוקרים אספו את הדוגמאות בקפידה כדי לשקף את המורכבות הרב-תחומית של מחקר אמיתי, בניגוד לבנצ'מרקים קודמים שמתמקדים במשימות צרות.
בדיקות מקיפות על דגמי מובילות כמו GPT-5, DeepSeek-R1 ומספר מערכות רב-מודליות חשפו פערים דרמטיים: הדגמים משיגים עד 69% דיוק במשימות ליטרסיה בסיסיות, אך הציון צונח ל-25% באתגרי גילוי. HiSciBench מספק מסגרת תלוית-תלות שמאפשרת זיהוי מדויק של שלבי הכשל, מה שמסייע לפתח מודלים חזקים יותר בכל שלב. הבנצ'מרק ישוחרר לציבור הרחב, ויאפשר למפתחים ולחוקרים להעריך ולשפר את יכולותיהם.
בהשוואה לבנצ'מרקים קודמים, HiSciBench מצטיין בגישתו ההוליסטית: הוא לא בודק יכולות מבודדות אלא את הזרימה הטבעית של חשיבה מדעית. זה רלוונטי במיוחד לישראל, שבה חברות AI ומכוני מחקר משקיעים רבות בפיתוח כלים מדעיים. הבנצ'מרק מדגיש את הצורך במודלים שמתמודדים עם נתונים רב-מודליים ומשלבים ידע רב-תחומי, מה שיכול להאיץ חדשנות במעבדות מקומיות.
HiSciBench מציע תובנות פעולה למנהלי עסקים וטכנולוגים: בדקו את המודלים שלכם בכל הרמות כדי לזהות חולשות מוקדם. עם שחרורו הציבורי, הוא יהפוך לסטנדרט חדש בהערכת אינטליגנציה מדעית. האם המודלים שלכם מוכנים לאתגר?