בעידן שבו מודלי שפה גדולים (LLMs) משתלטים על מחקר מדעי, עולה השאלה: האם הם מסוגלים באמת לגלות תובנות חדשות? מאמר חדש ב-arXiv מציג מסגרת הערכה חדשה בשם SDE, שחושפת פערים משמעותיים. הבנצ'מרק מתמקד בתרחישים מחקריים אמיתיים מביולוגיה, כימיה, חומרים ופיזיקה, ומבחן את היכולת של הדגמים לא רק לענות על שאלות, אלא להניע תהליך גילוי מלא. (72 מילים)
מסגרת SDE נבנתה על ידי מומחים בתחומים אלה, שתכננו פרויקטי מחקר אמיתיים ופירקו אותם לתרחישים מודולריים. השאלות נלקחות מתרחישים אלה, וההערכה מתבצעת בשני שלבים: דיוק ברמת שאלה על פריטים קשורים לתרחיש, וביצועים ברמת פרויקט – שם הדגם חייב להציע השערות ניתנות לבדיקה, לתכנן סימולציות או ניסויים, ולפרש תוצאות. לפי הדיווח, הבנצ'מרק הזה שונה מבנצ'מרקי מדע סטנדרטיים, שמתמקדים רק בידע דה-קונטקסטואלי. (98 מילים)
בדיקות על דגמי LLMs מתקדמים מראות פערי ביצועים עקביים לעומת בנצ'מרקי מדע כלליים. יש תשואה פוחתת מהגדלת גודל הדגם ויכולות החשיבה, וחולשות שיטתיות משותפות לדגמים מובילים מספקים שונים. שינויים גדולים בביצועים בין תרחישי מחקר מובילים לבחירת הדגם הטוב ביותר שונה לכל פרויקט, מה שמעיד שכל ה-LLMs הנוכחיים רחוקים מ'סופר-אינטליגנציה' מדעית כללית. (92 מילים)
למרות זאת, LLMs מראים הבטחה רבה במגוון פרויקטי גילוי מדעי, אפילו במקרים שבהם ציוני תרחישים נמוכים. זה מדגיש את תפקיד החקירה המונחית והמקריות בתהליך הגילוי. המסגרת SDE מספקת בנצ'מרק ניתן לשחזור להערכת LLMs בהקשר גילוי, ומציעה דרכים מעשיות לשיפורם לכיוון גילוי מדעי אמיתי. בהשוואה לבנצ'מרקים קיימים, SDE בודקת יכולות איטרטיביות כמו יצירת השערות ופרשנות תצפיות. (88 מילים)
למנהלי עסקים וחוקרים ישראלים, הממצאים האלה מצביעים על הצורך בשילוב אנושי חזק לצד LLMs במחקר. כדאי לבחון את SDE כדי לבדוק דגמים ספציפיים לפרויקטים מקומיים, כמו בפיתוח תרופות או חומרים מתקדמים. מה תהיה ההשפעה על תעשיית ההייטק הישראלית? קראו את המאמר המלא ובדקו אם הדגמים שלכם מוכנים למחקר אמיתי. (68 מילים)