בעידן הדיגיטלי המהיר, ציון אלפי חיבורי מבחני בגרות ארציים דורש פתרון מהיר ומדויק. מחקר חדש מאסטוניה מראה כי דגמי שפה גדולים (LLM) מאפשרים הערכה אוטומטית עקבית של תשובות פתוחות, כולל תוכן וארגומנטציה – תחומים שדרשו בעבר שיפוט אנושי. זה רלוונטי במיוחד למבחנים ארציים גדולים, כמו אלה באסטוניה, שמתקרבת למערכת בחינות אלקטרונית מלאה. (68 מילים)
המחקר בדק שתי מערכות נתונים גדולות של חיבורי ניסיון ממבחני סיום תיכון של שתי קבוצות לאומיות מלאות באסטוניה. החוקרים יישמו את גיליון הציון הרשמי מבוסס תוכנית הלימודים והשוו בין ציונים של LLM, עיבוד שפה סטטיסטי (NLP) לבין ציוני פאנל אנושי. התוצאות מראות כי ההערכה האוטומטית משיגה ביצועים דומים לאלו של המדרגים האנושיים ונופלת בטווח הציונים האנושיים. (92 מילים)
בנוסף, נבדקו סיכוני הטיה, הזרקת פרומפטים וכושר הכתיבה של LLM ככותבי חיבורים. הממצאים מצביעים על כך שהערכה אוטומטית מבוססת גיליון ציון, עם פיקוח אנושי, מתאימה להערכת כתיבה בסיכון גבוה. המערכת מייצרת פרופילי תת-ציונים מפורטים לשיפור הוראה והכנה למבחנים. (85 מילים)
המחקר רלוונטי לחברות דיגיטליות מתקדמות כמו אסטוניה, אך גם לישראל, שבה מערכות חינוך דיגיטליות מתפתחות. LLM מאפשרים יישום בקנה מידה לאומי, אפילו בשפות קטנות, תוך שמירה על פיקוח אנושי ועמידה בתקנים חינוכיים. זה פותח דלת לשיפור איכות ההערכה והמשוב האישי. (78 מילים)
האם ישראל מוכנה לאמץ הערכה אוטומטית כזו במבחני בגרות? המחקר מספק ראיות ליישום בטוח ומדויק, שיכול להקל על מורים ולהעשיר למידה. עכשיו הזמן לבחון יישום מקומי. (52 מילים)