האם פרסונות רפואיות באמת הופכות מודלי שפה גדולים ל'רופאים וירטואליים' אמינים? מחקר חדש שפורסם ב-arXiv חושף פרדוקס מפתיע: בעוד שפרסונות כמו רופא חדר מיון או אחות משפרות ביצועים במצבי חירום, הן עלולות להחמיר טעויות בטיפול ראשוני. החוקרים בדקו כיצד תפקידים מקצועיים וסגנונות אינטראקציה (נועז מול זהיר) משפיעים על דיוק, כיול ובטיחות בקבלת החלטות קליניות. התוצאות מצביעות על השפעות תלויות הקשר שאינן מונוטוניות, מה שמאתגר את ההנחה שפרסונות מבטיחות מומחיות ובטיחות.
המחקר ביצע הערכה שיטתית של פרסונות מבוססות תפקיד במודלי שפה גדולים קליניים, תוך בחינת משימות כמו מיון חולים ובטיחות מטופלים. פרסונות רפואיות הראו שיפור משמעותי במשימות טיפול נמרץ, עם עלייה של כ-20% בדיוק ובקיול. לעומת זאת, בסביבות טיפול ראשוני נצפתה ירידה דומה בביצועים. סגנון האינטראקציה השפיע על נטיית הסיכון ורגישות, אך ההשפעה הייתה תלויה מאוד במודל הספציפי. דירוגים מצטברים של שופטי LLM העדיפו פרסונות רפואיות במקרים קריטיים לבטיחות.
בדיקות אנושיות של רופאים הראו הסכמה בינונית עם שופטי ה-LLM בתאימות לבטיחות (ממוצע כהן κ=0.43), אך רופאים הביעו ביטחון נמוך ב-95.9% מהתגובות לגבי איכות ההיגיון. קוד המחקר זמין בגיטהאב של rsinghlab. הממצאים מדגישים כי פרסונות פועלות כ'פריורים התנהגותיים' שמציגים פשרות תלויות הקשר, ולא הבטחות מוחלטות לבטיחות או מומחיות.
לעסקים ישראליים בתחום הבריאות הדיגיטלית, כמו סטארט-אפים מפתחי AI רפואי, התובנות הללו קריטיות. בישראל, שבה AI משמש כבר למיון חולים בבתי חולים כמו שיבא, פרסונות לא נכונות עלולות להוביל לסיכונים משפטיים ותפעוליים. החברות צריכות לבחון פרסונות ספציפיות למשימות, ולא להסתמך על שיפור אוטומטי.
המחקר מדגיש את הצורך בגישה מדויקת יותר לשילוב פרסונות רפואיות במודלי AI קליניים. מנהלי עסקים צריכים לשקול בדיקות A/B על פרסונות שונות כדי למקסם ביצועים. מה תהיה ההשפעה על כלים כמו ChatGPT במערכת הבריאות?