מודלי ראייה-שפה (VLMs) מציגים ביצועים מרשימים בסיווג zero-shot של צילומי רנטגן חזה, אך מדדים סטנדרטיים שטוחים נכשלים בהבחנה בין שגיאות קלות לשגיאות חמורות מבחינה קלינית. מחקר חדש שפורסם ב-arXiv בוחן כיצד לכמת שגיאות מופשטות (abstraction errors) באמצעות טקסונומיות רפואיות היררכיות. השימוש במדדים היררכיים מאפשר זיהוי טעויות חוצות-ענפים, בדומה לטעויות קטסטרופליות שמסכנות חולים. לפי הדיווח, מודלים מתקדמים מראים ביצועים גבוהים במדדים שטוחים, אך חשופים לפערים משמעותיים בהתאמה לטקסונומיות קליניות.
המחקר מבצע benchmark של מספר מודלי VLMs מובילים באמצעות מדדים היררכיים ומציג את המושג 'שגיאות מופשטות קטסטרופליות' (Catastrophic Abstraction Errors) לכימות טעויות חמורות. התוצאות חושפות חוסר התאמה מהותי בין הביצועים הגבוהים במדדים רגילים לבין ההבנה ההיררכית הנדרשת ברפואה. לדוגמה, מודל עלול לטעות בזיהוי מחלה קרובה מבחינה סמנטית אך שונה בהשלכותיה הקליניות, מה שמסכן מטופלים. החוקרים מדגישים כי מדדים כאלה חיוניים להערכה מדויקת יותר של מודלי AI רפואיים.
כדי להתמודד עם הבעיה, החוקרים מציעים שתי גישות עיקריות: סף סיכון מוגבל (risk-constrained thresholding) וכוונון עדין מודע-טקסונומיה (taxonomy-aware fine-tuning) עם embeddings רדיאליים. שיטות אלה מצמצמות שגיאות מופשטות חמורות לרמה נמוכה מ-2% תוך שמירה על ביצועים תחרותיים במדדים סטנדרטיים. הפתרונות מתמקדים בשיפור הייצוג ברמת ההתאמה ההיררכית, מה שמגביר את הבטיחות בשימוש קליני.
הממצאים מדגישים את החשיבות של הערכה היררכית ושל התאמת ייצוגים לטקסונומיות רפואיות לקראת פריסה בטוחה יותר של VLMs במערכת הבריאות. בהקשר ישראלי, שוק ה-AI הרפואי צומח במהירות, וטכנולוגיות כאלה יכולות לשפר אבחון בצילומי חזה בבתי חולים מקומיים. השוואה למודלים חלופיים מראה כי גישות סטנדרטיות אינן מספיקות.
למנהלי עסקים בתחום הבריאות והטכנולוגיה, המחקר קורא לשלב מדדים היררכיים בפיתוח ובבדיקות. האם מודלי ה-VLM שלכם מוכנים לאתגר הקליני האמיתי? כדאי לבחון כוונון טקסונומי כבר עכשיו כדי למנוע סיכונים.