בעידן הדיגיטלי, שבה נתונים היסטוריים הופכים לנכס אסטרטגי, חוקרים מציגים צינור אוטומטי חדשני המשלב OCR, פרשנות מבוססת LLM ומקשר מאגרי נתונים. המחקר, שפורסם ב-arXiv, מתמקד בספרים 'Leidse hoogleraren en lectoren 1575-1815' שנכתבו בין 1983 ל-1985 ומכילים ביוגרפיות של פרופסורים ומנהלי אוניברסיטת ליידן. השאלה המרכזית: כיצד לבנות צינור שיהפוך תמונות מסמכים היסטוריים לנתונים מובנים תוך התאמה למאגרים קיימים? הפתרון מבטיח מהפכה בהומניטיס דיגיטליות.
הצינור מתחיל בטכנולוגיית OCR מתקדמת, שהשיגה שיעור שגיאת תווים (CER) של 1.08% ושיעור שגיאת מילים (WER) של 5.06%. לאחר מכן, מודלי AI גנרטיביים מפרשים את הטקסט המופק ומבנים אותו כקבצי JSON. דיוק החילוץ עמד על 63% מהטקסט של OCR ישירות, ועל 65% מבוסס OCR מאויש. החוקרים מדווחים כי ה-AI הגנרטיבי מתקן חלק משגיאות ה-OCR, מה שמשפר את האיכות הכוללת של הנתונים המופקים.
שלב המפתח הוא אלגוריתם קישור רשומות, שחיבר בין קבצי JSON מאוישים למאגרים קיימים בדיוק של 94%, ובין קבצי JSON מ-OCR בדיוק של 81%. השיטה מתמודדת עם אתגרים כמו שונות בעיצוב הדפים והבדלי מונחים בין מקורות. לפי הדיווח, הצינור הזה מאפשר עיבוד אוטומטי של מסמכים כתובים במכונת כתיבה היסטורית.
המשמעות של המחקר גדולה עבור חוקרי היסטוריה ומנהלי ארכיונים: הוא מציע כלי אוטומטי שחוסך זמן ומשאבים בהמרת מסמכים פיזיים לדיגיטליים. בהשוואה לשיטות מסורתיות, השילוב של OCR ו-AI מגביר את הדיוק ומאפשר שילוב עם מאגרי נתונים איכותיים קיימים. זה רלוונטי במיוחד למוסדות כמו ספריות לאומיות, שמתמודדים עם כמויות עצומות של חומרים לא דיגיטליים.
הצינור החדש פותח אפשרויות לעתיד: הרחבה למסמכים בשפות שונות, שיפור דיוק באמצעות מודלים מתקדמים יותר, והשפעה על תחומים כמו גנאלוגיה ומחקר חברתי. עבור מנהלי עסקים בתחום הטכנולוגיה, זהו אות להשקיע בכלים דומים להעשרת נתונים פנימיים. מה תעשו כדי להפוך את הארכיון שלכם לנכס דיגיטלי?