שילוב OCR ו-AI: צינור להעשרת מאגרי נתונים היסטוריים
מחקר

שילוב OCR ו-AI: צינור להעשרת מאגרי נתונים היסטוריים

חוקרים מאוניברסיטת ליידן מפתחים שיטה אוטומטית להדיגיטציה מדויקת של מסמכים עתיקים – עם דיוק של 94% בקישור נתונים

3 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • OCR השיג CER 1.08% ו-WER 5.06% על מסמכים היסטוריים.

  • חילוץ JSON בדיוק 63-65% עם תיקון AI גנרטיבי.

  • קישור רשומות ב-94% (מאויש) ו-81% (אוטומטי).

  • מתמודד עם שונות עיצוב ומונחים.

  • תורם להומניטיס דיגיטליות ועיבוד ארכיונים.

שילוב OCR ו-AI: צינור להעשרת מאגרי נתונים היסטוריים

  • OCR השיג CER 1.08% ו-WER 5.06% על מסמכים היסטוריים.
  • חילוץ JSON בדיוק 63-65% עם תיקון AI גנרטיבי.
  • קישור רשומות ב-94% (מאויש) ו-81% (אוטומטי).
  • מתמודד עם שונות עיצוב ומונחים.
  • תורם להומניטיס דיגיטליות ועיבוד ארכיונים.
בעידן הדיגיטלי, שבה נתונים היסטוריים הופכים לנכס אסטרטגי, חוקרים מציגים צינור אוטומטי חדשני המשלב OCR, פרשנות מבוססת LLM ומקשר מאגרי נתונים. המחקר, שפורסם ב-arXiv, מתמקד בספרים 'Leidse hoogleraren en lectoren 1575-1815' שנכתבו בין 1983 ל-1985 ומכילים ביוגרפיות של פרופסורים ומנהלי אוניברסיטת ליידן. השאלה המרכזית: כיצד לבנות צינור שיהפוך תמונות מסמכים היסטוריים לנתונים מובנים תוך התאמה למאגרים קיימים? הפתרון מבטיח מהפכה בהומניטיס דיגיטליות. הצינור מתחיל בטכנולוגיית OCR מתקדמת, שהשיגה שיעור שגיאת תווים (CER) של 1.08% ושיעור שגיאת מילים (WER) של 5.06%. לאחר מכן, מודלי AI גנרטיביים מפרשים את הטקסט המופק ומבנים אותו כקבצי JSON. דיוק החילוץ עמד על 63% מהטקסט של OCR ישירות, ועל 65% מבוסס OCR מאויש. החוקרים מדווחים כי ה-AI הגנרטיבי מתקן חלק משגיאות ה-OCR, מה שמשפר את האיכות הכוללת של הנתונים המופקים. שלב המפתח הוא אלגוריתם קישור רשומות, שחיבר בין קבצי JSON מאוישים למאגרים קיימים בדיוק של 94%, ובין קבצי JSON מ-OCR בדיוק של 81%. השיטה מתמודדת עם אתגרים כמו שונות בעיצוב הדפים והבדלי מונחים בין מקורות. לפי הדיווח, הצינור הזה מאפשר עיבוד אוטומטי של מסמכים כתובים במכונת כתיבה היסטורית. המשמעות של המחקר גדולה עבור חוקרי היסטוריה ומנהלי ארכיונים: הוא מציע כלי אוטומטי שחוסך זמן ומשאבים בהמרת מסמכים פיזיים לדיגיטליים. בהשוואה לשיטות מסורתיות, השילוב של OCR ו-AI מגביר את הדיוק ומאפשר שילוב עם מאגרי נתונים איכותיים קיימים. זה רלוונטי במיוחד למוסדות כמו ספריות לאומיות, שמתמודדים עם כמויות עצומות של חומרים לא דיגיטליים. הצינור החדש פותח אפשרויות לעתיד: הרחבה למסמכים בשפות שונות, שיפור דיוק באמצעות מודלים מתקדמים יותר, והשפעה על תחומים כמו גנאלוגיה ומחקר חברתי. עבור מנהלי עסקים בתחום הטכנולוגיה, זהו אות להשקיע בכלים דומים להעשרת נתונים פנימיים. מה תעשו כדי להפוך את הארכיון שלכם לנכס דיגיטלי?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
HarmTransform: הסוואת שאילתות מזיקות בדיון רב-סוכנים
מחקר
3 דקות

HarmTransform: הסוואת שאילתות מזיקות בדיון רב-סוכנים

בעידן שבו דגמי שפה גדולים (LLM) שולטים בשיחות דיגיטליות, מנגנוני הבטיחות שלהם חסומים בפני תכנים מסוכנים גלויים – אך נכשלים מול הסוואות מתוחכמות. HarmTransform מציעה פתרון חדשני. קראו עכשיו על המסגרת שמשפרת אימון בטיחות.

HarmTransformLLMs
קרא עוד
סוכני AI מבוססי LLM משנים ניהול אנרגיה בבניינים חכמים
מחקר
2 דקות

סוכני AI מבוססי LLM משנים ניהול אנרגיה בבניינים חכמים

חוקרים פיתחו מסגרת לסוכני AI מבוססי LLM לניהול אנרגיה בבניינים חכמים. המערכת כוללת שלושה מודולים: תפיסה, שליטה מרכזית ואקשן. בדיקות הראו דיוק גבוה בשליטה במכשירים (86%) וניתוח אנרגיה (77%). קראו עכשיו על ההשלכות העסקיות.

LLMBEMSarXiv
קרא עוד