Proiectul comun al Laboratorului Național pentru Patrimoniul Digital (DH-LAB), care funcționează sub conducerea consorțiului Universității Eötvös Loránd (ELTE), din Budapesta, și al Arhivei Digitale din Transilvania (Digitéka), a fost finalizat cu succes, în cadrul căruia câteva sute de mii de pagini de materiale de presă maghiare din Transilvania au devenita accesibile online, care pot fi conservate pe termen lung prin folosirea unor tehnologii digitale moderne, a anunțat vineri instituția de învățământ superior, într-un comunicat remis Agenţiei de Presă MTI.

Potrivit comunicatului, scopul părților implicate a fost de a ridica la un nou nivel prelucrarea digitală a surselor istorice de presă din Transilvania și, în același timp, de a contribui la cercetarea modernă a patrimoniului cultural în limba maghiară.

În prima etapă a fost efectuată recunoașterea optică a caracterelor (OCR) pe aproximativ 273.000 de pagini de imagini din 26 de ziare istorice din Transilvania.

După aceasta, partenerul a trimis peste 60.000 de pagini, astfel încât au fost procesate un total de 333.492 de pagini de materiale de presă în limba maghiară din Transilvania. Fișierele completate au fost trimise Arhivei Digitale din Transilvania într-un format PDF cu două straturi, cu funcție de căutare, cu un filigran uniform.

În vederea creşterii eficienței proceselor OCR, părțile au dezvoltat împreună – bazându-se pe competențele și infrastructura de cercetare și dezvoltare ale ELTE – un așa-numit sistem de analiză a layout-ului pentru recunoașterea structurală a documentelor. În cadrul acestui proces, anotatorii Arhivei Digitale din Transilvania au procesat 1.007 pagini, care, împreună cu materialul procesat de anotatorii DH-LAB, au dus la o bază de date didactică formată dintr-un total de 4.078 de pagini adnotate.

Acest set de date constituie baza dezvoltării unui sistem de recunoaștere a layout-ului, optimizat special pentru documentele istorice din Transilvania și Ungaria, care îmbunătățește semnificativ acuratețea rezultatelor OCR, se mai arată în comunicat.

Sursa: MTI

Traducerea: Péterfy Tünde

Foto: Kreatív Online

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *


+ 5 = 13

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.