Analysis and visualization of OCR output
Thesis title in Czech: | Analýza a vizualizace výstupu systému optického rozpoznávání znaků |
---|---|
Thesis title in English: | Analysis and visualization of OCR output |
Key words: | optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka |
English key words: | Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing |
Academic year of topic announcement: | 2020/2021 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 22.06.2020 |
Date of assignment: | 22.06.2020 |
Confirmed by Study dept. on: | 26.04.2022 |
Date and time of defence: | 12.09.2022 09:00 |
Date of electronic submission: | 22.07.2022 |
Date of submission of printed version: | 22.07.2022 |
Date of proceeded defence: | 12.09.2022 |
Opponents: | RNDr. Jiří Mírovský, Ph.D. |
Guidelines |
Cílem bakalářské práce je provést statistickou analýzu výstupu vybraného systému optického rozpoznávání znaků (OCR) a vhodně ji vizualizovat. Řešení práce zahrnuje čtyři dílčí cíle:
(1) Shromáždit vícejazyčný vzorek zlatých dat naskenovaných textů a jejich ručních přepisů, (2) Vybrat konkrétní systém OCR a analyzovat jeho kvalitu na zlatých datech, (3) Zapojit procedury počítačového zpracování přirozeného jazyka do analýzy výstupu OCR, (4) Uživatelsky přívětivě vizualizovat výstup OCR a jeho analýzu. |
References |
- Carrasco, Rafael C. An open-source OCR evaluation tool. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (DATeCH ’14). Association for Computing Machinery, New York, NY, USA, 179–184, 2014.
- Généreux, Michel and Spano, Diego. NLP challenges in dealing with OCR-ed documents of derogated quality. In Proceedings of the Workshop on Replicability and Reproducibility in Natural Language Processing: adaptive methods, resources and software at IJCAI 2015, Buenos Aires, Argentina, 2015. - Smith, David A. and Cordell, Ryan. A Research Agenda for Historical and Multilingual Optical Character Recognition. Technical report, Northeastern University, 2018. |