Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Analysis and visualization of OCR output
Thesis title in Czech: Analýza a vizualizace výstupu systému optického rozpoznávání znaků
Thesis title in English: Analysis and visualization of OCR output
Key words: optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka
English key words: Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing
Academic year of topic announcement: 2020/2021
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 22.06.2020
Date of assignment: 22.06.2020
Confirmed by Study dept. on: 26.04.2022
Date and time of defence: 12.09.2022 09:00
Date of electronic submission:22.07.2022
Date of submission of printed version:22.07.2022
Date of proceeded defence: 12.09.2022
Opponents: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Guidelines
Cílem bakalářské práce je provést statistickou analýzu výstupu vybraného systému optického rozpoznávání znaků (OCR) a vhodně ji vizualizovat. Řešení práce zahrnuje čtyři dílčí cíle:
(1) Shromáždit vícejazyčný vzorek zlatých dat naskenovaných textů a jejich ručních přepisů,
(2) Vybrat konkrétní systém OCR a analyzovat jeho kvalitu na zlatých datech,
(3) Zapojit procedury počítačového zpracování přirozeného jazyka do analýzy výstupu OCR,
(4) Uživatelsky přívětivě vizualizovat výstup OCR a jeho analýzu.
References
- Carrasco, Rafael C. An open-source OCR evaluation tool. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (DATeCH ’14). Association for Computing Machinery, New York, NY, USA, 179–184, 2014.
- Généreux, Michel and Spano, Diego. NLP challenges in dealing with OCR-ed documents of derogated quality. In Proceedings of the Workshop on Replicability and Reproducibility in Natural Language Processing: adaptive methods, resources and software at IJCAI 2015, Buenos Aires, Argentina, 2015.
- Smith, David A. and Cordell, Ryan. A Research Agenda for Historical and Multilingual Optical Character Recognition. Technical report, Northeastern University, 2018.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html