Analysis and visualization of OCR output
Název práce v češtině: | Analýza a vizualizace výstupu systému optického rozpoznávání znaků |
---|---|
Název v anglickém jazyce: | Analysis and visualization of OCR output |
Klíčová slova: | optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka |
Klíčová slova anglicky: | Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.06.2020 |
Datum zadání: | 22.06.2020 |
Datum potvrzení stud. oddělením: | 26.04.2022 |
Datum a čas obhajoby: | 12.09.2022 09:00 |
Datum odevzdání elektronické podoby: | 22.07.2022 |
Datum odevzdání tištěné podoby: | 22.07.2022 |
Datum proběhlé obhajoby: | 12.09.2022 |
Oponenti: | RNDr. Jiří Mírovský, Ph.D. |
Zásady pro vypracování |
Cílem bakalářské práce je provést statistickou analýzu výstupu vybraného systému optického rozpoznávání znaků (OCR) a vhodně ji vizualizovat. Řešení práce zahrnuje čtyři dílčí cíle:
(1) Shromáždit vícejazyčný vzorek zlatých dat naskenovaných textů a jejich ručních přepisů, (2) Vybrat konkrétní systém OCR a analyzovat jeho kvalitu na zlatých datech, (3) Zapojit procedury počítačového zpracování přirozeného jazyka do analýzy výstupu OCR, (4) Uživatelsky přívětivě vizualizovat výstup OCR a jeho analýzu. |
Seznam odborné literatury |
- Carrasco, Rafael C. An open-source OCR evaluation tool. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (DATeCH ’14). Association for Computing Machinery, New York, NY, USA, 179–184, 2014.
- Généreux, Michel and Spano, Diego. NLP challenges in dealing with OCR-ed documents of derogated quality. In Proceedings of the Workshop on Replicability and Reproducibility in Natural Language Processing: adaptive methods, resources and software at IJCAI 2015, Buenos Aires, Argentina, 2015. - Smith, David A. and Cordell, Ryan. A Research Agenda for Historical and Multilingual Optical Character Recognition. Technical report, Northeastern University, 2018. |