Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Analysis and visualization of OCR output
Název práce v češtině: Analýza a vizualizace výstupu systému optického rozpoznávání znaků
Název v anglickém jazyce: Analysis and visualization of OCR output
Klíčová slova: optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka
Klíčová slova anglicky: Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing
Akademický rok vypsání: 2020/2021
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.06.2020
Datum zadání: 22.06.2020
Datum potvrzení stud. oddělením: 26.04.2022
Datum a čas obhajoby: 12.09.2022 09:00
Datum odevzdání elektronické podoby:22.07.2022
Datum odevzdání tištěné podoby:22.07.2022
Datum proběhlé obhajoby: 12.09.2022
Oponenti: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Zásady pro vypracování
Cílem bakalářské práce je provést statistickou analýzu výstupu vybraného systému optického rozpoznávání znaků (OCR) a vhodně ji vizualizovat. Řešení práce zahrnuje čtyři dílčí cíle:
(1) Shromáždit vícejazyčný vzorek zlatých dat naskenovaných textů a jejich ručních přepisů,
(2) Vybrat konkrétní systém OCR a analyzovat jeho kvalitu na zlatých datech,
(3) Zapojit procedury počítačového zpracování přirozeného jazyka do analýzy výstupu OCR,
(4) Uživatelsky přívětivě vizualizovat výstup OCR a jeho analýzu.
Seznam odborné literatury
- Carrasco, Rafael C. An open-source OCR evaluation tool. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (DATeCH ’14). Association for Computing Machinery, New York, NY, USA, 179–184, 2014.
- Généreux, Michel and Spano, Diego. NLP challenges in dealing with OCR-ed documents of derogated quality. In Proceedings of the Workshop on Replicability and Reproducibility in Natural Language Processing: adaptive methods, resources and software at IJCAI 2015, Buenos Aires, Argentina, 2015.
- Smith, David A. and Cordell, Ryan. A Research Agenda for Historical and Multilingual Optical Character Recognition. Technical report, Northeastern University, 2018.
 
Univerzita Karlova | Informační systém UK