Adaptive Handwritten Text Recognition
Název práce v češtině: | Adaptivní rozpoznávání ručně psaného textu |
---|---|
Název v anglickém jazyce: | Adaptive Handwritten Text Recognition |
Klíčová slova: | Rozpoznávání ručně psaného textu|ručně psaný text|OCR|HTR|CTC |
Klíčová slova anglicky: | Handwritten Text Recognition|Handwritten Text|OCR|HTR|CTC |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Milan Straka, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 20.04.2021 |
Datum zadání: | 22.04.2021 |
Datum potvrzení stud. oddělením: | 04.05.2021 |
Datum a čas obhajoby: | 02.09.2021 09:00 |
Datum odevzdání elektronické podoby: | 22.07.2021 |
Datum odevzdání tištěné podoby: | 22.07.2021 |
Datum proběhlé obhajoby: | 02.09.2021 |
Oponenti: | Mgr. Pavel Straňák, Ph.D. |
Zásady pro vypracování |
Handwritten text recognition is an actively researched area with a large number of possible applications, like digitizing old chronicles. However, existing systems still deliver suboptimal results.
The goal of the thesis is to design a prototype of Czech handwritten text recognition pipeline using deep neural networks. A suitable starting point could be an OCR-like architecture combining convolutions, recurrent neural networks and the connection temporal classification loss. Because larger quantity of annotated training data is not available, additional approaches like synthetic data generation or self-training will need to be examined. |
Seznam odborné literatury |
- A. Graves et al.: Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks https://www.cs.toronto.edu/~graves/icml_2006.pdf
- Tesseract OCR https://github.com/tesseract-ocr/tesseract |