Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Adaptive Handwritten Text Recognition
Název práce v češtině: Adaptivní rozpoznávání ručně psaného textu
Název v anglickém jazyce: Adaptive Handwritten Text Recognition
Klíčová slova: Rozpoznávání ručně psaného textu|ručně psaný text|OCR|HTR|CTC
Klíčová slova anglicky: Handwritten Text Recognition|Handwritten Text|OCR|HTR|CTC
Akademický rok vypsání: 2020/2021
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Milan Straka, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 20.04.2021
Datum zadání: 22.04.2021
Datum potvrzení stud. oddělením: 04.05.2021
Datum a čas obhajoby: 02.09.2021 09:00
Datum odevzdání elektronické podoby:22.07.2021
Datum odevzdání tištěné podoby:22.07.2021
Datum proběhlé obhajoby: 02.09.2021
Oponenti: Mgr. Pavel Straňák, Ph.D.
Zásady pro vypracování
Handwritten text recognition is an actively researched area with a large number of possible applications, like digitizing old chronicles. However, existing systems still deliver suboptimal results.

The goal of the thesis is to design a prototype of Czech handwritten text recognition pipeline using deep neural networks. A suitable starting point could be an OCR-like architecture combining convolutions, recurrent neural networks and the connection temporal classification loss. Because larger quantity of annotated training data is not available, additional approaches like synthetic data generation or self-training will need to be examined.
Seznam odborné literatury
- A. Graves et al.: Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks https://www.cs.toronto.edu/~graves/icml_2006.pdf

- Tesseract OCR https://github.com/tesseract-ocr/tesseract
Univerzita Karlova | Informační systém UK