Thesis (Selection of subject)Thesis (Selection of subject)(version: 356)
Assignment details
   Login via CAS
Grafický editor pro transkripci naskenovaných historických dokumentů
Thesis title in Czech: Grafický editor pro transkripci naskenovaných historických dokumentů
Thesis title in English: Graphical editor for transcription of scanned historical documents
Key words: OCR; 2D anotace; jazyková data; grafický editor; markup
English key words: OCR; 2D annotation; language resources; graphical editor; markup
Academic year of topic announcement: 2023/2024
Type of assignment: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: prof. RNDr. Jan Hajič, Dr.
Author:
Advisors: Mgr. Pavel Straňák, Ph.D.
Guidelines
Úkolem bakalářské práce je vytvořit editor pro anotaci skenů textu, včetně textů historických a ručně psaných. Výstupem je text v běžných standardech
(Tesseract hOCR, ALTO XML), který je spárovaný s 2D oblastmi skenu tak, aby bylo možno na vytvořených datech trénovat systémy OCR pomocí metod strojového učení. Vlastní software je třeba vyvořit ve dvou varinatách se stejnou funkcionalitou - jako standalone desktop aplikace (i pro tablety apod.), a zároveň jako webová aplikace, kterou je možno provozovat vzdáleně v běžných prohlížečích (min. Chrome, Firefox a Safari). Důraz musí být kladen na efektivnost anotace a ergonomii, možnost návratu v anotaci, logování akcí anotátora včetně časových razítek, ukládání draftu anotace, načtení předběžné anotace provedené automatickými nástroji, možnost ukládání anotačních poznámek, a porovnávání anotace vhodnou metrikou mezi dvěma anotátory. Volba programovacího jazyka pro obě varianty je na studentovi. Vlastní anotace ani vytvoření modelů strojového učení není povinnou součástí práce.
References
1. Tesseract OCR: https://github.com/tesseract-ocr/, https://www.pyimagesearch.com/2018/09/17/opencv-ocr-and-text-recognition-with-tesseract/
2. ALTO XML: https://github.com/altoxml/
3. Text detection in images, https://cloud.google.com/vision/docs/ocr
4. https://www.classicpdf.com/top-7-free-ocr-tools-2018.html
5. MusicMaker, annotation tool for score annotation: https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1850
Preliminary scope of work
V oboru Digital Humanities se nyní digitalizují nové i staré texty (včetně textů psaných rukou, jako jsou například dopisy). Čím starší je takový text, tím méně úspěšné jsou standardní metody optického rozponávání textu. K natrénování modelů s větší přesností je třeba připravit anotovaná data, kde bude prolinkován přepsaný text a odpovídající oblasti skenu. Cíle bakalářské práce je vytvořit grafický editor pro takovou efektivní anotaci.
Preliminary scope of work in English
In Digital Humanities, new and old texts (including handwritten texts such as letters) are now being digitised. The older such text, the less successful standard methods of optical text recognition (OCR) are. To train models with more precision, one needs to prepare annotated data where transcribed text and corresponding areas of the 2D scan will be interlinked. The aim of the bachelor's thesis is to create a graphical editor for such an effective annotation.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html