Grafický editor pro transkripci naskenovaných historických dokumentů
Thesis title in Czech: | Grafický editor pro transkripci naskenovaných historických dokumentů |
---|---|
Thesis title in English: | Graphical editor for transcription of scanned historical documents |
Key words: | OCR; 2D anotace; jazyková data; grafický editor; markup |
English key words: | OCR; 2D annotation; language resources; graphical editor; markup |
Academic year of topic announcement: | 2023/2024 |
Type of assignment: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | prof. RNDr. Jan Hajič, Dr. |
Author: | |
Advisors: | Mgr. Pavel Straňák, Ph.D. |
Guidelines |
Úkolem bakalářské práce je vytvořit editor pro anotaci skenů textu, včetně textů historických a ručně psaných. Výstupem je text v běžných standardech
(Tesseract hOCR, ALTO XML), který je spárovaný s 2D oblastmi skenu tak, aby bylo možno na vytvořených datech trénovat systémy OCR pomocí metod strojového učení. Vlastní software je třeba vyvořit ve dvou varinatách se stejnou funkcionalitou - jako standalone desktop aplikace (i pro tablety apod.), a zároveň jako webová aplikace, kterou je možno provozovat vzdáleně v běžných prohlížečích (min. Chrome, Firefox a Safari). Důraz musí být kladen na efektivnost anotace a ergonomii, možnost návratu v anotaci, logování akcí anotátora včetně časových razítek, ukládání draftu anotace, načtení předběžné anotace provedené automatickými nástroji, možnost ukládání anotačních poznámek, a porovnávání anotace vhodnou metrikou mezi dvěma anotátory. Volba programovacího jazyka pro obě varianty je na studentovi. Vlastní anotace ani vytvoření modelů strojového učení není povinnou součástí práce. |
References |
1. Tesseract OCR: https://github.com/tesseract-ocr/, https://www.pyimagesearch.com/2018/09/17/opencv-ocr-and-text-recognition-with-tesseract/
2. ALTO XML: https://github.com/altoxml/ 3. Text detection in images, https://cloud.google.com/vision/docs/ocr 4. https://www.classicpdf.com/top-7-free-ocr-tools-2018.html 5. MusicMaker, annotation tool for score annotation: https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1850 |
Preliminary scope of work |
V oboru Digital Humanities se nyní digitalizují nové i staré texty (včetně textů psaných rukou, jako jsou například dopisy). Čím starší je takový text, tím méně úspěšné jsou standardní metody optického rozponávání textu. K natrénování modelů s větší přesností je třeba připravit anotovaná data, kde bude prolinkován přepsaný text a odpovídající oblasti skenu. Cíle bakalářské práce je vytvořit grafický editor pro takovou efektivní anotaci. |
Preliminary scope of work in English |
In Digital Humanities, new and old texts (including handwritten texts such as letters) are now being digitised. The older such text, the less successful standard methods of optical text recognition (OCR) are. To train models with more precision, one needs to prepare annotated data where transcribed text and corresponding areas of the 2D scan will be interlinked. The aim of the bachelor's thesis is to create a graphical editor for such an effective annotation.
|