Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 356)
Detail práce
   Přihlásit přes CAS
Grafický editor pro transkripci naskenovaných historických dokumentů
Název práce v češtině: Grafický editor pro transkripci naskenovaných historických dokumentů
Název v anglickém jazyce: Graphical editor for transcription of scanned historical documents
Klíčová slova: OCR; 2D anotace; jazyková data; grafický editor; markup
Klíčová slova anglicky: OCR; 2D annotation; language resources; graphical editor; markup
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: prof. RNDr. Jan Hajič, Dr.
Řešitel:
Konzultanti: Mgr. Pavel Straňák, Ph.D.
Zásady pro vypracování
Úkolem bakalářské práce je vytvořit editor pro anotaci skenů textu, včetně textů historických a ručně psaných. Výstupem je text v běžných standardech
(Tesseract hOCR, ALTO XML), který je spárovaný s 2D oblastmi skenu tak, aby bylo možno na vytvořených datech trénovat systémy OCR pomocí metod strojového učení. Vlastní software je třeba vyvořit ve dvou varinatách se stejnou funkcionalitou - jako standalone desktop aplikace (i pro tablety apod.), a zároveň jako webová aplikace, kterou je možno provozovat vzdáleně v běžných prohlížečích (min. Chrome, Firefox a Safari). Důraz musí být kladen na efektivnost anotace a ergonomii, možnost návratu v anotaci, logování akcí anotátora včetně časových razítek, ukládání draftu anotace, načtení předběžné anotace provedené automatickými nástroji, možnost ukládání anotačních poznámek, a porovnávání anotace vhodnou metrikou mezi dvěma anotátory. Volba programovacího jazyka pro obě varianty je na studentovi. Vlastní anotace ani vytvoření modelů strojového učení není povinnou součástí práce.
Seznam odborné literatury
1. Tesseract OCR: https://github.com/tesseract-ocr/, https://www.pyimagesearch.com/2018/09/17/opencv-ocr-and-text-recognition-with-tesseract/
2. ALTO XML: https://github.com/altoxml/
3. Text detection in images, https://cloud.google.com/vision/docs/ocr
4. https://www.classicpdf.com/top-7-free-ocr-tools-2018.html
5. MusicMaker, annotation tool for score annotation: https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1850
Předběžná náplň práce
V oboru Digital Humanities se nyní digitalizují nové i staré texty (včetně textů psaných rukou, jako jsou například dopisy). Čím starší je takový text, tím méně úspěšné jsou standardní metody optického rozponávání textu. K natrénování modelů s větší přesností je třeba připravit anotovaná data, kde bude prolinkován přepsaný text a odpovídající oblasti skenu. Cíle bakalářské práce je vytvořit grafický editor pro takovou efektivní anotaci.
Předběžná náplň práce v anglickém jazyce
In Digital Humanities, new and old texts (including handwritten texts such as letters) are now being digitised. The older such text, the less successful standard methods of optical text recognition (OCR) are. To train models with more precision, one needs to prepare annotated data where transcribed text and corresponding areas of the 2D scan will be interlinked. The aim of the bachelor's thesis is to create a graphical editor for such an effective annotation.
 
Univerzita Karlova | Informační systém UK