Načítání dat z tištěných dokladů
Název práce v češtině: | Načítání dat z tištěných dokladů |
---|---|
Název v anglickém jazyce: | Data extraction from document scans |
Klíčová slova: | OCR, digitální zpracování obrazu, rozpoznávání textu |
Klíčová slova anglicky: | OCR, digital image processing, text recognition |
Akademický rok vypsání: | 2010/2011 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwaru a výuky informatiky (32-KSVI) |
Vedoucí / školitel: | RNDr. Jan Kolomazník, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 09.05.2011 |
Datum zadání: | 09.05.2011 |
Datum a čas obhajoby: | 20.06.2011 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2011 |
Datum odevzdání tištěné podoby: | 27.05.2011 |
Datum proběhlé obhajoby: | 20.06.2011 |
Oponenti: | RNDr. Václav Krajíček, Ph.D. |
Zásady pro vypracování |
Řešitel bude mít za úkol navrhnout a implementovat aplikaci, která z naskenovaných tištěných dokumentů (osobní doklady, formuláře) dokáže extrahovat požadované informace.
Aplikace by měla být postavena nad nějakým dostupným OCR systémem (ideálně půjde o vyměnitelnou komponentu). Extrakce informací bude využívat dokumentových šablon, které budou popisovat rozmístění, případně typy datových polí. Řešitel by měl využít postupů z digitálního zpracování obrazu a počítačového vidění a pokusit se automatizovat většinu kroků potřebných k extrakci dat a k vytvoření šablony dokumentu na základě skenu jednoho exempláře. Uživateli by měla zůstat možnost upravit výsledky automatizovaných postupů. Výstup z aplikace bude implementován komponentou, jež může být nahrazena v závislosti na daném nasazení aplikace (export do databáze, specializovaného datového formátu, apod.). Autor naimplementuje vzorové výstupní moduly do XML nebo textového editoru. |
Seznam odborné literatury |
Rafael C. Gonzalez, Richard E. Woods: Digital Image Processing (3rd Edition), Prentice Hall, 2007
Milan Sonka, Vaclav Hlavac, Roger Boyle: Image Processing: Analysis and Machine Vision, Brooks Cole, 1998 Tesseract OCR: http://code.google.com/p/tesseract-ocr/ |