Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Načítání dat z tištěných dokladů
Název práce v češtině: Načítání dat z tištěných dokladů
Název v anglickém jazyce: Data extraction from document scans
Klíčová slova: OCR, digitální zpracování obrazu, rozpoznávání textu
Klíčová slova anglicky: OCR, digital image processing, text recognition
Akademický rok vypsání: 2010/2011
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwaru a výuky informatiky (32-KSVI)
Vedoucí / školitel: RNDr. Jan Kolomazník, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 09.05.2011
Datum zadání: 09.05.2011
Datum a čas obhajoby: 20.06.2011 09:00
Datum odevzdání elektronické podoby:27.05.2011
Datum odevzdání tištěné podoby:27.05.2011
Datum proběhlé obhajoby: 20.06.2011
Oponenti: RNDr. Václav Krajíček, Ph.D.
 
 
 
Zásady pro vypracování
Řešitel bude mít za úkol navrhnout a implementovat aplikaci, která z naskenovaných tištěných dokumentů (osobní doklady, formuláře) dokáže extrahovat požadované informace.

Aplikace by měla být postavena nad nějakým dostupným OCR systémem (ideálně půjde o vyměnitelnou komponentu). Extrakce informací bude využívat dokumentových šablon, které budou popisovat rozmístění, případně typy datových polí.

Řešitel by měl využít postupů z digitálního zpracování obrazu a počítačového vidění a pokusit se automatizovat většinu kroků potřebných k extrakci dat a k vytvoření šablony dokumentu na základě skenu jednoho exempláře.
Uživateli by měla zůstat možnost upravit výsledky automatizovaných postupů.

Výstup z aplikace bude implementován komponentou, jež může být nahrazena v závislosti na daném nasazení aplikace (export do databáze, specializovaného datového formátu, apod.). Autor naimplementuje vzorové výstupní moduly do XML nebo textového editoru.
Seznam odborné literatury
Rafael C. Gonzalez, Richard E. Woods: Digital Image Processing (3rd Edition), Prentice Hall, 2007

Milan Sonka, Vaclav Hlavac, Roger Boyle: Image Processing: Analysis and Machine Vision, Brooks Cole, 1998

Tesseract OCR: http://code.google.com/p/tesseract-ocr/
 
Univerzita Karlova | Informační systém UK