Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 285)
Detail práce
   Přihlásit přes CAS
OCR for tabular data
Název práce v češtině: OCR pro tabulková data
Název v anglickém jazyce: OCR for tabular data
Klíčová slova: OCR, digitalizace, archivace, účetní data
Klíčová slova anglicky: OCR, digitalization, archivation, accounting data
Akademický rok vypsání: 2018/2019
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Miroslav Kratochvíl
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 25.08.2018
Datum zadání: 28.08.2018
Datum potvrzení stud. oddělením: 03.12.2018
Datum a čas obhajoby: 27.06.2019 09:30
Datum odevzdání elektronické podoby:17.05.2019
Datum odevzdání tištěné podoby:17.05.2019
Datum proběhlé obhajoby: 27.06.2019
Oponenti: Mgr. Vít Šefl
 
 
 
Zásady pro vypracování
Digitalization is a process of converting content of legacy media to a digital, computer-accessible form. Digitalization of text is currently well-established, supported by OCR-related image processing techniques. Digitalization of tabular text data, which are common in business and accounting systems, is problematic for a simple OCR algorithm that does not concern the placement or relations of table cells.

The goal of this thesis is to implement a user-friendly software capable of converting image data to tabular form. Resulting software should be able to surpass common deficiencies in scanner-generated input, and output an intermediate textual representation of the page as a tabular data (including e.g. sub-tables, margins, colors, or non-tabular text or image elements), which can be easily converted to e.g. CSV, XLS or TeX format.
Seznam odborné literatury
Kari Pulli (NVIDIA), Anatoly Baksheev, Kirill Kornyakov, Victor Eruhimov in Communications of the ACM, Real-time computer vision with OpenCV, June 2012

Gary Bradski in Dr. Dobbs Journal, The OpenCV Library, 2000

R.Fisher, S.Perkins, A.Walker, E.Wolfart, Hypermedia image processing reference, 2003

Craige Thomas, Extracting Table Data From PDFs with OCR, September 2011
 
Univerzita Karlova | Informační systém UK