Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 290)
Detail práce
   Přihlásit přes CAS
Automatické dolování technických a obchodních parametrů z textů smluv pro portál HlidacSmluv.cz
Název práce v češtině: Automatické dolování technických a obchodních parametrů z textů smluv pro portál HlidacSmluv.cz
Název v anglickém jazyce: Automated structured mining of technical and business parameters from contracts for portal HlidacSmluv.cz
Klíčová slova: dolování strukturovaných dat z textu, strojové učení, hluboké učení, pravidlové systémy, veřejné zakázky, eGovernment
Klíčová slova anglicky: structured data mining from text, machine learning, deep learning, rule-based systems, public contracts, eGovernment
Akademický rok vypsání: 2018/2019
Typ práce: diplomová práce
Jazyk práce:
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. Mgr. Martin Nečaský, Ph.D.
Řešitel:
Konzultanti: Mgr. Barbora Vidová Hladká, Ph.D.
Zásady pro vypracování
Hlídač smluv [1] je webový portál pro prohledávání smluv a veřejných zakázek ve veřejné správě. Data o smlouvách a jejich obsah získává z otevřených dat z Registru smluv [2]. Data o veřejných zakázkách a jejich zadávací dokumentaci získává z otevřených dat z Informačního systému o veřejných zakázkách [3]. Cílem diplomové práce je rozšířit Hlídače smluv ve spolupráci s jeho autorem o modul pro automatizované dolování základních technických i obchodních parametrů smluv a veřejných zakázek (typ pořizovaného zboží/služby, konkrétní název zboží/služby, jednotkové ceny, množství/objem pořizované komodity, atd.). Konkrétní sada parametrů bude upřesněna v průběhu řešení práce ve spolupráci s vedoucím práce a autorem Hlídače smluv.

V první části práce řešitel prozkoumá z pohledu analýzy textů smluv a zadávací dokumentace veřejných zakázek existující přístupy pro automatizované dolování strukturovaných dat z dokumentů. Zaměří se jak přístupy založené na technikách strojového učení, příp. hlubokého učení, tak i přístupy založené na pravidlech i jejich kombinace. Na základě experimentálního ověření nad reálnými smlouvami a zadávací dokumentací vybere nejvhodnější přístup. V druhé části práce navrhne, realizuje, otestuje a zdokumentuje modul pro Hlídače smluv, ve kterém bude implementován vybraný přístup a který z dané smlouvy či zadávací dokumentace extrahuje definované parametry. Pro účely experimentálního ověření i implementace klasifikačních technik v modulu je možné využít existující open-source knihovny či frameworky (např. [4,5]).
Seznam odborné literatury
[1] https://hlidacstatu.cz
[2] https://data.gov.cz/datová-sada?iri=https://data.gov.cz/zdroj/datová-sada/143188372
[3] https://data.gov.cz/datové-sady?poskytovatel=Ministerstvo%20pro%20místní%20rozvoj&klíčová%20slova=veřejné%20zakázky
[4] https://www.cs.waikato.ac.nz/ml/weka/index.html
[5] https://www.tensorflow.org
[6] Gary Miner, John Elder, Andrew Fast, Thomas Hill, Robert Nisbet, Dursun Delen. Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Elsevier Inc. 2012. ISBN 978-0-12-386979-1. (dostupné z univerzitní sítě)
[7] Ian Goodfellow and Yoshua Bengio and Aaron Courville. Deep Learning. MIT Press. 2016. ISBN 9780262035613. (open access: http://www.deeplearningbook.org)
Předběžná náplň práce
Tato diplomová práce je vypsána ve spolupráci s autorem portál Hlídač smluv (hlidacsmluv.cz), který je významným zdrojem informací o smlouvách a veřejných zakázkách uzavíraných veřejnými institucemi v České republice. Portál má vysokou návštěvnost a je často zmiňován v médiích v souvislosti s transparentností a efektivitou veřejné správy a s oblastí eGovernmentu (viz např. článek na Lupa.cz [1]). Pokud si tuto práci vyberete, získáte možnost spolupracovat na zajímavém a společensky velmi přínosném projektu a pokud uspějete, vaše práce bude vidět!

[1] https://www.lupa.cz/clanky/michal-blaha-hlidacstatu-cz-novinari-kteri-pouzivaji-hlidace-maji-nejvic-exkluzivnich-zprav/
 
Univerzita Karlova | Informační systém UK