Content classification in legal documents
Název práce v češtině: | Klasifikace obsahu právních dokumentů |
Název v anglickém jazyce: | Content classification in legal documents |
Klíčová slova: | NLP, klasifikace obsahu, právní doména |
Klíčová slova anglicky: | NLP, content classification, legal domain |
Akademický rok vypsání: | 2016/2017 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 20.02.2017 |
Datum zadání: | 20.02.2017 |
Datum potvrzení stud. oddělením: | 24.02.2017 |
Datum a čas obhajoby: | 07.06.2017 09:00 |
Datum odevzdání elektronické podoby: | 12.05.2017 |
Datum odevzdání tištěné podoby: | 12.05.2017 |
Datum proběhlé obhajoby: | 07.06.2017 |
Oponenti: | RNDr. Martin Holub, Ph.D. |
Zásady pro vypracování |
In the present day, the amount of text-based data that businesses or single users have is growing very fast. People are unable of manual processing such amounts of data, which gives space for NLP to take care of it. This work focuses on processing official documents such as contracts, leases, deeds, invoices and orders. The main goal of this work is to design, implement and evaluate a software module capable of finding and labeling paragraphs in a given document which contain specific information such as contract parties, lease terms or clauses. The system will be able to process documents in English and in Czech. This thesis requires understanding of the ‘legal language’ at least on a basic level in both languages, knowledge of the most common machine learning and/or rule based approaches to text classification and implementation skills. |
Seznam odborné literatury |
Aggarwal, Charu C a Zhai, ChengXiang. 2012. Mining Text Data. Boston : Springer, 2012. 978-1-4614-3223-4.
Alpaydin, Ethem. 2014. Introduction to Machine Learning. s.l. : The MIT Press, 2014. 0262028182. Corpus Based Classification of Text in Australian Contracts. Curtotti, Michael a Mccreath, Eric. Duda, Richard O., Hart, Peter E. and Stork, David G. 2000. Pattern Classification. s.l. : Wiley-Interscience, 2000. 0471056693. Jurafsky, Daniel a Martin, James H. 2015. Speech and Language Processing. 2015. |