Automatická extrakce konkordancí z Internetu
Thesis title in Czech: | Automatická extrakce konkordancí z Internetu |
---|---|
Thesis title in English: | Automatic concordance extraction from the Internet |
Key words: | automatická extrakce, konkordance, internet |
English key words: | automatic extraction, concordance, internet |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. Vincent Kríž, Ph.D. |
Author: | Mgr. Dominik Macháček - assigned and confirmed by the Study Dept. |
Date of registration: | 17.06.2015 |
Date of assignment: | 18.06.2015 |
Confirmed by Study dept. on: | 25.06.2015 |
Date and time of defence: | 16.06.2016 00:00 |
Date of electronic submission: | 27.05.2016 |
Date of submission of printed version: | 27.05.2016 |
Date of proceeded defence: | 16.06.2016 |
Opponents: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Advisors: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Guidelines |
Zvolme libovolné cílové slovo v libovolném jazyce. Cílem práce je z Internetu automaticky extrahovat věty, které obsahují zadané cílové slovo. Hlavním cílem je navrhnout a implementovat open-source aplikaci, které na vstupu zadáme cílové slovo a počet vět. Aplikace se následně pokusí požadované množství konkordancí vyhledat a stáhnout.
Úkolem řešitele bude především: (1) analyzovat a evaluovat vhodné Internetové zdroje pro získávání konkordancí; (2) analyzovat a evaluovat dostupné knihovny v Pythonu pro prohledávaní webu; (3) analyzovat a evaluovat strategie pro automatickou segmentaci věty; (3) navrhnout a implementovat: a) knihovnu pro vyhledávání a stahovaní relevantních dokumentů; b) knihovnu pro extrakci věty z dokumentu; c) knihovnu pro určení jazyka a kódování věty; d) konzolovou aplikaci pro Linux, která umožní uživatelům zadat cílové slovo a uložit extrahované věty; e) webové rozhraní, které umožní uživatelům zadat extrakční úkol a následně sledovat stav extrakce; (4) publikovat knihovnu a aplikace jako open-source balíček na pypi.python.org. |
References |
[1] http://en.wikipedia.org/wiki/Concordance_(publishing)#Use_in_linguistics
[2] Tony McEnery, Andrew Hardie: Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 6. 10. 2011 |