Automatická extrakce konkordancí z Internetu
Název práce v češtině: | Automatická extrakce konkordancí z Internetu |
---|---|
Název v anglickém jazyce: | Automatic concordance extraction from the Internet |
Klíčová slova: | automatická extrakce, konkordance, internet |
Klíčová slova anglicky: | automatic extraction, concordance, internet |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Vincent Kríž, Ph.D. |
Řešitel: | Mgr. Dominik Macháček - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 17.06.2015 |
Datum zadání: | 18.06.2015 |
Datum potvrzení stud. oddělením: | 25.06.2015 |
Datum a čas obhajoby: | 16.06.2016 00:00 |
Datum odevzdání elektronické podoby: | 27.05.2016 |
Datum odevzdání tištěné podoby: | 27.05.2016 |
Datum proběhlé obhajoby: | 16.06.2016 |
Oponenti: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Konzultanti: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Zásady pro vypracování |
Zvolme libovolné cílové slovo v libovolném jazyce. Cílem práce je z Internetu automaticky extrahovat věty, které obsahují zadané cílové slovo. Hlavním cílem je navrhnout a implementovat open-source aplikaci, které na vstupu zadáme cílové slovo a počet vět. Aplikace se následně pokusí požadované množství konkordancí vyhledat a stáhnout.
Úkolem řešitele bude především: (1) analyzovat a evaluovat vhodné Internetové zdroje pro získávání konkordancí; (2) analyzovat a evaluovat dostupné knihovny v Pythonu pro prohledávaní webu; (3) analyzovat a evaluovat strategie pro automatickou segmentaci věty; (3) navrhnout a implementovat: a) knihovnu pro vyhledávání a stahovaní relevantních dokumentů; b) knihovnu pro extrakci věty z dokumentu; c) knihovnu pro určení jazyka a kódování věty; d) konzolovou aplikaci pro Linux, která umožní uživatelům zadat cílové slovo a uložit extrahované věty; e) webové rozhraní, které umožní uživatelům zadat extrakční úkol a následně sledovat stav extrakce; (4) publikovat knihovnu a aplikace jako open-source balíček na pypi.python.org. |
Seznam odborné literatury |
[1] http://en.wikipedia.org/wiki/Concordance_(publishing)#Use_in_linguistics
[2] Tony McEnery, Andrew Hardie: Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 6. 10. 2011 |