Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatická extrakce konkordancí z Internetu
Název práce v češtině: Automatická extrakce konkordancí z Internetu
Název v anglickém jazyce: Automatic concordance extraction from the Internet
Klíčová slova: automatická extrakce, konkordance, internet
Klíčová slova anglicky: automatic extraction, concordance, internet
Akademický rok vypsání: 2014/2015
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Vincent Kríž, Ph.D.
Řešitel: Mgr. Dominik Macháček - zadáno a potvrzeno stud. odd.
Datum přihlášení: 17.06.2015
Datum zadání: 18.06.2015
Datum potvrzení stud. oddělením: 25.06.2015
Datum a čas obhajoby: 16.06.2016 00:00
Datum odevzdání elektronické podoby:27.05.2016
Datum odevzdání tištěné podoby:27.05.2016
Datum proběhlé obhajoby: 16.06.2016
Oponenti: doc. Mgr. Barbora Vidová Hladká, Ph.D.
 
 
 
Konzultanti: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Zásady pro vypracování
Zvolme libovolné cílové slovo v libovolném jazyce. Cílem práce je z Internetu automaticky extrahovat věty, které obsahují zadané cílové slovo. Hlavním cílem je navrhnout a implementovat open-source aplikaci, které na vstupu zadáme cílové slovo a počet vět. Aplikace se následně pokusí požadované množství konkordancí vyhledat a stáhnout.

Úkolem řešitele bude především:
(1) analyzovat a evaluovat vhodné Internetové zdroje pro získávání konkordancí;
(2) analyzovat a evaluovat dostupné knihovny v Pythonu pro prohledávaní webu;
(3) analyzovat a evaluovat strategie pro automatickou segmentaci věty;
(3) navrhnout a implementovat:
a) knihovnu pro vyhledávání a stahovaní relevantních dokumentů;
b) knihovnu pro extrakci věty z dokumentu;
c) knihovnu pro určení jazyka a kódování věty;
d) konzolovou aplikaci pro Linux, která umožní uživatelům zadat cílové slovo a uložit extrahované věty;
e) webové rozhraní, které umožní uživatelům zadat extrakční úkol a následně sledovat stav extrakce;
(4) publikovat knihovnu a aplikace jako open-source balíček na pypi.python.org.
Seznam odborné literatury
[1] http://en.wikipedia.org/wiki/Concordance_(publishing)#Use_in_linguistics
[2] Tony McEnery, Andrew Hardie: Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 6. 10. 2011
 
Univerzita Karlova | Informační systém UK