Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatická extrakce konkordancí z Internetu
Thesis title in Czech: Automatická extrakce konkordancí z Internetu
Thesis title in English: Automatic concordance extraction from the Internet
Key words: automatická extrakce, konkordance, internet
English key words: automatic extraction, concordance, internet
Academic year of topic announcement: 2014/2015
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Vincent Kríž, Ph.D.
Author: Mgr. Dominik Macháček - assigned and confirmed by the Study Dept.
Date of registration: 17.06.2015
Date of assignment: 18.06.2015
Confirmed by Study dept. on: 25.06.2015
Date and time of defence: 16.06.2016 00:00
Date of electronic submission:27.05.2016
Date of submission of printed version:27.05.2016
Date of proceeded defence: 16.06.2016
Opponents: doc. Mgr. Barbora Vidová Hladká, Ph.D.
 
 
 
Advisors: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Guidelines
Zvolme libovolné cílové slovo v libovolném jazyce. Cílem práce je z Internetu automaticky extrahovat věty, které obsahují zadané cílové slovo. Hlavním cílem je navrhnout a implementovat open-source aplikaci, které na vstupu zadáme cílové slovo a počet vět. Aplikace se následně pokusí požadované množství konkordancí vyhledat a stáhnout.

Úkolem řešitele bude především:
(1) analyzovat a evaluovat vhodné Internetové zdroje pro získávání konkordancí;
(2) analyzovat a evaluovat dostupné knihovny v Pythonu pro prohledávaní webu;
(3) analyzovat a evaluovat strategie pro automatickou segmentaci věty;
(3) navrhnout a implementovat:
a) knihovnu pro vyhledávání a stahovaní relevantních dokumentů;
b) knihovnu pro extrakci věty z dokumentu;
c) knihovnu pro určení jazyka a kódování věty;
d) konzolovou aplikaci pro Linux, která umožní uživatelům zadat cílové slovo a uložit extrahované věty;
e) webové rozhraní, které umožní uživatelům zadat extrakční úkol a následně sledovat stav extrakce;
(4) publikovat knihovnu a aplikace jako open-source balíček na pypi.python.org.
References
[1] http://en.wikipedia.org/wiki/Concordance_(publishing)#Use_in_linguistics
[2] Tony McEnery, Andrew Hardie: Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 6. 10. 2011
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html