Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Framework pro extrakci informací z velkého množství jazykových dat
Thesis title in Czech: Framework pro extrakci informací z velkého množství jazykových dat
Thesis title in English: Framework for information extraction from the large language data sets
Key words: n-gramy, skip-gramy, velké množství dat
English key words: n-grams, skip-grams, large data
Academic year of topic announcement: 2015/2016
Thesis type: school year task
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Vincent Kríž, Ph.D.
Author:
Guidelines
Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
- skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)

Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.

Úkolem řešitele bude především:
- vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
- vymyslet vhodnou reprezentaci velkého objemu dat,
- vytvořit knihovnu pro extrakci n/s-gramů,
- vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.

Poslední bod je volitelný a mohl by být základem pro rozšíření práce na Bakalářskou práci.
References
[1] http://books.google.com/ngrams
[2] Robert Dale, Hermann L. Moisl, Harold L. Somers: Handbook of Natural Language Processing. Marcel Dekker, 1. 7. 2000
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html