Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Framework pro extrakci informací z velkého množství jazykových dat

Thesis title in Czech:	Framework pro extrakci informací z velkého množství jazykových dat
Thesis title in English:	Framework for information extraction from the large language data sets
Key words:	n-gramy, skip-gramy, velké množství dat, strojové učení, vektory příznaků
English key words:	n-grams, skip-grams, large data, machine learning, feature vectors
Academic year of topic announcement:	2013/2014
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	RNDr. Vincent Kríž, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	11.12.2013
Date of assignment:	12.12.2013
Confirmed by Study dept. on:	17.12.2013
Date and time of defence:	16.06.2014 00:00
Date of electronic submission:	23.05.2014
Date of submission of printed version:	23.05.2014
Date of proceeded defence:	16.06.2014
Opponents:	RNDr. David Bednárek, Ph.D.

Guidelines

Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
- skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)

Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.

Úkolem řešitele bude především:
- vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
- vymyslet vhodnou reprezentaci velkého objemu dat,
- vytvořit knihovnu pro extrakci n/s-gramů,
- vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.

References

[1] http://books.google.com/ngrams
[2] Robert Dale, Hermann L. Moisl, Harold L. Somers: Handbook of Natural Language Processing. Marcel Dekker, 1. 7. 2000