Framework pro extrakci informací z velkého množství jazykových dat
Thesis title in Czech: | Framework pro extrakci informací z velkého množství jazykových dat |
---|---|
Thesis title in English: | Framework for information extraction from the large language data sets |
Key words: | n-gramy, skip-gramy, velké množství dat, strojové učení, vektory příznaků |
English key words: | n-grams, skip-grams, large data, machine learning, feature vectors |
Academic year of topic announcement: | 2013/2014 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. Vincent Kríž, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 11.12.2013 |
Date of assignment: | 12.12.2013 |
Confirmed by Study dept. on: | 17.12.2013 |
Date and time of defence: | 16.06.2014 00:00 |
Date of electronic submission: | 23.05.2014 |
Date of submission of printed version: | 23.05.2014 |
Date of proceeded defence: | 16.06.2014 |
Opponents: | RNDr. David Bednárek, Ph.D. |
Guidelines |
Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou) - skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili) Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM. Úkolem řešitele bude především: - vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem, - vymyslet vhodnou reprezentaci velkého objemu dat, - vytvořit knihovnu pro extrakci n/s-gramů, - vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru. |
References |
[1] http://books.google.com/ngrams
[2] Robert Dale, Hermann L. Moisl, Harold L. Somers: Handbook of Natural Language Processing. Marcel Dekker, 1. 7. 2000 |