Framework pro extrakci informací z velkého množství jazykových dat
| Název práce v češtině: | Framework pro extrakci informací z velkého množství jazykových dat |
|---|---|
| Název v anglickém jazyce: | Framework for information extraction from the large language data sets |
| Klíčová slova: | n-gramy, skip-gramy, velké množství dat |
| Klíčová slova anglicky: | n-grams, skip-grams, large data |
| Akademický rok vypsání: | 2015/2016 |
| Typ práce: | ročníková práce |
| Jazyk práce: | |
| Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
| Vedoucí / školitel: | RNDr. Vincent Kríž, Ph.D. |
| Řešitel: |
| Zásady pro vypracování |
| Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou) - skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili) Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM. Úkolem řešitele bude především: - vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem, - vymyslet vhodnou reprezentaci velkého objemu dat, - vytvořit knihovnu pro extrakci n/s-gramů, - vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru. Poslední bod je volitelný a mohl by být základem pro rozšíření práce na Bakalářskou práci. |
| Seznam odborné literatury |
| [1] http://books.google.com/ngrams
[2] Robert Dale, Hermann L. Moisl, Harold L. Somers: Handbook of Natural Language Processing. Marcel Dekker, 1. 7. 2000 |