Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Framework pro extrakci informací z velkého množství jazykových dat
Název práce v češtině: Framework pro extrakci informací z velkého množství jazykových dat
Název v anglickém jazyce: Framework for information extraction from the large language data sets
Klíčová slova: n-gramy, skip-gramy, velké množství dat, strojové učení, vektory příznaků
Klíčová slova anglicky: n-grams, skip-grams, large data, machine learning, feature vectors
Akademický rok vypsání: 2013/2014
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Vincent Kríž, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 11.12.2013
Datum zadání: 12.12.2013
Datum potvrzení stud. oddělením: 17.12.2013
Datum a čas obhajoby: 16.06.2014 00:00
Datum odevzdání elektronické podoby:23.05.2014
Datum odevzdání tištěné podoby:23.05.2014
Datum proběhlé obhajoby: 16.06.2014
Oponenti: RNDr. David Bednárek, Ph.D.
 
 
 
Zásady pro vypracování
Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
- skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)

Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.

Úkolem řešitele bude především:
- vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
- vymyslet vhodnou reprezentaci velkého objemu dat,
- vytvořit knihovnu pro extrakci n/s-gramů,
- vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.
Seznam odborné literatury
[1] http://books.google.com/ngrams
[2] Robert Dale, Hermann L. Moisl, Harold L. Somers: Handbook of Natural Language Processing. Marcel Dekker, 1. 7. 2000
 
Univerzita Karlova | Informační systém UK