PředmětyPředměty(verze: 945)
Předmět, akademický rok 2014/2015
   Přihlásit přes CAS
Text Mining - NDBI035
Anglický název: Text Mining
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2011 do 2014
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:2/0, Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: nevyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: prof. Ing. Petr Kroha, Dr., CSc.
Třída: Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_KSI (01.04.2010)
Metody oboru Text Mining mají za cíl nejen dokumenty vybírat podle klíčových slov, ale také určovat, co vypovídají. Text Mining je podobné Data Mining s tím rozdílem, že nepracuje se strukturovanými daty uloženými v databazích, ale s nestrukturovanými nebo jen částečně strukturovanými textovými daty jako jsou např. emailové zprávy, HTML-dokumenty nebo textové dokumenty. Text Mining zkoumá zejména následující možnosti: Informatin extraction, Topic tracking, Summarization, Sentence extraction, Klasifikace, clustering, Concept linkage.
Sylabus -
Poslední úprava: T_KSI (01.04.2010)

S nástupem počítačů do kanceláří a s rozvojem Internetu nastala situace, kdy počet elektronických dokumentů roste mnohem vyšším tempem, než možnosti, schopnosti a ochota pracovníků je číst. Metody oboru Information Retrieval sice umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah, ale tím jen vytvářejí síto, kterým protéká stále větší a větší počet dokumentů. Metody nového oboru Text Mining mají za cíl nejen dokumenty vybírat podle klíčových slov, ale také určovat, co vypovídají. To je úloha velmi složitá, neboť souvisí se sémantikou přirozeného jazyka, kterou často i školení lidé interpretují nejednoznačně. Text Mining je podobné Data Mining s tím rozdílem, že nepracuje se strukturovanými daty uloženými v databazích, ale s nestrukturovanými nebo jen částečně strukturovanými textovými daty jako jsou např. emailové zprávy, HTML-dokumenty nebo textové dokumenty.

Text Mining zkoumá zejména následující možnosti práce s textem:

Informatin extraction - identifikace klíčových komponent textu a vztahů mezi nimi.

Topic tracking - inteligentní filtrování textů na základě profile uživatele.

Summarization - shrnutí obsahu textu.

Sentence extraction - identifikace vět, které jsou pro obsah dokumentu klíčové.

Klasifikace, clustering - rozdělování textů do tříd podle jejich příbuznosti obsahu

Concept linkage - hledání vztahů mezi texty, které mají společné koncepty.

V oboru Text Mining se používají metody information retrieval (na vyhledávání), metody počítačové lingvistiky (předzpracování textů), statistické metody (statistické vlastnosti klíčových slov, frází a dokumentů), metody umělé intelligence (metody klasifikace, clustering) i Data Mining (metody rozpoznávání vzorů).

Obsah přednášky:
1. Text Mining
1.1. Úvod do problematiky
2. Information Retrieval
2.1. Textové dokumenty a klíčová slova
2.2. Relevance a fuzzy logika
2.3. Indexování
2.4. Vektorový model
2.5. Clustering klíčových slov
2.6. Clustering dokumentů
2.7. Latent semantic indexing
3. Statistické zpracování textů
3.1. Zipfův zákon a Mandelbrotovo zobecnění
3.2. Kollokace, fráze, vzdálenost slov (proximity)
3.3. Statistické rozmístění komponent frází
3.4. Pravděpodobnostní model, pravděpodobnostní bezkontextová gramatika
4. Klasifikace textů
4.1. Bayesův teorém
4.2. Pravděpodobnostní klasifikace metodou Naive Bayes
4.3. Klasifikace rozhodovacími stromy
4.4. Klasifikace pomocí regresních metod
4.5. Inkrementální metody klasifikace
4.6. Klasifikace textů pomocí neuronových sítí
4.7. Klasifikace pomocí příkladů (k-NN)
4.8. Klasifikace pomocí metody support vector machine
5. Základy automatické analýzy textu
5.1. Kontextové gramatiky a nepravidelnosti přirozeného jazyka
5.2. Označování gramatických komponent (part-of-speech tagging)
5.3. Pravidla a taggers (příklad ENGTWOL tagger)
5.4. Stochastika a taggers
5.5. Koreference - použití pro shrnutí a extrakci textu
5.6. Fuzzy-koreference a heuristiky
6. Ontologie a texty
6.1. Identifikace relevantních konceptů a vztahů mezi nimi
6.2. Symbolické a statistické metody
6.3. Asociační pravidla a metriky podobnosti
6.4. Hybridní metody
6.5. Problém kvality ontologie - precision, recall
7. Automatické shrnutí obsahu dokumentu
7.1. Rozdíl mezi abstaktem a extraktem textu
7.2. Hloubky úrovně zpracování
7.3. Příklad 1 - systém ERSS 2004
7.4. Shrnutí obsahu zpráv z více zdrojů (NewsBlaster)
8. Automatická extrakce obsahu dokumentu
8.1. Analýza novinových článků (reported speech)
8.2. Strukturovaný profil argumentace
8.3. Filtrování (percolation) a belief-diagramy

 
Univerzita Karlova | Informační systém UK