Last update: T_KSI (13.05.2013)
1. Ukladáni dat
- Rozdíly mezi klasickými RDBMS, sloupcovými bázemi a NoSQL. C-store, MongoDB, CouchDB, Cassandra, HBase.
- Optimalizace a efektivita přístupu k datům.
2. Zpracování dat
- Zpracování proudu dat, napojení datawarehouse systému: Linkedin/Kafka, Twitter/Storm.
- Dávková zpracování dat: problematika Hadoop-u, efektivita zpracování.
- Sdílení zdrojů, optimalizace: YARN, Corona, Mesos.
- Řešení dotazů nad velkými daty: Drill & Dremel.
3. Analýza dat
- Nizkoúrovňové zpracování: Hadoop a map&reduce.
- Data warehouse: Pig, Hive, Shark, RHadoop, RHive, RHIPE.
- Klasifikace textů, clustering, pattern mining: Mahout.
- Analýza grafových struktur a vztahů mezi objekty: Giraph, GoldenOrb, Gremlin.
|