velikost textu

Syllable-Based Compression

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Syllable-Based Compression
Název v češtině:
Slabiková komprese
Typ:
Disertační práce
Autor:
RNDr. Jan Lánský
Školitel:
prof. RNDr. Jaroslav Pokorný, CSc.
Oponenti:
Doc. Mgr. Jiří Dvorský, Ph.D.
Dr. Szymon Grabowski
Id práce:
43359
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (P1801)
Obor studia:
Softwarové systémy (4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
31. 3. 2009
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstract v angličtině:
Classic textual compression methods work over the alphabet of characters or alphabet of words. For languages with rich morphology as well as for compression of smaller files it can be advantageous to use an alphabet of syllables. For some compression methods like the ones based on Burrows-Wheeler transformation the syllable is a reasonable solution also for large files - even for languages having quite simple morphology. Although the main goal of our research is the compression over the alphabet of syllables, all implemented methods can compress also over the alphabet of words. For small files we use the LZW method and Huffman coding. These methods were improved by the use of initialized dictionary containing characteristic syllables specific for given language. For the compression of very large files we implemented the project XBW allowing combination of compression methods BWT, MTF, RLE, PPM, LZC, and LZSS. We have also tried to compress XML files that are not well-formed. When compressing over a large alphabet, it is necessary to compress also the used alphabet. We have proposed two solutions. The first one works well especially for small documents. We initialize the compression method with a set of characteristic syllables whereas other syllables are coded when necessary character by character. The second solution is intended for compression of larger documents. The alphabet of used syllables is encoded as a compressed trie what significantly reduces the space necessary for encoding of the alphabet.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce RNDr. Jan Lánský 665 kB
Stáhnout Abstrakt v českém jazyce RNDr. Jan Lánský 80 kB
Stáhnout Abstrakt anglicky RNDr. Jan Lánský 81 kB
Stáhnout Posudek vedoucího prof. RNDr. Jaroslav Pokorný, CSc. 260 kB
Stáhnout Posudek oponenta Doc. Mgr. Jiří Dvorský, Ph.D. 250 kB
Stáhnout Posudek oponenta Dr. Szymon Grabowski 457 kB
Stáhnout Záznam o průběhu obhajoby 177 kB