Získávání znalostí
/ Knowledge Discovery >> Získávání znalostí >> technologie >> počítač >> počítačový program >>

Jak Komprese souborů Works

ané bitů informací, a poté se vypočítá které vzory by měla zapsat do slovníku. Tato schopnost přepsat slovníku je " adaptivní " Součástí LZ adaptivního slovníku založené na algoritmu. Způsob, jakým program vlastně dělá to je docela složité, jak můžete vidět na diskusích o Data-Compression.com.

Bez ohledu na to, jaké konkrétní způsob použijete, to in-hloubkové vyhledávání systém umožňuje kompresi souboru mnohem efektivněji, než byste mohli pouhým výběrem z slova. Používání vzorů jsme výše vybral, a přidání " __ " pro prostory, jsme přišli s touto větší slovníku:

  1. ask__
  2. what__
  3. jste
  4. r__country
  5. __ can__do__for__you

    A to menší věta: " 1not__2345 __ - __ 12354 "

    Tato věta nyní zabírá 18 jednotek paměti, a náš slovník zabírá 41 jednotek. Takže jsme stlačený celkové velikosti souboru z 79 jednotek 59 jednotek! To je jen jeden způsob, jak stlačení frázi, a ne nutně nejúčinnější jedné. (Uvidíme, jestli můžete najít lepší způsob, jak!)

    Tak, jak dobrý je tento systém? Poměr file-redukční, závisí na řadě faktorů, včetně typu souboru, velikost souboru a kompresní schéma.

    Ve většině jazyky světa, některá písmena a slova se často vyskytují společně ve stejném vzoru. Vzhledem k této vysoké míře redundance, textové soubory, komprimovat velmi dobře. Snížení 50 procent nebo více je typický pro dobrou velikosti textového souboru. Většina programovacích jazyků jsou také velmi redundantní, protože používají relativně malou sbírku příkazů, které jsou často jít spolu v nastaveném vzoru. Soubory, které obsahují velké množství jedinečné informace, jako jsou obrázky nebo soubory MP3, nelze komprimovat hodně s tímto systémem, protože nemají opakovat mnoho vzorů (více o tom v další části).

    Pokud soubor má hodně opakovaných vzorů, sazba snížení zpravidla zvyšuje s velikostí souboru. Můžete vidět jen při pohledu na náš příklad - pokud bychom měli více Kennedyho projevu, by měli být schopni odkázat na vzory v našem slovníku častěji, a tak získat více ze souborového prostoru každé položky. Také více všudypřítomné vzory mohly objevit v dlouhodobějším práci, což nám umožňuje vytvořit efektivnější slovník.

    Tato efektivita závisí také na konkrétním algoritmu programem komprese. Některé programy jsou zvláště vhodné pro vyzvednutí vzory v určitých typů souborů, a proto je může komprimovat stručněji. Jiní mají slovníky v rámci slovníků, které by

    Page [1] [2] [3] [4] [5]