Získávání znalostí
/ Knowledge Discovery >> Získávání znalostí >> technologie >> počítač >> Internet >> základy internetu >>

Jak Internet Vyhledávače Work

y byl žádný způsob, jak říct, zda slovo bylo použito v důležitý nebo triviální způsobem na stránce, zda slovo bylo používáno jednou nebo mnohokrát, nebo zda stránce obsahovaly odkazy na jiné stránky, které obsahují slovo. Jinými slovy, tam by byl žádný způsob, jak budování žebříček, který se snaží prezentovat nejužitečnější stránek v horní části seznamu výsledků vyhledávání.

Chcete-li více užitečné výsledky, většina vyhledávačů uložení více než jen slova a URL. Motor může uložit číslo časy, které se objeví na stránce slovo. Motor může přiřadit váhu každému vstupu s rostoucí hodnoty přiřazené na slova, jak se objevují v horní části dokumentu, v sub-čísel, v odkazech, v meta tagy, nebo v názvu stránky. Každý obchodní vyhledávač má jiný vzorec pro přiřazení váhu slova ve svém indexu. To je jeden z důvodů, aby vyhledávání pro stejné slovo na různých vyhledávačů budou vytvářet různé seznamy, se stránkami uvedenými v různém pořadí.

Bez ohledu na přesné kombinace dodatečných částí informací uložených vyhledáváním motor, budou údaje zakódována ušetřit úložný prostor. Například původní článek Google popisuje použití 2 bajty, po 8 bitech, k ukládání informací na vážení - ať už slovo bylo velkými písmeny, velikost písma, umístění, a další informace, které pomohou v žebříčku hit. Každý faktor může trvat až 2 nebo 3 bity v rámci 2-byte seskupení (8 bitů = 1 bajt). Výsledkem je, že velké množství informací, může být uloženo ve velmi kompaktní formě. Poté, co jsou tyto informace zhutněný, je připraven pro indexování

An index má jediný účel:. To umožňuje, aby informace, které mají být nalezeny tak rychle, jak je to možné. Existuje poměrně málo způsobů, jak pro index být stavěn, ale jeden z nejúčinnějších způsobů, jak je vybudovat hash tabulky. V zatřiďování vzorec je použita pro připojení číselnou hodnotu pro každé slovo. Vzorec je navržen tak, aby rovnoměrně položky po předem stanovený počet oddílů. Tato číselná rozdělení se liší od rozdělení slov napříč abecedy, a to je klíčem k efektivitě hash tabulky.

V angličtině, tam jsou některé dopisy, které začínají mnoho slov, zatímco jiní začnou méně. Zjistíte například, že " M " část slovníku je mnohem silnější než " X " sekce. To znamená, že nespravedlnost najít slovo začínající velmi " populární " Dopis může trvat mnohem déle, než najít slovo, které začíná s méně populární. Hashování vyrovnává rozdíl, a snižuje průměrnou dobu potřebnou k najít položku. T

Page [1] [2] [3] [4] [5] [6]