Získávání znalostí
/ Knowledge Discovery >> Získávání znalostí >> technologie >> počítač >> Internet >> základy internetu >>

Jak Internet Vyhledávače Work

avět seznamy slov nalezených na webových stránkách. Když je pavouk buduje své seznamy, proces se nazývá Web procházení. (Tam jsou některé nevýhody volání část internetu World Wide Web - velký soubor pavoukovec-centric názvy nástrojů je jedním z nich.) Aby bylo možné budovat a udržovat užitečný seznam slov, pavouci vyhledávač mají podívat se na spoustu stránek.

Jak se některý pavouk začne jeho cesty přes web? Obvyklé východiska jsou seznamy intenzivně používaných serverů a velmi populární stránky. Pavouk začne s populárním webu, indexování slova na svých stránkách a po každé odkazu nalezený v rámci webu. Tímto způsobem se spidering systém rychle začíná cestovat, šíří se přes nejpoužívanějších částí webu.

Google začal jako akademický vyhledávač. V článku, který popisuje, jak byl systém postaven, Sergey Brin a Lawrence Page dát příklad toho, jak rychle se jejich pavouci může fungovat. Oni stavěli své původní systém používat více pavouky, obvykle tři najednou. Každý spider mohli držet asi 300 spojení na webové stránky otevřené najednou. Na jeho špičkový výkon, pomocí čtyř pavouky, jejich systém by mohl procházet přes 100 stránek za sekundu, vytváří kolem 600 kilobajtů dat každou sekundu.

Udržování vše běží rychle znamenalo budování systému ke krmení potřebné informace pavouky. Časný systém Google měl server věnuje poskytování URL pro pavouky. Spíše než v závislosti na poskytovateli internetových služeb pro název domény serveru (DNS), který převádí název serveru do adresy, Google měl vlastní DNS, aby držel zpoždění na minimum.

Když pavouk Google Podíval se na stránce HTML, je to vzala na vědomí dvě věci:

  • slova v rámci stránky
  • Kde byly nalezeny slova

    Slova vyskytující se v titul, titulky, meta tagy a jiné pozice relativní význam byly zaznamenány na zvláštní pozornost při následné vyhledávání uživatele. Pavouk Google byla postavena tak, aby index každé významné slovo na stránce, takže se na články " a, " " " a ". " Ostatní pavouci mají různé přístupy.

    Tyto různé přístupy obvykle pokusí, aby se pavouk pracovat rychleji, umožňují uživatelům vyhledávat efektivněji, nebo obojí. Například, někteří pavouci sledovat slova v titulku, podokruhů a odkazy, spolu s 100 nejpoužívanějších slov na stránce a každého slova v prvních 20 řádků textu. Lycos je řekl, aby používal tento přístup k spidering web

    Další systémy, jako jsou AltaVista, jít opačným směrem, in

    Page [1] [2] [3] [4] [5] [6]