Získávání znalostí
/ Knowledge Discovery >> Získávání znalostí >> technologie >> počítač >> Internet >> základy internetu >>

Jak Internet Vyhledávače Work

dexování každé slovo na stránce, včetně ". A, " " an, " " " a další " bezvýznamný " slova. Push to úplnost v tomto přístupu není kompenzováno jinými systémy v pozornosti k neviditelné části webové stránky, meta tagy. Přečtěte si více o meta tagy na následující straně.
Meta tagy

Meta tagy umožňují vlastník stránky zadat klíčová slova a pojmy, za kterých bude strana indexovány. To může být užitečné, a to zejména v případech, kdy se slova na stránce může mít dvoulůžkových a třílůžkových významy - meta tagy mohou být vodítkem pro vyhledávače při výběru, který z několika možných významů pro tyto slova je správný. Tam je, nicméně, nebezpečí ve více než spoléhat na meta tagy, protože neopatrný nebo bezohledný majitel stránka může přidat meta tagy, které se hodí velmi oblíbených témat, ale nemají nic společného se skutečným obsahem stránky. Pro ochranu proti tomu, bude pavouci korelují meta tagy s obsah stránky, odmítat meta tagy, které neodpovídají slov na stránce.

To vše předpokládá, že majitel stránky ve skutečnosti chce, aby to bylo zahrnuty do výsledků činnosti vyhledávače je. Mnohokrát, majitel stránky se nechce to ukazovat na velké vyhledávače, nebo nechce aktivitu pavouka přistupující stránku. Vezměme si například, hra, která staví nové, aktivní stránky pokaždé, když oddíly stránce jsou zobrazeny nebo nové odkazy jsou dodržovány. Pokud webový spider přistupuje jednu z těchto stránek, a začne po všechny odkazy na nové stránky, hra mohla splést činnost pro vysokorychlostní lidského hráče a vymknout kontrole. Aby se předešlo situacím, jako je tato, protokol robot vyloučení byl vyvinut. Tento protokol, realizován v úseku meta-tagů na začátku webové stránky, říká pavouka stránku opustit sám. - Aby ani index slov na stránce, ani se snaží dodržovat své vztahy
Budování Index

Jakmile pavouci dokončili úkol hledání informací na webových stránkách (a my měli vzít na vědomí, že to je úkol, který je vlastně nikdy dokončena - stále se měnící povaha webu znamená, že pavouci jsou stále procházení) , vyhledávač, musí ukládat informace způsobem, který dělá to užitečné. Tam jsou dvě klíčové komponenty podílet na výrobě získaná data přístupná pro uživatele:

  • Informace uložené s údaji
  • způsobu, jakým jsou informace indexovány

    V nejjednodušším případě, vyhledávač mohl uložit slovo a URL, kde byl nalezen. Ve skutečnosti, to by pro motor o omezené použití, protože tam b

    Page [1] [2] [3] [4] [5] [6]