Získávání znalostí
/ Knowledge Discovery >> Získávání znalostí >> zdraví >> medicína >> moderní medicína >>

Jak Chřipkové trendy Google Works

/2014 chřipkové sezóny, GFT odhaduje, že až 11 procent americké populace měl chřipku. Pokud to vypadá jako hodně, je to proto, že je - CDC, ve srovnání, hlásil o 6 procent, který sezoně. Vědci uvádějí, že přesnost tento nástroj může být ve skutečnosti mnohem horší; Zjistili, že začátek v srpnu 2011 GFT přecenila ve 100 z 108 týdnů. [Zdroj: Hodson, Walsh, Lazer]

Nejčastější vysvětlení Google prevalence chřipka nadhodnocení není nic víc, než naše vlastní škubavě kdy chřipka sezóna rolích kolem - víš, když hledáte na slovo " kašel " ve snaze zjistit, zda jste sestupujících s chřipkou, nachlazení nebo, možná, počkejte, to může být zápal plic? Použití Media frází jako " nejhorší chřipková sezóna v letech " a zprávy o sezónní chřipce médií také přispívají k našim kašli-posedlý vyhledávání. Problém je, že GFT neví, jestli jsi nemocná, nebo jen strach o onemocní; se domnívají, že jen asi 10 procent ze všech lidí, kteří hledají lékařskou péči pro chřipku skutečně ptáků [zdroj: Salzberg]. Google vyhledávání nemají kontext, a oni nevědí, váš záměr.

Ale to nemusí být úplná odpověď.

Kromě ILI souvisejících s mediální humbuk inflační vyhledávání chřipky, práci s velkými daty může vést k tomu, aby vzájemné vztahy, které nemusí být přesné. Je to velký datový past. Zatímco výsledky dolování dat mohou malovat vztah mezi sezónní vyhledávacích dotazů a, řekněme, návštěv u lékaře, naprostá masivnost sady dat vyplývá, že srovnávací přesnost nemůže být důvěryhodný.

Další otázka o GFT je nadhodnocení Leží ve vlastních aktualizacích vyhledávače algoritmu Google. Vědci navrhují, že zavedení AutoSuggest funkce v Google Search změnily chování uživatelů na potenciál pro nadhodnocení v GFT; uživatelé hledali jednu chřipku symptom teď byli povzbuzováni k hledání více (Google-doporučeno), pokud jde se chřipky, které ovlivňují celkové vyhledávání souvisejících s ILI.

V roce 2012, vyhledávač začal včetně možných podmínek vztahujících se k symptomy dotazován, také potenciálně přidávat k problému nadhodnocení.

Nicméně poté, co opět špatný výkon v 2012/2013 chřipkové sezóny, GFT algoritmus opět aktualizována. Nyní by bagatelizovat případné nesrovnalosti média-řízený a dělat své prognózy založené na statistické metodě zvané ElasticNet (což je zobecněný lineární model legalizovány regrese). Ale tam byl ještě prostor pro zlepšení; revidovaná algoritmus stále nadhodnoceny až o 30 procent [zdroj: Lohr].

V roce 2

Page [1] [2] [3] [4] [5]