Expert Stuff: Google Mike Cohen
Správce Google řeči technologií Mike Cohen chápe řeč na úrovni většina z nás si nemyslím, že o. Všímá si ho na základní úrovni zvukových kombinací a kontextových záchytných bodů. Má to - je to na starosti oddělení ve společnosti Google, který pracuje na technologii rozpoznávání řeči
Výuka počítač rozpoznat řeč je ošidné.. Chcete-li porozumět anglicky, existuje mnoho překážek je třeba překonat. Anglický jazyk má mnoho homonymům - slova, která foneticky zní stejný, ale znamenat různé věci. Myslete na " k, " " dvou " a " i &Quot.; Lidé mluvící s přízvukem nebo v regionálním dialektu může vyslovit slova způsobem, který je zcela odlišný od standardního výslovnosti. A pak jsou tu slova jako " trase " které mají alternativní výslovnosti - můžete říct, " kořen " nebo " debakl " a oba jsou v pořádku.
Jak se vám učí počítač, aby se tyto rozdíly? Jak může stroj rozumět tomu, co říkáme, a vhodně reagovat? To jsou problémy, Cohen a jeho tým tváři Google. Mluvili jsme s Cohenem a požádal ho, aby více podrobností o jeho práci v oblasti výzkumu a aplikací pro rozpoznání řeči.
Na každé stránce, uvidíte na naše otázky v titulu a odpovědi Cohena v těle. Začali jsme se základy technologii rozpoznávání řeči, jak uvidíte na následující stránce.
Jak se technologie rozpoznávání řeči pracovat na základní úrovni?
OK, tak zásadně, tak, že pole odešla během posledních několika desetiletí, je stále více a více k řízené daty nebo statistické-modelování přístupů. Co tím chci říct, že je spíše než mít lidi jít a pokusit se naprogramovat všechna tato pravidla, nebo všechny tyto popisy, jak jazyk funguje, jsme se snažili postavit modely, kde bychom se mohli živit spoustu a spoustu dat do modelů a modelů Dozvíte se o struktuře řeči z dat. Takže přístupy řízené daty jsou přístupy založené na budování velkých statistické modely jazyku, krmení jí velké množství dat.
To je první princip, a že pohyb směrem k učení stroje, nebo data-řízený nebo statistické přístupy byl vlastně jeden z nejdůležitějších pokroků v historii oboru rozpoznávání řeči. A tak se stává otázka, jaký druh modelu bychom měli začít s tím pak můžeme krmit tato data, takže se můžeme dostat dobrý výkon ven z rozpoznávače? Co děláme je, že jsme v podstatě máte model, který má tři základní komponenty na to, aby modelové různé aspekty řečov