Jak rozpoznávání řeči Works

program pochopit slova, když mluvíme odděleně, se zřetelnou pauzy mezi každou z nich. Nicméně, většina uživatelů dává přednost hovořit v normální, konverzační rychlostí. Téměř všechny moderní systémy jsou schopny porozumět souvislé řeči.
Thank You

V tomto článku jsme mluvili s Johnem Garofolo, skupina Speech manažer v Informačním Technology Laboratory Národního institutu pro standardy a technologie. Rádi bychom také rádi poděkovali Joshua Senecal za jeho pomoc s tímto článkem.
Projev dat

Chcete-li převést řeč na text na obrazovce nebo na příkaz počítač, počítač musí projít několika komplexních kroků , Když mluvíte, můžete vytvořit vibrace ve vzduchu. Analogově-digitální převodník (ADC), převádí tuto analogové vlny do digitálních dat, že počítač rozumí. Chcete-li se to podařilo, vzorky, nebo digitalizuje, zvuk tím, že přesná měření vlny v pravidelných intervalech. Systém filtruje digitalizovaný zvuk odstranit nežádoucí šum, a někdy se oddělit ji do různých pásem frekvence (frekvence je vlnová délka zvukové vlny, slyšel lidmi as rozdíly ve hřišti). To také normalizuje zvuk, nebo ji provádí na konstantní úroveň hlasitosti. To může mít také být časově sladěny. Lidé nemají vždy mluví stejnou rychlostí, takže zvuk, musí být upravena tak, aby odpovídala rychlosti vzorků zvukových šablona již uložených v paměti systému.

Dále je signál je rozdělen do malých segmentů co nejkratší několik setin sekundy, nebo dokonce tisícinám v případě plosive souhlásky zvuků - souhlásek zastávky produkováno airflow překážení v hlasové ploše - jako " P " nebo ". t " Program pak odpovídá tyto segmenty se známými fonémů v příslušném jazyce. Foném je nejmenší prvek jazyka - reprezentaci zvuků děláme a dát dohromady, aby vytvořily smysluplné výrazy. Existuje zhruba 40 fonémy v angličtině (různé lingvisté mají různé názory na přesném počtu), zatímco jiné jazyky mají více či méně fonémů.

V dalším kroku se zdá jednoduché, ale to je vlastně nejtěžší dosáhnout a je zaostření většiny výzkumu rozpoznávání řeči. Program se zabývá fonémů v rámci jiných fonémům kolem nich. To běží kontextuální fonémový spiknutí prostřednictvím komplexního statistického modelu, a porovnává je s velkou knihovnu známých slov, frází a vět. Program pak určuje, co uživatel byl pravděpodobně říkají a buď výstupy jej jako text nebo vydá příkaz počítač.

Budeme se blíže podívat na přesně tak, jak to dělá to dál.
Rozpoznávání řeči a statistický M

Page [1] [2] [3] [4] [5] [6]

Jak rozpoznávání řeči Works

gadgets

Více Rubriky