Stručná história ASR: Automatické rozpoznávanie reči

Toto je prvý príspevok v sérii automatického rozpoznávania reči, čo je základná technológia, ktorá umožňuje popis. Preskúmame súčasný stav odvetvia, kam smeruje - av tejto splátke, kde to bolo.

Spoločnosť Descript je hrdá na to, že je súčasťou novej generácie kreatívneho softvéru, ktorý umožňuje nedávny pokrok v automatickom rozpoznávaní reči (ASR). Je to vzrušujúce obdobie: technológia nedávno prekročila hranicu, v ktorej sa obchoduje so svojím dlhodobým sľubom o pozoruhodnej úžitkovej hodnote a je len lepšia.

Tento okamih prichádza už dávno. Technológia rozpoznávania reči sa vyvíja už vyše pol storočia, prechádza niekoľkými obdobiami intenzívneho sľubu - a sklamaním. Čo sa zmenilo, aby sa ASR stal životaschopným v komerčných aplikáciách? A čo presne tieto systémy mohli dosiahnuť, dlho predtým, ako niekto z nás počul o Siri?

Príbeh rozpoznávania reči je rovnako o aplikácii rôznych prístupov ako o vývoji prvotnej technológie, aj keď tieto dva sú neoddeliteľne spojené. V priebehu desaťročí by vedci vymýšľali nespočetné spôsoby, ako rozprávať jazyk: zvukmi, štruktúrou - a štatistikami.

Skoré dni

Ľudský záujem o rozpoznávanie a syntetizovanie reči sa datuje stovky rokov (aspoň!) - ale až v polovici 20. storočia si naši predkovia vybudovali niečo, čo sa dá rozpoznať ako ASR.

1961 - IBM Shoebox

Medzi prvé projekty patril „číslicový rozpoznávač“ s názvom Audrey, ktorý vytvorili vedci v Bell Laboratories v roku 1952. Audrey dokázal rozoznať hovorené číslice pomocou vyhľadávania zvukových odtlačkov prstov nazývaných formanty¹ - destilovaných esencií zvukov.

V 60. rokoch vyvinula spoločnosť IBM Shoebox - systém, ktorý dokáže rozoznávať číslice a aritmetické príkazy ako „plus“ a „celkom“. Ešte lepšie je, že Shoebox mohol preniesť matematický problém na sčítací stroj, ktorý by vypočítal a vytlačil odpoveď².

Medzitým vedci v Japonsku postavili hardvér, ktorý dokáže rozoznať základné časti reči ako samohlásky; iné systémy by mohli vyhodnotiť štruktúru reči a zistiť, kde by mohlo slovo skončiť. A tím na University College v Anglicku dokázal rozoznať 4 samohlásky a 9 spoluhlásk na základe analýzy fonémov, diskrétnych zvukov jazyka¹.

Ale zatiaľ čo pole postupovalo krokovými krokmi vpred, nebolo nevyhnutne jasné, kam cesta smeruje. A potom: katastrofa.

Október 1969 - Vestník Akustickej spoločnosti Ameriky

A Piercing Freeze

Zlom nastal vo forme listu, ktorý napísal John R. Pierce v roku 1969.

Pierce sa už dávno etabloval ako inžinier medzinárodného renomé; okrem iných úspechov vytvoril slovo tranzistor (teraz všadeprítomné v inžinierstve) a pomohol vypustiť prvý komunikačný satelit Echo I. V roku 1969 pôsobil v spoločnosti Bell Labs ako výkonný pracovník, ktorý značne investoval do rozvoja rozpoznávania reči.

Pierce v otvorenom liste uverejnenom v časopise The Journal of Acoustical Society of America uviedol svoje obavy. Pierce, ktorý citoval „svieže“ prostredie financovania po druhej svetovej vojne a Sputniku, a jeho nedostatočná zodpovednosť, napomenul pole pre nedostatok vedeckej presnosti a tvrdil, že prebieha príliš veľa experimentov:

„Všetci sme presvedčení, že vedecká reč je možná aj napriek nedostatku v oblasti ľudí, ktorí sa správajú ako vedci, a výsledkov, ktoré vyzerajú ako veda.“ - J.R. Pierce, 1969

Pierce dal peniaze svojho zamestnávateľa tam, kde mal ústa: obracal Bellove programy ASR, ktoré sa neobnovia až po rezignácii v roku 1971.

Pokrok pokračuje

Našťastie inde bol lepší optimizmus. Začiatkom 70. rokov 20. storočia financovalo ARPA amerického ministerstva obrany (agentúra teraz známa ako DARPA) päťročný program s názvom Speech Understanding Research. To viedlo k vytvoreniu niekoľkých nových systémov ASR, z ktorých najúspešnejším bol Harpy z Carnegie Mellon University, ktorý do roku 1976 dokázal rozpoznať viac ako 1000 slov.

Medzitým úsilie spoločností IBM a AT & T Bell Laboratories posunulo technológiu smerom k možným komerčným aplikáciám. IBM uprednostňovala transkripciu reči v kontexte kancelárskej korešpondencie a Bell sa zaoberal scenármi „velenia a riadenia“: predchodcov hlasovej voľby a automatizovaných telefónnych stromov, ktoré poznáme dnes¹.

Napriek tomuto pokroku bola ASR do konca 70. rokov ešte stále dlhá cesta od toho, aby bola životaschopná pre akékoľvek iné, ale vysoko špecifické prípady použitia.

Aj to ma bolí.

80. roky: Markovs a ďalšie

Kľúčový bod zlomu prišiel s popularizáciou skrytých Markovových modelov (HMM) v polovici osemdesiatych rokov. Tento prístup predstavoval významný posun „od jednoduchých metód rozpoznávania vzorov založených na šablónach a mierke spektrálnej vzdialenosti k štatistickej metóde na spracovanie reči“ which - čo viedlo k presnému skoku vpred.

Veľká časť zlepšenia systémov rozpoznávania reči od konca 60. rokov je dôsledkom sily tohto štatistického prístupu spojeného s pokrokom v počítačovej technológii potrebnej na implementáciu HMM. “

HMM prevzali tento priemysel búrkou - ale nemali žiadny úspech cez noc. Jim Baker ich prvýkrát použil na rozpoznávanie reči začiatkom 70-tych rokov na CMU a samotné modely opísal Leonard E. Baum v 60. rokoch. Až v roku 1980, keď Jack Ferguson predniesol na Inštitúte pre obranné analýzy sériu osvetľovacích prednášok, sa táto technika začala šíriť širšie.

Úspech HMM potvrdil prácu Fredericka Jelínka vo výskumnom stredisku IBM Watson Research Center, ktorý sa od začiatku sedemdesiatych rokov zasadzoval za použitie štatistických modelov na interpretáciu reči, namiesto toho, aby sa pokúšal prinútiť počítače, aby napodobňovali spôsob, akým ľudia trávia jazykom: prostredníctvom významu, syntax a gramatika (v tom čase bežný prístup). Ako neskôr uviedol Jelinek: „Lietadlá neotĺkajú krídlami.“ ⁹

Tieto prístupy založené na údajoch tiež uľahčili pokrok, ktorý súvisel s priemyselnou spoluprácou a zodpovednosťou ako jednotlivé momenty eureka. S rastúcou popularitou štatistických modelov sa pole ASR začalo spájať okolo súboru testov, ktoré by poskytli štandardizovaný štandard na porovnanie. Toto bolo ďalej podporené zverejňovaním zdieľaných súborov údajov: veľké súbory údajov, ktoré by vedci mohli použiť na školenie a testovanie svojich modelov.

Inými slovami: nakoniec existoval (nedokonalý) spôsob merania a porovnávania úspechu.

November 1990, Infoworld

Dostupnosť pre spotrebiteľa - 90. roky

Pre lepšie a horšie je deväťdesiate roky predstaviť zákazníkom automatické rozpoznávanie reči v takej podobe, akú poznáme dnes. Dragon Dictate bol uvedený na trh v roku 1990 za úctyhodných 9 000 dolárov a ponúka slovník s 80 000 slovami a funkciami, ako je spracovanie prirodzeného jazyka (pozri vyššie uvedený článok Infoworld).

Tieto nástroje boli časovo náročné (článok tvrdí inak, ale Dragon sa stal známym tým, že vyzval používateľov, aby „diktátsky softvér školili“ svojím vlastným hlasom). A vyžadovalo to, aby používatelia hovorili pohotovo: Drak spočiatku dokázal rozoznať iba 30 - 40 slov za minútu; ľudia väčšinou hovoria štyrikrát rýchlejšie.

Ale dosť dobre fungovalo, aby sa z Dragon stal obchod so stovkami zamestnancov a zákazníkmi pokrývajúcimi oblasť zdravotnej starostlivosti, práva a ďalšie. V roku 1997 spoločnosť predstavila Dragon NaturallySpeaking, ktorý dokázal zachytiť slová plynulejším tempom - a za 150 dolárov oveľa nižšiu cenovú značku-.

Aj napriek tomu však mohlo dochádzať k tak mnohým reptaniam ako kňučanie: do tej miery, že okolo ASR v súčasnosti panuje skepticizmus spotrebiteľov, mala by sa časť úveru venovať príliš nadšenému marketingu týchto skorých produktov. Ale bez úsilia priekopníkov priemyslu James a Janet Baker (ktorí založili spoločnosť Dragon Systems v roku 1982), môže výroba ASR trvať oveľa dlhšie.

November 1993, IEEE Communications Magazine

Rozpoznávanie reči - pokračovanie

25 rokov po uverejnení práce J.R. Pierceho IEEE zverejnil následnú správu s názvom Whither Speech Recognition: Next 25 Years⁵, ktorú vytvorili dvaja vedúci zamestnanci spoločnosti Bell Laboratories (rovnaká inštitúcia, kde Pierce pracoval).

Tento článok sa zameriava na stav priemyslu približne v roku 1993, keď bola publikovaná - a slúži ako istý druh vyvrátenia pesimizmu originálu. Medzi jeho jedla s sebou:

  • Kľúčovým problémom Piercovho listu bol jeho predpoklad, že na to, aby sa rozpoznávanie reči stalo užitočným, musia počítače pochopiť, čo tieto slová znamenajú. Vzhľadom na súčasnú technológiu to bolo úplne nemožné.
  • V istom zmysle mal Pierce pravdu: do roku 1993 mali počítače skrovnú znalosť jazyka - a v roku 2018 sú stále notoricky zlé, keď rozlišujú význam.
  • Pierceova chyba spočívala v jeho nepredvídaní nespočetných spôsobov, ako môže byť rozpoznávanie reči užitočné, aj keď počítač nevie, čo tieto slová vlastne znamenajú.

V prípade, že pokračovanie končí prognózou, prognózou, kam bude ASR v rokoch po roku 1993 smerovať, sa táto sekcia zameriava na drzé zabezpečenie („S istotou predpovedáme, že aspoň jedna z týchto ôsmich predpovedí sa ukáže byť nesprávna“) - ale je to rovnako zaujímavé. Medzi ich osem predpovedí:

  • „Do roku 2000 bude viac ľudí získať vzdialené informácie prostredníctvom hlasových dialógov ako zadaním príkazov na klávesniciach počítača na prístup k vzdialeným databázam.“
  • „Ľudia sa naučia modifikovať svoje rečové zvyklosti tak, aby používali zariadenia na rozpoznávanie reči, rovnako ako zmenili svoje rečové správanie tak, aby správy zanechávali na odkazovačoch. Aj keď sa naučia, ako používať túto technológiu, ľudia sa budú vždy sťažovať na rozpoznávanie reči. “

Temný kôň

V nadchádzajúcej splátke tejto série preskúmame najnovší vývoj a aktuálny stav automatického rozpoznávania reči. Varovanie spojlera: neurónové siete hrali hlavnú úlohu.

Ale neurónové siete sú v skutočnosti také staré ako väčšina prístupov opísaných v tomto dokumente - boli zavedené v 50. rokoch 20. storočia! Až po výpočtovej sile modernej éry (spolu s oveľa väčšími súbormi údajov) sa zmenila krajina.

Ale dostávame sa pred seba. Sledujte náš ďalší príspevok v službe Automatické rozpoznávanie reči podľa popisu na médiu, Twitteri alebo Facebooku.

Časová os cez Juang a Rabiner¹

Poznámka: História ASR je zaplnená viac prispievateľmi a inováciami, ako je možné v tomto článku uviesť; pokryli sme niekoľko významných míľnikov a zahrnuli sme odkazy na ďalšie čítanie nižšie. Ak nám chýba niečo dôležité, dajte nám vedieť!

Ďalšie čítanie

Tu sú zdroje, ktoré boli užitočné pri písaní tohto článku, niektoré z nich sú podrobnejšie:

  1. Automatické rozpoznávanie reči - Stručná história vývoja technológie. B. H. Juang a Lawrence R. Rabiner. Ak vás zaujíma rozsiahlejšia história ASR, je to vynikajúci zdroj.
  2. Shoebox - IBM Historické výstavy

3. Kde je rozpoznávanie reči? - J.R. Pierce

4. Z prvej ruky: Skrytý Markovov model - Lawrence R. Rabiner

5. Rozpoznávanie reči: nasledujúcich 25 rokov - D.B. Roe a J.G. Wilpon

6. Časová os rozpoznávania reči a hlasu - Wikipedia

7. Rozpoznávanie reči - Wikipedia

8. Majetkový článok o Dragonovi Prirodzene hovoriacom, 1998 - Shaifali Puri

9. Frederick Jelinek, ktorý dal stroju kľúč k ľudskej reči, zomrel v 77 rokoch - Steve Lohr

10. Päťdesiat rokov pokroku v oblasti rozpoznávania reči a rečníkov - Sadaoki Furui

Vďaka Arlo Faria a Adamovi Janinovi z Remeetingu, ktorí poskytli cenné historické súvislosti.