Država Linuxa prepoznavanja glasa

Uvod

Proveo sam puno vremena za istraživanje članaka i vrlo često razmišljam o predmetu za članak dok se hodam prema željezničkoj stanici ili kad sam i oko općenito.

Jedne večeri, dok sam hodala 1,5 milja do kolodvora iz mojega rada, pomislio sam: "Ne bi li bilo dobro kad bih mogao snimiti ono što sam htio reći, a potom je automatski transkribirala u tekstualnu datoteku koju sam kasnije mogao urediti i formatirati" ,

Proveo sam dosta dugo vremena gledajući različite dostupne opcije za prepoznavanje glasa i diktiranje, uključujući izravno snimanje mikrofona pomoću softvera za diktiranje u Linuxu, snimanje datoteke u MP3 ili WAV format te pretvaranje datoteke preko naredbenog retka, kao i korištenje Chromea i Android aplikacija.

Ovaj članak ističe moje nalaze nakon dana napornog rada.

Linux opcije

Pokušavajući pronaći softver za diktiranje i prepoznavanje glasa u Linuxu nije tako lako kao što bi moglo biti i dostupne opcije nisu tako pametne.

Ova stranica wikipedia ima popis mogućih opcija, uključujući CMU Sphinx, Julius i Simon.

Koristim SparkyLinux na temelju Debianovih testova u ovom trenutku i mogu vam reći da je jedini paket za prepoznavanje glasa dostupan u spremištima Sphinx.

Izvorni Linux programi koje sam završio pokušavali su PocketSphinx, koji sam pretvorio WAV datoteke u tekst i Freespeech-VR koji je python aplikacija koja omogućuje snimanje ravno iz mikrofona.

Pokušao sam i nekoliko Chromeovih aplikacija, uključujući VoiceNote II i Dictanote.

Konačno sam pokušao aplikacije "Diktata i e-pošta" i "Talk i Talk Dictation".

Freespeech-VR

Freespeech-VR nije dostupan u standardnim spremištima. Preuzeto sam datoteke ovdje.

Nakon preuzimanja i izdvajanja sadržaja zip datoteke otvorio sam terminal i krenuo prema mapi u koju su izvučene datoteke.

Upisao sam sljedeću naredbu za otvaranje freespeech-vr.

sudo python freespeech-vr

Imam par slušalica s prilično pristojnim mikrofonom i prilično jasnim naglaskom na južnom engleskom jeziku.

Sljedeći tekst pojavio se u freespeech-vr prozoru:

Dobrodošli u jedinicu psi ishod Danas Imaju osiguranje Kako upravljani testovi Moraju testirati Kada teksta Koristi sustavni način Govor Ja jedan Za svaki je bio samo u nadi da će ostati i na sredstva jednog pilića zlatno kao sustav Ea kada je moje ime sljedećeg telefona naziva telefon Ova datoteka Toliko dovoljno slučajeva telefon do Hands-Space sfeng Going To nije telefon će biti podijeljen Obučeni i i alati Koristite govor Kada ste završili Recite koristi datoteku Zadnji priča A i korištenjem od strane kada je vrlo kako uspjeh Ovaj Linux je kao što ste izbjegli je

Sada bih htio reći da ovo nije web stranica Jedinice pasa i ni u kom slučaju nisam spomenula nikakve veze s Zlatnim pilićima. Ja sam zapravo pokušavao opisati proces korištenja softvera za prepoznavanje glasa.

Pokušao sam softver nekoliko puta, uključujući različite brzine i brzine, ali točnost je bila loša.

PocketSphinx

PocketSphinx može preuzeti WAV datoteku i pretvoriti ga u tekst pomoću naredbenog retka.

PocketSphinx je dostupan putem Debianovih spremišta i mora biti dostupan za većinu distribucija.

Glavni problem koji sam pronašao s PocketSphinxom je da praktički trebate stupanj u konceptima prepoznavanja glasa, jezičnih datoteka, rječnika i kako trenirati sustav.

Nakon instalacije PocketSphinxa, trebali biste posjetiti CMU Sphinx web stranicu i pročitati što više informacija. Također morate preuzeti sljedeću datoteku modela.

(Ako niste izvorni engleski zvučnik, odaberite jezik model koji vam odgovara).

Dokumentacija za PocketSphinx i Sphinx općenito je teško razumljiva za laika, ali od onoga što mogu izraditi, rječnikske datoteke koriste se za popis mogućih riječi i jezični modeli imaju popis mogućih izgovora.

Za testiranje PocketSphinx koristio sam snimku vlastitog glasa, isječak Al Pacina u "The Devils Advocate" i isječak iz "Morgan Freeman". To je bilo pokušati razni glasovi, a za mene nitko ne može pričati priču jasno kao Morgan Freeman i nitko ne donosi liniju kao što je Al Pacino.

Za PocketSphinx za rad potrebno je WAV datoteku i mora biti u određenom formatu. Ako je datoteka u MP3 formatu, upotrijebite naredbu ffmpeg da biste ga pretvorili u WAV format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Da biste pokrenuli PocketSphinx, koristite sljedeću naredbu:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -m cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous preuzima WAV datoteku i pretvara ga u tekst.

U naredbi iznad pocketsphinx je rečeno da koristite rječnik datoteku pod nazivom "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" s jezičnim modelom "cmusphinx-5.0-en-us.lm". Datoteka koja se pretvara u tekst naziva se voice2.wav (što je snimka koju sam napravio svojim glasom). Konačno, 2> stavlja sve izuzetne izlazne datoteke koje ne trebate nužno u datoteku nazvanu voice2.log. Stvarni rezultati testa prikazani su unutar prozora terminala.

Rezultati koristeći moj glas su kako slijedi:

dobrodošli na sljedeći o dobro nema ovog tjedna predmet o kojem softver za prepoznavanje u minuti

Rezultati nisu tako strašni kao kod freespeech-vr, ali još uvijek nisu stvarno korisni. Tada sam pokušao koristiti PocketSphinx s Al Pacino, ali to se uopće nije vratilo.

Konačno sam pokušao koristiti glas Morgan Freemana iz filma "Bruce Svemogući" i ovdje su rezultati:

000000000: mi ćemo na nju
000000001: svi su to tvrd da je dan koji je upravo sada da ovo je najviše što smo bili živi Ja sam dio vruće
000000002: u dizalu koji je ključ iz nekog bejzbola ili znaju što da u životu
000000003: Koji su oni koji će se oporaviti
000000004: nisu ga napisali
000000005: oni su na mene pravo out
000000006: morate biti pravila
000000007: Očekujem vas
000000008: i on je naučio ovdje da je ilustracija bila je ubojica božićne zabave
000000009: Ispada da je jedan od načina pisanja o. magarca sam mislio nekoliko uvijek nositi jedan
000000010: kao što je problem ujedinjen neće dati onome što sam procijenio u tom trenutku kada nismo sve što mislite da sam na svijetu će domove i vidio sam to
000000011: otac koji ga ima
000000012: što puno o ovome
000000013: to se daje
000000014: sve što oni ne padaju puno
000000015: pravo jesen
000000016: Dobro se držite samo za mene
000000017: to je nesretan ako mislim da su oni koji će imati da će sve to oženio na a nije mi radimo mi se sviđa za razliku od puta

Moj test se teško može smatrati znanstvenim, a programeri PocketSphinx mogu navesti da ne koristim softver ispravno. Tu je i tehnika zvana glasovna obuka koja se može koristiti za stvaranje boljih rječnika i jezičnih datoteka.

Moje glavno mišljenje ipak je da je jednostavno previše teško za standardnu ​​svakodnevnu uporabu.

VoiceNote II

VoiceNote II je Chromeova aplikacija koja koristi API za prepoznavanje Google Voicea.

Ako upotrebljavate Chrome ili Chromium preglednike, možete instalirati VoiceNote II putem web trgovine .

Ikone na usluzi VoiceNote II postavljene su na čudan način jer morate postaviti jezik pri dnu prozora i gumb za uređivanje također se nalazi na dnu, ali gumb za snimanje nalazi se u gornjem desnom položaju.

Prva stvar koju trebate učiniti jest odabrati jezik, a to se može postići klikom na ikonu svijeta.

Za početak snimanja kliknite ikonu mikrofona i počnite govoriti u mikrofon. Za najbolje rezultate otkrio sam da je polagano govor ključan, tako da softver ima priliku držati korak.

Rezultati nisu bili veliki kao što se može vidjeti u nastavku:

Pozdrav i dobrodošli na povezivanje. About.com danas članci o glasu na tekst pretvorbe dunelm farrell recesija 2008 kao pretvorbi i to je rekao i podržan najbolji način na koji sam pronašao tekstualni dodatak za prikaz 2014debian ili rpm paket ga otvoriti glas tipa govora u tekst otvoriti ako želite odabrati vs izabrao u Edinburgu francuski njemački dobiti vam vrijeme ujediniti kingdomstart na moru microphonewhat ste završili pisanje teksta kao tekstualnu datoteku na svoju theccess i to je vrlo standardni engleski naglasak od južne Engleske najbolje za to, ali idem na textvia ovaj torrentalong sa stvarnim dokumentom i možete vidjeti za pogreške koje vas nagovaraju da slušate prijatelje

Dictanote

Dictanote je još jedna Chromeova aplikacija koja se može koristiti za diktiranje i doživjela je intuitivnije, ali rezultati nisu bili bolji od VoiceNote II.

Koristio sam samo demo verziju Dictanotea koji vas sprječava stvaranje novih dokumenata, ali vam omogućuje da razgovarate preko teksta koji je već u uređivaču. Sam bio u mogućnosti testirati prepoznavanje glasa, ali rezultati nisu bili bolji od VoiceNote II i stoga nisam se prijavio za pro verziju.

Diktiranje i pošta

"Diktiranje i pošta" je aplikacija za Android koja upotrebljava izvorni Googleov API za prepoznavanje glasa.

Rezultati iz "Diktata i pošte" bili su mnogo bolji od bilo kojeg drugog programa koji je bio pokušan do ove točke.

Pozdravljam Linux o., danas se govori o pretvaranju zvuka u tekst

Izigrati s "Diktatima i poštom" je polagano govoriti i izgovoriti, kao i možete s ravnim naglaskom.

Nakon što završite s razgovorom, možete sami e-poštom poslati rezultate.

Talk i Talk diktata

Druga Android aplikacija koju sam pokušala bila je "Talk and Talk Dictation".

Sučelje za ovu aplikaciju bilo je najbolje od hrpe i prepoznavanje glasa vrlo je dobro funkcioniralo. Nakon snimanja diktature sam bio u mogućnosti podijeliti rezultate na različite načine, uključujući e-mail.

dobrodošli na linux about.com danas govorimo o pretvaranju govora u tekst

Kao što vidite, tekst iznad jasno je koliko možete očekivati. Polagano govorimo ključ.

Sažetak

Native Linux ima neki način da ide s obzirom na prepoznavanje glasa i specifično diktiranje. Postoje neki programi koji koriste API za Google Voice, ali još nisu navedeni u spremištima.

ChromeOS aplikacije su malo bolji, ali daleko su najbolji rezultati postignuti pomoću mog Android telefona. Možda telefon ima bolji mikrofon, pa stoga softver za prepoznavanje glasa ima veće šanse za pretvorbu.

Da bi prepoznavanje glasa postalo korisno, treba biti intuitivnije, uz manje potrebne postavke. Ne biste se trebali zabrljati s jezičnim modelima i rječnicima kako biste ga razumjeli.

Cijenim, međutim, da je čitava umjetnost prepoznavanja glasa vrlo izazovna jer svatko ima drukčiji glas i postoji toliko dijalekata iz regije u regiju u jednoj zemlji nevermind koji brinu o stotinama jezika koji se koriste diljem svijeta.

Moja je analiza stoga da je softver za prepoznavanje glasa još uvijek u tijeku.