Diff for "Taleteknologi"

Differences between revisions 7 and 9 (spanning 2 versions)

Denne sida skal samle informasjon som kan vere relevant for taleteknologi for norsk.

Taleteknologiar

Norsk har svært enkel ortografi (enkelt forhold mellom grafem og fonem), og talesyntese for norsk burde vere lettare enn for t.d. engelsk.

Engelsk Wikipedia har ein svært omfattande artikkel om [http://en.wikipedia.org/wiki/Speech_synthesis talesyntese].

Unit selection (clunits) er den minst krevande metoden mtp. regelskriving og slikt, men krev ein masse opptak av tale. Unit selection gir den mest naturlege lyden, sidan det ofte skjer svært lite prosessering frå kjeldelyd til outputlyd, men av og til kan visse ord vere vanskelege å forstå. Det finst nyare statistiske metodar (basert på [http://en.wikipedia.org/wiki/Hidden_Markov_Model Hidden Markov Models], HTS) som krev litt mindre data enn standard unit selection.

Difonsyntese krev mindre tale, men meir regelskriving/programmering. Eit difon er ein overgang frå éin lyd til ein annan; du må vere klar på kva for difon du treng å spille inn med denne metoden, så du må vite litt om språket og fonologien. Lyden er mindre naturleg enn med unit selection (som har ikkje berre difon, men lengre einingar i databasen sin), men krev lite diskplass…

Formantsyntese krev ingen lydopptak, berre reglar for korleis ein gjer grafem (skrift) om til fonem (lyd). Dette gir robotisk lyd, men det er ofte veldig forståeleg.

Norsk språkbank

Norsk språkbank har 5000 timar med tale frå ein person, som burde vere eit ypperleg grunnlag til t.d. eit unit selection-system for talesyntese.

Lisens

På http://www.spraakbanken.uib.no/tilgang.page har dei noko om kommersiell bruk, men der står det «Bruksretten kan ikke overdras eller viderelisensieres til andre, verken helt eller delvis.»

Denne søknaden om tekst-til-talesystem (frå Skolelinux) nemnar lisensiering av Språkbanken-ressursane: http://developer.skolelinux.no/brev/tekst-til-tale_friprog-FAD-20071113-v1.0.pdf

Daisy Pipeline

NLB bruker Daisy Pipeline med talesyntesen Brage på ein tenar for å lage lydbøker: http://www.nlb.no/sitepageview.aspx?articleID=10 http://www.nlb.no/sitepageview.aspx?articleID=58

Sjå au: * http://www.spraakbanken.uib.no/utredninger.page * http://www.sprakrad.no/Tema/IKT--sprak/Handlingsplan-for-norsk-sprak-og-IKT/ * http://www.sprakrad.no/Toppmeny/Aktuelt/Bedre-lydboker-med-Brage/ * http://www.daisy.org/project/pipeline * http://www.daisyproducer.org/ * http://www.pipeonline.no/pipeonline/about

Talegjenkjenningssystem

CMU Sphinx

http://cmusphinx.sourceforge.net/

Talesyntesesystem

Espeak

Heimeside: http://espeak.sourceforge.net/

Espeak nyttar formantsyntese: «This allows many languages to be provided in a small size. The speech is clear, and can be used at high speeds, but is not as natural or smooth as larger synthesizers which are based on human speech recordings.»

Enkle ting ein kan gjere for å lære ved å prøve seg fram: * prøve å betre på dei norske grafem→fonem-reglane i espeak (desse er enkle å konvertere til Festival-reglar)

Festival

Heimeside: http://www.cstr.ed.ac.uk/projects/festival/

Festival er eit talesyntesesystem som kan nyttast til

* Unit selection -- basert på ein masse opptak, høyrest svært naturleg ut, men krev store mengder lyd

* HMM-modellar (HTS) -- statistisk modell, krev au ein god del lyddata

Enkle ting ein kan gjere for å lære ved å prøve seg fram: * lage ei uttaleordbok i Festival ved å skrive grafem→fonem-reglar, dette skal vere ganske enkelt (seinare går det an å leggje til lydar her, t.d. frå http://voxforge.org eller http://librivox.org)

Det finst verktøy for å få Festival til å lære prosodi («tonefall») m.m. frå eit talekorpus.

Ymse

ADRIANE er ein Linux-distro av Knaus Knopper for blinde. Videopresentasjon frå 2007: http://www.nuug.no/aktiviteter/20071211-accessibility/ Heimeside: http://www.knopper.net/knoppix-adriane/index-en.html

http://voxforge.org er ein nettstad som skal samle frigitt taledata.

https://wiki.ubuntu.com/SpeechControl/Blueprints/cmusphinx-train / Ubuntu Voice Recognition Toolkit er eit prosjekt som skal gjera det lettare å la brukarar lasta opp til VoxForge

http://librivox.org/ er ein nettstad som skal samle frigitte lydbøker.

http://article.gmane.org/gmane.org.user-groups.linux.blug/11352 diskusjon på BLUG om taleteknologi

http://aretoulaki.wordpress.com – ein taleteknologiblogg

-  ⇤ ← Revision 7 as of 2010-04-15 09:15:50 → 
  Size: 4361
  Editor: unhammer
  Comment:
+   ← Revision 9 as of 2011-02-22 12:32:19 → ⇥
  Size: 4608
  Editor: unhammer
  Comment: uVRT
-Deletions are marked like this.
+Additions are marked like this.
 Line 76:
+https://wiki.ubuntu.com/SpeechControl/Blueprints/cmusphinx-train / Ubuntu Voice Recognition Toolkit er eit prosjekt som skal gjera det lettare å la brukarar lasta opp til VoxForge
-Line 79:
+Line 81:
+http://aretoulaki.wordpress.com – ein taleteknologiblogg