Differences between revisions 1 and 2
Revision 1 as of 2010-03-26 14:29:23
Size: 3276
Editor: unhammer
Comment:
Revision 2 as of 2010-03-26 14:30:23
Size: 3296
Editor: unhammer
Comment: formattering
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
==Taleteknologiar== == Taleteknologiar ==
Line 8: Line 8:
==Norsk språkbank== == Norsk språkbank ==
Line 11: Line 11:
===Lisens=== === Lisens ===
Line 17: Line 17:
==Daisy Pipeline== == Daisy Pipeline ==
Line 31: Line 31:
==Talegjenkjenningssystem==
===CMU Sphinx===
== Talegjenkjenningssystem ==
=== CMU Sphinx ===
Line 34: Line 34:
==Talesyntesesystem== == Talesyntesesystem ==
Line 36: Line 36:
===Espeak=== === Espeak ===
Line 43: Line 43:
===Festival=== === Festival ===
Line 56: Line 56:
==Ymse== == Ymse ==

Taleteknologiar

Norsk har svært enkel ortografi (enkelt forhold mellom grafem og fonem), og talesyntese for norsk burde vere lettare enn for t.d. engelsk.

Unit selection (clunits) er den minst krevande metoden mtp. regelskriving og slikt, men krev ein masse opptak av tale. Det finst nyare statistiske metodar (basert på Hidden Markov Models, HTS) som krev litt mindre data enn standard unit selection.

Difonsyntese krev mindre tale, men meir regelskriving/programmering, og du må vere klar på kva for difon (lydsegment) du treng å ta opp, så du må vite litt om språket og fonologien.

Norsk språkbank

Norsk språkbank har 5000 timar med tale frå ein person, som burde vere eit ypperleg grunnlag til t.d. eit unit selection-system for talesyntese.

Lisens

http://www.spraakbanken.uib.no/tilgang.page har dei noko om kommersiell bruk, men der står det «Bruksretten kan ikke overdras eller viderelisensieres til andre, verken helt eller delvis.»

Denne søknad om tekst-til-talesystem (frå Skolelinux) nemnar lisensiering av Språkbanken-ressursane: http://developer.skolelinux.no/brev/tekst-til-tale_friprog-FAD-20071113-v1.0.pdf

Daisy Pipeline

NLB bruker Daisy Pipeline med talesyntesen Brage på ein tenar for å lage lydbøker: http://www.nlb.no/sitepageview.aspx?articleID=10 http://www.nlb.no/sitepageview.aspx?articleID=58

Sjå au: * http://www.spraakbanken.uib.no/utredninger.page * http://www.sprakrad.no/Tema/IKT--sprak/Handlingsplan-for-norsk-sprak-og-IKT/ * http://www.sprakrad.no/Toppmeny/Aktuelt/Bedre-lydboker-med-Brage/ * http://www.daisy.org/project/pipeline * http://www.daisyproducer.org/ * http://www.pipeonline.no/pipeonline/about

Talegjenkjenningssystem

CMU Sphinx

http://cmusphinx.sourceforge.net/

Talesyntesesystem

Espeak

Espeak nyttar formantsyntese: «This allows many languages to be provided in a small size. The speech is clear, and can be used at high speeds, but is not as natural or smooth as larger synthesizers which are based on human speech recordings.»

Enkle ting ein kan gjere for å lære ved å prøve seg fram: * prøve å betre på dei norske grafem→fonem-reglane i espeak (desse er enkle å konvertere til Festival-reglar)

Festival

Festival er eit talesyntesesystem som kan nyttast til * Unit selection -- basert på ein masse opptak, høyrest svært naturleg ut, men krev store mengder lyd * HMM-modellar (HTS) -- statistisk modell, krev au ein god del lyddata

Sjå http://www.cstr.ed.ac.uk/projects/festival/

Enkle ting ein kan gjere for å lære ved å prøve seg fram: * lage ei uttaleordbok i Festival ved å skrive grafem→fonem-reglar, dette skal vere ganske enkelt (seinare går det an å leggje til lydar her, t.d. frå http://voxforge.org eller http://librivox.org)

Det finst verktøy for å få Festival til å lære prosodi («tonefall») m.m. frå eit talekorpus.

Ymse

ADRIANE er ein Linux-distro av Knaus Knopper for blinde. Videopresentasjon frå 2007: http://www.nuug.no/aktiviteter/20071211-accessibility/ Heimeside: http://www.knopper.net/knoppix-adriane/index-en.html

http://voxforge.org er ein nettstad som skal samle frigitt taledata.

Taleteknologi (last edited 2015-11-29 21:27:04 by localhost)