Denne sida skal samle informasjon som kan vere relevant for taleteknologi for norsk. == Taleteknologiar == Norsk har svært enkel ortografi (enkelt forhold mellom grafem og fonem), og talesyntese for norsk burde vere lettare enn for t.d. engelsk. Engelsk Wikipedia har ein svært omfattande artikkel om [[http://en.wikipedia.org/wiki/Speech_synthesis|talesyntese]]. '''Unit selection''' (clunits) er den minst krevande metoden mtp. regelskriving og slikt, men krev ein ''masse'' opptak av tale. Unit selection gir den mest naturlege lyden, sidan det ofte skjer svært lite prosessering frå kjeldelyd til outputlyd, men av og til kan visse ord vere vanskelege å forstå. Det finst nyare statistiske metodar (basert på [[http://en.wikipedia.org/wiki/Hidden_Markov_Model|Hidden Markov Models]], HTS) som krev litt mindre data enn standard unit selection. '''Difonsyntese''' krev mindre tale, men meir regelskriving/programmering. Eit difon er ein overgang frå éin lyd til ein annan; du må vere klar på kva for difon du treng å spille inn med denne metoden, så du må vite litt om språket og fonologien. Lyden er mindre naturleg enn med unit selection (som har ikkje berre difon, men lengre einingar i databasen sin), men krev lite diskplass… '''Formantsyntese''' krev ingen lydopptak, berre reglar for korleis ein gjer grafem (skrift) om til fonem (lyd). Dette gir robotisk lyd, men det er ofte veldig forståeleg. == Norsk språkbank == Norsk språkbank har 5000 timar med tale frå ein person, som burde vere eit ypperleg grunnlag til t.d. eit unit selection-system for talesyntese. Den er tilgjengelig for nedlasting fra http://www.nb.no/Tilbud/Forske/Spraakbanken/Tilgjengelege-ressursar/Taledatabasar === Lisens === På http://www.spraakbanken.uib.no/tilgang.page har dei noko om kommersiell bruk, men der står det «Bruksretten kan ikke overdras eller viderelisensieres til andre, verken helt eller delvis.» Denne søknaden om tekst-til-talesystem (frå Skolelinux) nemnar lisensiering av Språkbanken-ressursane: http://developer.skolelinux.no/brev/tekst-til-tale_friprog-FAD-20071113-v1.0.pdf == Daisy Pipeline == NLB bruker Daisy Pipeline med talesyntesen Brage på ein tenar for å lage lydbøker: http://www.nlb.no/sitepageview.aspx?articleID=10 http://www.nlb.no/sitepageview.aspx?articleID=58 Sjå au: * http://www.spraakbanken.uib.no/utredninger.page * http://www.sprakrad.no/Tema/IKT--sprak/Handlingsplan-for-norsk-sprak-og-IKT/ * http://www.sprakrad.no/Toppmeny/Aktuelt/Bedre-lydboker-med-Brage/ * http://www.daisy.org/project/pipeline * http://www.daisyproducer.org/ * http://www.pipeonline.no/pipeonline/about == Talegjenkjenningssystem == === CMU Sphinx === http://cmusphinx.sourceforge.net/ GUI-et Simon: http://simon-listens.org/index.php?id=122&L=1 === Julius === http://julius.sourceforge.jp/en_index.php Det finst engelsk-modellar for Julius basert på Voxforge-data. == Talesyntesesystem == === Espeak === Heimeside: http://espeak.sourceforge.net/ Espeak nyttar '''formantsyntese''': «This allows many languages to be provided in a small size. The speech is clear, and can be used at high speeds, but is not as natural or smooth as larger synthesizers which are based on human speech recordings.» Enkle ting ein kan gjere for å lære ved å prøve seg fram: * prøve å betre på dei norske grafem→fonem-reglane i espeak (desse er enkle å konvertere til Festival-reglar) === Festival === Heimeside: http://www.cstr.ed.ac.uk/projects/festival/ Festival er eit talesyntesesystem som kan nyttast til * '''Unit selection''' -- basert på ein masse opptak, høyrest svært naturleg ut, men krev store mengder lyd * HMM-modellar ('''HTS''') -- statistisk modell, krev au ein god del lyddata Enkle ting ein kan gjere for å lære ved å prøve seg fram: * lage ei uttaleordbok i Festival ved å skrive grafem→fonem-reglar, dette skal vere ganske enkelt (seinare går det an å leggje til lydar her, t.d. frå http://voxforge.org eller http://librivox.org) Det finst verktøy for å få Festival til å lære prosodi («tonefall») m.m. frå eit talekorpus. == Ymse == ADRIANE er ein Linux-distro av Knaus Knopper for blinde. Videopresentasjon frå 2007: http://www.nuug.no/aktiviteter/20071211-accessibility/ Heimeside: http://www.knopper.net/knoppix-adriane/index-en.html http://voxforge.org er ein nettstad som skal samle frigitt taledata. https://wiki.ubuntu.com/SpeechControl/Blueprints/cmusphinx-train / Ubuntu Voice Recognition Toolkit er eit prosjekt som skal gjera det lettare å la brukarar lasta opp til VoxForge http://librivox.org/ er ein nettstad som skal samle frigitte lydbøker. http://article.gmane.org/gmane.org.user-groups.linux.blug/11352 diskusjon på BLUG om taleteknologi http://aretoulaki.wordpress.com – ein taleteknologiblogg http://www.eguidedog.net lagar ulike frie verktøy for blinde, m.a. tekst-til-tale. Det finst litt overordna dokumentasjon på http://www.eguidedog.net/doc_develop_ekho.php Ser ut til å vera basert på unit selection ( http://www.eguidedog.net/doc_make_new_voice.php ), med fokus på kinesisk...