Sintesi vocale e Run (Lodovica Comello): differenze tra le pagine

(Differenze fra le pagine)
Contenuto cancellato Contenuto aggiunto
WikitanvirBot (discussione | contributi)
m r2.7.1) (Bot: Aggiungo: hr:Sintetizator govora
 
Musicale 89 (discussione | contributi)
Fix
 
Riga 1:
{{Album
[[File:Vocoder demo.ogg|thumb|right|250px|Esempio di sintesi vocale realizzata con [[Vocoder]] (frase ''Somewhere in a future'')]]
|titolo = Run
[[File:Festival Speech Synthesis System.ogg|thumb|right|250px|Esempio di sintesi vocale usata per l'accessibilità: la voce ''Festival Speech Synthesis'' da en:wikipedia convertita in audio tramite il programma txt2audio]]
|artista = Lodovica Comello
La '''sintesi vocale''' (in inglese ''speech synthesis'') è la tecnica per la riproduzione artificiale della [[voce umana]]. Un sistema usato per questo scopo è detto ''[[sintetizzatore]] vocale'' e può essere realizzato tramite [[software]] o via [[hardware]]. I sistemi di sintesi vocale sono noti anche come sistemi ''text-to-speech (TTS)'' (in italiano: da testo a voce) per la loro possibilità di convertire il testo in parlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato<ref>{{en}}Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, ''From Text to Speech: The MITalk system''. Cambridge University Press: 1987. ISBN 0-521-30641-8</ref>.
|tipo album = Singolo
|giornomese = 22 maggio
|anno = 2018
|durata = 3:04
|album di provenienza =
|genere = Pop
|etichetta = Duduc/[[Sony Music]]
|produttore = [[Fausto Cogliati]]
|registrato =
|formati =
|numero dischi d'oro =
|numero dischi di platino =
|precedente = [[50 Shades of Colours]]
|anno precedente = 2017
|successivo =
|anno successivo =
}}
'''''Run''''' è un [[Singolo (musica)|singolo]] della [[cantante]], [[attrice]] e [[Conduttore televisivo|conduttrice televisiva]] [[italia]]na [[Lodovica Comello]], pubblicato il 22 maggio 2018.
 
== Il brano ==
La sintesi vocale si può realizzare concatenando registrazioni di parti vocali memorizzate in un [[database]]. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli [[fonema|fonemi]] o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata. In alternativa, un sintetizzatore può incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi<ref>{{en}}Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. ''Journal of the Acoustical Society of America'', 70, 321-328.</ref>.
Il brano è nato da un progetto digitale avviato nel febbraio 2018 e chiamato ''Una canzone per me'', rivolto a tutti gli aspiranti musicisti e compositori, con il fine di coinvolgerli nella composizione del nuovo singolo di Lodovica Comello.<ref>{{Cita news|lingua=it-IT|nome=Rockol.com|cognome=s.r.l.|url=http://www.rockol.it/news-686817/lodovica-comello-annunciati-casting-canzone-me?refresh_ce|titolo=√ Lodovica Comello: annunciati i casting per 'Una canzone per me'|pubblicazione=Rockol|accesso=2018-03-05}}</ref>
 
Tra le canzoni pervenute nell'ambito del [[contest]], l'artista, con la collaborazione del suo staff artistico e discografico, ha scelto il brano ''Run'', scritto da Agnese Bighin.<ref>{{Cita web|url=http://www.veneziatoday.it/cronaca/canzone-scelta-lodovica-comello-agnese-chioggia.html|titolo=#UCPM |"Una canzone per me": Lodovica Comello sceglie "Run" della chioggiotta Agnese|editore=veneziatoday.it|data=26 aprile 2018}}</ref>
La qualità di un sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilità. Un programma di conversione da testo a voce con una buona resa può avere un ruolo importante nell'accessibilità, per esempio consentendo a persone con problemi di vista o di [[dislessia]] di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi [[anni 1980|anni ottanta]] molti [[sistema operativo|sistemi operativi]] includono funzioni di sintesi vocale.
 
== Meccanismo di baseTracce ==
*'''Download digitale'''
Un sistema o motore di sintesi vocale è composto da due parti: una ''front-end'' e una ''back-end''.
{{Tracce
| Titolo1 = Run
| Durata1 = 3:07
}}
 
== Video musicale ==
La parte front-end si occupa della conversione del testo in simboli fonetici mentre la parte back-end interpreta i simboli fonetici e li "legge", trasformandoli così in voce artificiale.
Il [[videoclip]] della canzone è stato diretto da Tomas Goldschmidt e rilasciato il 24 maggio 2018.<ref>{{Cita web|url=https://www.rockol.it/news-691026/lodovica-comello-run-video-ufficiale-testo-streaming-download|titolo=Lodovica Comello, guarda il video di "Run", il singolo di "Una canzone per me"|editore=rockol.it|data=24 maggio 2018}}</ref>
 
[[File:Sintesi vocale.png|600px|thumb|center|Schema di un sistema di sintesi vocale generico]]
 
Il front-end prevede due funzioni chiave: per prima cosa, viene eseguita un'analisi del testo scritto per convertire tutti i numeri, le sigle e le abbreviazioni in parole per esteso (es. il testo '2' viene convertito in 'due'). Questo fase di pre-elaborazione viene definita come [[normalizzazione]] o [[classificazione]] del testo (in inglese: ''tokenization''). La seconda funzione consiste nel convertire ogni parola nei suoi corrispondenti [[fonetica|simboli fonetici]] e nell'eseguire l'analisi linguistica del testo rielaborato, suddividendolo in unità prosodiche, ossia in proposizioni, frasi e periodi. Il processo di assegnazione della trascrizione fonetica alle parole è chiamato conversione da testo a [[fonema]] o da [[grafema]] a [[fonema]] (in inglese ''text-to-phoneme, TTP'')<ref>{{en}}P. H. Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, ''Progress in Speech Synthesis''. Springer: 1997. ISBN 0-387-94701-9</ref>.
 
La trascrizione fonetica e le informazioni di [[prosodia]] combinate insieme costituiscono la rappresentazione linguistica simbolica che viene utilizzata dal back-end per la conversione in suoni di tali informazioni ossia per il processo di sintesi vero e proprio.
 
== Storia ==
=== Dispositivi meccanici ===
[[File:Speech synthesizer Von Kempelen 1791.gif|thumb|La macchina acustica-meccanica vocale di Von Kempelen (disegni del suo testo del 1791)]]
I ricercatori tentarono di costruire macchine per riprodurre la voce umana molto prima che fosse inventata la moderna elaborazione elettronica dei [[Segnale (informatica)|segnali]] (l'[[informatica]]): le prime apparecchiature furono costruite da [[Papa Silvestro II|Gerbert di Aurillac]], [[Albertus Magnus]] e [[Roger Bacon]], tra il [[X secolo|X]] e il [[XIII secolo]].
 
Nel [[1779]], lo scienziato [[Danimarca|danese]] [[Christian Kratzenstein]], che si trovava a lavorare presso l'[[Accademia russa delle scienze]], costruì modelli dell'apparato vocale umano che potevano riprodurre i cinque suoni lunghi delle vocali (ossia i suoni [a:], [e:], [i:], [o:] e [u:] secondo l'[[Alfabeto fonetico internazionale|Alfabeto Fonetico Internazionale]])<ref name=Helsinki>{{en}}[http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/chap2.html History and Development of Speech Synthesis], Helsinki University of Technology, [[4 novembre]] [[2006]]</ref>. A questi dispositivi seguì la ''Macchina acustica-meccanica vocale'', un meccanismo a [[mantice]] realizzato dal viennese [[Wolfgang von Kempelen]] e descritto in un suo lavoro del [[1791]] <ref>{{de}} ''Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine'' ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), J.B. Degen, Vienna</ref>. Questa macchina aggiungeva un modello delle labbra e della lingua consentendo così di sintetizzare oltre alle vocali anche le consonanti. Nel [[1837]] [[Charles Wheatstone]] produsse una "macchina parlante" basata sul progetto di von Kempelen, e nel [[1846]] Joseph Faber costruì l'''Euphonia'', in grado di riprodurre tra l'altro l'inno nazionale inglese. Il progetto di Wheatstone fu poi ripreso a sua volta nel [[1923]] da Paget.<ref>{{en}}Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), ''Current Trends in Linguistics, Volume 12, Mouton'', L'Aja, pp. 2451-2487, 1974.</ref>
 
Negli [[Anni 1930|anni trenta]], i [[Bell Labs]] (Laboratori Bell) svilupparono il ''[[Vocoder|VOCODER]]'', un analizzatore e sintetizzatore elettronico della voce comandato a tastiera con un risultato chiaramente intelligibile. [[Homer Dudley]] perfezionò ulteriormente questo apparecchio creando il ''VODER'', di cui venne data una dimostrazione nel [[1939]] durante la Fiera Mondiale di [[New York City|New York]]<ref>{{en}} [http://www.obsolete.com/120_years/machines/vocoder/ Fotografie del VODER alla Fiera Mondiale del 1939]</ref>.
 
Il ricercatore [[Franklin S. Cooper]] e i suoi colleghi dei [[Laboratori Haskins]] realizzarono alla fine degli [[Anni 1940|anni quaranta]] il ''Riproduttore di sequenze'', completato nel [[1950]]. Di questo dispositivo furono realizzate diverse versioni di cui soltanto una è arrivata fino ai nostri giorni. Il dispositivo converte in suono le immagini dello [[spettro acustico]] della voce e fu proprio grazie a questo meccanismo che [[Alvin Liberman]] e i suoi colleghi scoprirono le caratteristiche acustiche alla base della percezione dei segmenti fonetici (consonanti e vocali).
 
=== Dispositivi elettronici ===
I primi sintetizzatori vocali elettronici ricreavano una voce molto metallica ed erano spesso incomprensibili; da allora però la qualità è aumentata costantemente e la voce prodotta dai moderni sistemi di sintesi vocale è talvolta indistinguibile dalla vera voce umana.
 
I primi sistemi di sintesi vocale basati su computer furono creati sul finire degli [[Anni 1950|anni cinquanta]] e il primo sistema di sintesi vocale text-to-speech (da testo a voce) completo venne realizzato nel [[1968]]. Nel [[1961]] i fisici [[John Larry Kelly, Jr]] e Louis Gertsman<ref>{{en}}[http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest NY Times annuncio funebre di Louis Gerstman].</ref> utilizzarono un computer [[IBM]] 704 per sintetizzare la voce. Questo esperimento rappresentò uno dei momenti salienti dell'attività dei [[Bell Labs]]: il vocoder di Kelly riprodusse la canzone ''Daisy Bell'', con l'accompagnamento musicale di Max Mathews. Lo scrittore [[Arthur C. Clarke]] si trovava casualmente ai Bell Labs in visita all'amico e collega John Pierce proprio nel momento di questa dimostrazione<ref>{{en}}[http://www.alcatel-lucent.com/wps/portal/!ut/p/kcxml/04_Sj9SPykssy0xPLMnMz0vM0Y_QjzKLd4w3MfQFSYGYRq6m-pEoYgbxjgiRIH1vfV-P_NxU_QD9gtzQiHJHR0UAAD_zXg!!/delta/base64xml/L0lJayEvUUd3QndJQSEvNElVRkNBISEvNl9BX0FLTC9lbl93dw!!?LMSG_CABINET=Bell_Labs&LMSG_CONTENT_FILE=History/Timeline/Timeline_Innovation_000100&UNIQUE_NAME=lu.gen.prt.pg.rendition&lu_lang_code=en_WW Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis]</ref> e ne rimase impressionato al punto da riprendere la scena in uno dei momenti cruciali del suo romanzo ''[[2001: Odissea nello spazio (romanzo)|2001: Odissea nello spazio]]''<ref name="Arthur C Clarke">{{en}}[http://www.lsi.usp.br/~rbianchi/clarke/ACC.Biography.html Arthur C. Clarke, Biografia on line]</ref>, facendo eseguire la stessa canzone al computer [[HAL 9000]] mentre viene disattivato dall'astronauta Dave Bowman<ref name="bell labs hal">{{en}}[http://www.bell-labs.com/news/1997/march/5/2.html Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)]</ref>, scena che fu poi riprodotta fedelmente dal regista [[Stanley Kubrick]] nell'omonimo [[2001: Odissea nello spazio|film]].
 
Nonostante i successi ottenuti con i sintetizzatori elettronici, la ricerca sui sintetizzatori vocali di tipo meccanico non è stata abbandonata, specialmente in vista di un possibile impiego di tali sistemi per [[robot]] di tipo umanoide.<ref>{{en}}[http://www.takanishi.mech.waseda.ac.jp/research/voice/ Anthropomorphic Talking Robot Waseda-Talker Series]</ref>
 
== Tecnologie di sintesi ==
Le qualità più importanti di una sintesi vocale sono la ''naturalezza'' e l'''intelligibilità''.
 
La naturalezza esprime quanto la voce sintetizzata si avvicina a quella umana mentre l'intelligibilità rappresenta la facilità di comprensione della voce sintetizzata. Un sintetizzatore ideale è allo stesso tempo naturale e intelligibile, nella realtà i sistemi di sintesi vocale approssimano tale comportamento tentando di ottimizzare entrambe le caratteristiche.
 
Le due tecnologie principali per la sintesi vocale sono la ''sintesi concatenativa'' e la ''sintesi basata sulle regole''. Ciascuna tecnologia ha i suoi punti di forza e di debolezza: la scelta di quale utilizzare dipende tipicamente dal tipo di utilizzo finale della sintesi vocale.
 
=== Sintesi concatenativa ===
La '''''sintesi concatenativa''''', come dice il nome, si basa sulla [[concatenazione]] ossia la combinazione di frammenti di voce registrati. In generale questa metodologia produce il risultato di sintesi più naturale, tuttavia la differenza tra le variazioni naturali della voce umana e le tecniche di frammentazione automatica delle [[Forma d'onda|forme d'onda]] può talvolta generare dei
piccoli disturbi udibili. Esistono tre sotto-tipi principali di sintesi concatenativa.
 
===== Sintesi per campioni unitari =====
La ''sintesi per campioni unitari'' si appoggia su grandi [[database]] di voci registrate. Durante la creazione del database ogni emissione registrata viene frazionata in uno o più di questi segmenti: suoni isolati, [[sillaba|sillabe]], [[morfema|morfemi]], [[parola|parole]], [[frase|frasi]] e [[Periodo (grammatica)|periodi]] completi. Normalmente la frammentazione impiega un riconoscitore di linguaggio modificato appositamente per eseguire un "allineamento forzato" a cui seguono interventi di correzione manuali basati su rappresentazioni visive del suono come le [[Forma d'onda|forme d'onda]] e gli [[Spettrogramma|spettrogrammi]].<ref>{{en}}Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario [[IEEE]] su TTS, [[2002]]. (http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html)</ref> I campioni sonori vengono [[database|indicizzati]] nel database sulla base della frammentazione e di parametri acustici quali la [[Analisi di Fourier|frequenza fondamentale]] ([[tono (musica)|tono musicale]]), la durata, la posizione all'interno della sillaba e i suoni adiacenti. Durante la sintesi in tempo reale l'emissione finale viene generata sulla base di un [[algoritmo]] di decisione ad ''albero pesato'' che identifica la "miglior sequenza" tra i campioni candidati scelti dal database.
 
Questo tipo di sintesi produce i risultati di maggior naturalezza perché riduce al minimo le operazioni di elaborazione digitale ([[digital signal processing]], DSP) sui campioni registrati. Le elaborazioni digitali infatti spesso alterano la resa del suono sintetizzato rendendola meno naturale: alcuni sistemi usano tecniche DSP solo per ammorbidire le transizioni tra i campioni sonori in fase di concatenazione. I migliori sistemi a sintesi articolatoria producono un risultato che spesso è indistinguibile da una vera voce umana, specialmente in quei contesti in cui la conversione da testo a voce è stata ottimizzata per uno scopo specifico. Di contro, una naturalezza massima richiede normalmente l'impiego di database di dimensioni considerevoli, che in alcuni casi possono arrivare all'ordine dei [[gigabyte]], equivalenti a qualche dozzina di ore di registrazioni vocali.<ref>{{en}}John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.</ref> Inoltre, è stato accertato che gli algoritmi di selezione dei campioni possono scegliere segmenti che producono una sintesi non ideale (per esempio, con una pronuncia poco chiara delle parole minori) anche quando nel database è presente una scelta migliore<ref>{{en}}Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, http://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.</ref>.
 
===== Sintesi per difoni =====
La ''sintesi per difoni'' utilizza un database di suoni di dimensioni minime contenente tutti i [[difono|difoni]] (transizioni tra suoni diversi) tipici di un determinato linguaggio. Il numero dei difoni dipende dalle caratteristiche fonetiche del linguaggio: per esempio, la [[lingua spagnola]] comprende circa 800 difoni mentre il [[lingua tedesca|tedesco]] ne conta circa 2500. Con questa tecnica viene memorizzato nel database un unico campione per ciascun difono. Durante l'elaborazione in tempo reale, ai difoni selezionati viene sovrapposta la [[prosodia]] della frase da sintetizzare usando tecniche DSP ([[digital signal processing]]) come la codifica lineare predittiva, [[PSOLA]]<ref>{{en}}[http://www.fon.hum.uva.nl/praat/manual/PSOLA.html Sintesi basata su PSOLA]</ref> (''Pitch-Synchronous Overlap and Add'') oppure [[MBROLA]].<ref>{{en}}T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ''ICSLP Proceedings'', 1996.</ref>
La qualità della voce risultante in genere è inferiore rispetto a quella ottenuta per sintesi articolatoria ma suona più naturale rispetto a quella ottenuta con la sintesi basata sulle regole. I difetti della sintesi per difoni consistono in piccoli stacchi tra i suoni, tipici del meccanismo di concatenazione, e in un effetto di voce metallica come nella sintesi basata sulle regole. In effetti, rispetto a queste tecniche la sintesi per difoni non presenta vantaggi significativi a parte la dimensione ridotta del database di appoggio. Per questo motivo l'impiego di questa tecnica per applicazioni commerciali è in fase di declino mentre continua a essere impiegata nella ricerca grazie alle molte implementazioni [[software]] gratuite disponibili.
 
===== Sintesi per applicazioni specifiche =====
La ''sintesi per applicazioni specifiche'' si basa sulla concatenazione di parole e frasi pre-registrate per generare emissioni complete. Si usa principalmente per applicazioni in cui i testi da sintetizzare sono limitati alle esigenze di un settore specifico, come per esempio gli annunci ferroviari o aeroportuali o le previsioni del tempo<ref>{{en}}L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, ''Proceedings ESCA-NATO Workshop and Applications of Speech Technology'', Sept 1993</ref>. La tecnologia è semplice da implementare ed è in uso da tempo in applicazioni di tipo commerciale e in dispositivi tipo le sveglie parlanti o le calcolatrici con voce. La naturalezza di questi sistemi è molto elevata grazie al fatto che il numero di frasi componenti è limitato e riproduce molto fedelmente la prosodia e l'intonazione delle registrazioni originali.
 
D'altro canto, questi sistemi si limitano a riprodurre parole e frasi contenute nel loro database e possono sintetizzare solo le combinazioni predefinite, per cui non possono essere estesi per un uso generalizzato. Inoltre la legatura delle parole tipica del linguaggio naturale può essere causa di qualche problema a meno che non si tengano in considerazione tutte le possibili varianti. Per esempio, nella [[lingua francese]] molte consonanti finali sono mute ma se la parola successiva inizia per vocale allora devono essere pronunciate (''liaison''). Queste variazioni di [[pronuncia]] non possono essere riprodotte da un sistema di concatenazione semplice delle parole ed è necessario aumentarne la complessità per poterlo rendere adattabile al [[contesto]].
 
=== Sintesi basata sulle regole ===
[[File:Euphoniafaber.jpg|thumb|right|250px|Illustrazione del 1846 riproducente l'''Euphonia'', macchina di sintesi vocale meccanica realizzata da Joseph Faber]]
La '''''sintesi basata sulle regole''''' non utilizza campioni della voce umana ma ricrea la voce per elaborazione basandosi su un modello [[Acustica|acustico]] e per tale motivo viene detta anche ''sintesi per [[Formante (acustica)|formanti]]''. Questa tecnica consiste nella generazione di forme d'onda di cui si modulano alcuni parametri acustici come la frequenza fondamentale, i toni e i livelli di [[rumore]]. Anche molti sistemi di sintesi concatenativa usano alcuni componenti di questo tipo.
 
Molti sistemi di sintesi basata sulle regole generano una voce dal suono artificiale e molto metallico che non può essere scambiata per una voce umana. Questa tecnica di sintesi non ha però come obiettivo la massima naturalezza e presenta una serie di vantaggi rispetto alla sintesi concatenativa. La sintesi basata sulle regole infatti è decisamente intelligibile anche ad alte velocità, non presentando i piccoli stacchi acustici tipici dei sistemi a sintesi concatenativa: la sintesi ad alta velocità è molto usata per i sistemi di lettura dello schermo per l'uso dei [[computer]] da parte delle persone ipovedenti. Inoltre i sistemi di sintesi basata sulle regole sono gestiti da programmi di dimensione più contenuta non dovendo utilizzare un database di campioni vocali. Questa caratteristica ne consente l'impiego in [[sistema embedded|sistemi embedded]], dove la capacità di [[memoria (informatica)|memoria]] e la potenza di calcolo del [[microprocessore]] possono essere limitate. Infine, i sistemi di sintesi basata sulle regole possono controllare tutti gli aspetti del linguaggio vocale, generando un'ampia varietà di [[prosodia|prosodie]] e [[intonazione|intonazioni]] e veicolando così non soltanto il contenuto del testo ma anche effetti emotivi e toni di voce.
 
Tra gli esempi di sintesi basata su regole con un controllo molto accurato dell'intonazione, sia pure non in tempo reale, si trovano i lavori svolti alla fine degli [[Anni 1970|anni settanta]] per il gioco ''Speak & Spell'' prodotto da [[Texas Instruments]] e per le console di videogiochi prodotte da [[SEGA]] all'inizio degli [[Anni 1980|anni ottanta]].<ref>Tra gli esempi: [[Astro Blaster]], [[Space Fury]], il videogioco di [[Star Trek]].</ref> Per questi progetti la generazione della corretta intonazione ha rappresentato una vera e propria sfida tecnologica i cui risultati non sono ancora stati eguagliati da nessun sistema di sintesi vocale in tempo reale. <ref>{{en}}John Holmes e Wendy Holmes. ''Speech Synthesis and Recognition, 2nd Edition''. CRC: 2001. ISBN 0-7484-0856-8.</ref>
 
=== Sintesi articolatoria ===
La '''''sintesi articolatoria''''' ricorre a tecniche computazionali basate su modelli biomeccanici dei tratti vocali umani e dei loro processi di articolazione. Il primo sintetizzatore di tipo articolatorio impiegato su base regolare per esperimenti di laboratorio fu sviluppato a metà degli anni Settanta da [[Philip Rubin]], Tom Baer e Paul Mermelstein dei Laboratori Haskins. Questo sintetizzatore, noto anche come ASY, si basava su modelli dei tratti vocali elaborati da Paul Mermelstein, Cecil Coker e altri negli [[Anni 1960|anni sessanta]] e Settanta dai [[Bell Laboratories]].
 
Fino a poco tempo fa i modelli di sintesi articolatoria non erano stati utilizzati per sistemi di sintesi commerciale. Un'eccezione significativa è il sistema basato su [[NeXT]] realizzato e commercializzato da Trillium Sound Research, un'azienda collegata all'[[Università di Calgary]] in cui si svolse gran parte della ricerca originale. Seguendo la sorte di molte delle applicazioni derivate da NeXT (che fu creata da [[Steve Jobs]] alla fine degli [[Anni 1980|anni ottanta]] per poi fondersi con [[Apple Computer]] nel [[1997]]), il software di Trillium venne reso disponibile sotto la licenza [[GNU General Public License|GNU]] e continua ad evolversi nel progetto ''gnuspeech''. Questo sistema, commercializzato per la prima volta nel [[1994]], implementa una conversione da testo a voce di tipo completamente articolatorio tramite una guida d'onda o una linea trasmissiva che emula i tratti nasali e orali umani controllati dal "modello di regione distintiva" di Carré.
 
=== Sintesi Markoviana ===
La '''''sintesi Markoviana''''' è un metodo basato sul [[modello di Markov nascosto]] (HMM, ''Hidden Markov Model''). In questa tecnica lo spettro di frequenze (tratto vocale), la [[altezza (suono)|frequenza fondamentale]] (sorgente vocale) e la durata ([[prosodia]]) della voce sono modellate simultaneamente tramite modelli nascosti di Markov. Gli stessi modelli nascosti di Markov generano le forme d'onda vocali basandosi su un [[Funzione di verosimiglianza|criterio di massima verosimiglianza]].<ref>{{en}}The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/</ref>
 
=== Sintesi sinusoidale ===
La '''''sintesi sinusoidale''''' è una tecnica in cui la voce viene sintetizzata sostituendo i formanti con frequenze pure generate da forme d'onda sinusoidali.
 
Il primo programma di sintesi sinusoidale fu realizzato da Philip Rubin degli Haskins Laboratories negli anni Settanta per creare stimoli artificiali negli esperimenti sulla percezione. Questo programma fu utilizzato in seguito da Robert Remez, Philip Rubin, David Pisoni e altri per dimostrare che un ascoltatore può percepire un discorso come continuo anche in assenza dei tipici picchi vocali.<ref>{{en}}Remez, R.E., Rubin, P.E., Pisoni, D.B., & Carrell, T.D. Speech perception without traditional speech cues. ''Science'', 1981, 212, 947-950.</ref>
 
== Problematiche ==
=== Normalizzazione del testo ===
Il processo di normalizzazione di un testo raramente è univoco. Nei testi sono spesso presenti [[omografia (linguistica)|omografie]], [[numero|numeri]] e [[abbreviazione|abbreviazioni]] che devono essere tradotti in una rappresentazione fonetica corretta. Nel caso delle omografie, parole che hanno la stessa rappresentazione testuale richiedono una pronuncia differente a seconda del significato e quindi del contesto, come per esempio nella frase "''Ho gettato ancora l'ancora''", dove l'omografo ''ancora'' deve essere pronunciato in due modi differenti con due significati diversi (''Ho gettato ancóra l'àncora'').
 
La maggior parte dei sistemi di conversione da testo a voce non sono in grado di generare una rappresentazione semantica del testo, in quanto i processi impiegabili per questo non sono sufficientemente affidabili, non ancora del tutto compresi o inefficienti dal punto di vista computazionale. Si ricorre piuttosto a tecniche di tipo [[euristica|euristico]] per individuare il modo corretto per risolvere le ambiguità, come per esempio tramite l'esame delle parole circostanti e le statistiche di frequenza d'uso.
 
Anche la scelta di come sintetizzare un numero rappresenta una problematica. Da un punto di vista di programmazione, convertire un numero in testo, come per esempio "1325" in "milletrecentoventicinque", è un'operazione semplice. Tuttavia, quando si deve contestualizzare correttamente un numero ci si trova di nuovo di fronte a un'ambiguità. "1325" può essere convertito come "milletrecentoventicinque" se si tratta di un anno o di una quantità, oppure in "uno tre due cinque" se si tratta di un codice numerico. Anche in questo caso, un sistema di conversione vocale può effettuare delle scelte basandosi sulle parole circostanti e sulla punteggiatura; alcuni sistemi consentono anche di specificare un contesto in modo da risolvere le ambiguità.
 
Allo stesso modo anche le abbreviazioni possono essere ambigue. Per esempio l'abbreviazione "ha" per ''ettaro'' deve essere distinta da "ha", voce del verbo ''avere''. Ci sono casi anche più complessi: "S.Marco", "S.Antonio", "S.Rita" e "S.Stefano" usano tutti la stessa abbreviazione "S." che però deve essere resa rispettivamente con "San", "Sant'", "Santa" e "Santo". I sistemi di conversione dotati di front-end intelligente sono in grado di risolvere le ambiguità sulla base dell'apprendimento ma altri sistemi meno sofisticati operano ovunque la stessa scelta, con risultati che possono essere a volte privi di senso o addirittura comici.
 
=== Resa dei fonemi dal testo ===
I sistemi di sintesi vocale utilizzano due approcci fondamentali per determinare come si pronuncia una parola partendo dalla sua grafia, un processo noto anche come conversione testo-fonema o grafema-fonema (i linguisti usano il termine [[fonema]] per descrivere i suoni distintivi nell'ambito di una determinata lingua).
 
L'approccio più semplice è rappresentato dalla conversione basata sul dizionario, in cui il programma memorizza un dizionario di grandi dimensioni contenente tutte le parole di una lingua e la relativa pronuncia: la pronuncia corretta di ogni parola si ottiene individuandola nel dizionario e sostituendola con la pronuncia ivi memorizzata.
 
Il secondo approccio è rappresentato dalla conversione basata sulle regole, in cui alle parole si applicano le regole di pronuncia basate sulla loro grafia. Questo approccio è simile al metodo di apprendimento della lettura basato sul "suono" ([[fonica sintetica]]).
 
Ciascuno dei due approcci ha i suoi pro e i suoi contro. L'approccio basato sul dizionario è rapido e preciso ma non è in grado di fornire alcun risultato se una parola non è presente nel dizionario; inoltre, al crescere delle dimensioni del dizionario cresce anche la quantità di memoria richiesta dal sistema di sintesi. Dall'altra parte l'approccio basato sulle regole è in grado di funzionare con qualsiasi testo in ingresso ma la sua complessità aumenta anche considerevolmente via via che il sistema tiene conto anche delle irregolarità nelle regole di grafia o di pronuncia. Basta considerare casi come quello del nome latino "Gneo", dove il gruppo ''gn'' viene pronunciato ''g-n'', con la ''g'' gutturale, invece che come un'unica nasale come in ''agnello''. Di conseguenza, quasi tutti i sistemi di sintesi vocale scelgono in pratica di adottare una combinazione dei due approcci.
 
In alcune lingue, come nel caso della [[lingua spagnola]] o della [[lingua italiana]], la corrispondenza tra il modo in cui si scrive una parola e la sua pronuncia è molto elevata per cui la determinazione della pronuncia corretta a partire dalla grafia risulta semplificata; in questi casi i sistemi di sintesi vocale utilizzano quasi esclusivamente il metodo basato sulle regole, limitando l'uso del dizionario a quella minoranza di parole, come i nomi di origine straniera, la cui pronuncia non è ovvia partendo dalla grafia. All'opposto, per linguaggi che presentano una corrispondenza molto bassa tra la grafia di una parola e la sua pronuncia, come per esempio avviene nella [[lingua inglese]], i sistemi di sintesi vocale si appoggiano essenzialmente sui dizionari, limitando l'uso dei metodi basati sulle regole solo alle parole di uso non comune o alle parole non presenti nel dizionario.
 
=== Valutazione qualitativa ===
È molto difficile valutare in modo coerente i sistemi di sintesi vocale in quanto non esistono criteri universali di riferimento. La qualità di un sistema di sintesi vocale dipende in modo significativo dalla qualità non solo della tecnica usata per la produzione (che può utilizzare registrazioni analogiche o digitali) ma anche dagli strumenti e dal contesto di riproduzione, le cui differenze spesso possono compromettere l'esito della valutazione.
 
Recentemente comunque alcuni ricercatori hanno iniziato a usare come riferimento per la valutazione il ''common speech dataset'' sviluppato come progetto open source dalla [[Carnegie Mellon University]]<ref>{{en}}Blizzard Challenge http://festvox.org/blizzard</ref>.
 
=== Resa del contenuto emotivo ===
Uno studio realizzato da Amy Drahota e da altri ricercatori dell'[[Universita di Portsmouth]], [[Regno Unito]], pubblicato sulla rivista ''Speech Communication'', ha evidenziato che gli ascoltatori sono in grado di determinare con un elevato grado di precisione se chi parla sta sorridendo oppure no <ref>{{en}}[http://www.port.ac.uk/aboutus/newsandevents/news/title,74220,en.html The Sound of Smiling]</ref>. Questo ha suggerito che l'identificazione dei tratti vocali che veicolano contenuto emotivo potrebbe essere utile nel rendere più naturale il risultato di una sintesi vocale.
 
== Hardware dedicato ==
[[File:Speech synthesis electronics.jpg|thumb|right|250px|Un kit per la sintesi vocale elettronica prodotto da Bell System]]
* Votrax
** SC-01A (analog formant)
** SC-02 / SSI-263 / "Arctic 263"
* General Instruments SP0256-AL2 (CTS256A-AL2, MEA8000)
* National Semiconductor DT1050 Digitalker (Mozer)
* Silicon Systems SSI 263 (analog formant)
* Texas Instruments
** TMS5110A (LPC)
** TMS5200
* Oki Semiconductor
** MSM5205
** MSM5218RS (ADPCM)
* Toshiba T6721A
* Philips PCF8200
 
== Sistemi operativi e dispositivi dotati di sintesi vocale ==
=== Apple Mac OS e Mac OS X ===
[[Apple Computer|Apple]] fu la prima ad integrare la sintesi vocale nel [[sistema operativo]] dei propri computer, con il software [[MacIntalk]], prodotto in casa nel 1984 e disponibile sui modelli [[Macintosh]]. All'inizio degli [[Anni 1990|anni novanta]] Apple ne ampliò le funzionalità estendendo la conversione vocale del testo a tutto il sistema.
 
Con l'introduzione dei processori PowerPC, più veloci, vennero inclusi campioni di voce di qualità elevata insieme a un sistema di riconoscimento vocale, il che consentì un controllo fluido dei comandi. In tempi più recenti Apple ha aggiunto anche voci diverse, basate su campioni. Nonostante fosse iniziato come una curiosità, il sistema di sintesi vocale dei computer Macintosh ha finito per evolvere verso un programma di punta, [[PlainTalk]], per il supporto completo per le persone con problemi di vista.
 
La conversione automatica del testo in parlato, denominata [[VoiceOver]], è stata inclusa tra gli strumenti di accessibilità di serie nel sistema operativo [[Mac OS X 10.4 Tiger]] e potenziata nel successivo [[Mac OS X 10.5 Leopard]], che supporta una voce di nome "Alex" che prevede anche la sintesi realistica della respirazione intermedia tra la pronuncia delle frasi, così come una comprensibilità migliorata per letture a velocità più rapida.
 
Sempre nell'ambito dei prodotti Apple, la tecnologia VoiceOver è stata integrata nell'[[iPod shuffle]], che è in grado di "leggere" a voce alta le informazioni relative al brano in riproduzione a partire dalla terza generazione del prodotto.
 
=== AmigaOS ===
Il secondo sistema operativo a incorporare funzioni di sintesi vocale fu [[AmigaOS]], introdotto nel [[1985]] da [[Commodore International]] che ne ottenne la licenza da una software house indipendente, la Don't Ask Software, ora Softvoice, Inc. Il programma realizzava un sistema completo di emulazione vocale, con voci maschili e femminili e meccanismi di enfatizzazione, resi possibili dalle caratteristiche avanzate della componentistica audio prodotta da [[Amiga]].<ref>{{en}}[[Jay Miner|Miner, Jay]] et al (1991). ''Amiga Hardware Reference Manual: Third Edition''. [[Addison-Wesley]] Publishing Company, Inc. ISBN 0-201-56776-8.</ref> Il sistema era suddiviso in un dispositivo parlante e una libreria di traduzione: un ulteriore software di Amiga, [[Speak Handler]] implementava un convertitore da testo a voce. AmigaOS gestiva il sistema di sintesi vocale come periferica hardware virtuale, di modo che un utente poteva ridirigervi anche l'uscita della console. Alcuni programmi prodotti da Amiga, come i suoi word processor, utilizzavano in modo massiccio questo sistema di sintesi vocale.
 
=== Microsoft Windows ===
I sistemi [[Microsoft Windows|Windows]] impiegano una sintesi vocale basata su [[Speech Application Programming Interface|SAPI4]] e [[Speech Application Programming Interface|SAPI5]] che prevede anche un modulo di [[riconoscimento vocale]] (SRE, ''Speech Recognition Engine'').
 
Nelle versioni di sistema operativo [[Windows 95]] e [[Windows 98]] SAPI 4.0 era disponibile come componente aggiuntivo di produzione esterna. Fu con [[Windows 2000]] che venne aggiunto il programma [[Microsoft Narrator]], un sistema di sintesi vocale disponibile direttamente per tutti gli utenti di un computer: una volta installato, tutti i programmi compatibili con Windows ne potevano utilizzare le funzionalità di sintesi vocale tramite menu appositi.
 
[[Microsoft Speech Server]] è un pacchetto completo per la sintesi e il riconoscimento vocali, sviluppato per applicazioni di carattere commerciale come per esempio i [[call center]].
 
=== Linux ===
Esistono varie applicazioni di sintesi vocale per computer basati su sistemi operativi [[open source]] come [[Linux|GNU/Linux]], fra i quali programmi a loro volta [[open-source]] come [[Festival (informatica)|Festival Speech Synthesis System]]<ref>[http://www.cstr.ed.ac.uk/projects/festival Festival<!-- Titolo generato automaticamente -->]</ref>, che sfrutta la sintesi per difoni e può utilizzare un numero ridotto di voci; il progetto [[MBROLA]]; l'applicazione eSpeak <ref>[http://espeak.sourceforge.net eSpeak: Speech Synthesizer<!-- Titolo generato automaticamente -->]</ref>; [[gnuspeech]], di [[Free Software Foundation]], che usa la sintesi articolatoria <ref>{{en}}[http://www.gnu.org/software/gnuspeech/ gnuspeech]</ref>.
 
Per i sistemi GNU/Linux esistono inoltre altri programmi commerciali di sintesi vocale.
 
L'[[ambiente desktop]] [[KDE]] dispone di tre programmi integrati tra loro e con il ''[[Computer desktop|desktop]]'': Ksayt, interfaccia di configurazione della piattaforma vocale, Kmouth che opera una sintesi vocale a partire da un testo scritto e Kttsmgr, gestore della pronuncia.
 
=== Internet ===
Allo stato attuale esistono parecchi applicativi e [[plugin (informatica)|plugin]] per client di posta o navigatori internet in grado di leggere direttamente i messaggi di e-mail e le pagine web.
 
Alcuni software specializzati sono in grado anche di leggere i [[RSS|feed RSS]]. I lettori di RSS on line da un lato semplificano l'accesso all'informazione, consentendo agli utenti di ascoltare le loro sorgenti preferite e di convertirle in [[podcast]], dall'altro sono disponibili praticamente per quasi tutti i [[Personal computer|PC]] collegati a Internet. Gli utenti possono scaricare i file audio così generati su dispositivi portatili, per esempio sotto forma di podcast e ascoltarli così a passeggio, praticando sport o andando al lavoro.
 
Un campo di applicazione che si sta estendendo è l'impiego della sintesi vocale per l'accessibilità tramite web, con i cosiddetti ''Talklet'' sviluppati dall'azienza inglese [http://www.textic.com Textic]. Con questi strumenti non è necessario scaricare un software apposito ma chiunque, per qualsiasi scopo, può accedere a funzioni di sintesi vocali direttamente via Internet usando un qualsiasi [[browser]]. Come in tutte le applicazioni basate sul web, i tempi di risposta dipendono essenzialmente dalle caratteristiche del collegamento Internet dell'utente finale<ref>{{en}}[http://textic.com/technical_overview.html Tempi di risposta "real time" misurati da Textic]</ref> ma la facilità di accesso resta indubbiamente un punto di forza di questo approccio.
 
=== Altri ===
* I computer casalinghi [[TI-99/4A|TI-99/4 e TI-99/4A]] prodotti da [[Texas Instruments]] nel [[1979]] e [[1981]] erano in grado di generare fonemi da testo o di recitare intere parole o frasi tramite una periferica di sintesi vocale molto diffusa. TI utilizzava un [[codec]] proprietario per inglobare intere frasi all'interno delle sue applicazioni come ad esempio i [[videogioco|videogiochi]].<ref>{{en}}[http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002]</ref>
* Il sistema [[IBM]] [[OS/2#OS/2 Warp|OS/2 Warp 4]] incorporava di serie VoiceType, precursore del successivo sviluppo ViaVoice.
* Diverse compagnie hanno realizzato sistemi di sintesi vocale commerciali di tipo dedicato, tra di esse [http://www.acapela-group.com/ Acapela Group], [[AT&T]], [[Cepstral]], [http://www.cereproc.com/it CereProc], [[DECtalk]], [[IBM ViaVoice]], [[IVONA|IVONA TTS]], [http://www.loquendo.com Loquendo TTS], [[NeoSpeech]], [[Nuance Communications]], [http://www.svox.com SVOX], [http://www.voceviva.it Voce Viva TTS] (prodotto da SLD Software),[http://www.voiceonthego.com Voice on the Go], [http://www.voxette.com Voxette] e [http://www.yakitome.com YAKiToMe!].
* Sistemi di sintesi vocale sono stati sviluppati in passato anche da altre compagnie oggi non più esistenti, tra le quali si ricordano BeST Speech (acquisita da Lernout & Hauspie), Eloquent Technology (acquisita da SpeechWorks) e Rhetorical Systems (acquisita da Nuance). In seguito anche Lernout & Haspie e Speechworks vennero a loro volta acquisite da Nuance.
 
== Linguaggi di markup ==
 
Sono stati definiti alcuni [[linguaggio di markup|linguaggi di markup]] per la resa del parlato utilizzando un formato di descrizione di tipo [[XML]]. Il più recente è l'[[SSML]] ([[Speech Synthesis Markup Language]]) che dal 2004 è una raccomandazione del [[W3C]] e di cui è in fase finale di standardizzazione la versione 1.1 <ref>{{en}}[http://www.w3.org/TR/2008/CR-speech-synthesis11-20081107/ Speech Synthesis Markup Language (SSML) Version 1.1 W3C Candidate Recommendation 7 November 2008]</ref>. Tra i linguaggi di markup più vecchi rientrano tra gli altri [[JSML]] (''Java Speech Markup Language'') e [[SABLE]]: nonostante fossero stati entrambi proposti come base per uno standard, nessuno di essi ha avuto in realtà un'ampia diffusione.
 
I linguaggi di markup per la sintesi vocale non vanno confusi con i linguaggi di markup per i dialoghi: per esempio, [[VoiceXML]] oltre al markup per la conversione vocale prevede anche dei [[Elemento HTML|tag]] relativi al riconoscimento vocale, alla gestione dei dialoghi e alla composizione di numeri telefonici su comando vocale.
 
== Applicazioni ==
=== Accessibilità ===
 
La sintesi vocale è da lungo tempo uno strumento di assistenza tecnologica di importanza vitale e la sua applicazione in questo campo è significativa e largamente diffusa in quanto elimina barriere ambientali per un'ampia gamma di problematiche. L'applicazione più longeva è quella dei lettori di schermo per persone con problemi alla vista ma la sintesi vocale si usa oggi anche per aiutare persone affette da [[dislessia]] o da altri problemi di lettura e per i bambini in età prescolare. Questi sistemi si usano anche a sostegno di persone con gravi problemi vocali o di fonazione, di solito in accoppiata con dispositivi dedicati per la comunicazione vocale (VOCA, "Voice Output Communication Aid").
 
=== Trasporti ===
Nei luoghi come gli aeroporti e le stazioni ferroviarie la sintesi vocale viene usata per effettuare le comunicazioni di servizio ai passeggeri.
 
Nei navigatori GPS, la sintesi vocale viene usata per dare le indicazioni di direzione al guidatore.
 
=== Notiziari ===
 
Alcuni siti di notizie come [[Ananova]] utilizzano la sintesi vocale per convertire i bollettini informativi in audio per applicazioni di tipo mobile.
 
=== Tempo libero ===
 
Le tecniche di sintesi vocale trovano impiego anche nell'industria del tempo libero, in particolare nella produzione di videogiochi, ''[[anime]]'', [[manga]] e simili. Nel [[2007]] Animo Limited ha annunciato lo sviluppo di un pacchetto applicativo basato sul suo programma di sintesi vocale FineSpeech, concepito specificamente per le industrie produttrici di videogiochi e ''anime'' in grado di generare racconti e dialoghi secondo le specifiche dell'utente.<ref>{{en}}[http://animenewsnetwork.com/news/2007-05-02/speech-synthesis-software Speech Synthesis Software for Anime Announced]</ref> Il pacchetto ha trovato applicazione nel 2008, quando [[Biglobe]], controllata di NEC, ha annunciato la disponibilità di un servizio web che consente agli utenti di creare frasi usando le voci dei personaggi di ''[[Code Geass: Lelouch of the Rebellion R2]]''.<ref>{{en}}[http://www.animenewsnetwork.com/news/2008-09-09/code-geass-voice-synthesis-service-offered-in-japan Code Geass Speech Synthesizer Service Offered in Japan]</ref>
 
Esistono anche programmi per la produzione musicale, come per esempio Vocaloid, in grado di generare voci cantanti a partire da testi e melodia. Questo è anche l'ambito del progetto Singing Computer che usa il software open-source [[GNU General Public License|GPL]] [[GNU LilyPond|Lilypond]] e il sistema di sintesi vocale Festival, con lo scopo di aiutare le persone non vedenti nella creazione e stesura di testi di canzoni.<ref>{{en}}[http://www.freebsoft.org/singing-computer Free(b)soft Singing Computer]</ref>
 
== Note ==
{{<references|2}}/>
 
== Programmi specifici ==
<div style="-moz-column-count:2; column-count:2;">
* [http://www.acapela-group.com Acapela] ([http://www.acapela-group.com/text-to-speech-interactive-demo.html demo interattiva multilingue], compreso l'italiano)
* [[VoiceOver|Apple VoiceOver]]
* [http://www2.research.att.com/~ttsweb/tts ATT naturalvoice] ([http://www2.research.att.com/~ttsweb/tts/demo.php demo interattiva])
* [http://www.cereproc.com/it CereProc]
* [http://dimio.altervista.org/ita/index.html DSpeech by Dimitrios Coutsoumbas], programma freeware di TTS (Text To Speech) con funzionalità di ASR (Automatic Speech Recognition) integrate.
* [http://espeak.sourceforge.net eSpeak]
* [[Festival (informatica)|Festival]]
* [http://freetts.sourceforge.net FreeTTS]
* [http://www.ivona.com IVONA TTS]
* [http://www.jayreader.com Jay The Active Reader ], sintesi vocale in lingua italiana.
* [http://www.kurzweiledu.com/kurz1000.aspx Kurzweil 1000] e [http://www.kurzweiledu.com/kurz3000.aspx Kurzweil 3000]
* [http://www.loquendo.com/it/technology/TTS.htm Loquendo TTS] ([http://tts.loquendo.com/ttsdemo/default.asp?page=id&language=it demo interattiva])
* [http://www.nuance.com/realspeak/ Nuance RealSpeak]
* [http://www.nusuara.com/products/tts.php NuSuara Malay TTS]
* [http://www.pediaphon.org/~bischoff/radiopedia/index_espeak_mbrola_multilanguage.html Pediaphon], generazione di file di sintesi vocale di voci di Wikipedia in più lingue, compreso l'italiano.
* [http://www.fon.hum.uva.nl/praat/ Praat]
* [http://www.text2speech.com SoftVoice TTS]
* [[Software Automatic Mouth]]
* [http://www.voceviva.it VOCE VIVA by SLD SOFTWARE], sintesi vocale in lingua italiana.
* [[Vocoder]]
 
</div>
 
== Voci correlate ==
<div style="-moz-column-count:2; column-count:2;">
* [[Elaborazione del linguaggio naturale]]
* [[Linguaggio]]
* [[OpenDocument]]
* [[Riconoscimento vocale]]
* [[Sintesi vocale cinese]]
</div>
 
== Altri progetti ==
{{interprogetto|commons=Category:Speech synthesis}}
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
* {{Dmoz|Computers/Speech_Technology/Speech_Synthesis/}}
 
{{Portale|Informatica}}
 
[[Categoria:Sintesi vocale]]
 
{{Portale|musica}}
[[af:Spraaksintese]]
[[ar:تي.تي.إس]]
[[ca:Síntesi de veu]]
[[cs:Syntéza řeči]]
[[da:Talesyntese]]
[[de:Sprachsynthese]]
[[en:Speech synthesis]]
[[eo:Parolsintezo]]
[[es:Síntesis de habla]]
[[et:Kõnesüntesaator]]
[[eu:Hizketaren sintesi]]
[[fa:متن به صدا]]
[[fi:Puhesynteesi]]
[[fo:Talusyntesa]]
[[fr:Synthèse vocale]]
[[hi:वाक् संश्लेषण]]
[[hr:Sintetizator govora]]
[[hu:Beszédszintézis]]
[[ja:音声合成]]
[[ko:음성 합성]]
[[ms:Lafal buatan]]
[[nl:Spraaksynthese]]
[[nn:Talesyntese]]
[[pl:Synteza mowy]]
[[pt:Síntese de voz]]
[[ru:Синтез речи]]
[[sr:Sinteza govora]]
[[sv:Talsyntes]]
[[ta:பேச்சொலியாக்கம்]]
[[tg:Матн ба садо]]
[[tr:Konuşma Sentezleyici]]
[[uk:Синтез мови]]
[[ur:تالیف کلام]]
[[vi:Tổng hợp giọng nói]]
[[zh:语音合成]]