Sintesi vocale e XXX Universiade: differenze tra le pagine

(Differenze fra le pagine)
Contenuto cancellato Contenuto aggiunto
+ tmp "protetta"
 
 
Riga 1:
{{In futuro|sport}}
<noinclude>{{protetta}}</noinclude>
{{Universiade
[[File:Vocoder demo.ogg|thumb|Esempio di sintesi vocale realizzata con [[Vocoder]] (frase ''Somewhere in a future'')]]
|Cardinalità = XXX
[[File:Festival Speech Synthesis System.ogg|thumb|Esempio di sintesi vocale usata per l'accessibilità: la voce ''Festival Speech Synthesis'' da en:wikipedia convertita in audio tramite il programma txt2audio]]
|Anno = 2019
La '''sintesi vocale''' (in inglese ''speech synthesis'') è la tecnica per la riproduzione artificiale della [[voce umana]]. Un sistema usato per questo scopo è detto ''[[sintetizzatore]] vocale'' e può essere realizzato tramite [[software]] o via [[hardware]]. I sistemi di sintesi vocale sono noti anche come sistemi ''text-to-speech (TTS)'' (in italiano: da testo a voce) per la loro possibilità di convertire il testo in parlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato<ref>{{en}}Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, ''From Text to Speech: The MITalk system''. Cambridge University Press: 1987. ISBN 0-521-30641-8</ref>.
|Logo = Logo Universiade estiva Napoli 2019.png
|Stato = ITA
|Stato2 =
|Città = Napoli
|Città2 =
|Link città =
|Link città2 =
|Data inizio = 3 luglio
|Data fine = 14 luglio
|Paesi partecipanti = ~170
|Sport = 18
|Discipline= 222
|Atleti = ~8.000
|Stadio = [[Stadio San Paolo]]
|Precedente = [[XXIX Universiade]]
|Città precedente = Taipei
|Link città precedente =
|Stato precedente = TPE
|Successiva = [[XXXI Universiade]]
|Città successiva = Chengdu
|Link città successiva =
|Stato successivo = CHN
}}
La '''XXX Universiade''' si svolgerà dal 3 al 14 luglio 2019 a [[Napoli]] e altre località della [[Campania]], in [[Italia]].
 
Napoli è stata scelta come città ospitante il 5 febbraio 2016 a seguito della rinuncia di [[Brasilia]].
La sintesi vocale si può realizzare concatenando registrazioni di parti vocali memorizzate in un [[database]]. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli [[fonema|fonemi]] o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata. In alternativa, un sintetizzatore può incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi<ref>{{en}}Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. ''Journal of the Acoustical Society of America'', 70, 321-328.</ref>.
 
==Assegnazione==
La qualità di un sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilità. Un programma di conversione da testo a voce con una buona resa può avere un ruolo importante nell'accessibilità, per esempio consentendo a persone con problemi di vista o di [[dislessia]] di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi [[anni 1980|anni ottanta]] molti [[sistema operativo|sistemi operativi]] includono funzioni di sintesi vocale.
L'11 dicembre 2012 il ministro per lo sport e la gioventù dell'[[Azerbaigian]], [[Azad Rəhimov]], ha annunciato l'intenzione di volere candidare [[Baku]] per l'Universiade 2019: la capitale azera pochi giorni prima era stata scelta per ospitare la [[I Giochi europei|prima edizione]] dei [[Giochi europei]]<ref>{{cita web|url=http://www.fisu.net/en/Baku-intents-to-bid-for-2019-Summer-Universiade-3133.html?mbID=5065|titolo=La candidatura di Baku|sito=Fisu.net|accesso=6 marzo 2016|lingua=en}}</ref>.
 
Il 14 giugno 2012 il ministro dello sport del [[Brasile]], [[Aldo Rebelo]], e il presidente della Confederação Brasileira do Desporto Universitário, [[Luciano Cabral]], hanno annunciato<ref>{{cita web|url=http://esportes.estadao.com.br/noticias/geral,brasil-tera-candidatura-para-sediar-universiade-de-2019,886849|titolo=Candidatura del Brasile per l'Universiade|sito=Esportes.estadao.com.br|accesso=6 marzo 2016|lingua=pt}}</ref> che, dopo l'esclusione di [[Brasilia]] per la [[XXIX Universiade]], assegnata a [[Taipei]], candideranno nuovamente la capitale brasiliana per l'edizione 2019<ref>{{cita web|url=http://www.fisu.net/en/FISU-Delegates-visit-Brazil-3133.html?mbID=4979|titolo=La candidatura di Brasilia|sito=Fisu.net|accesso=6 marzo 2016|lingua=en}}</ref>.
== Meccanismo di base ==
Un sistema o motore di sintesi vocale è composto da due parti: una ''front-end'' e una ''back-end''.
 
Il 31 gennaio 2013 Miklós Tóth, vicepresidente del comitato olimpico ungherese, ha dichiarato che l'[[Ungheria]] ha intenzione di ospitare l'edizione 2019 o [[XXXI Universiade|2021]] dell'Universiade: il 19 febbraio dello stesso anno [[Budapest]] è stata ufficialmente candidata<ref>{{cita web|url=http://index.hu/sport/2013/01/31/indul_a_hajos_alfred_terv/|titolo=La candidatura di Budapest|sito=Index.hu|accesso=6 marzo 2016|lingua=hu}}</ref>.
La parte ''front-end'' si occupa della conversione del testo in simboli fonetici mentre la parte ''back-end'' interpreta i simboli fonetici e li "legge", trasformandoli così in voce artificiale.
 
Il 3 aprile 2013 la [[Federazione Internazionale Sport Universitari|FISU]] ha reso ufficiali le tre città candidate<ref>{{cita web|url=http://www.insidethegames.biz/articles/1013589/candidates-for-2019-summer-and-winter-universiade-unveiled|titolo=Le città candidate per la XXX Universiade|sito=Insidethegames.biz|editore=James Crook|accesso=6 marzo 2016}}</ref>:
[[File:Sintesi vocale.png|upright=2.7|thumb|center|Schema di un sistema di sintesi vocale generico]]
*{{Bandiera|AZE}} [[Baku]]
*{{Bandiera|BRA}} [[Brasilia]]
*{{Bandiera|HUN}} [[Budapest]]
 
Il 31 ottobre 2013 Baku ha rinunciato alla candidatura poiché nel periodo compreso tra il 2015 e il 2017 avrebbe dovuto ospitare numerosi eventi sportivi<ref>{{cita web|url=http://fisu.net/en/Baku-postpones-Bid-for-2019-Summer-Universiade-3133.html?mbID=5522|titolo=Baku rinuncia alla candidatura|sito=fisu.net|accesso=6 marzo 2016|lingua=en}}</ref>; analogamente, l'8 ottobre 2013 è arrivata la rinuncia di Budapest a causa degli elevati costi della manifestazione<ref>{{cita web|url=http://www.insidethegames.biz/articles/1016860/exclusive-budapest-withdrawal-leaves-brasilia-as-only-candidate-for-2019-summer-universiade|titolo=Budapest rinuncia alla candidatura|sito=Insidethegames.biz|editore=Duncan Mackay|accesso=6 marzo 2016|lingua=en}}</ref>. Il 9 novembre 2013 la FISU ha assegnato la XXX Universiade a Brasilia<ref>{{cita web|url=http://fisu.net/en/Attribution-of-the-2019-Winter-and-Summer-Universiades-3133.html?mbID=5534|titolo=Assegnazioni dell'Universiade 2019 estiva e invernale|sito=Fisu.net|accesso=6 marzo 2016|editore=Eric Saintrond|lingua=en}}</ref>.
Il ''front-end'' prevede due funzioni chiave: per prima cosa, viene eseguita un'analisi del testo scritto per convertire tutti i numeri, le sigle e le abbreviazioni in parole per esteso (es. il testo '2' viene convertito in 'due'). Questo fase di pre-elaborazione viene definita come [[normalizzazione]] o [[classificazione]] del testo (in inglese: ''tokenization''). La seconda funzione consiste nel convertire ogni parola nei suoi corrispondenti [[fonetica|simboli fonetici]] e nell'eseguire l'analisi linguistica del testo rielaborato, suddividendolo in unità prosodiche, ossia in proposizioni, frasi e periodi. Il processo di assegnazione della trascrizione fonetica alle parole è chiamato conversione da testo a [[fonema]] o da [[grafema]] a [[fonema]] (in inglese ''text-to-phoneme, TTP'')<ref>{{en}}P. H. Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, ''Progress in Speech Synthesis''. Springer: 1997. ISBN 0-387-94701-9</ref>.
 
Per problemi finanziari il 23 novembre 2014 la capitale brasiliana ha rinunciato all'organizzazione dell'evento<ref>{{cita web|url=http://www.insidethegames.biz/articles/1024662/brasilia-pull-out-of-hosting-2019-summer-universiade|titolo=Brasilia rinuncia all'organizzazione dell'Universiade 2019|sito=Insidethegames.biz|editore=Daniel Etchells|accesso=6 marzo 2016|lingua=en}}</ref>, costringendo la federazione universitaria alla scelta di una nuova sede<ref>{{cita web|url=http://www.insidethegames.biz/articles/1024777/bidding-process-for-2019-summer-universiade-reopened-after-brasilia-s-withdrawal|titolo=FISU alla ricerca di una nuova sede per l'Universiade 2019|sito=Insidethegames.biz|editore=Daniel Etchells|accesso=6 marzo 2016|lingua=en}}</ref>.
La trascrizione fonetica e le informazioni di [[prosodia]] combinate insieme costituiscono la rappresentazione linguistica simbolica che viene utilizzata dal ''back-end'' per la conversione in suoni di tali informazioni ossia per il processo di sintesi vero e proprio.
 
Nel gennaio 2016 l'unica città che si è candidata ad ospitare la XXX Universiade è stata [[Napoli]]<ref>{{cita web|url=http://sport.ilmattino.it/altrisport/universiadi_2019_napoli_unica_candidata-1482397.html|titolo=Universiadi del 2019, Napoli unica candidata|sito=Ilmattino.it|editore=Gianluca Agata|accesso=6 marzo 2016}}</ref><ref>{{cita web|url=http://www.gazzetta.it/Sport-Vari/14-01-2016/universiadi-napoli-alla-candidatura-l-edizione-2019-140261809666.shtml|titolo=Universiadi: Napoli vicina alla candidatura per l’edizione 2019|sito=Gazzetta.it|editore=Gianluca Monti|accesso=6 marzo 2016}}</ref>: nel mese di febbraio gli ispettori della FISU hanno visitato la città partenopea per tre giorni al fine di visionare la qualità degli impianti sportivi, l'efficienza delle infrastrutture e della rete di trasporto pubblico e i vari progetti proposti<ref>{{cita web|url=http://www.ilmattino.it/napoli/cronaca/universiadi_napoli_arrivano_ispettori-1571017.html|titolo=Universiadi a Napoli, arrivano gli ispettori|sito=Ilmattino.it|editore=Gerardo Ausiello|accesso=6 marzo 2016}}</ref>. Il 5 marzo 2016 la FISU, riunitasi a [[Bruxelles]], ha assegnato ufficialmente l'organizzazione dell'evento a Napoli<ref>{{cita web|url=http://napoli.repubblica.it/cronaca/2016/03/05/news/universiadi_2019_assegnate_a_napoli_e_alla_campania-134834138/|titolo=Universiadi 2019: assegnate a Napoli e alla Campania|sito=Repubblica.it|accesso=6 marzo 2016}}</ref>.
== Storia ==
=== Dispositivi meccanici ===
[[File:Speech synthesizer Von Kempelen 1791.gif|thumb|La macchina acustica-meccanica vocale di Von Kempelen (disegni del suo testo del 1791)]]
I ricercatori tentarono di costruire macchine per riprodurre la voce umana molto prima che fosse inventata la moderna elaborazione elettronica dei [[Segnale (informatica)|segnali]] (l'[[informatica]]): le prime apparecchiature furono costruite da [[Papa Silvestro II|Gerbert di Aurillac]], [[Albertus Magnus]] e [[Roger Bacon]], tra il [[X secolo|X]] e il [[XIII secolo]].
 
==Sviluppo e preparazione==
Nel [[1779]], lo scienziato [[Danimarca|danese]] [[Christian Kratzenstein]], che si trovava a lavorare presso l'[[Accademia russa delle scienze]], costruì modelli dell'apparato vocale umano che potevano riprodurre i cinque suoni lunghi delle vocali (ossia i suoni {{IPA|[aː]}}, {{IPA|[eː]}}, {{IPA|[iː]}}, {{IPA|[oː]}} e {{IPA|[uː]}} secondo l'[[Alfabeto fonetico internazionale]])<ref name=Helsinki>{{en}}[http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/chap2.html History and Development of Speech Synthesis], Helsinki University of Technology, 4 novembre [[2006]]</ref>. A questi dispositivi seguì la ''Macchina acustica-meccanica vocale'', un meccanismo a [[mantice]] realizzato dal viennese [[Wolfgang von Kempelen]] e descritto in un suo lavoro del [[1791]]<ref>{{de}} ''Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine'' ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), J.B. Degen, Vienna</ref>. Questa macchina aggiungeva un modello delle labbra e della lingua consentendo così di sintetizzare oltre alle vocali anche le consonanti. Nel [[1837]] [[Charles Wheatstone]] produsse una "macchina parlante" basata sul progetto di von Kempelen, e nel [[1846]] Joseph Faber costruì l'''Euphonia'', in grado di riprodurre tra l'altro l'inno nazionale inglese. Il progetto di Wheatstone fu poi ripreso a sua volta nel [[1923]] da Paget.<ref>{{en}}Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), ''Current Trends in Linguistics, Volume 12, Mouton'', L'Aja, pp. 2451-2487, 1974.</ref>
Lo sviluppo e la preparazione delle Olimpiadi ha visto l'impiego di circa 270 milioni di fondi pubblici stanziati dalla [[Regione Campania]] messi in campo per la riqualificazione di impianti sportivi già esistenti sul suolo regionale e senza la realizzazione di nuovi. Al lavoro di preparazione hanno preso parte anche centinai di volontari tra cui quelli del [[Servizio Civile Nazionale]].
 
=== Impianti ===
Negli [[Anni 1930|anni trenta]], i [[Bell Labs]] (Laboratori Bell) svilupparono il ''[[Vocoder]]'', un analizzatore e sintetizzatore elettronico della voce comandato a tastiera con un risultato chiaramente intelligibile. [[Homer Dudley]] perfezionò ulteriormente questo apparecchio creando il ''VODER'', di cui venne data una dimostrazione nel [[1939]] durante la Fiera Mondiale di [[New York City|New York]]<ref>{{en}} [http://www.obsolete.com/120_years/machines/vocoder/ Fotografie del VODER alla Fiera Mondiale del 1939] {{webarchive|url=https://web.archive.org/web/20080515171705/http://www.obsolete.com/120_years/machines/vocoder/ |data=15 maggio 2008 }}</ref>.
Per la XXX Universiade, verranno utilizzati i seguenti impianti sportivi.
 
{| Class = "wikitable sortable"
Il ricercatore [[Franklin S. Cooper]] e i suoi colleghi dei [[Laboratori Haskins]] realizzarono alla fine degli [[Anni 1940|anni quaranta]] il ''Riproduttore di sequenze'', completato nel [[1950]]. Di questo dispositivo furono realizzate diverse versioni di cui soltanto una è arrivata fino ai nostri giorni. Il dispositivo converte in suono le immagini dello [[spettro acustico]] della voce e fu proprio grazie a questo meccanismo che [[Alvin Liberman]] e i suoi colleghi scoprirono le caratteristiche acustiche alla base della percezione dei segmenti fonetici (consonanti e vocali).
! Impianto!! Comune!! Sport!! Capienza!! Immagine
|-
|| [[Circolo del Tennis di Napoli]] || [[Napoli]] || [[Tennis]] || - || -
|-
|| [[CUS Salerno]] || [[Baronissi]] || [[Scherma]] || - || -
|-
|| [[Mostra d'Oltremare]] (padiglione 3) || [[Napoli]] || [[Tiro a Segno]] || - || -
|-
|| [[Mostra d'Oltremare]] (padiglione 6) || [[Napoli]] || [[Judo]] || - || -
|-
|| [[PalaBarbuto]] || [[Napoli]] || [[Pallacanestro]] || 4.000 ||
[[File:PalaBarbuto.JPG|100px]]
|-
|| [[PalaCercola]] || [[Cercola]] || [[Pallacanestro]] || - || -
|-
|| [[PalaCoscioni]] || [[Nocera Inferiore]] || [[Pallavolo]] || - || -
|-
|| [[PalaDelMauro]] || [[Avellino]] || [[Pallacanestro]] || 5.195 || [[File:OlimpiaMIScandoneAV-FinalEight2010.jpg|100px]]
|-
|| [[PalaJacazzi]] || [[Aversa]] || [[Pallacanestro]] || 2.000 || -
|-
|| [[PalaSele]] || [[Eboli]] || [[Pallavolo]] || 8.000 || -
|-
|| [[PalaTedeschi]] || [[Benevento]] || [[Pallavolo]] || - || -
|-
|| [[PalaTrincone]] || [[Pozzuoli]] || [[Tennistavolo]] || - || -
|-
|| [[PalaVesuvio]] || [[Napoli]] || [[Ginnastica artistica]]</br>[[Ginnastica ritmica]] || 3.711 || -
|-
|| [[Palazzetto dello Sport (Ariano Irpino)|Palazzetto dello Sport]] || [[Ariano Irpino]] || [[Pallavolo]] || - || -
|-
|| [[Palazzetto dello Sport (Casoria)|Palazzetto dello Sport]] || [[Casoria]] || [[Taekwondo]] || - || -
|-
|| [[Palazzo Reale]] || [[Caserta]] || [[Tiro con l'arco]] || - || -
|-
|| [[Piscina Comunale (Casoria)|Piscina Comunale]]|| [[Casoria]] || [[Pallanuoto]] || - || -
|-
|| [[Piscina Felice Scandone]]|| [[Napoli]] || [[Nuoto]]</Br>[[Pallanuoto]] || 4.500 || [[File:Piscinascandone.jpg|100px]]
|-
|| [[Stadio Alberto Pinto]] || [[Caserta]] || [[Calcio]] || 6.817 || [[File:Stadio A.Pinto.jpg|100px]]
|-
|| [[Stadio Arechi]] || [[Salerno]] || [[Calcio]] || 37.180 || [[File:Stadio Arechi interno.JPG|100px]]
|-
|| [[Stadio Ciro Vigorito]] || [[Benevento]] || [[Calcio]] || 16.867 || [[File:Panoramica Stadio Vigorito.jpg|100px]]
|-
|| [[Stadio Comunale (Cercola)|Stadio Comunale]] || [[Cercola]] || [[Calcio]] || - || -
|-
|| [[Stadio ex NATO]] || [[Napoli]] || [[Rugby]] || - || -
|-
|| [[Stadio del Nuoto (Caserta)|Stadio del Nuoto]] || [[Caserta]] || [[Pallanuoto]] || - || -
|-
|| [[Stadio Marcello Torre]] || [[Pagani]] || [[Calcio]] || 5.093 || [[File:Stadio Marcello Torre.jpg|100px]]
|-
|| [[Stadio Partenio-Adriano Lombardi]] || [[Avellino]] || [[Tiro con l'arco]] || 12.215 || [[File:StadioPartenioLombardi.JPG|100px]]
|-
|| [[Stadio San Francesco d'Assisi]] || [[Nocera Inferiore]] || [[Calcio]] || 9.080 || -
|-
|| [[Stadio San Mauro]] || [[Casoria]] || [[Calcio]] || 1.308 || -
|-
|| [[Stadio San Paolo]] || [[Napoli]] || Cerimonia di apertura</br>Cerimonia di chiusura</br>[[Atletica leggera]] || 55.000 || [[File:San Paolo - Curva A.jpg|100px]]
|-
|| [[Stadio Simonetta Lamberti]] || [[Cava de' Tirreni]] || [[Calcio]] || 7.800 || [[File:Stadio Simonetta Lamberti, 20.01.2008.JPG|100px]]
|-
|| [[Tiro a Volo Zaino]] || [[Durazzano]] || [[Tiro a Volo]] || - || -
|-
|}
 
===Mascotte===
=== Dispositivi elettronici ===
La mascotte delle Universiadi di Napoli 2019 è la Sirena Partenope, simbolo della città e della sua fondazione mitologica. Secondo il mito, infatti, la città di Napoli è legata a Partenope, una sirena, che venne a morire sulle coste tirreniche dopo aver invano cercato di fermare Ulisse nel suo viaggio verso Itaca.
I primi sintetizzatori vocali elettronici ricreavano una voce molto metallica ed erano spesso incomprensibili; da allora però la qualità è aumentata costantemente e la voce prodotta dai moderni sistemi di sintesi vocale è talvolta indistinguibile dalla vera voce umana.
 
La mascotte è stata ideata da Melania Acanfora, giovane studentessa dell'Accademia delle Belle Arti, ed raffigura una ginnasta con la coda di psce che si trasforma in due gambe squamate che le permettono di compiere gli sport come una vera atleta.
I primi sistemi di sintesi vocale basati su computer furono creati sul finire degli [[Anni 1950|anni cinquanta]] e il primo sistema di sintesi vocale text-to-speech (da testo a voce) completo venne realizzato nel [[1968]]<ref>[http://spectrum.ieee.org/computing/embedded-systems/chip-hall-of-fame-texas-instruments-tmc0281-speech-synthesizer IEEE: Chip Hall of Fame: Texas Instruments TMC0281 Speech Synthesizer - The world’s first speech synthesizer on chip—and accidental supporting star of E.T.]</ref>. Nel [[1961]] i fisici [[John Larry Kelly, Jr]] e Louis Gertsman<ref>{{en}}[http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest NY Times annuncio funebre di Louis Gerstman].</ref> utilizzarono un computer [[IBM]] 704 per sintetizzare la voce. Questo esperimento rappresentò uno dei momenti salienti dell'attività dei [[Bell Labs]]: il vocoder di Kelly riprodusse la canzone ''Daisy Bell'', con l'accompagnamento musicale di Max Mathews. Lo scrittore [[Arthur C. Clarke]] si trovava casualmente ai Bell Labs in visita all'amico e collega John Pierce proprio nel momento di questa dimostrazione<ref>{{en}}[http://www.alcatel-lucent.com/wps/portal/!ut/p/kcxml/04_Sj9SPykssy0xPLMnMz0vM0Y_QjzKLd4w3MfQFSYGYRq6m-pEoYgbxjgiRIH1vfV-P_NxU_QD9gtzQiHJHR0UAAD_zXg!!/delta/base64xml/L0lJayEvUUd3QndJQSEvNElVRkNBISEvNl9BX0FLTC9lbl93dw!!?LMSG_CABINET=Bell_Labs&LMSG_CONTENT_FILE=History/Timeline/Timeline_Innovation_000100&UNIQUE_NAME=lu.gen.prt.pg.rendition&lu_lang_code=en_WW Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis] {{webarchive|url=https://web.archive.org/web/20160325231143/http://www3.alcatel-lucent.com/wps/portal/!ut/p/kcxml/04_Sj9SPykssy0xPLMnMz0vM0Y_QjzKLd4w3MfQFSYGYRq6m-pEoYgbxjgiRIH1vfV-P_NxU_QD9gtzQiHJHR0UAAD_zXg!!/delta/base64xml/L0lJayEvUUd3QndJQSEvNElVRkNBISEvNl9BX0FLTC9lbl93dw!!?LMSG_CABINET=Bell_Labs&LMSG_CONTENT_FILE=History%2FTimeline%2FTimeline_Innovation_000100&UNIQUE_NAME=lu.gen.prt.pg.rendition&lu_lang_code=en_WW |data=25 marzo 2016 }}</ref> e ne rimase impressionato al punto da riprendere la scena in uno dei momenti cruciali del suo romanzo ''[[2001: Odissea nello spazio (romanzo)|2001: Odissea nello spazio]]''<ref name="Arthur C Clarke">{{en}}[http://www.lsi.usp.br/~rbianchi/clarke/ACC.Biography.html Arthur C. Clarke, Biografia on line] {{webarchive|url=https://web.archive.org/web/19971211154551/http://www.lsi.usp.br/~rbianchi/clarke/ACC.Biography.html |data=11 dicembre 1997 }}</ref>, facendo eseguire la stessa canzone al computer [[HAL 9000]] mentre viene disattivato dall'astronauta Dave Bowman<ref name="bell labs hal">{{en}}[http://www.bell-labs.com/news/1997/march/5/2.html Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)] {{webarchive|url=https://web.archive.org/web/20000407081031/http://www.bell-labs.com/news/1997/march/5/2.html |data=7 aprile 2000 }}</ref>, scena che fu poi riprodotta fedelmente dal regista [[Stanley Kubrick]] nell'omonimo [[2001: Odissea nello spazio|film]].
 
==Le Universiadi==
Il primo apparato di sintesi vocale in italiano, MUSA, è nato nel 1975 presso i laboratori [[CSELT]] (Gruppo [[STET]]); il prototipo era in grado di leggere un testo, con una caratteristica voce "metallica" e, nel 1978, anche di cantare il brano ''[[Fra Martino|Fra Martino Campanaro]]''<ref>{{Cita libro|autore=Gabriele Falciasecca|curatore1=V. Cantoni|curatore2=Giuseppe Pelosi|titolo=Storia delle telecomunicazioni|volume=1|editore=Firenze University Press|città=Firenze|anno=2011|p=393|ISBN=9788864532431}}</ref>. Nel 1978 il gruppo di ricerca CSELT sulle tecnologie vocali (nel 2001 divenuto lo spin-off [[Loquendo]]) era l'unica realtà industriale al mondo, oltre [[AT&T]], a disporre di una tecnologia di sintesi vocale di interesse industriale<ref>[http://www.ilsole24ore.com/art/tecnologie/2012-01-22/voci-loquendo-081815.shtml?uuid=AaqgP6gE Il Sole 24 ore,''Le voci di Loquendo'', 22 gennaio 2012]</ref>.
===Paesi partecipanti===
I paesi partecipati sono:
{| class="wikitable collapsible" style="width:100%;"
|-
! Partecipanti
|-
|
{{Div col|colwidth=22em}}
*{{Bandiera|SAU}} [[Arabia Saudita alla XXX Universiade|Arabia Saudita]]
*{{Bandiera|ARG}} [[Argentina alla XXX Universiade|Argentina]]
*{{Bandiera|AUS}} [[Australia alla XXX Universiade|Australia]]
*{{Bandiera|BGD}} [[Bangladesh alla XXX Universiade|Bangladesh]]
*{{Bandiera|BEL}} [[Belgio alla XXX Universiade|Belgio]]
*{{Bandiera|BRA}} [[Brasile alla XXX Universiade|Brasile]]
*{{Bandiera|CAN}} [[Canada alla XXX Universiade|Canada]]
*{{Bandiera|CHI}} [[Cile alla XXX Universiade|Cile]]
*{{Bandiera|CHN}} [[Cina alla XXX Universiade|Cina]]
*{{Bandiera|COL}} [[Colombia alla XXX Universiade|Colombia]]
*{{Bandiera|PRK}} [[Corea del Nord alla XXX Universiade|Corea del Nord]]
*{{Bandiera|KOR}} [[Corea del Sud alla XXX Universiade|Corea del Sud]]
*{{Bandiera|HRV}} [[Croazia alla XXX Universiade|Croazia]]
*{{Bandiera|EGY}} [[Egitto alla XXX Universiade|Egitto]]
*{{Bandiera|PHI}} [[Filippine alla XXX Universiade|Filippine]]
*{{Bandiera|FIN}} [[Finlandia alla XXX Universiade|Finlandia]]
*{{Bandiera|FRA}} [[Francia alla XXX Universiade|Francia]]
*{{Bandiera|DEU}} [[Germania alla XXX Universiade|Germania]]
*{{Bandiera|JPN}} [[Giappone alla XXX Universiade|Giappone]]
*{{Bandiera|GBR}} [[Gran Bretagna alla XXX Universiade|Gran Bretagna]]
*{{Bandiera|HKG}} [[Hong Kong alla XXX Universiade|Hong Kong]]
*{{Bandiera|IND}} [[India alla XXX Universiade|India]]
*{{Bandiera|IDN}} [[Indonesia alla XXX Universiade|Indonesia]]
*{{Bandiera|IRN}} [[Iran alla XXX Universiade|Iran]]
*{{Bandiera|IRL}} [[Irlanda alla XXX Universiade|Irlanda]]
*{{Bandiera|ISR}} [[Israele alla XXX Universiade|Israele]]
*{{Bandiera|ITA}} '''[[Italia alla XXX Universiade|Italia]] (ospitante)'''
*{{Bandiera|LVA}} [[Lettonia alla XXX Universiade|Lettonia]]
*{{Bandiera|MEX}} [[Messico alla XXX Universiade|Messico]]
*{{Bandiera|NPL}} [[Nepal alla XXX Unuversiade|Nepal]]
*{{Bandiera|NGA}} [[Nigeria alla XXX Unuversiade|Nigeria]]
*{{Bandiera|NOR}} [[Norvegia alla XXX Universiade|Norvegia]]
*{{Bandiera|OMN}} [[Oman alla XXX Universiade|Oman]]
*{{Bandiera|POL}} [[Polonia alla XXX Universiade|Polonia]]
*{{Bandiera|PRT}} [[Portogallo alla XXX Universiade|Portogallo]]
*{{Bandiera|CZE}} [[Repubblica Ceca alla XXX Universiade|Repubblica Ceca]]
*{{Bandiera|ROU}} [[Romania alla XXX Universiade|Romania]]
*{{Bandiera|RUS}} [[Russia alla XXX Universiade|Russia]]
*{{Bandiera|STP}} [[São Tomé e Príncipe alla XXX Universiade|São Tomé e Príncipe]]
*{{Bandiera|SGP}} [[Singapore alla XXX Universiade|Singapore]]
*{{Bandiera|SVK}} [[Slovacchia alla XXX Universiade|Slovacchia]]
*{{Bandiera|ESP}} [[Spagna alla XXX Universiade|Spagna]]
*{{Bandiera|LKA}} [[Sri Lanka alla XXX Universiade|Sri Lanka]]
*{{Bandiera|USA}} [[Stati Uniti d'America alla XXX Universiade|Stati Uniti]]
*{{Bandiera|ZAF}} [[Sudafrica alla XXX Universiade|Sudafrica]]
*{{Bandiera|CHE}} [[Svizzera alla XXX Universiade|Svizzera]]
*{{Bandiera|TPE}} [[Taipei Cinese alla XXX Universiade|Taipei Cinese]]
*{{Bandiera|THA}} [[Thailandia alla XXX Universiade|Thailandia]]
*{{Bandiera|TUR}} [[Turchia alla XXX Universiade|Turchia]]
*{{Bandiera|UKR}} [[Ucraina alla XXX Universiade|Ucraina]]
*{{Bandiera|UGA}} [[Uganda alla XXX Universiade|Uganda]]
*{{Bandiera|HUN}} [[Ungheria alla XXX Universiade|Ungheria]]
*{{Bandiera|URY}} [[Uruguay alla XXX Universiade|Uruguay]]
{{div col end}}
|}
 
In totale i partecipanti sono più di 8.000. In totale i paesi partecipanti sono circa 128.
Nonostante i successi ottenuti con i sintetizzatori elettronici, la ricerca sui sintetizzatori vocali di tipo meccanico non è stata abbandonata, specialmente in vista di un possibile impiego di tali sistemi per [[robot]] di tipo umanoide.<ref>{{en}}[http://www.takanishi.mech.waseda.ac.jp/research/voice/ Anthropomorphic Talking Robot Waseda-Talker Series] {{webarchive|url=https://web.archive.org/web/20070717180126/http://www.takanishi.mech.waseda.ac.jp/research/voice/ |data=17 luglio 2007 }}</ref>
 
== Tecnologie=Cerimonia di sintesi apertura===
La cerimonia di apertura si è svolgerà il 3 luglio 2019 presso lo [[Stadio San Paolo]]. La direzione creativa è stata affidata alla Balich Worldwide Shows, il cui team creativo è noto per aver realizzato 20 Cerimonie Olimpiche, da Torino 2006 a Rio 2016, oltre alla realizzazione dell'[[Albero della Vita]] dell'[[Expo 2015|Expo di Milano 2015]].
Le qualità più importanti di una sintesi vocale sono la ''naturalezza'' e l'''intelligibilità''.
 
===Cerimonia di chiusura===
La naturalezza esprime quanto la voce sintetizzata si avvicina a quella umana mentre l'intelligibilità rappresenta la facilità di comprensione della voce sintetizzata. Un sintetizzatore ideale è allo stesso tempo naturale e intelligibile, nella realtà i sistemi di sintesi vocale approssimano tale comportamento tentando di ottimizzare entrambe le caratteristiche.
La cerimonia di chiusura si è svolgerà il 14 luglio 2019 presso lo [[Stadio San Paolo]] e vedrà la presenza de i "The Jackal".
 
===Discipline===
Le due tecnologie principali per la sintesi vocale sono la ''sintesi concatenativa'' e la ''sintesi basata sulle regole''. Ciascuna tecnologia ha i suoi punti di forza e di debolezza: la scelta di quale utilizzare dipende tipicamente dal tipo di utilizzo finale della sintesi vocale.
====Obbligatorie====
Le discipline obbligatorie (quindici sport) sono determinate dalla FISU e, se non modificate dall'Assemblea Generale della FISU, sono valide per tutte le università estive.
{{div col}}
* [[File:Athletics pictogram.svg|20px|alt=|link=]] [[Atletica leggera alla XXX Universiade|Atletica leggera]] <small>(50)</small>
* [[File:Football pictogram.svg|20px|alt=|link=]] [[Calcio alla XXX Universiade|Calcio]] <small>(2)</small>
* [[File:Gymnastics (artistic) pictogram.svg|20px|alt=|link=]] [[Ginnastica alla XXX Universiade|Ginnastica artistica]] <small>(14)</small>
* [[File:Gymnastics (rhythmic) pictogram.svg|20px|alt=|link=]] [[Ginnastica alla XXX Universiade|Ginnastica ritmica]] <small>(8)</small>
* [[File:Judo pictogram.svg|20px|alt=|link=]] [[Judo alla XXX Universiade|Judo]] <small>(18)</small>
* [[File:Swimming pictogram.svg|20px|alt=|link=]] [[Nuoto alla XXX Universiade|Nuoto]] <small>(42)</small>
* [[File:Basketball pictogram.svg|20px|alt=|link=]] [[Pallacanestro alla XXX Universiade|Pallacanestro]] <small>(2)</small>
* [[File:Water polo pictogram.svg|20px|alt=|link=]] [[Pallanuoto alla XXX Universiade|Pallanuoto]] <small>(2)</small>
* [[File:Volleyball (indoor) pictogram.svg|20px|alt=|link=]] [[Pallavolo alla XXX Universiade|Pallavolo]] <small>(2)</small>
* [[File:Fencing pictogram.svg|20px|alt=|link=]] [[Scherma alla XXX Universiade|Scherma]] <small>(12)</small>
* [[File:Taekwondo pictogram.svg|20px|alt=|link=]] [[Taekwondo alla XXX Universiade|Taekwondo]] <small>(23)</small>
* [[File:Tennis pictogram.svg|20px|alt=|link=]] [[Tennis alla XXX Universiade|Tennis]] <small>(7)</small>
* [[File:Table tennis pictogram.svg|20px|alt=|link=]] [[Tennistavolo alla XXX Universiade|Tennistavolo]] <small>(7)</small>
* [[File:Archery pictogram.svg|20px|alt=|link=]] [[Tiro con l'arco alla XXX Universiade|Tiro con l'arco]] <small>(10)</small>
* [[File:Diving pictogram.svg|20px|alt=|link=]] [[Tuffi alla XXX Universiade|Tuffi]] <small>(15)</small>
{{div col end}}
 
=== Sintesi concatenativa =Facoltative====
Le discipline facoltative sono stabilite dalla National Sports Federation (NUSF) del paese organizzatore e devono essere di almeno tre sport. Queste sono le discipline facoltative scelte:
La '''''sintesi concatenativa''''', come dice il nome, si basa sulla [[concatenazione]] ossia la combinazione di frammenti di voce registrati. In generale questa metodologia produce il risultato di sintesi più naturale, tuttavia la differenza tra le variazioni naturali della voce umana e le tecniche di frammentazione automatica delle [[Forma d'onda|forme d'onda]] può talvolta generare dei
* [[File:Rugby union pictogram.svg|20px|alt=|link=]] [[Rugby a 7 alla XXX Universiade|Rugby a 7]] <small>(2)</small>
piccoli disturbi udibili. Esistono tre sotto-tipi principali di sintesi concatenativa.
* [[File:Shooting pictogram.svg|20px|alt=|link=]] [[Tiro alla XXX Universiade|Tiro]] <small>(34)</small>
* [[File:Sailing pictogram.svg|20px|alt=|link=]] [[Vela alla XXX Universiade|Vela]] <small>(1)</small>
 
==Calendario==
===== Sintesi per campioni unitari =====
Le gare si terranno dal 2 al 14 luglio 2019. Le cerimonie di apertura e di chiusura si svolgeranno presso lo [[Stadio San Paolo]].
La ''sintesi per campioni unitari'' si appoggia su grandi [[database]] di voci registrate. Durante la creazione del database ogni emissione registrata viene frazionata in uno o più di questi segmenti: suoni isolati, [[sillaba|sillabe]], [[morfema|morfemi]], [[parola|parole]], [[frase|frasi]] e [[Periodo (grammatica)|periodi]] completi. Normalmente la frammentazione impiega un riconoscitore di linguaggio modificato appositamente per eseguire un "allineamento forzato" a cui seguono interventi di correzione manuali basati su rappresentazioni visive del suono come le [[Forma d'onda|forme d'onda]] e gli [[Spettrogramma|spettrogrammi]].<ref>{{en}}Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario [[IEEE]] su TTS, [[2002]]. (http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html)</ref> I campioni sonori vengono [[database|indicizzati]] nel database sulla base della frammentazione e di parametri acustici quali la [[Analisi di Fourier|frequenza fondamentale]] ([[tono (musica)|tono musicale]]), la durata, la posizione all'interno della sillaba e i suoni adiacenti. Durante la sintesi in tempo reale l'emissione finale viene generata sulla base di un [[algoritmo]] di decisione ad ''albero pesato'' che identifica la "miglior sequenza" tra i campioni candidati scelti dal database.
{| class="wikitable" style="margin:0.5em auto; font-size:90%; position:relative; width:55%;"
|-
|style="width:2.5em; background:#00cc33; text-align:center"|●||Cerimonia d'apertura
|style="width:2.5em; background:#3399ff; text-align:center"| ||Competizioni
|style="width:2.5em; background:#ffcc00; text-align:center"| ||Finali
|style="width:2.5em; background:#ee3333; text-align:center"|●||Cerimonia di chiusura
|}
 
{| class="wikitable" style="margin:0.5em auto; font-size:90%; line-height:1.25em;"
Questo tipo di sintesi produce i risultati di maggior naturalezza perché riduce al minimo le operazioni di elaborazione digitale ([[digital signal processing]], DSP) sui campioni registrati. Le elaborazioni digitali infatti spesso alterano la resa del suono sintetizzato rendendola meno naturale: alcuni sistemi usano tecniche DSP solo per ammorbidire le transizioni tra i campioni sonori in fase di concatenazione. I migliori sistemi a sintesi articolatoria producono un risultato che spesso è indistinguibile da una vera voce umana, specialmente in quei contesti in cui la conversione da testo a voce è stata ottimizzata per uno scopo specifico. Di contro, una naturalezza massima richiede normalmente l'impiego di database di dimensioni considerevoli, che in alcuni casi possono arrivare all'ordine dei [[gigabyte]], equivalenti a qualche dozzina di ore di registrazioni vocali.<ref>{{en}}John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.</ref> Inoltre, è stato accertato che gli algoritmi di selezione dei campioni possono scegliere segmenti che producono una sintesi non ideale (per esempio, con una pronuncia poco chiara delle parole minori) anche quando nel database è presente una scelta migliore<ref>{{en}}Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, http://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.</ref>.
|-
! rowspan="2" colspan="2" | Luglio !! Mar !! Mer !! Gio !! Ven !! Sab !! Dom !! Lun !! Mar !! Mer !! Gio !! Ven !! Sab !! Dom !! rowspan="2" | Totale
|-
! 2 !! 3 !! 4 !! 5 !! 6 !! 7 !! 8 !! 9 !! 10 !! 11 !! 12 !! 13 !! 14
|- align="center"
| colspan="2" align="left" | Cerimonia d'apertura
|
| style="background:#0c3" |●
|
|
|
|
|
|
|
|
|
|
|
|
|- align="center"
| colspan="2" align="left" | {{simbolo|Athletics pictogram.svg}} [[Atletica leggera alla XXX Universiade|Atletica leggera]]
|
|
|
|
|
|
| style="background:#fc0" | 2
| style="background:#fc0" | 6
| style="background:#fc0" | 9
| style="background:#fc0" | 8
| style="background:#fc0" | 11
| style="background:#fc0" | 14
|
| 50
|- align="center"
| colspan="2" align="left" | {{simbolo|Football pictogram.svg}} [[Calcio alla XXX Universiade|Calcio]]
| style="background:#39f" |
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 1
|
| 2
|- align="center"
| colspan="2" align="left" | {{simbolo|Gymnastics (artistic) pictogram.svg}} [[Ginnastica alla XXX Universiade|Ginnastica]]
|
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 1
| style="background:#fc0" | 2
| style="background:#fc0" | 10
|
|
|
| style="background:#39f" |
| style="background:#fc0" | 2
| style="background:#fc0" | 6
|
| 22
|- align="center"
| colspan="2" align="left" | {{simbolo|Judo pictogram.svg}} [[Judo alla XXX Universiade|Judo]]
|
|
| style="background:#fc0" | 4
| style="background:#fc0" | 4
| style="background:#fc0" | 4
| style="background:#fc0" | 2
|
|
|
|
|
|
|
| 14
|- align="center"
| colspan="2" align="left" | [[File:Swimming pictogram.svg|20px]] [[Nuoto alla XXX Universiade|Nuoto]]
|
|
| style="background:#fc0" | 4
| style="background:#fc0" | 5
| style="background:#fc0" | 5
| style="background:#fc0" | 7
| style="background:#fc0" | 4
| style="background:#fc0" | 7
| style="background:#fc0" | 8
|
|
|
|
| 40
|- align="center"
| colspan="2" align="left" | {{simbolo|Basketball pictogram.svg}} [[Pallacanestro alla XXX Universiade|Pallacanestro]]
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 1
|
|
|
| 2
|- align="center"
| colspan="2" align="left" | {{simbolo|Water polo pictogram.svg}} [[Pallanuoto alla XXX Universiade|Pallanuoto]]
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 1
| 2
|- align="center"
| colspan="2" align="left" | {{simbolo|Volleyball (indoor) pictogram.svg}} [[Pallavolo alla XXX Universiade|Pallavolo]]
|
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 1
|
| 2
|- align="center"
| colspan="2" align="left" | {{simbolo|Rugby union pictogram.svg}} [[Rugby a 7 alla XXX Universiade|Rugby a 7]]
|
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 2
|
|
|
|
|
|
|
| 2
|- align="center"
| colspan="2" align="left" | {{simbolo|Fencing pictogram.svg}} [[Scherma alla XXX Universiade|Scherma]]
|
|
| style="background:#fc0" | 2
| style="background:#fc0" | 2
| style="background:#fc0" | 2
| style="background:#fc0" | 2
| style="background:#fc0" | 2
| style="background:#fc0" | 2
|
|
|
|
|
| 12
|- align="center"
| colspan="2" align="left" | {{simbolo|Taekwondo pictogram.svg}} [[Taekwondo alla XXX Universiade|Taekwondo]]
|
|
|
|
|
| style="background:#fc0" | 2
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 2
|
| 19
|- align="center"
| colspan="2" align="left" | {{simbolo|Tennis pictogram.svg}} [[Tennis alla XXX Universiade|Tennis]]
|
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 4
| style="background:#fc0" | 3
|
| 7
|- align="center"
| colspan="2" align="left" | {{simbolo|Table tennis pictogram.svg}} [[Tennistavolo alla XXX Universiade|Tennistavolo]]
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 2
| style="background:#39f" |
| style="background:#fc0" | 1
| style="background:#fc0" | 2
| style="background:#fc0" | 2
|
|
|
| 7
|- align="center"
| colspan="2" align="left" | [[File:Shooting pictogram.svg|20px]] [[Tiro alla XXX Universiade|Tiro]]
|
|
| style="background:#fc0" | 1
| style="background:#fc0" | 3
| style="background:#fc0" | 2
| style="background:#fc0" | 1
| style="background:#fc0" | 3
| style="background:#fc0" | 5
|
|
|
|
|
| 15
|- align="center"
| colspan="2" align="left" | {{simbolo|Archery pictogram.svg}} [[Tiro con l'arco alla XXX Universiade|Tiro con l'arco]]
|
|
|
|
|
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 5
| style="background:#fc0" | 5
|
| 10
|- align="center"
| colspan="2" align="left" | {{simbolo|Diving pictogram.svg}} [[Tuffi alla XXX Universiade|Tuffi]]
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
| style="background:#fc0" | 3
|
|
|
|
|
|
| 15
|- align="center"
| colspan="2" align="left" | {{simbolo|Sailing pictogram.svg}} [[Vela alla XXX Universiade|Vela]]
|
|
|
|
|
|
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#39f" |
| style="background:#fc0" | 1
|
|
| 1
|- align="center"
| colspan="2" align="left" | Cerimonia di chiusura
|
|
|
|
|
|
|
|
|
|
|
|
| style="background:#e33" |●
|
|-
! colspan="2" |Medaglie !! 0 !! 0 !! !! !! !! !! !! !! !! !! !! !! !!
|-
! rowspan="2" colspan="2" | Luglio !! Mar !! Mer !! Gio !! Ven !! Sab !! Dom !! Lun !! Mar !! Mer !! Gio !! Ven !! Sab !! Dom !! rowspan="2" | Totale
|-
! 2 !! 3 !! 4 !! 5 !! 6 !! 7 !! 8 !! 9 !! 10 !! 11 !! 12 !! 13 !! 14
|}
 
==Note==
===== Sintesi per difoni =====
La ''sintesi per difoni'' utilizza un database di suoni di dimensioni minime contenente tutti i [[difono|difoni]] (transizioni tra suoni diversi) tipici di un determinato linguaggio. Il numero dei difoni dipende dalle caratteristiche fonetiche del linguaggio: per esempio, la [[lingua spagnola]] comprende circa 800 difoni mentre il [[lingua tedesca|tedesco]] ne conta circa 2500. Con questa tecnica viene memorizzato nel database un unico campione per ciascun difono. Durante l'elaborazione in tempo reale, ai difoni selezionati viene sovrapposta la [[prosodia]] della frase da sintetizzare usando tecniche DSP ([[digital signal processing]]) come la codifica lineare predittiva, [[PSOLA]]<ref>{{en}}[http://www.fon.hum.uva.nl/praat/manual/PSOLA.html Sintesi basata su PSOLA] {{webarchive|url=https://web.archive.org/web/20070222180903/http://www.fon.hum.uva.nl/praat/manual/PSOLA.html |data=22 febbraio 2007 }}</ref> (''Pitch-Synchronous Overlap and Add'') oppure [[MBROLA]].<ref>{{en}}T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ''ICSLP Proceedings'', 1996.</ref>
La qualità della voce risultante in genere è inferiore rispetto a quella ottenuta per sintesi articolatoria, ma suona più naturale rispetto a quella ottenuta con la sintesi basata sulle regole.
 
I difetti della sintesi per difoni consistono in piccoli stacchi tra i suoni, tipici del meccanismo di concatenazione, e in un effetto di voce metallica, come nella sintesi basata sulle regole. Rispetto a queste tecniche, la sintesi per difoni non presenta vantaggi significativi, a parte la dimensione ridotta del database di appoggio. Per questo motivo, l'impiego di questa tecnica per applicazioni commerciali è in fase di declino mentre continua a essere impiegata nella ricerca grazie alle molte implementazioni [[software]] gratuite disponibili.
 
La prima applicazione commerciale di sintesi vocale in lingua italiana, Eloquens<ref>[http://www.datasheetarchive.com/files/texas-instruments/sc/docs/dsps/softcoop/cseltelq.htm Datasheet archive: Eloquens]</ref>, progettata in [[CSELT]] e commercializzata da Telecom Italia a partire dal 1993, era proprio basata sui difoni. Essa viene tuttora diffusa, disponibile come software gratuito (per i soli sistemi operativi Windows)<ref>[https://it.softonic.com/s/eloquens Softonic: Eloquens]</ref>.
 
===== Sintesi per applicazioni specifiche =====
La ''sintesi per applicazioni specifiche'' si basa sulla concatenazione di parole e frasi pre-registrate per generare emissioni complete. Si usa principalmente per applicazioni in cui i testi da sintetizzare sono limitati alle esigenze di un settore specifico, come per esempio gli annunci ferroviari o aeroportuali o le previsioni del tempo<ref>{{en}}L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, ''Proceedings ESCA-NATO Workshop and Applications of Speech Technology'', Sept 1993</ref>. La tecnologia è semplice da implementare ed è in uso da tempo in applicazioni di tipo commerciale e in dispositivi tipo le sveglie parlanti o le calcolatrici con voce. La naturalezza di questi sistemi è molto elevata grazie al fatto che il numero di frasi componenti è limitato e riproduce molto fedelmente la prosodia e l'intonazione delle registrazioni originali.
 
D'altro canto, questi sistemi si limitano a riprodurre parole e frasi contenute nel loro database e possono sintetizzare solo le combinazioni predefinite, per cui non possono essere estesi per un uso generalizzato. Inoltre la legatura delle parole tipica del linguaggio naturale può essere causa di qualche problema a meno che non si tengano in considerazione tutte le possibili varianti. Per esempio, nella [[lingua francese]] molte consonanti finali sono mute ma se la parola successiva inizia per vocale allora devono essere pronunciate (''liaison''). Queste variazioni di [[pronuncia]] non possono essere riprodotte da un sistema di concatenazione semplice delle parole ed è necessario aumentarne la complessità per poterlo rendere adattabile al contesto.
 
=== Sintesi basata sulle regole ===
[[File:Euphoniafaber.jpg|thumb|Illustrazione del 1846 riproducente l'''Euphonia'', macchina di sintesi vocale meccanica realizzata da Joseph Faber]]
La '''''sintesi basata sulle regole''''' non utilizza campioni della voce umana ma ricrea la voce per elaborazione basandosi su un modello [[Acustica|acustico]] e per tale motivo viene detta anche ''sintesi per [[Formante (acustica)|formanti]]''. Questa tecnica consiste nella generazione di forme d'onda di cui si modulano alcuni parametri acustici come la frequenza fondamentale, i toni e i livelli di [[rumore (acustica)|rumore]]. Anche molti sistemi di sintesi concatenativa usano alcuni componenti di questo tipo.
 
Molti sistemi di sintesi basata sulle regole generano una voce dal suono artificiale e molto metallico che non può essere scambiata per una voce umana. Questa tecnica di sintesi non ha però come obiettivo la massima naturalezza e presenta una serie di vantaggi rispetto alla sintesi concatenativa. La sintesi basata sulle regole infatti è decisamente intelligibile anche ad alte velocità, non presentando i piccoli stacchi acustici tipici dei sistemi a sintesi concatenativa: la sintesi ad alta velocità è molto usata per i sistemi di lettura dello schermo per l'uso dei [[computer]] da parte delle persone ipovedenti o persone affette da [[dislessia]]. Inoltre i sistemi di sintesi basata sulle regole sono gestiti da programmi di dimensione più contenuta non dovendo utilizzare un database di campioni vocali. Questa caratteristica ne consente l'impiego in [[sistema embedded|sistemi embedded]], dove la capacità di [[memoria (informatica)|memoria]] e la potenza di calcolo del [[microprocessore]] possono essere limitate. Infine, i sistemi di sintesi basata sulle regole possono controllare tutti gli aspetti del linguaggio vocale, generando un'ampia varietà di [[prosodia|prosodie]] e [[intonazione|intonazioni]] e veicolando così non soltanto il contenuto del testo ma anche effetti emotivi e toni di voce.
 
Tra gli esempi di sintesi basata su regole con un controllo molto accurato dell'intonazione, sia pure non in tempo reale, si trovano i lavori svolti alla fine degli [[Anni 1970|anni settanta]] per il gioco ''Speak & Spell'' prodotto da [[Texas Instruments]] e per le console di videogiochi prodotte da [[SEGA]] all'inizio degli [[Anni 1980|anni ottanta]].<ref>Tra gli esempi: [[Astro Blaster]], [[Space Fury]], il videogioco di [[Star Trek]].</ref> Per questi progetti la generazione della corretta intonazione ha rappresentato una vera e propria sfida tecnologica i cui risultati non sono ancora stati eguagliati da nessun sistema di sintesi vocale in tempo reale.<ref>{{en}}John Holmes e Wendy Holmes. ''Speech Synthesis and Recognition, 2nd Edition''. CRC: 2001. ISBN 0-7484-0856-8.</ref>
 
=== Sintesi articolatoria ===
La '''''sintesi articolatoria''''' ricorre a tecniche computazionali basate su modelli biomeccanici dei tratti vocali umani e dei loro processi di articolazione. Il primo sintetizzatore di tipo articolatorio impiegato su base regolare per esperimenti di laboratorio fu sviluppato a metà degli anni Settanta da [[Philip Rubin]], Tom Baer e Paul Mermelstein dei Laboratori Haskins. Questo sintetizzatore, noto anche come ASY, si basava su modelli dei tratti vocali elaborati da Paul Mermelstein, Cecil Coker e altri negli [[Anni 1960|anni sessanta]] e Settanta dai [[Bell Laboratories]].
 
Fino a poco tempo fa i modelli di sintesi articolatoria non erano stati utilizzati per sistemi di sintesi commerciale. Un'eccezione significativa è il sistema basato su [[NeXT]] realizzato e commercializzato da Trillium Sound Research, un'azienda collegata all'[[Università di Calgary]] in cui si svolse gran parte della ricerca originale. Seguendo la sorte di molte delle applicazioni derivate da NeXT (che fu creata da [[Steve Jobs]] alla fine degli [[Anni 1980|anni ottanta]] per poi fondersi con [[Apple]] nel [[1997]]), il software di Trillium venne reso disponibile sotto la licenza [[GNU General Public License|GNU GPL]] e continua ad evolversi nel progetto ''gnuspeech''. Questo sistema, commercializzato per la prima volta nel [[1994]], implementa una conversione da testo a voce di tipo completamente articolatorio tramite una guida d'onda o una linea trasmissiva che emula i tratti nasali e orali umani controllati dal "modello di regione distintiva" di Carré.
 
=== Sintesi Markoviana ===
La '''''sintesi Markoviana''''' è un metodo basato sul [[modello di Markov nascosto]] (HMM, ''Hidden Markov Model''). In questa tecnica lo spettro di frequenze (usato per il tratto vocale), la [[altezza (suono)|frequenza fondamentale]] (usata per la sorgente vocale) e la durata dell'emissione vocale (usata per la [[prosodia]]) sono modellate simultaneamente tramite modelli nascosti di Markov. Gli stessi modelli nascosti di Markov generano le forme d'onda vocali basandosi su un [[Funzione di verosimiglianza|criterio di massima verosimiglianza]].<ref>{{en}}The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/</ref>
 
=== Sintesi sinusoidale ===
La '''''sintesi sinusoidale''''' è una tecnica in cui la voce viene sintetizzata sostituendo i formanti con frequenze pure generate da forme d'onda sinusoidali.
 
Il primo programma di sintesi sinusoidale fu realizzato da Philip Rubin degli Haskins Laboratories negli anni Settanta per creare stimoli artificiali negli esperimenti sulla percezione. Questo programma fu utilizzato in seguito da Robert Remez, Philip Rubin, David Pisoni e altri per dimostrare che un ascoltatore può percepire un discorso come continuo anche in assenza dei tipici picchi vocali.<ref>{{en}}Remez, R.E., Rubin, P.E., Pisoni, D.B., & Carrell, T.D. Speech perception without traditional speech cues. ''Science'', 1981, 212, 947-950.</ref>
 
== Problematiche ==
=== Normalizzazione del testo ===
Il processo di normalizzazione di un testo raramente è univoco. Nei testi sono spesso presenti [[omografia (linguistica)|omografie]], [[numero|numeri]] e [[abbreviazione|abbreviazioni]] che devono essere tradotti in una rappresentazione fonetica corretta. Nel caso delle omografie, parole che hanno la stessa rappresentazione testuale richiedono una pronuncia differente a seconda del significato e quindi del contesto, come per esempio nella frase "''Ho gettato ancora l'ancora''", dove l'omografo ''ancora'' deve essere pronunciato in due modi differenti con due significati diversi (''Ho gettato ancóra l'àncora'').
 
La maggior parte dei sistemi di conversione da testo a voce non sono in grado di generare una rappresentazione semantica del testo, in quanto i processi impiegabili per questo non sono sufficientemente affidabili, non ancora del tutto compresi o inefficienti dal punto di vista computazionale. Si ricorre piuttosto a tecniche di tipo [[euristica|euristico]] per individuare il modo corretto per risolvere le ambiguità, come per esempio tramite l'esame delle parole circostanti e le statistiche di frequenza d'uso.
 
Anche la scelta di come sintetizzare un numero rappresenta una problematica. Da un punto di vista di programmazione, convertire un numero in testo, come per esempio "1325" in "milletrecentoventicinque", è un'operazione semplice. Tuttavia, quando si deve contestualizzare correttamente un numero ci si trova di nuovo di fronte a un'ambiguità. "1325" può essere convertito come "milletrecentoventicinque" se si tratta di un anno o di una quantità, oppure in "uno tre due cinque" se si tratta di un codice numerico. Anche in questo caso, un sistema di conversione vocale può effettuare delle scelte basandosi sulle parole circostanti e sulla punteggiatura; alcuni sistemi consentono anche di specificare un contesto in modo da risolvere le ambiguità.
 
Allo stesso modo anche le abbreviazioni possono essere ambigue. Per esempio l'abbreviazione "ha" per ''ettaro'' deve essere distinta da "ha", voce del verbo ''avere''. Ci sono casi anche più complessi: "S.Marco", "S.Antonio", "S.Rita" e "S.Stefano" usano tutti la stessa abbreviazione "S." che però deve essere resa rispettivamente con "San", "Sant'", "Santa" e "Santo". I sistemi di conversione dotati di ''front-end'' intelligente sono in grado di risolvere le ambiguità sulla base dell'apprendimento ma altri sistemi meno sofisticati usano ovunque un'unica scelta, con risultati che possono essere a volte privi di senso o addirittura comici.
 
=== Resa dei fonemi dal testo ===
I sistemi di sintesi vocale utilizzano due approcci fondamentali per determinare come si pronuncia una parola partendo dalla sua grafia, un processo noto anche come conversione testo-fonema o grafema-fonema (i linguisti usano il termine [[fonema]] per descrivere i suoni distintivi nell'ambito di una determinata lingua).
 
L'approccio più semplice è rappresentato dalla conversione basata sul dizionario, in cui il programma memorizza un dizionario di grandi dimensioni contenente tutte le parole di una lingua e la relativa pronuncia: la pronuncia corretta di ogni parola si ottiene individuandola nel dizionario e sostituendola con la pronuncia ivi memorizzata.
 
Il secondo approccio è rappresentato dalla conversione basata sulle regole, in cui alle parole si applicano le regole di pronuncia basate sulla loro grafia. Questo approccio è simile al metodo di apprendimento della lettura basato sul "suono" ([[fonica sintetica]]).
 
Ciascuno dei due approcci ha i suoi pro e i suoi contro. L'approccio basato sul dizionario è rapido e preciso ma non è in grado di fornire alcun risultato se una parola non è presente nel dizionario; inoltre, al crescere delle dimensioni del dizionario cresce anche la quantità di memoria richiesta dal sistema di sintesi. Dall'altra parte l'approccio basato sulle regole è in grado di funzionare con qualsiasi testo in ingresso ma la sua complessità aumenta anche considerevolmente via via che il sistema tiene conto anche delle irregolarità nelle regole di grafia o di pronuncia. Basta considerare casi come quello del nome latino "Gneo", dove il gruppo ''gn'' viene pronunciato ''g-n'', con la ''g'' gutturale, invece che come un'unica nasale come in ''agnello''. Di conseguenza, quasi tutti i sistemi di sintesi vocale scelgono in pratica di adottare una combinazione dei due approcci.
 
In alcune lingue, come nel caso della [[lingua spagnola]] o della [[lingua italiana]], la corrispondenza tra il modo in cui si scrive una parola e la sua pronuncia è molto elevata per cui la determinazione della pronuncia corretta a partire dalla grafia risulta semplificata; in questi casi i sistemi di sintesi vocale utilizzano quasi esclusivamente il metodo basato sulle regole, limitando l'uso del dizionario a quella minoranza di parole, come i nomi di origine straniera, la cui pronuncia non è ovvia partendo dalla grafia. All'opposto, per linguaggi che presentano una corrispondenza molto bassa tra la grafia di una parola e la sua pronuncia, come per esempio avviene nella [[lingua inglese]], i sistemi di sintesi vocale si appoggiano essenzialmente sui dizionari, limitando l'uso dei metodi basati sulle regole solo alle parole di uso non comune o alle parole non presenti nel dizionario.
 
=== Valutazione qualitativa ===
È molto difficile valutare in modo coerente i sistemi di sintesi vocale in quanto non esistono criteri universali di riferimento. La qualità di un sistema di sintesi vocale dipende in modo significativo dalla qualità non solo della tecnica usata per la produzione (che può utilizzare registrazioni analogiche o digitali) ma anche dagli strumenti e dal contesto di riproduzione, le cui differenze spesso possono compromettere l'esito della valutazione.
 
Recentemente comunque alcuni ricercatori hanno iniziato a usare come riferimento per la valutazione il ''common speech dataset'' sviluppato come progetto open source dalla [[Carnegie Mellon University]]<ref>{{en}}Blizzard Challenge http://festvox.org/blizzard</ref>.
 
=== Resa del contenuto emotivo ===
Uno studio realizzato da Amy Drahota e da altri ricercatori dell'[[Universita di Portsmouth]], [[Regno Unito]], pubblicato sulla rivista ''Speech Communication'', ha evidenziato che chi ascolta è in grado di determinare soltanto dalla voce, con un elevato grado di precisione, se chi parla sta sorridendo oppure no<ref>{{en}}[http://www.port.ac.uk/aboutus/newsandevents/news/title,74220,en.html The Sound of Smiling] {{webarchive|url=https://web.archive.org/web/20080517102201/http://www.port.ac.uk/aboutus/newsandevents/news/title,74220,en.html |data=17 maggio 2008 }}</ref>. Questo ha suggerito che l'identificazione dei tratti vocali che veicolano contenuto emotivo potrebbe essere utile nel rendere più naturale il risultato di una sintesi vocale.
 
== Hardware dedicato ==
[[File:Electronic_Vowel_Synthesizer,_Bell_System_Science_Experiment_No.3.jpg|thumb|Un kit per la sintesi vocale elettronica prodotto da Bell System]]
* Votrax
** SC-01A (analog formant)
** SC-02 / SSI-263 / "Arctic 263"
* General Instruments SP0256-AL2 (CTS256A-AL2, MEA8000)
* National Semiconductor DT1050 Digitalker (Mozer)
* Silicon Systems SSI 263 (analog formant)
* Texas Instruments
** TMS5110A (LPC)
** TMS5200
* Oki Semiconductor
** MSM5205
** MSM5218RS (ADPCM)
* Toshiba T6721A
* Philips PCF8200
 
== Sistemi operativi e dispositivi dotati di sintesi vocale ==
=== Apple Mac OS e Mac OS X ===
[[Apple]] fu la prima ad integrare la sintesi vocale nel [[sistema operativo]] dei propri computer, con il software [[MacIntalk]], prodotto in casa nel 1984 e disponibile sui modelli [[Macintosh]]. All'inizio degli [[Anni 1990|anni novanta]] Apple ne ampliò le funzionalità estendendo la conversione vocale del testo a tutto il sistema.
 
Con l'introduzione dei processori PowerPC, più veloci, vennero inclusi campioni di voce di qualità elevata insieme a un sistema di riconoscimento vocale, il che consentì un controllo fluido dei comandi. In tempi più recenti Apple ha aggiunto anche voci diverse, basate su campioni. Nonostante fosse iniziato come una curiosità, il sistema di sintesi vocale dei computer Macintosh ha finito per evolvere verso un programma di punta, [[PlainTalk]], per il supporto completo per le persone con problemi di vista.
 
La conversione automatica del testo in parlato, denominata [[Utility VoiceOver]], è stata inclusa tra gli strumenti di accessibilità di serie nel sistema operativo [[Mac OS X Tiger]] e potenziata nel successivo [[Mac OS X Leopard]], che supporta una voce di nome "Alex" che prevede anche la sintesi realistica della respirazione intermedia tra la pronuncia delle frasi, così come una comprensibilità migliorata per letture a velocità più rapida.
 
Sempre nell'ambito dei prodotti Apple, la tecnologia VoiceOver è stata integrata nell'[[iPod shuffle]], che è in grado di "leggere" a voce alta le informazioni relative al brano in riproduzione a partire dalla terza generazione del prodotto.
 
=== AmigaOS ===
Il secondo sistema operativo a incorporare funzioni di sintesi vocale fu [[AmigaOS]], introdotto nel [[1985]] da [[Commodore International]] che ne ottenne la licenza da una software house indipendente, la Don't Ask Software, ora Softvoice, Inc. Il programma realizzava un sistema completo di emulazione vocale, con voci maschili e femminili e meccanismi di enfatizzazione, resi possibili dalle caratteristiche avanzate della componentistica audio prodotta da [[Amiga]].<ref>{{en}}[[Jay Miner|Miner, Jay]] et al (1991). ''Amiga Hardware Reference Manual: Third Edition''. [[Addison-Wesley]] Publishing Company, Inc. ISBN 0-201-56776-8.</ref> Il sistema era suddiviso in un dispositivo parlante (narrator.device) e una libreria di traduzione (translator.library): un ulteriore software di Amiga, [[Speak Handler]] implementava un convertitore da testo a voce. AmigaOS gestiva il sistema di sintesi vocale come periferica hardware virtuale, di modo che un utente poteva ridirigervi anche l'uscita della console. Alcuni programmi prodotti da Amiga, come i suoi word processor, utilizzavano in modo massiccio questo sistema di sintesi vocale.
 
=== Microsoft Windows ===
I sistemi [[Microsoft Windows|Windows]] impiegano una sintesi vocale basata su [[Speech Application Programming Interface|SAPI4]] e [[Speech Application Programming Interface|SAPI5]] che prevede anche un modulo di [[riconoscimento vocale]] (SRE, ''Speech Recognition Engine'').
 
Nelle versioni di sistema operativo [[Windows 95]] e [[Windows 98]] SAPI 4.0 era disponibile come componente aggiuntivo di produzione esterna. Fu con [[Windows 2000]] che venne aggiunto il programma [[Microsoft Narrator]], un sistema di sintesi vocale disponibile direttamente per tutti gli utenti di un computer: una volta installato, tutti i programmi compatibili con Windows ne potevano utilizzare le funzionalità di sintesi vocale tramite menu appositi.
 
In [[Windows Vista]], [[Windows 7]] e [[Windows 8]], lo strumento di sintesi vocale integrato è chiamato ''Assistente vocale''.
 
[[Microsoft Speech Server]] è un pacchetto completo per la sintesi e il riconoscimento vocali, sviluppato per applicazioni di carattere commerciale come per esempio i [[call center]].
 
=== Linux ===
Esistono varie applicazioni di sintesi vocale per computer basati su sistemi operativi [[open source]] come [[Linux|GNU/Linux]], fra i quali programmi a loro volta [[open-source]] come [[Festival (informatica)|Festival Speech Synthesis System]]<ref>[http://www.cstr.ed.ac.uk/projects/festival Festival<!-- Titolo generato automaticamente -->]</ref>, che sfrutta la sintesi per difoni e può utilizzare un numero ridotto di voci; il progetto [[MBROLA]]; l'applicazione eSpeak<ref>[http://espeak.sourceforge.net eSpeak: Speech Synthesizer<!-- Titolo generato automaticamente -->]</ref>; [[gnuspeech]], di [[Free Software Foundation]], che usa la sintesi articolatoria<ref>{{en}}[http://www.gnu.org/software/gnuspeech/ gnuspeech]</ref>.
 
Per i sistemi GNU/Linux esistono inoltre altri programmi commerciali di sintesi vocale.
 
L'[[ambiente desktop]] [[KDE]] dispone di tre programmi integrati tra loro e con il ''[[Computer desktop|desktop]]'': Ksayt, interfaccia di configurazione della piattaforma vocale, Kmouth che opera una sintesi vocale a partire da un testo scritto e Kttsmgr, gestore della pronuncia.
 
=== Internet ===
Allo stato attuale esistono parecchi applicativi e [[plugin (informatica)|plugin]] per client di posta o navigatori internet in grado di leggere direttamente i messaggi di e-mail e le pagine web.
 
Alcuni software specializzati sono in grado anche di leggere i [[RSS|feed RSS]]. I lettori di RSS on line da un lato semplificano l'accesso all'informazione, consentendo agli utenti di ascoltare le loro sorgenti preferite e di convertirle in [[podcast]], dall'altro sono disponibili praticamente per quasi tutti i [[Personal computer|PC]] collegati a Internet. Gli utenti possono scaricare i file audio così generati su dispositivi portatili, per esempio sotto forma di podcast e ascoltarli così a passeggio, praticando sport o andando al lavoro.
 
Un campo di applicazione che si sta estendendo è l'impiego della sintesi vocale per l'accessibilità tramite web, con i cosiddetti ''Talklet'' sviluppati dall'azienda inglese Textic. Con questi strumenti non è necessario scaricare un software apposito ma chiunque, per qualsiasi scopo, può accedere a funzioni di sintesi vocali direttamente via Internet usando un qualsiasi [[browser]]. Come in tutte le applicazioni basate sul web, i tempi di risposta dipendono essenzialmente dalle caratteristiche del collegamento Internet dell'utente finale<ref>{{en}}[http://textic.com/technical_overview.html Tempi di risposta "real time" misurati da Textic]</ref> ma la facilità di accesso resta indubbiamente un punto di forza di questo approccio.
 
=== Altri ===
* Gli home computer [[TI-99/4A|TI-99/4 e TI-99/4A]] prodotti da [[Texas Instruments]] nel [[1979]] e [[1981]] erano in grado di generare fonemi da testo o di recitare intere parole o frasi tramite una periferica di sintesi vocale molto diffusa. TI utilizzava un [[codec]] proprietario per inglobare intere frasi all'interno delle sue applicazioni come ad esempio i [[videogioco|videogiochi]].<ref>{{en}}[http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002]</ref>
* Il sistema [[IBM]] [[OS/2#OS/2 Warp|OS/2 Warp 4]] incorporava di serie VoiceType, precursore del successivo sviluppo ViaVoice.
* Diverse compagnie, tra cui [[AT&T]], [[Loquendo]] e [[Nuance Communications]], hanno realizzato sistemi di sintesi vocale commerciali di tipo dedicato.
* Sistemi di sintesi vocale sono stati sviluppati in passato anche da altre compagnie non più esistenti.
 
== Linguaggi di markup ==
 
Sono stati definiti alcuni [[linguaggio di markup|linguaggi di markup]] per la resa del parlato utilizzando un formato di descrizione di tipo [[XML]]. Il più recente è l'[[SSML]] ([[Speech Synthesis Markup Language]]) che dal 2004 è una raccomandazione del [[W3C]], arrivato alla versione 1.1 nel 2010<ref>{{en}}''[http://www.w3.org/TR/speech-synthesis11/ Speech Synthesis Markup Language (SSML) Version 1.1 W3C Recommendation 7 September 2010]''</ref> e integrato nel 2008 dal linguaggio PLS (''Pronunciation Lexicon Specification'') usato per specificare in modo formale le regole di pronuncia<ref>{{en}}''[http://www.w3.org/TR/pronunciation-lexicon/ Pronunciation Lexicon Specification (PLS) Version 1.0 W3C Recommendation 14 October 2008]''</ref>. Tra i linguaggi di markup più vecchi rientrano tra gli altri [[JSML]] (''Java Speech Markup Language'') e [[SABLE]]: nonostante fossero stati entrambi proposti come base per uno standard, nessuno di essi ha avuto in realtà un'ampia diffusione.
 
I linguaggi di markup per la sintesi vocale non vanno confusi con i linguaggi di markup per i dialoghi: per esempio, [[VoiceXML]] oltre al markup per la conversione vocale prevede anche dei [[Elemento HTML|tag]] relativi al riconoscimento vocale, alla gestione dei dialoghi e alla composizione di numeri telefonici su comando vocale.
 
== Applicazioni ==
=== Accessibilità ===
 
La sintesi vocale è da lungo tempo uno strumento di assistenza tecnologica di importanza vitale e la sua applicazione in questo campo è significativa e largamente diffusa in quanto elimina barriere ambientali per un'ampia gamma di problematiche. L'applicazione più longeva è quella dei [[Screen reader|lettori di schermo]] per persone con problemi alla vista ma la sintesi vocale si usa oggi anche per aiutare persone affette da [[dislessia]] o da altri problemi di lettura e per i bambini in età prescolare. Questi sistemi si usano anche a sostegno di persone con gravi problemi vocali o di fonazione, di solito in accoppiata con dispositivi dedicati per la comunicazione vocale (VOCA, "Voice Output Communication Aid").
 
=== Trasporti ===
Nei luoghi come gli aeroporti e le stazioni ferroviarie la sintesi vocale viene usata per effettuare le comunicazioni di servizio ai passeggeri.
 
Nei navigatori GPS, la sintesi vocale viene usata per dare le indicazioni di guida al conducente.
 
=== Notiziari ===
 
Alcuni siti di notizie come [[Ananova]] utilizzano la sintesi vocale per convertire i bollettini informativi in audio per applicazioni di tipo mobile.
 
=== Tempo libero ===
Le tecniche di sintesi vocale trovano impiego anche nell'industria del tempo libero, in particolare nella produzione di videogiochi, ''[[anime]]'', [[manga]] e simili. Nel [[2007]] Animo Limited ha annunciato lo sviluppo di un pacchetto applicativo basato sul suo programma di sintesi vocale FineSpeech, concepito specificamente per le industrie produttrici di videogiochi e ''anime'' in grado di generare racconti e dialoghi secondo le specifiche dell'utente.<ref>{{en}}[http://animenewsnetwork.com/news/2007-05-02/speech-synthesis-software Speech Synthesis Software for Anime Announced]</ref> Il pacchetto ha trovato applicazione nel 2008, quando [[Biglobe]], controllata di NEC, ha annunciato la disponibilità di un servizio web che consente agli utenti di creare frasi usando le voci dei personaggi di ''[[Code Geass: Lelouch of the Rebellion R2]]''.<ref>{{en}}[http://www.animenewsnetwork.com/news/2008-09-09/code-geass-voice-synthesis-service-offered-in-japan Code Geass Speech Synthesizer Service Offered in Japan]</ref>
 
Esistono anche programmi per la produzione musicale, come per esempio [[Vocaloid]], in grado di generare voci cantanti a partire da testi e melodia. Questo è anche l'ambito del progetto Singing Computer che usa il software open-source [[GNU General Public License|GPL]] [[GNU LilyPond|Lilypond]] e il sistema di sintesi vocale Festival, con lo scopo di aiutare le persone non vedenti nella creazione e stesura di testi di canzoni.<ref>{{en}}[http://www.freebsoft.org/singing-computer Free(b)soft Singing Computer]</ref>
 
== Note ==
<references/>
 
==Collegamenti esterni==
== Bibliografia ==
*{{cita web|url=http://www.universiade2019napoli.it/|titolo=Sito ufficiale|lingua=it, en}}
* Billi Roberto (a cura di), ''Tecnologie vocali per l'interazione uomo-macchina: Nuovi servizi a portata di voce'', Ed. CSELT, 1995
*{{cita web|url=http://www.fisu.net/sport-events/summer-universiades-events/30th-summer-universiade|titolo=30th Summer Universiade|lingua=en}}
 
== Voci correlate ==
* [[Elaborazione del linguaggio naturale]]
* [[Linguaggio]]
* [[OpenDocument]]
* [[Riconoscimento vocale]]
* [[Sintesi vocale cinese]]
 
== Altri progetti ==
{{interprogetto|commons=Category:Speech synthesis}}
 
== Collegamenti esterni ==
 
{{UniversiadeCittà}}
{{Portale|Informatica}}
{{DisciplineXXXUniversiade}}
{{Portale|sport|università}}
 
[[Categoria:SintesiXXX Universiade| vocale]]