MBROLA is an algorithm for speech synthesis, and software which is distributed at no financial cost but in binary form only, and a worldwide collaborative project. The MBROLA project web page provides diphone databases for a large number of spoken languages.

PropertyValue
dbpprop:abstract
  • MBROLA is an algorithm for speech synthesis, and software which is distributed at no financial cost but in binary form only, and a worldwide collaborative project. The MBROLA project web page provides diphone databases for a large number of spoken languages. The MBROLA software is not a complete text-to-speech system for all those languages; the text must first be transformed into phoneme and prosodic information in MBROLA's format, and separate software to do this is available for some but not all of MBROLA's languages and can require extra setup. Although diphone-based, the quality of MBROLA's synthesis is considered to be higher than that of most diphone synthesisers; this is due in part to the fact that it is based on a preprocessing of diphones, which enhances their concatenation while only slightly degrading their segmental quality. MBROLA is a time-domain algorithm, as PSOLA, which implies very low computational load at synthesis time. Unlike PSOLA, however, MBROLA does not require a preliminary marking of pitch periods. This feature has made it possible to develop the MBROLA project around the MBROLA algorithm, through which many speech research labs, companies, or individuals around the world have provided diphone databases for many languages and voices (the number of which is by far a world record for speech synthesis, but there are some notable omissions such as Chinese).
  • MBROLA è un algoritmo di sintesi vocale, in particolare si tratta di un software sviluppato su un progetto collaborativo a livello mondiale e distribuito gratuitamente ma nel solo formato binario. Il sito web del progetto MBROLA mette a disposizione database di difoni per la sintesi vocale in un numero considerevole di lingue diverse. Va osservato comunque che per tutti i linguaggi supportati il software MBROLA non è un sistema text-to-speech completo (generazione del parlato di sintesi a partire da un testo). MBROLA infatti fornisce principalmente i database dei fonemi e dei difoni specifici per una determinata lingua ma il testo da sintetizzare deve essere già convertito in precedenza in fonemi e in informazioni prosodiche nel formato richiesto dall'algoritmo. Questa conversione preliminare richiede normalmente l'utilizzo di un software a parte e quindi necessita di operazioni aggiuntive. La qualità della sintesi ottenuta con MBROLA viene considerata più elevata rispetto alla maggior parte dei sintetizzatori basati sui difoni; questo è dovuto in parte al fatto che il sistema si basta su una pre-elaborazione dei difoni che ne migliora la concatenazione degradando in modo minimo la qualità dei segmenti. MBROLA, così come PSOLA, è un algoritmo nel dominio del tempo, il che implica un carico computazionale molto ridotto durante la sintesi. A differenza di PSOLA, comunque, MBROLA non richiede la marcatura preliminare dei periodi tonali. Questa caratteristica ha reso possibile lo sviluppo del progetto MBROLA attorno all'algoritmo omonimo, grazie al quale molti laboratori di ricerca, ditte o singoli individui di tutto il mondo hanno prodotto database di difoni per molte lingue e tonalità di voce (il cui numero è di gran lunga il più elevato disponibile per un sistema di sintesi vocale), tuttavia ci sono ancora mancanze anche notevoli quali la sintesi vocale del cinese.
  • PSOLA (acronimo di Pitch-Synchronous Overlap and Add, sovrapposizione e aggiunta a toni sincroni) è un algoritmo usato nella sintesi vocale. PSOLA, come MBROLA, si basa sui difoni, che sono le unità elementari del discorso che spaziano dal centro di una regione di suono stazionario al centro della regione successiva, ossia rappresentano la transizione da un suono all'altro. Secondo alcuni ricercatori, la classificazione delle transizioni tra suoni costituirebbe l'elemento chiave per il riconoscimento e la comprensione di segmenti del discorso parlato. PSOLA è una tecnica nel dominio del tempo, ossia elabora il segnale agendo sulla sua forma d'onda nativa e non sulla sua scomposizione in frequenza. L'algoritmo di base consiste in tre passaggi fondamentali. In primo luogo, il segnale vocale viene suddiviso in segnali più piccoli, di durata inferiore e sovrapposti tra di loro. Questa suddivisione si ottiene marcando i picchi di tonalità del segnale originale e usando tali marcatori per segmentare il segnale. Il meccanismo chiave di PSOLA infatti è la determinazione corretta dei marcatori di tono: da un punto di vista dell'algoritmo ideale, questi marcatori dovrebbero essere spaziati uniformemente in modo periodico, a intervalli uguali al periodo fondamentale del segnale, e allo stesso tempo coincidere con picchi del segnale stesso. Nella pratica queste due condizioni spesso non coincidono, soprattutto per il fatto che nel parlato il periodo fondamentale del segnale non rimane sempre costante. Se ci si basasse solo sui picchi, allora i marcatori non sarebbero più distribuiti in modo periodico. D'altro canto, se si marcasse il segnale solo in base alla periodicità stretta, si potrebbe perdere la necessaria corrispondenza tra marcatori e picchi, rendendo quindi inutile la marcatura stessa. Nella pratica, per approssimare al meglio le condizioni ideali richieste dall'algoritmo si frammenta il segnale in segmenti che contengono da due a quattro picchi (periodi tonali): studi matematici hanno infatti determinato che questo è il compromesso migliore. Nella fase successiva, i segnali più piccoli vengono modificati o ripetendo o eliminando segmenti di parlato, a seconda che il tono finale debba essere più elevato o più basso rispetto al tono sorgente. Questa operazione modifica la durata del segnale, modificandone quindi anche la frequenza fondamentale. Nell'ultima fase, i segmenti rimanenti vengono ricombinati tramite sovrapposizione e aggiunta, in modo tale che i marcatori risultino spaziati uniformemente (sincronizzati) come richiesto dall'algoritmo. Il risultato finale è un segnale che ha lo stesso spettro acustico dell'originale ma una frequenza fondamentale differente: questo risulta in un cambio di tonalità della voce, lasciando però inalterati gli altri parametri vocali.
dbpprop:hasPhotoCollection
dbpprop:reference
rdf:type
rdfs:comment
  • MBROLA is an algorithm for speech synthesis, and software which is distributed at no financial cost but in binary form only, and a worldwide collaborative project. The MBROLA project web page provides diphone databases for a large number of spoken languages.
  • MBROLA è un algoritmo di sintesi vocale, in particolare si tratta di un software sviluppato su un progetto collaborativo a livello mondiale e distribuito gratuitamente ma nel solo formato binario. Il sito web del progetto MBROLA mette a disposizione database di difoni per la sintesi vocale in un numero considerevole di lingue diverse.
  • PSOLA (acronimo di Pitch-Synchronous Overlap and Add, sovrapposizione e aggiunta a toni sincroni) è un algoritmo usato nella sintesi vocale. PSOLA, come MBROLA, si basa sui difoni, che sono le unità elementari del discorso che spaziano dal centro di una regione di suono stazionario al centro della regione successiva, ossia rappresentano la transizione da un suono all'altro.
rdfs:label
  • MBROLA
  • MBROLA
  • PSOLA
owl:sameAs
skos:subject
foaf:page
is dbpprop:redirect of