site navigation


Deutsche Sprachsynthese

Letzte Aktualisierung: 9. Mai 2016, this page in English english

Inhalt:

  1. Bemerkungen
  2. Kommerzielle Systeme
  3. Forschung
  4. Weitere Systeme
  5. Dienstanbieter
  6. Sonstige Beispiele
  7. Lizensierte Produkte
  8. Fehlende Beispiele
  9. Unbekannte Beispiele
  10. TTS Klassifikationskarte
  11. Credits
  12. Changelog

Bemerkungen

Terminologie

Ich habe eine Übersicht gemacht, um das Verständnis für die in den Beschreibungen angegebenen Konzepte zu vereinfachen.

TTS-Systeme (Text-to-Speech: Sprachsynthese) bestehen immer aus zwei Komponenten, hier (in der Terminologie von Dutoit's Introduction) NLP und DSP genannt:

Die Syntheseengines (DSP-Komponente) lassen sich in der Regel einem von fünf Hauptverfahren zuordnen (in absteigender historischer Reihenfolge):


Um die einzelnen Systeme miteinander zu vergleichen, habe ich drei Test-Sätze ausgewählt:

Satz 1:

» An den Wochenenden bin ich jetzt immer nach Hause gefahren und habe Agnes besucht. Dabei war eigentlich immer sehr schönes Wetter gewesen. «

Der zweite Satz soll einige bekannte Probleme bei der Textnormalisierung demonstrieren, wie z.B. Abkürzungen, Eigennamen oder heterophone Homographen:

Satz 2:

» Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm. «

Der dritte Satz soll ein weiteres Problem deutscher Sprachsynthese demonstrieren; es werden zunehmend englische Begriffe mit deutschen vermischt, was sowohl für die Ausspracheberechnung als auch für die Signalgenerierung ein Problem darstellt, da oft nicht alle englischen Phonemfolgen im Inventar berücksichtigt sind:

Satz 3:

» Die Manpowerdiskussion wird gecancelt, du kannst das File vom Server downloaden. «

Alle Klangbeispiele sind im MP3-Format

Kommerzielle Engines

Firma/Link Name Technologie Sprachen Stimme Jahr (ungef.) Satz 1 Satz 2 Satz 3
Acapela Group (Früher Babeltech, Infovox and Elan)
logo

logo

logo
Acapela HQ TTS non-uniform unit-selection DE, FR, NL, ES, SE, US, SA, CY, DN, FI, CA, GR, IE, NO, PL, PT, BR, RU, TR Claudia 2015 mp3 mp3 mp3
Lea (Kind) 2013 mp3 mp3 mp3
Jonas (Kind) 2013 mp3 mp3 mp3
Andreas 2011 mp3 mp3 mp3
Julia 2009 mp3 mp3 mp3
Klaus 2006 mp3 mp3 mp3
Sarah 2003 mp3 mp3 mp3
Elan 's SaySo non-uniform unit-selection DE, US, FR, IT, ES Lea 2003 mp3 mp3 mp3
greeting bunny non-uniform unit-selection DE, US, FR, IT, ES, NL, SE, NO, DK, BE bunny 2008 mp3 mp3 mp3
Elan's Tempo Diphon Verkettung (PSOLA). Pitch Synchronous Overlap und Add: Ein sehr bekannter Algorithmus zur Anpassung von Melodie und Dauerstruktur, durch den das Diphon-Verkettungs Verfahren für viele Jahre sehr erfolgreich wurde. DE, US, UK, FR, ES, IT, BR, PT, RU, PL Thomas 1998 mp3 mp3 mp3
Dagmar 1996 mp3 mp3 mp3
Babeltech's BrightSpeech non-uniform unit-selection, identisch mit Acapela HQ TTS Ingrid 2002 mp3 mp3 -
Babeltech's Babil Diphon Verkettung basierend auf der kommerziellen Version der Mbrola-engine. MBROLA (Multi Band Resynthesis Overlap und Add), ist ein PSOLA-ähnliches Verfahren, die Datenbasis wird aber im Vorfeld bezüglich der Amplitude, Pitch und spektralen Eigenschaften angepasst. DE, US, UK, ES, FR, NL, BE, BR, PT, IT, SE, NO, DK, FI, IS, TR, CZ, SA Eva 2000 mp3 mp3 mp3
Greta 2000 mp3 mp3 mp3
Helga (8 kHz) 2000 mp3 mp3 mp3
Gerhard (8 kHz) 2000 mp3 mp3 mp3
Steffen 1997 mp3 mp3 mp3
Infovox 330/Infovox Desktop Diphon Verkettung (vermutlich gleich Babil). Infovox 310 ist die Apple-Version DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE Helga 1996 mp3 mp3 -
Gerhard mp3 1996 - - -
Infovox 210/230 Formant Synthese (Nachfolger von KTH's OVE, ursprünglich von Telia promotor) DE, UK, DK, NL, FI, FR, IS, IT, NO, ES, SE - 1994 mp3 mp3 -
Infovox Desktop PRO non-uniform unit-selection, identisch mit Acapela HQ TTS
Aculab
logo
- Diphon Verkettung mit LPC kodierten Einheiten. LPC (linear predictive coding) ist ursprünglich ein Komprimierungsverfahren, das gut für Sprachsynthese verwendet werden kann, da es auf dem beliebten Quelle-Filter Sprachmodell basiert. DE, UK, US, FR, BR, IT, ES Julia 1998 mp3 mp3 -
Amazon, formerly Ivona
logo
IVONA TTS non-uniform unit-selection DE, US, UK, ES, RO, PL, MX Hans 2011 mp3 mp3 mp3
Marlene 2011 mp3 mp3 mp3
Aristech
logo
Cerevoice, Entwicklungen von Aristech, CereProc, University of Edinburgh non-uniform unit-selection DE, EN, FR, IT, ES, US, NL, JP Sophie, erwachsen, Corporate Voice, Dank an Aristech 2011 mp3 mp3 mp3
Leopold, Österreicher, Dank an Aristech 2013 mp3 mp3 mp3
Alex, erwachsen, Dank an Aristech 2016 mp3 mp3 mp3
Gudrun, erwachsen, Dank an Aristech 2013 mp3 mp3 mp3
Nick, jugendlich, Dank an Aristech 2011 mp3 mp3 mp3
Saskia, jugendlich, Dank an Aristech 2011 mp3 mp3 mp3
Atip
logo
Proser NLP-Komponente und Stimmen von Atip, Mbrola Engine (Diphon Verkettung) von Babeltech DE, US Carla 2000 mp3 mp3 mp3
Eva 2000 mp3 mp3 mp3
Steffen 1997 mp3 mp3 mp3
Erkan (mit türkischem Akzent) 2004 mp3 mp3 mp3
Fifi (mit französischem akzent) 2004 mp3 mp3 mp3
AT&T
logo
Natural Voices non-uniform unit-selection DE, IT, US, UK, FR, MX* Klara 2001 mp3 mp3 mp3
Reiner 2002 mp3 mp3 mp3
Bell-Labs (Lucent)
logo
- LPC-kodierte Diphon-Verkettung DE, FR, ES, US, UK, IT, RU, RO, CN - 1997 mp3 mp3 -
Cepstral
logo
- non-uniform unit-selection DE, UK, US, ES, FR, EG, TH, AF Katrin 2003 mp3 mp3 mp3
Matthias 2003 mp3 mp3 mp3
Fonix/SpeechFX
logo
Dectalk regelbasierte Formant Synthese (der legendäre Formant Synthesizer, basiert auf Klatt's MITTalk) DE, US, UK, ES, MX*, FR - 1982 mp3 mp3 -
GData
logo
Logox, wird nicht mehr entwickelt Microsegmentsynthese, Verkettung subphonemischer (kürzer als ein Phonem) Einheiten DE, US, UK - 2000 mp3 mp3 -
Bill 1998 mp3 mp3 mp3
Bill schwäbischer Akzent 2002 mp3 mp3 mp3
Bill hessischer Akzent 2002 mp3 mp3 mp3
Bill sächsischer Akzent 2002 mp3 mp3 mp3
Bill französischer Akzent 2002 mp3 mp3 mp3
Google
logo
Unbekannt Non-uniform unit-selection, kann über den translation service erreicht werden. NA weiblich 19th oct. 2013 mp3 mp3 mp3
IBM
logo
CTTS non-uniform unit-selection DE, US, UK, JP, KR, IT, ES, FR männlich, Dank an IBM. Sprecher der Datenbasis: Gilles Karolyi. 2002 mp3 mp3 mp3
8kHz
weiblich mp38kHz 2004 - - -
Innoetics
logo
Entwicklungssystem, nicht-überwachte Audiobuchextraktion non-uniform unit-selection DE, US, UK, GR, BG Christian, Dank an Innoetics. 2015 mp3 mp3 mp3
Claudia, Dank an Innoetics. 2015 mp3 mp3 mp3
Jessi, Dank an Innoetics. 2015 mp3 mp3 mp3
Karlsson, Dank an of Innoetics. 2015 mp3 mp3 mp3
Meridian
logo
Orpheus, ursprünglich von Dolphin Oceanic Ltd Formantsynthese DE, UK, US, FR, BR, PT, IT, ES, Welsh, CN (Catonese and Mandarin), CR, DN, NL, FI, GR, HU, LT, MY, NO, PL, RO, MX, SE - 2009 mp3 mp3 mp3
Microsoft
logo
Microsoft Speech Platform - Runtime Languages (Version 11) non-uniform unit-selection. ES, DK, DE, AU, CA, GB, IN, US, MX, FI, CA, FR, IT, JP, KR, NO, NL, PL, BR, PT, RU, SE, HK, TW, CN Hedda 2012 mp3 mp3 mp3
Nuance (früher Scansoft)
logo
Vocalizer (früher RealSpeak, ursprünglich von Lernout & Hauspie), erste deutsche kommerzielle unit-selection TTS, vereinigt mit RVoice, früher Rhetorical non-uniform unit-selection DE, NL, PT, CA, CN, ES, DK, PT, FR, IT, JP, KR, MX, NO, PL, RU, SE, US, UK, AU, SA, ID, Basque, BE, CZ, FI, GR, IN, HU, TH, TR, ZA, RO Anna (11 kHz, courtesy of Nuance) 2010 mp3 mp3 mp3
Yannick (11 kHz, courtesy of Nuance) 2006 mp3 mp3 mp3
Yannick embedded version aufgenommen von einem Handy 2009 mp3 mp3 mp3
Monika und/oder Beate (?) - identisch mit RVoice F026 2005 mp3 mp3 mp3
Steffi 2, neuere Version mit verbesserter Stimmqualität und Aussprache 2015 mp3 mp3 mp3
Steffi (8 kHz) 2004 mp3 mp3 mp3
Vera (8 kHz) 1999 mp3 mp3 mp3
Früher Loquendo (Telecom Italia), ursprünglich Actor genannt, jetzt Loquendo TTS non-uniform unit-selection DE, IT, ES, FR, BR, PT, CN, UK, US, MX, GR, CL, AR, SE Ulrike, nicht mehr vertrieben 2001 mp3 mp3 mp3
Stefan, Dank an Loquendo 2003 mp3 mp3 mp3
Katrin, Dank an Loquendo 2003 mp3 mp3 mp3
Früher SVOX, kommerzielle Version des ETH-Zuerich Systems. Diphon Synthese DE, FR, IT, US, ES Nicole 2000 mp3
mp3
-
Früher SVOX, Corporate Non-Uniform Unit-Selection DE, US Petra 2005 mp3 mp3 mp3
Markus 2005 mp3 mp3 mp3
Marlene mp3 2003 - - -
Speechify früher von SpeechWorks non-uniform unit-selection DE, US, UK, AU, JP, MX*, FR, BR, CA(FR) Tessa 2002 mp3
mp3
mp3
RVoice, früher Rhetorical non-uniform unit-selection DE, UK, US, GR, ES F018 2002 mp3 mp3 mp3
M027 2004 mp3 mp3 mp3
F026 2004 mp3 mp3 mp3
Vocalizer 4.05 (von Nuance vor dem Aufkauf durch Scansoft) non-uniform unit-selection DE, US, UK, AU, CA(FR), MX*, BR Anna Weber 2004 mp3 mp3 mp3
Vocalizer 1.0 (von Nuance vor dem Aufkauf durch Scansoft) non-uniform unit-selection (lizensierte Technologie von Fonix) DE, US, UK, NL, FR, IT, NO, ES, SE - 2001 mp3 mp3 -
ETI Eloquence, (ursprünglich von Eloquent Technologies, dann Speechworks) auch an IBM lizensiert (ViaVoice Outloud) regelbasierte Formant Synthese DE, UK, US, ES, MX, FR, CA(FR), IT, FI, BR, CN, JP, KR - 1998 mp3 mp3 -
TTS3000 (ursprünglich Lernout & Hauspie) Diphon Synthese DE, US, UK, NL, FR, RU, ES, MX, BR, CN, KR Stefan 1996 mp3 mp3 -
Anna mp3 1996 - - -
TruVoice (ursprünglich Centigram, später Lernout & Hauspie) Formant Synthese DE, US, MX*, FR, IT - 1996 mp3 mp3 -
OnScreenVoices, von tom weber software
logo
Beispiele Dank an tom weber software Non-uniform unit-selection synthese DE Andreas 2015 mp3
mp3
mp3
Marianne 2015 mp3
mp3
mp3
VoiceINTERConnect
logo
Kommerzielle Version des Dress Synthesizer. Diphon Synthese DE male voice 2000 mp3
mp3
mp3
female voice 2000 mp3
mp3
mp3
Votrax Früher hardware Formant synthesizer Formantsynthese DE, EN Samples erzeugt von einem Audiodata Braille Lesegerät. 1974 mp3 mp3 mp3
Voxygen
logo
Spin-off der Orange Labs. Hybrid Non-uniform unit-selection / HMM synthesis DE, FR, EN, ES, IT, AR Sylvia, weiblich, Dank an Voxygen 2014 mp3
mp3
mp3
Matthias, männlich, Dank an Voxygen 2014 mp3
mp3
mp3

* Mexican steht für Latin American Spanish

Forschung

Institut System Beschreibung Jahr (ungef.) Satz 1 Satz 2 Satz 3
Simple4All Tundra corpus EU FP7 Projekt "Simple4All" Tundra korpus, das System demonstriert unüberwachtes Lernen. 2013 mp3 mp3 mp3
Berkom Felix Forschungssystem der früheren F&E Einheit der Deutschen Telekom. Hybrider Ansatz aus Formant Synthese für stimmhafte Laute und verketteten Einzellauten im Zeitbereich für die stimmlosen Laute. 1998 mp3 mp3 mp3
Ruhr Univerität Bochum SyRUB, Version 4.1.1 Forschungssystem der Ruhr Univerität Bochum. 1995 mp3 mp3 mp3
IKP Bonn BOSS Sprachsynthese-Framework von der IKP Bonn, basiert auf non-uniform unit-selection 2001 mp3 mp3 mp3
HADIFIX Gemischte Einheiten (HAlbsilben, DIphone und sufFIXe) Verkettung 1995 mp3 mp3 -
TU-Dresden DreSS Diphon Synthese 1996 mp3 mp3 mp3
Gerhard Mercator Universität Duisburg - Formant Synthese 1996 mp3 mp3 -
Jonathan Duddington e-speak (eSpeak) Formantsynthese, basiert auf dem UNIX Programm "speak" von 1995 (open source) 2006 mp3 mp3 mp3
IMS Stuttgart Diphon Synthese Diphon Verkettung, NLP-Modul vom IMS Stuttgart. TTS-Framework von Festival. Stimmen-Database von MBROLA 2000 mp3 mp3 mp3
non-uniform unit-selection Entwickelt im Rahmen des Smartkom-Projekts. TTS-Framework von Festival. mp3 2003 - - -
KTH Stockholm Infovox Formant Synthese aus Schweden. Entwickelt von Rolf Carlson, Bjorn Granström und Sheri Hunnicut. (kommerzielle Version) 1992 mp3 - -
DFKI MARY Non-uniform unit selection based on the Pavoque corpus. 2011 mp3 mp3 mp3
Non-uniform unit selection basierend auf dem BITS Korpus, fü Details siehe Schröder, M. & Hunecke, A. (2007). Creating German Unit Selection Voices for the MARY TTS Platform from the BITS Corpora. Proc. SSW6, Bonn, Germany. 2007
bits 1
mp3 mp3 mp3
2007
bits 2
mp3 mp3 mp3
2007
bits 3
mp3 mp3 mp3
2007
bits 4
mp3 mp3 mp3
Diphon Synthese (DSP ist MBROLA, NLP vom DFKI/Universität von Saarbrücken) 2000 mp3 mp3 mp3
Uni Mons MBROLA/ Txt2Pho. Hadifix NLP mit Mbrola-Synthese (Diphon Verkettung). Für nicht-kommerzielle Zwecke frei verfügbar. MBROLA-TTS gibt es für sehr viele Sprachen. de8, siehe Markus Binsteiner 2002 - - -
de7 (von Marc Schröder, DFKI/Uni Saarland, weiblich, 22 kHz), alle Diphone in drei Stimmqualitäten 2002 mp3 mp3 mp3
de6 (von Marc Schröder, DFKI/Uni Saarland, männlich, 22 kHz), alle Diphone in drei Stimmqualitäten 2002 mp3 mp3 mp3
de5 (von Fred Englert/ATIP, weiblich, 22 kHz) 2000 mp3 mp3 mp3
de4 (vom IMS Stuttgart, männlich, 16 kHz), englische und französische Phoneme 2002 mp3 mp3 mp3
de3 (von ATIP, weiblich), erste 22005 kHz Stimme 2000 mp3 mp3 mp3
de2 (von ATIP, männlich, 16 kHz) 1997 mp3 mp3 mp3
de1 (von Fred Englert, weiblich, 16 kHz) 1996 mp3 mp3 mp3
Uni Budapest Multivox 5 (ProfiVox) Diphon Verkettung von der Universität von Budapest. männlich 1 2004 mp3 mp3 -
männlich 2 2004 mp3 mp3 -
Multivox 3 Formant Synthese von der TU-Budapest. Sprachen: DE, HU, FI, NL, ES, PT, SA, Esperanto (!) mp3 1994 - - -
Oregon Graduate Institute (OGI)/Festival OGI/Festival LPC-kodierte Diphon Verkettung, entwickelt am Oregon Graduate Institute , Center for Spoken Language Understanding anlässlich eines Workshop 1998. TTS-Framework von Festival. 1998 mp3 mp3 -
ETH Zürich SVOX Diphon Verkettung. Kommerzielle Version hier 1998 mp3 mp3 mp3
Austrian Research Institute for Artificial Intelligence (ÖFAI) VieCtoS Vienna Concept-to-Speech System. Die merkwürdige Prosodie liegt an meinem mangelnden Wissen um Tobi-Labelung ;-). Das Verfahren basiert auf Halbsilben-LPC-Verkettung 1998 mp3 - -

Mit den folgenden Systemen konnte ich die Testsätze nicht erzeugen:

Name/Link Beschreibung Jahr (ungef.) mpeg3
AEG Telefunken unbekannte Verkettung ("Parcor-Synthetisator") 1978 mp3
CHATR Non-uniform unit selection von ATR, Japan. Männlich 1997 mp3
Weiblich 1997 mp3
Markus Binsteiner von der TFH Berlin, Diphon Synthese mit MBROLA (voice de8), Simulation eines bairischen Akzents. 2004 mp3
(Uni-) Dresden Voice 1: verkettender Formant-Synthesizer 1993 mp3
TUSY: hardware Formant-Synthesizer 1987 mp3
ROSY (Robotron Synthesizer): hardware Formant-Synthesizer 1977 mp3
Syni 2: Lochkarten-gesteuerter Formant-Synthesizer 1975 mp3
Syni 1: Lochkarten-gesteuerter Formant-Synthesizer 1972 mp3
Eurovocs neue version, Diphon Synthese von t & i, technology von Lernout & Hauspie. 1998 mp3
alte version, Diphon Synthese von t & i, technology von Lernout & Hauspie. 1996 mp3
First Byte Zeitbereichs-Verkettung Synthese (?) (link existiert nicht mehr) 1998 mp3 mp3
HHI unbekannt 1978 mp3
(Uni-) Köln Artikulatorische Synthese, wobei aus Modellen für Artikulationsbewegungen Formantverläufe berechnet werden (kein komplettes TTS, nur DSP-Engine) 1996 mp3
KTH's OVE III Formantsynthese von der KTH, Sweden 1967 mp3
Karl Küpfmüller / Bernhard Cramer Hardware-basierter Phonemverketter 1955 mp3
LAIPTTS-D TTS-system von der Universität von Lausanne (LAIP), DSP-Engine ist MBROLA. Enthält ein Modell zur Reduktion/Elaboration der Artikulation in Abhängikeit von der Sprechgeschwindigkeit. 1998 mp3mp3
Unbekannte Russische TTS unbekannt / Formant? 1970? mp3
SAMT (Sprach-Ausgabesystem in Multiplex-Technik): hardware-basierte Formant Synthese des ehemaligen Forschungsinstitut der Deutschen Bundespost. 1987 mp3
H.W. Strube, University of Göttingen Studie zu artikulatorischer Synthese. Lineare Interpolation im Bereich der "Log Area Ratios". Deren Endpunkte wurden durch Least-squares-Anpassung an die gemessenen Verläufe innerhalb von Lautübergängenen ermittelt. 1977? mp3
Texas Instruments Language Translator LPC coded word-concatenation from Texas Instruments. Male Voice 1980 mp3
SpeakEaZy Zeitbereichs-Verkettung Synthese (?) der Firma Keller & Trauth. (link existiert nicht mehr). 1998 mp3
Spengi Diphon Synthese von Philips/IPO Eindhoven. 1997 mp3
Universität von West Bohemia in Pilsen Verkettender Synthesizer ARTIC (Artificial Talker In Czech). Kommerzielle Version gibt es bei speechtech unter dem Namen ERIS. 2002 mp3
Wolfgang von Kempelens Sprechende Maschine Hardware basierter manueller Geräuscherzeuger ("papa", "mama") 1769 ;) mp3
Univ. of Dresden, Peter Birkholz Vocal Tract Lab: Artikulatorische Synthese (manuelle Anpassung von Artikulatorbewegungen die in mathematische Modelle zur Soundgenerierung übertragen werden) 2006 mp3

Dienstanbieter

Einige Dienstanbieter rund um die Verbesserung von text-to-speech Systemen.

Firma Produkt Beschreibung Datum Beispiel
ReadSpeaker SagEs /SayIt Serverbasierter Websitereader. Basiert auf Acapela Produkten. Das sample ist eine Zeitungsnachricht (Tagesspiegel). Bemerkenswert die Aussprache des Worts "playstation". 7/11/07 mp3
ETeX - Ausnahme-Lexika 1/7/05 mp3
Interlinx, Tochter von Speech Concept emphasis bzw. SpeechOptimizer Tuning tool für Aussprache und Prosodie Modellierung. 1/7/05 mp3

Sonstige Beispiele

Sprachsynthese Beispiele, die sich sonst nicht einordnen lassen

Beschreibung Beispiel
Ultraschnelle Sprachsynthese wie sie zum Teil von Blinden verwendet wird, mit 14 Silben pro Sekunde, basiert auf Formantsynthese Eloquence mp3
realspeak British English, 31/5/05, "Flight LH312 from Frankfurt to Berlin." mp3
TTS des Fiat "Blue & Me" Navigation Headunit unter Microsoft CE. Stimme Steffi von Nuance. mp3
Apple Iphone 2011, Aufgeonmmen mit PC Mikrofon von einem Apple iPhone 4.1, TTS ist beschleunigte Compact Version von Stimme Yannick von Nuance mp3, mp3, mp3
"Karlchen": Telefonbasertes automatisches Zugauskunftssystem aus den 70ern mp3

Lizensierte Systeme

Folgende Engines basieren auf Systemen mit anderem Namen:


Fehlende Beispiele

Für diese Engines habe ich noch keine Beispiele gefunden:


Unbekannte Beipiele

Für diese Beispiele habe ich nichts über den Hersteller gefunden:


Übersichtskarte für TTS-Technologie

Verfahren können System- oder Signal modellierend sein, vorwiegend Regel- oder Daten basiert und unterscheiden sich in der Art und Kodierung der zugrunde liegenden Einheiten. tts overview


Credits:

Folgende Personen lieferten Information und/oder Beispiele:


Changelog


Sprachsynthese mit simulierter Emotion

comments