Vergleich von Sprachsynthese-Systemen mit deutscher Sprachausgabe

Bernhard Frötschl

Aktualisiert am 17.6.2005

Diese Webseite ist eine Erweiterung der Auflistung der nicht mehr existierenden Seite http://www.kgw.tu-berlin.de/~felixbur/ttsDemos_ger.html von Felix Burkhard vom 23.10.2001. Eine neuere Version dieser Seite ist unter http://ttssamples.syntheticspeech.de/deutsch/index.html zu finden.

Der Vergleich wird anhand folgender Testsätze durchgeführt:
s1 (einfach):
» An den Wochenenden bin ich jetzt immer nach Hause gefahren und habe Agnes besucht. Dabei war eigentlich immer sehr schönes Wetter gewesen. «
s2 (schwierig):  » Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm
s3 ("Denglisch"): » Die Manpowerdiskussion wird gecancelt, du kannst das File vom Server downloaden. «

Wenn nicht die Möglichkeit bestand, die Testsätze zu synthetisieren, werden Ersatz-Beispiele (e1, e2, ..) verwendet. Die Testsätze wurden urspünglich - wenn nicht anders vermerkt - im Format 16 kHz, 16bit linear, Mono aufgezeichnet und anschliessend ins Mpeg3-Format mit 64 kB gewandelt. Die Beispiele, die mit nur 8 kHz aufgezeichnet wurden, entprechen der Soundqualität über analoges Telefon.

Ich habe (Schul-)Noten von 1 bis 6 nach meinem subjektivem Höreindruck vergeben, wobei Testsatz s3 (noch) nicht mitbewertet wurde.


kommerzielle Systeme


Firma, Produkt Note Beschreibung Testsätze in mpeg3
Acapela, Babil, ehemals Babeltech
 3- Diphon-Konkatenation von MBROLA, benutzt die gleiche Technologie wie Language Dynamics, VoicePro, Stimmen Eva, Steffen
18.11.2003: Wird jetzt Babil Version 4.1 genannt - Interaktive Demo, Stimmen Eva, Helga, Gerhard
Eva 16 kHz s1 s2
Steffen 16 kHz s1 s2
Eva 22 kHz s1 s2
Gerhard 8 kHz s1 s2
Helga 8 kHz s1 s2
Acapela, BrightSpeech, ehemals Babeltech
2-
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Ingrid 22kHz hat "französischen Akzent", Interaktive Demo
21.5.2003: Version 1.1 leicht besser als 1.0
23.9.2003: Neue deutsche Version mit anderer Stimme Sarah, z.Z. nur als Demo-Sample verfügbar
18.11.2003: Brightspeech 1.2 Ingrid online verfügbar - immer noch leicht französicher Akzent, immer noch 2- für diese Version.
3.12.2003: Neue Stimme Sarah ohne Akzent, klingt aber schlechter als das  Demo-Sample. Probleme bei Abkürzungen (Gramm. wird als Grammatisch gesprochen). Unnatürliche Schwankungen in der Lautstärke - immer noch 2- für diese Version.

Ingrid 1.0 16 kHz s1 s2
Ingrid 1.1 22 kHz s1 s2
Ingrid 1.2 22 kHz s1 s2 s3
Ingrid 1.2 8 kHz s1 s2
Sarah-Demo 1.2 22 kHz e1
Sarah-Demo 1.2 8 kHz e1
Sarah 1.2 22 kHz s1 s2
Sarah 1.2 8 kHz s1 s2
Acapela, Elan Sayso bzw. Speechissimo, ehemals ELAN Speech
 2- 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo. Version  Elan Sayso 4.6 Premium mit Stimme Lea. Elan war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma, ist jetzt wieder eigenständig. Benutzt vermutlich die gleiche Technologie wie Realspeak, wirkt aber ausgereifter. Die gleiche Technologie und Stimme ist in Speechissimo enthalten, dieses Produkt ist z.Z. nur für Mac OS X verfügbar. Leichte, etwas unnatürlich wirkende Lautstärkeschwankungen innerhalb von einzelnen Worten.
Lea 22 kHz s1 s2 s3
Lea 8 kHz s1 s2
Acapela, Elan  Tempo bzw. Digalo, ehemals ELAN Speech  3- 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo, war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma - jetzt wieder eigenständig, auch im Produkt Text Aloud der Firma Nextup verfügbar Thomas s1 s2
Dagmar s1 s2
Acapela, Infovox 230, ehemals Babeltech
 4- Formant-Synthese von Telia aus Schweden (Nachfolger von KTH's OVE). Demo s1 s2
Acapela, Infovox 330, ehemals Babeltech
 4
Diphon-Konkatenation von Telia aus Schweden. Demo s1 s2
Aculab, Aculab TTS  3- Diphon-Konkatenation Alt s1 s2
Neu s1 s2
ATR,
CHATR
 3
Non Uniform Unit Selection, Zeitbereich-Konkatenation von ATR, Japan. schweizerischer Dialekt. Deutsch wird aber z.Z. scheinbar nicht weiterentwickelt.
17.11.2003: Emotionales CHATR - Wavs, Nachfolger NATR
e1
AT&T, AT&T Natural Voices
 2- Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo,
17.11.2003: auch im Produkt Text Aloud verfügbar
Klara 16 kHz s1 s2 s3
Klara 8 kHz s1 s2
Reiner 16 kHz s1 s2 s3
Reiner 8 kHz s1 s2
Mr. X 16 kHz e1
Atip, Proser 3
Diphon-Konkatenation von MBROLA, NLP-Komponente von Atip,
24.2.2003: Interaktive Demo mit mehreren Stimmen
30.6.2004: Neue Stimmen Erkan (Deutsch mit türkischen Akzent) und Fiffi (Deutsch mit französischem Akzent)
Eva s1 s2
Steffen s1 s2
Carla s1 s2
Erkan s1 s2
Fiffi s1 s2
Cepstral
3
22.3.2004: Non Uniform Unit Selection. Neue Firma, die seit etwa 2001 existiert. Deutsche Simmen Katrin und Matthias, Interaktive Demo. TTS auch im Produkt Text Aloud der Firma Nextup verfügbar

Katrin s1 s2 s3
Matthias s1 s2 s3
First Byte
 5- Zeitbereich-Konkatenation
17.1.2003: Link zur Firma First Byte www.fbyte.com funktioniert nicht mehr - die Firma scheint nicht mehr zu existieren
e1
Fonix, DecTalk
 5
Zählte vor ca. 10 Jahren zu den besten Sprachsynthese-Systemen, Abkömmling von MITalk und Klattalk, wurde von Digital Equipment Corporation weiterentwickelt, dann an Compaq und zuletzt an Fonix weiterverkauft. Demo-Software und Dokumentation s1 s2
Fonix, Speakthis   5+ Interaktive Demo Speakthis, Technolgie wird im Vocalizer 1.0 von Nuance verwendet. s1 s2
GDATA, LOGOX  4- 14.9.2004: Mikrosegmentsynthese, gleiche Technologie wie frühere Version (ca. 1999) von MARY (DFKI), die ebenfalls Mikrosegmentsynthese verwendete
Bill (Logox4) s1 s2
Dame s1 s2
IBM, Viavoice Outloud  4- regelbasierte Formantsynthese (nach Klatt), benutzt die gleiche Technologie wie Scansoft, ETI Eloquence s1 s2
IBM, CTTS WebSphere Voice Server
 3
Non Uniform Unit Selection, Zeitbereich-Konkatenation, basierend auf Ansatz von Robert Donovan, Interaktive Demo
8 kHz 8bit mulaw s1 s2 s3
64 kHz s1 s2
Keller & Trauth, SpeakEaZy
 4- Zeitbereichs-Konkatenation.
17.1.2003: Die Firma und Produkt (www.speakeazy.de) scheinen nicht mehr zu existieren.
e1
Language Dynamics, VoicePro

 3- Diphon-Konkatenation von MBROLA, benutzt die gleiche Technologie wie Babeltech / MBROLA
17.11.2003: VoicePro = WinDi Multilingual Speech Producer, WinDi ist Übersetzungssoftware für 7 Sprachen
Eva s1 s2
Steffen s1 s2
Loquendo, Loquendo TTS   2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo,
15.1.2003: Neue Stimme Stefan => Bewertung 2 (Ulrike nur 3+)
18.11.2003: Für das Produkt wird jetzt nicht mehr die Bezeichnung Actor, Loquendo TTS verwendet.
2.4.2004: Neue Stimme Katrin in Actor5, Interaktive Demo jetzt nur noch mit Beimischung von Hintergrundsound verfügbar, dadurch schlecht beurteilbar.


Ulrike(Actor alt) s1 s2
Ulrike (Actor 5) s1 s2 s3
Stefan (Actor 5) s1 s2 s3
Katrin (Actor 5) s1 s2 s3
Lucent Technologies, Bell-Labs
 3- LPC-Diphon-Konkatenation
17.11.2003: Ev. im Phonebrowser enthalten??
s1 s2
Nuance, Nuance Vocalizer 1.0
 5+ Technologie aus Fonix 4.0 bzw. Fonix, Speakthis  s1 s2
Rhetorical, rVoice 4  2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, nur weibliche Stimme F018 verfügbar, Interaktive Demo
10.12.2003: Neue Version 4.2 -> Note 2.
25.3.2004: Neue bilinugale Stimmen deutsch/englisch  M027 und  F026, für F026 keine Demo verfügbar
rVoice 4.0 F018 16 kHz s1 s2
rVoice 4.0 F018 11 kHz s1 s2
rVoice 4.0 F018 8 kHz s1 s2
rVoice 4.2 F018 16 kHz s1 s2 s3
rVoice 4.2 F018 11 kHz s1 s2
rVoice 4.2 F018 8 kHz s1 s2
rVoice 4.2 M027 16 kHz s1 s2 s3
rVoice 4.2 M027 8 kHz s1 s2
Scansoft, Centigram's TruVoice, ehemals Lernout & Hauspie  5+ Formant-Synthese
17.11.2003: Produkt scheint nicht mehr zu existieren
s1 s2
Scansoft,  Diphon-Konkatenation, ehemals Lernout & Hauspie  5 Diphon-Konkatenation
17.11.2003: Produkt scheint nicht mehr zu existieren
s1 s2
Scansoft, ETI Eloquence, ehemals Speechworks, noch früher Eloquent Technology Inc.  4- regelbasierte Formantsynthese (nach Klatt); benutzt die gleiche Technologie wie Viavoice Outloud von IBM.
ETI Eloquent's white paper 1997
s1 s2
Scansoft RealSpeak, ehemals
Lernout & Hauspie

 2+
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo
26.5.2004: Neue Stimme Steffi, die etwas höher spricht und auch dadurch etwas besser verständlich ist - Note 2+ statt 2. Allerdings keine interaktive Demo verfügbar, deshalb zum besseren Vergleich eine der Scansoft-Demo von Steffi angepassten Version von Vera angefertigt
Vera 8 kHz s1 s2
Vera 22 kHz s1 s2 s3
Vera 22 kHz e1
Steffi 22 kHz e1
Scansoft Speechify 2.1, ehemals Speechworks
 2
Non Uniform Unit Selection, Zeitbereich-Konkatenation, Interaktive Demo
Tessa 16 kHz s1 s2 s3
Tessa 8 kHz s1 s2
SVOX AG, SVOX Genie
 3
17.11.2003: Diphon-Konkatenation mit Kompression  für Mobiltelefonie optimiert mit Speicherbedarf < 290KB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Genie e1
SVOX AG, SVOX Mobile
 3
17.11.2003: Diphon-Konkatenation mit Kompression für Mobiltelefone und Consumerelektronik optimiert mit Speicherbedarf < 1 MB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Mobile e1
SVOX AG, SVOX Smart
 3
17.11.2003: Diphon-Konkatenation für Automobil und PDAs optimiert mit Speicherbedarf 6-10 MB. Kommerzielle Version von  SVOX der ETH Zürich
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole Smart e1
SVOX AG, SVOX Speech Server
 2- ehemals Diphon-Konkatenation, Aussprache-Dauersteuerung mit MARS (Multivariate Adaptive Regression Splines), Tonhöhensteuerung mit rekurrentem neuronalen Netz. Kommerzielle Version von  SVOX der ETH Zürich
17.11.2003: Neue Stimme Marlene mit Non Uniform Unit Selection, immer noch leichter Schweizer Akzent. Zur Zeit ohne interkative Demo -> Note 2 statt 3+, Samples, alte Stimme Nicole wird noch in den Produkten SVox Genie, Mobile, Smart eingesetzt
2.4.2004: Stimme Marlene nach mehrmaligen Anhören auf 2- statt 2 gesetzt.
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
Nicole alt s1 s2
Nicole 1.3 s1 s2
Marlene e1
t & i, alte Version Eurovocs  6- Diphon-Konkatenation, Technologie von Lernout & Hauspie. e1
t & i, neue Version Eurovocs  4- Diphon-Konkatenation, Technologie von Lernout & Hauspie. e1
VoiceINTERconnect, DreSS 4+ Kommerzielle Version des Sprachsynthesizers DreSS der TU Dresden, Diphon-Konkatenation, Interaktive Demo
s1 s2

Forschung


Name/Link Note Beschreibung Testsätze in mpeg3
Deutsche Telekom Berkom GmbH, Felix
Sprachsynthesesystem Felix der Deutschen Telekom Berkom GmbH, VDE-ITG-Fachbericht 152 über Felix (G. Fries, T. Kremer, Deutsche Telekom Berkom, Darmstadt: Zur Erzeugung von Konsonanten im Sprachsynthesesystem Felix), leider sind keine Hörbeispiele zu bekommen
Deutsche Telekom Berkom GmbH ist übergegangen in T-Systems

ETH Zürich,
SVOX
 3- Diphon-Konkatenation von der Speech Processing Group der ETH Zürich. Kommerzielle Verison siehe SVOX AG
29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht)
s1 s2
IKA Ruhr-Univ. BochumIKA-PHON   IKA-PHON = Sprachsynthese-System des Instituts für Kommunikationsakustik der Ruhr-Universität Bochum, leider sind keine Hörbeispiele zu bekommen
IKA Ruhr-Univ. Bochum, SyRUB   SyRUB = Sprachsynthese-System der Ruhr-Universität Bochum, entwickelt am Institut für Kommunikationsakustik der Ruhr-Universität Bochum, leider sind keine Hörbeispiele zu bekommen
IKP Uni Bonn, BOSS  2-
BOSS - Bonn Open Synthesis System, Non Uniform Unit Selection basierend auf Verbmobil
24.9.2004: Interaktive Demo funktioniert wieder
s1 s2 s3    
IKP Uni Bonn, Verbmobil TTS
 2- Non Uniform Unit Selection, Zeitbereich-Konkatenation, Sprachsynthesizer vom IKP Bonn, scheint aber nur ein Prototyp zu sein
24.9.2004: Link auf Sprachsynthese-Seite von Karlheinz Stöber mit Verbmobil-Demo funktioniert nicht mehr, bei Archive.org wird man aber noch fündig
s1
IKP Uni Bonn, HADIFIX  4- gemischte Segment-Konkatenation der Uni-Bonn
29.6.2004:  Interaktive Demo funktioniert nicht mehr, bei Archive.org kann man wenigstens noch den Text finden.
s1 s2
IMS Stuttgart,
IMS/Festival
 4+ Diphon-Konkatenation, entwickelt am IMS Stuttgart. TTS-Framework von Festival. Stimmdatenbank von MBROLA s1 s2
IPO (Philips u. Univ. Eindhoven), Spengi
 +5 Diphon-Konkatenation von IPO (Institute of Perception Research, Gemeinschaftsinistut von Philips und der Univ. Eindhoven, exisitiert nicht mehr, ist übergegangen in die Fakultät für Technik Management) Eindhoven (Niederlande)
e1
KTH Stockholm
 5
Formant-Synthese vom KTH in Stockholm, Link zur Interaktiven Demo verschwunden s1
MBROLA / HADIFIX  3- Diphon-Konkatenation von MBROLA, NLP-Modul von Hadifix (txt2pho) s1 s2
Oregon Graduate Institute,
OGI/Festival/
 4
LPC-Diphon-Konkatenation vom Oregon Graduate Institute, Center for Spoken Language Understanding, entstanden während eines Workshop 1998. TTS-Framework von Festival.
30.6.2004: Interaktive Demo funktioniert nicht mehr
s1 s2
ÖFAI,
VieCtoS
 5
Vienna Concept-to-Speech System des Austrian Research Institute for Artificial Intelligence (ÖFAI). Wenn die Intonation nicht so gut klingt, dann liegt das an meiner begrenzten Erfahrung mit Tobi-Labelung. Das System basiert auf Halbsilben-LPC-Konkatenation,
17.1.2003: Interaktive Demo
s1
TU Berlin,
Tubsy
  Sprachsynthese auf Clusterbasis nach dem PSOLA-Verfahren, Fachartikel über Tubsy: Jürgens, C.; Wunderlich, M.: A Comparison of Different Speech Units for the German TTS-System TUBSY. Proceedings EUROSPEECH, Madrid,1995, leider sind keine Hörbeispiele zu bekommen
TU Dresden,
DreSS
 4+ Sprachsynthesizer der TU Dresden, Diphon-Konkatenation, sehr lehrreich mit Zwischenschritten animierte Interaktive Demo
s1 s2
TU Dresden / IMS Dresden, Voice1
 4- Formant-Synthese der TU Dresden, siehe Museum
e1
TU Dresden, Tusy  5- Formant-Synthese in Hardware der TU Dresden, siehe Museum
e1
TU Dresden, Rosy  5- ROSY (Robotron Synthesizer) - Formant-Synthese in Hardware der TU Dresden, siehe Museum
e1
TU Dresden, Syni 2  6+ Formant-Synthese mit Lochkarten-gesteuerter Hardware der TU Dresden, siehe Museum
e1
TU Dresden, Syni 1  6
Formant-Synthese mit Lochkarten-gesteuerter Hardware der TU Dresden, siehe Museum
e1
Univ. Duisburg, Formantsynthese  5
Formant-Synthese s1 s2
Univ. Köln, Artikulatorische Synthese  5
Artikulatorische Synthese des Instituts für Phonetik der Universität Köln, eigentlich kein TTS-System s1
Univ. Lausanne, LAIPTTS - Sprechmühle  3- TTS-System der Universität Lausanne (LAIP), nutzt MBROLA-engine s1
Univ. Saarbrücken / DFKI, MARY  4- 14.9.2004: NLP-Modul der Universität des Saarlands Saarbrücken und des DFKI, Diphon-Konkatenation MBROLA
Interaktive Demo, Interaktive Demo "Inside TTS"  mit verschiedenen Stimmen und Variationen modal, soft, loud, Interaktive Demo Emotional.
Frühere Version von MARY (ca. 1999) verwendete Mikrosegmentsynthese, die gleiche Technologie verwendet auch LOGOX
de7 weiblich 22 kHz s1 s2
de2 männlich 16 kHz s1 s2
frühere Version (1999) 22 kHz s1

Weitere Vergleiche, Demonstrationen und Link-Sammlungen:

Online-Einführungen über TTS-Technologie:

Tools, weitere Resourcen


Bernhard Frötschl, froetschl/at/8hertz.com