Aktualisiert am 17.6.2005
Diese Webseite ist eine Erweiterung der Auflistung der nicht mehr existierenden Seite http://www.kgw.tu-berlin.de/~felixbur/ttsDemos_ger.html von Felix Burkhard vom 23.10.2001. Eine neuere Version dieser Seite ist unter http://ttssamples.syntheticspeech.de/deutsch/index.html zu finden.
Der Vergleich wird anhand folgender Testsätze durchgeführt:
s1 (einfach): » An den Wochenenden bin ich
jetzt immer nach Hause gefahren und habe Agnes besucht. Dabei war
eigentlich
immer sehr schönes Wetter gewesen. «
s2 (schwierig): » Dr. A. Smithe von der
NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die
Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das
Gramm.«
s3 ("Denglisch"): » Die Manpowerdiskussion wird
gecancelt, du kannst das File vom Server downloaden. «
Wenn nicht die Möglichkeit bestand, die Testsätze zu
synthetisieren, werden Ersatz-Beispiele (e1, e2, ..) verwendet. Die
Testsätze wurden urspünglich - wenn nicht anders vermerkt -
im Format 16 kHz, 16bit linear, Mono aufgezeichnet und anschliessend
ins Mpeg3-Format mit 64 kB gewandelt. Die Beispiele, die mit nur 8 kHz
aufgezeichnet wurden, entprechen der Soundqualität über
analoges Telefon.
Ich habe
(Schul-)Noten von 1 bis 6
nach meinem subjektivem Höreindruck vergeben,
wobei Testsatz s3 (noch) nicht mitbewertet wurde.
kommerzielle Systeme
|
|||
| Firma, Produkt | Note | Beschreibung | Testsätze in mpeg3 |
|---|---|---|---|
| Acapela, Babil,
ehemals Babeltech |
3- | Diphon-Konkatenation von MBROLA,
benutzt die gleiche Technologie wie Language Dynamics, VoicePro, Stimmen Eva,
Steffen 18.11.2003: Wird jetzt Babil Version 4.1 genannt - Interaktive Demo, Stimmen Eva, Helga, Gerhard |
Eva 16 kHz s1 s2 Steffen 16 kHz s1 s2 Eva 22 kHz s1 s2 Gerhard 8 kHz s1 s2 Helga 8 kHz s1 s2 |
| Acapela, BrightSpeech,
ehemals Babeltech |
2- |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Ingrid 22kHz hat "französischen
Akzent", Interaktive
Demo 21.5.2003: Version 1.1 leicht besser als 1.0 23.9.2003: Neue deutsche Version mit anderer Stimme Sarah, z.Z. nur als Demo-Sample verfügbar 18.11.2003: Brightspeech 1.2 Ingrid online verfügbar - immer noch leicht französicher Akzent, immer noch 2- für diese Version. 3.12.2003: Neue Stimme Sarah ohne Akzent, klingt aber schlechter als das Demo-Sample. Probleme bei Abkürzungen (Gramm. wird als Grammatisch gesprochen). Unnatürliche Schwankungen in der Lautstärke - immer noch 2- für diese Version. |
Ingrid 1.0 16 kHz
s1 s2 Ingrid 1.1 22 kHz s1 s2 Ingrid 1.2 22 kHz s1 s2 s3 Ingrid 1.2 8 kHz s1 s2 Sarah-Demo 1.2 22 kHz e1 Sarah-Demo 1.2 8 kHz e1 Sarah 1.2 22 kHz s1 s2 Sarah 1.2 8 kHz s1 s2 |
| Acapela, Elan Sayso
bzw. Speechissimo, ehemals ELAN Speech |
2- | 17.11.2003:
Diphon-Konkatenation aus Frankreich, Interaktive Demo.
Version Elan Sayso 4.6 Premium mit Stimme Lea. Elan war
zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma, ist
jetzt wieder eigenständig. Benutzt vermutlich die gleiche
Technologie wie Realspeak, wirkt aber ausgereifter. Die gleiche
Technologie und Stimme ist in Speechissimo
enthalten, dieses Produkt ist z.Z. nur für Mac OS X
verfügbar. Leichte, etwas unnatürlich wirkende
Lautstärkeschwankungen innerhalb von einzelnen Worten. |
Lea 22 kHz s1 s2 s3 Lea 8 kHz s1 s2 |
| Acapela, Elan Tempo bzw. Digalo, ehemals ELAN Speech | 3- | 17.11.2003: Diphon-Konkatenation aus Frankreich, Interaktive Demo, war zwischenzeitlich (Mai 2000) eine Lernout & Hauspie Firma - jetzt wieder eigenständig, auch im Produkt Text Aloud der Firma Nextup verfügbar | Thomas s1 s2 Dagmar s1 s2 |
| Acapela, Infovox
230, ehemals Babeltech |
4- | Formant-Synthese von Telia aus Schweden (Nachfolger von KTH's OVE). Demo | s1 s2 |
| Acapela, Infovox
330, ehemals Babeltech |
4 |
Diphon-Konkatenation von Telia aus Schweden. Demo | s1 s2 |
| Aculab, Aculab TTS | 3- | Diphon-Konkatenation | Alt s1 s2 Neu s1 s2 |
| ATR, CHATR |
3 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation von ATR, Japan. schweizerischer Dialekt.
Deutsch wird aber z.Z. scheinbar nicht weiterentwickelt. 17.11.2003: Emotionales CHATR - Wavs, Nachfolger NATR |
e1 |
| AT&T,
AT&T Natural Voices |
2- | Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo, 17.11.2003: auch im Produkt Text Aloud verfügbar |
Klara 16 kHz s1 s2 s3 Klara 8 kHz s1 s2 Reiner 16 kHz s1 s2 s3 Reiner 8 kHz s1 s2 Mr. X 16 kHz e1 |
| Atip, Proser | 3 |
Diphon-Konkatenation von MBROLA,
NLP-Komponente von Atip, 24.2.2003: Interaktive Demo mit mehreren Stimmen 30.6.2004: Neue Stimmen Erkan (Deutsch mit türkischen Akzent) und Fiffi (Deutsch mit französischem Akzent) |
Eva s1 s2 Steffen s1 s2 Carla s1 s2 Erkan s1 s2 Fiffi s1 s2 |
| Cepstral |
3 |
22.3.2004: Non Uniform Unit
Selection. Neue Firma, die seit etwa 2001 existiert. Deutsche Simmen
Katrin und Matthias, Interaktive Demo.
TTS auch im Produkt Text Aloud
der Firma Nextup verfügbar |
Katrin s1 s2 s3 Matthias s1 s2 s3 |
| First Byte |
5- | Zeitbereich-Konkatenation 17.1.2003: Link zur Firma First Byte www.fbyte.com funktioniert nicht mehr - die Firma scheint nicht mehr zu existieren |
e1 |
| Fonix, DecTalk |
5 |
Zählte vor ca. 10 Jahren zu den besten Sprachsynthese-Systemen, Abkömmling von MITalk und Klattalk, wurde von Digital Equipment Corporation weiterentwickelt, dann an Compaq und zuletzt an Fonix weiterverkauft. Demo-Software und Dokumentation | s1 s2 |
| Fonix, Speakthis | 5+ | Interaktive Demo Speakthis, Technolgie wird im Vocalizer 1.0 von Nuance verwendet. | s1 s2 |
| GDATA, LOGOX | 4- | 14.9.2004:
Mikrosegmentsynthese, gleiche Technologie wie frühere Version (ca.
1999) von MARY (DFKI), die ebenfalls Mikrosegmentsynthese
verwendete |
Bill (Logox4) s1 s2 Dame s1 s2 |
| IBM, Viavoice Outloud | 4- | regelbasierte Formantsynthese (nach Klatt), benutzt die gleiche Technologie wie Scansoft, ETI Eloquence | s1 s2 |
| IBM,
CTTS WebSphere
Voice Server |
3 |
Non Uniform Unit
Selection, Zeitbereich-Konkatenation, basierend auf Ansatz von Robert
Donovan, Interaktive
Demo |
8 kHz 8bit mulaw s1 s2 s3 64 kHz s1 s2 |
| Keller & Trauth, SpeakEaZy |
4- | Zeitbereichs-Konkatenation. 17.1.2003: Die Firma und Produkt (www.speakeazy.de) scheinen nicht mehr zu existieren. |
e1 |
| Language Dynamics, VoicePro |
3- | Diphon-Konkatenation von MBROLA,
benutzt die gleiche Technologie wie Babeltech
/ MBROLA 17.11.2003: VoicePro = WinDi Multilingual Speech Producer, WinDi ist Übersetzungssoftware für 7 Sprachen |
Eva s1 s2 Steffen s1 s2 |
| Loquendo, Loquendo TTS | 2 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive
Demo, 15.1.2003: Neue Stimme Stefan => Bewertung 2 (Ulrike nur 3+) 18.11.2003: Für das Produkt wird jetzt nicht mehr die Bezeichnung Actor, Loquendo TTS verwendet. 2.4.2004: Neue Stimme Katrin in Actor5, Interaktive Demo jetzt nur noch mit Beimischung von Hintergrundsound verfügbar, dadurch schlecht beurteilbar. |
Ulrike(Actor alt)
s1 s2 Ulrike (Actor 5) s1 s2 s3 Stefan (Actor 5) s1 s2 s3 Katrin (Actor 5) s1 s2 s3 |
| Lucent Technologies, Bell-Labs |
3- | LPC-Diphon-Konkatenation 17.11.2003: Ev. im Phonebrowser enthalten?? |
s1 s2 |
| Nuance, Nuance
Vocalizer 1.0 |
5+ | Technologie aus Fonix 4.0 bzw. Fonix, Speakthis | s1 s2 |
| Rhetorical, rVoice 4 | 2 |
Non Uniform
Unit Selection, Zeitbereich-Konkatenation, nur weibliche Stimme F018
verfügbar, Interaktive
Demo 10.12.2003: Neue Version 4.2 -> Note 2. 25.3.2004: Neue bilinugale Stimmen deutsch/englisch M027 und F026, für F026 keine Demo verfügbar |
rVoice 4.0 F018
16
kHz s1 s2 rVoice 4.0 F018 11 kHz s1 s2 rVoice 4.0 F018 8 kHz s1 s2 rVoice 4.2 F018 16 kHz s1 s2 s3 rVoice 4.2 F018 11 kHz s1 s2 rVoice 4.2 F018 8 kHz s1 s2 rVoice 4.2 M027 16 kHz s1 s2 s3 rVoice 4.2 M027 8 kHz s1 s2 |
| Scansoft, Centigram's TruVoice, ehemals Lernout & Hauspie | 5+ | Formant-Synthese 17.11.2003: Produkt scheint nicht mehr zu existieren |
s1 s2 |
| Scansoft, Diphon-Konkatenation, ehemals Lernout & Hauspie | 5 | Diphon-Konkatenation 17.11.2003: Produkt scheint nicht mehr zu existieren |
s1 s2 |
| Scansoft, ETI Eloquence, ehemals Speechworks, noch früher Eloquent Technology Inc. | 4- | regelbasierte Formantsynthese
(nach Klatt); benutzt die gleiche Technologie wie Viavoice
Outloud von IBM. ETI Eloquent's white paper 1997 |
s1 s2 |
| Scansoft RealSpeak, ehemals Lernout & Hauspie |
2+ |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo 26.5.2004: Neue Stimme Steffi, die etwas höher spricht und auch dadurch etwas besser verständlich ist - Note 2+ statt 2. Allerdings keine interaktive Demo verfügbar, deshalb zum besseren Vergleich eine der Scansoft-Demo von Steffi angepassten Version von Vera angefertigt |
Vera 8 kHz s1 s2 Vera 22 kHz s1 s2 s3 Vera 22 kHz e1 Steffi 22 kHz e1 |
| Scansoft Speechify 2.1, ehemals Speechworks |
2 |
Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Interaktive Demo |
Tessa 16 kHz s1 s2
s3 Tessa 8 kHz s1 s2 |
| SVOX
AG,
SVOX Genie |
3 |
17.11.2003:
Diphon-Konkatenation mit Kompression für Mobiltelefonie
optimiert mit Speicherbedarf < 290KB. Kommerzielle Version von
SVOX der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Genie e1 |
| SVOX
AG,
SVOX Mobile |
3 |
17.11.2003:
Diphon-Konkatenation mit Kompression für Mobiltelefone und
Consumerelektronik optimiert mit Speicherbedarf < 1 MB. Kommerzielle
Version von SVOX
der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Mobile e1 |
| SVOX
AG,
SVOX Smart |
3 |
17.11.2003:
Diphon-Konkatenation für Automobil und PDAs optimiert mit
Speicherbedarf 6-10 MB. Kommerzielle Version von SVOX der ETH Zürich 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole Smart e1 |
| SVOX
AG,
SVOX Speech Server |
2- | ehemals Diphon-Konkatenation,
Aussprache-Dauersteuerung mit MARS (Multivariate Adaptive Regression
Splines), Tonhöhensteuerung mit rekurrentem neuronalen Netz.
Kommerzielle Version von SVOX der ETH Zürich 17.11.2003: Neue Stimme Marlene mit Non Uniform Unit Selection, immer noch leichter Schweizer Akzent. Zur Zeit ohne interkative Demo -> Note 2 statt 3+, Samples, alte Stimme Nicole wird noch in den Produkten SVox Genie, Mobile, Smart eingesetzt 2.4.2004: Stimme Marlene nach mehrmaligen Anhören auf 2- statt 2 gesetzt. 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
Nicole alt s1 s2 Nicole 1.3 s1 s2 Marlene e1 |
| t & i, alte Version Eurovocs | 6- | Diphon-Konkatenation, Technologie von Lernout & Hauspie. | e1 |
| t & i, neue Version Eurovocs | 4- | Diphon-Konkatenation, Technologie von Lernout & Hauspie. | e1 |
| VoiceINTERconnect, DreSS | 4+ | Kommerzielle Version des Sprachsynthesizers DreSS der TU Dresden, Diphon-Konkatenation, Interaktive Demo | s1 s2 |
Forschung
|
|||
| Name/Link | Note | Beschreibung | Testsätze in mpeg3 |
| Deutsche Telekom Berkom GmbH, Felix | Sprachsynthesesystem
Felix der Deutschen Telekom Berkom GmbH, VDE-ITG-Fachbericht
152 über Felix (G. Fries, T. Kremer, Deutsche Telekom
Berkom, Darmstadt: Zur Erzeugung von Konsonanten im
Sprachsynthesesystem Felix), leider sind keine Hörbeispiele zu
bekommen Deutsche Telekom Berkom GmbH ist übergegangen in T-Systems |
||
| ETH Zürich, SVOX |
3- | Diphon-Konkatenation von der Speech
Processing Group der ETH Zürich. Kommerzielle Verison siehe SVOX AG 29.6.2004: Interaktive Demo (funktioniert zur Zeit nicht) |
s1 s2 |
| IKA Ruhr-Univ. Bochum, IKA-PHON | IKA-PHON = Sprachsynthese-System des Instituts für Kommunikationsakustik der Ruhr-Universität Bochum, leider sind keine Hörbeispiele zu bekommen | ||
| IKA Ruhr-Univ. Bochum, SyRUB | SyRUB = Sprachsynthese-System der Ruhr-Universität Bochum, entwickelt am Institut für Kommunikationsakustik der Ruhr-Universität Bochum, leider sind keine Hörbeispiele zu bekommen | ||
| IKP Uni Bonn, BOSS | 2- |
BOSS - Bonn Open Synthesis
System, Non Uniform
Unit Selection basierend auf Verbmobil 24.9.2004: Interaktive Demo funktioniert wieder |
s1 s2 s3 |
| IKP Uni Bonn, Verbmobil TTS |
2- | Non Uniform Unit Selection,
Zeitbereich-Konkatenation, Sprachsynthesizer vom IKP Bonn, scheint aber
nur ein Prototyp zu sein 24.9.2004: Link auf Sprachsynthese-Seite von Karlheinz Stöber mit Verbmobil-Demo funktioniert nicht mehr, bei Archive.org wird man aber noch fündig |
s1 |
| IKP Uni Bonn, HADIFIX | 4- | gemischte
Segment-Konkatenation der Uni-Bonn 29.6.2004: Interaktive Demo funktioniert nicht mehr, bei Archive.org kann man wenigstens noch den Text finden. |
s1 s2 |
| IMS
Stuttgart, IMS/Festival |
4+ | Diphon-Konkatenation, entwickelt am IMS Stuttgart. TTS-Framework von Festival. Stimmdatenbank von MBROLA | s1 s2 |
| IPO (Philips u. Univ.
Eindhoven), Spengi |
+5 | Diphon-Konkatenation von IPO
(Institute of Perception Research, Gemeinschaftsinistut von Philips und
der Univ. Eindhoven, exisitiert nicht mehr, ist übergegangen in
die Fakultät für Technik
Management) Eindhoven (Niederlande) |
e1 |
| KTH Stockholm |
5 |
Formant-Synthese vom KTH in Stockholm, Link zur Interaktiven Demo verschwunden | s1 |
| MBROLA / HADIFIX | 3- | Diphon-Konkatenation von MBROLA, NLP-Modul von Hadifix (txt2pho) | s1 s2 |
| Oregon Graduate Institute, OGI/Festival/ |
4 |
LPC-Diphon-Konkatenation vom Oregon Graduate Institute,
Center for Spoken Language Understanding, entstanden während eines
Workshop 1998. TTS-Framework von Festival. 30.6.2004: Interaktive Demo funktioniert nicht mehr |
s1 s2 |
| ÖFAI, VieCtoS |
5 |
Vienna Concept-to-Speech
System des Austrian
Research Institute for Artificial Intelligence
(ÖFAI). Wenn die Intonation nicht so
gut klingt, dann liegt das an meiner begrenzten Erfahrung mit
Tobi-Labelung. Das System basiert auf Halbsilben-LPC-Konkatenation, 17.1.2003: Interaktive Demo |
s1 |
| TU Berlin, Tubsy |
Sprachsynthese auf Clusterbasis nach dem PSOLA-Verfahren, Fachartikel über Tubsy: Jürgens, C.; Wunderlich, M.: A Comparison of Different Speech Units for the German TTS-System TUBSY. Proceedings EUROSPEECH, Madrid,1995, leider sind keine Hörbeispiele zu bekommen | ||
| TU
Dresden, DreSS |
4+ | Sprachsynthesizer der TU
Dresden, Diphon-Konkatenation, sehr lehrreich mit Zwischenschritten
animierte Interaktive
Demo |
s1 s2 |
| TU
Dresden / IMS Dresden, Voice1 |
4- | Formant-Synthese der TU
Dresden, siehe Museum |
e1 |
| TU Dresden, Tusy | 5- | Formant-Synthese in Hardware
der TU
Dresden, siehe Museum |
e1 |
| TU Dresden, Rosy | 5- | ROSY (Robotron Synthesizer) -
Formant-Synthese in Hardware der TU
Dresden, siehe Museum |
e1 |
| TU Dresden, Syni 2 | 6+ | Formant-Synthese mit
Lochkarten-gesteuerter Hardware der TU
Dresden, siehe Museum |
e1 |
| TU Dresden, Syni 1 | 6 |
Formant-Synthese mit
Lochkarten-gesteuerter Hardware der TU
Dresden, siehe Museum |
e1 |
| Univ. Duisburg, Formantsynthese | 5 |
Formant-Synthese | s1 s2 |
| Univ. Köln, Artikulatorische Synthese | 5 |
Artikulatorische Synthese des Instituts für Phonetik der Universität Köln, eigentlich kein TTS-System | s1 |
| Univ. Lausanne, LAIPTTS - Sprechmühle | 3- | TTS-System der Universität Lausanne (LAIP), nutzt MBROLA-engine | s1 |
| Univ. Saarbrücken / DFKI, MARY | 4- | 14.9.2004:
NLP-Modul der Universität
des
Saarlands Saarbrücken und des DFKI,
Diphon-Konkatenation MBROLA Interaktive Demo, Interaktive Demo "Inside TTS" mit verschiedenen Stimmen und Variationen modal, soft, loud, Interaktive Demo Emotional. Frühere Version von MARY (ca. 1999) verwendete Mikrosegmentsynthese, die gleiche Technologie verwendet auch LOGOX |
de7 weiblich 22 kHz s1 s2 de2 männlich 16 kHz s1 s2 frühere Version (1999) 22 kHz s1 |