Vergleich von Text-to-Speech-Systemen

28.6.2018 | 5 Minuten Lesezeit

Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.

In einem unserer neuesten Videos haben wir euch einen Vergleich von Text-to-Speech-Systemen gezeigt: Wir haben einen kleinen Wettbewerb zwischen Polly, Alexa, Siri und Co mit verschiedenen Zungenbrechern veranstaltet und geguckt, was diese Systeme so alles können. Um uns anzuhören, wie die verschiedenen Systeme klingen, haben wir deutsche und englische Stimmen verglichen und auch selber ein paar Zungenbrecher aufgesagt.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Übrigens: Wer diesen Artikel lieber hören statt lesen möchte, findet hier die Audioversion – natürlich powered by TTS AI (Amazon Polly) !

Text-to-Speech-Systeme

Text-to-Speech (TTS) bezeichnet Systeme oder Applikationen, die geschriebenen Text als Input nehmen und in gesprochene Audioversionen umwandeln; sie lesen uns also digitalen Text laut vor. Der computergenerierte akustische Output soll dabei möglichst menschlich und “echt” klingen. Mithilfe von neuronalen Netzen und Deep Learning sind TTS Systeme dabei in den vergangenen Jahren deutlich besser geworden. Heute gibt es Modelle, die schon sehr natürlich klingen und teilweise kaum noch von einem Menschen zu unterscheiden sind.

TTS-Systeme finden in vielen Programmen Anwendung; die bekanntesten sind sicherlich persönliche Assistenten wie Siri, Alexa, Cortana und Google. Aber auch in “kleineren” Programmen findet sich TTS-Technologie! So hilft TTS zum Beispiel Sehbehinderten dabei, mit Computern, Tablets, Smartphones oder anderen digitalen Geräten arbeiten zu können. TTS kann auch mit anderen Techniken aus der Spracherkennung kombiniert werden, wie zum Beispiel Optical Character Recognition (OCR), um Text auf Bildern zu lesen oder Voice Recognition, um gesprochenen Input zu verstehen und darauf zu antworten. Wir können uns Nachrichten, Bücher oder Artikel vorlesen lassen, während wir z.B. Auto fahren oder Programme über Sprachanweisungen steuern ohne die Hände nutzen zu müssen.

Wie funktioniert TTS?

Herausforderungen für gute TTS-Systeme sind die Komplexität der menschlichen Sprache: je nachdem wie wir einen Satz betonen, kann er unterschiedliche Bedeutungen haben. AI-basierte TTS Systeme berücksichtigen Phoneme und Satzmelodie. Es gibt mehrere Ansätze für die künstliche Erzeugung von Sprache.

Eine der wichtigsten ist die Unit-Selection-Synthese. Hierbei wird der Text zunächst normalisiert und in kleine Einheiten aufgeteilt; das können Sätze, Wörter, Silben, Phoneme etc. sein. Die Strukturen (z. B. die Aussprache) dieser Einheiten werden im Kontext gelernt. Dieser Teil fällt unter das sogenannte Natural Language Processing (NLP). Außerdem wird eine Sprachdatenbank generiert, die basierend auf dem segmentierten Text durchsucht wird, um passende Sprachbausteine zu finden (Unit Selection). Diese Suche passiert heutzutage in der Regel mit Entscheidungsbäumen, Neuronalen Netzen oder Hidden-Markov-Modellen. Die Sprachdatenbank selber kann aus menschengesprochenen Audiostücken bestehen oder die entsprechenden Phoneme werden von einem Computer generiert. Letzteres nennen wir Formantensynthese. Sie bietet deutlich mehr Möglichkeiten, denn der Sprachschatz ist nicht limiert; auch jedes unbekannte Wort kann vom Computer generiert werden und die Stimmen können flexibel ausgetauscht werden. Bis vor Kurzem klang aus menschengesprochenen Bausteinen synthetisierte Sprache noch deutlich besser als aus der Formantensynthese. Aber das ändert sich gerade deutlich und es gibt schon viele “künstliche” TTS-Systeme, die sehr menschlich klingen.

Welche TTS-Systeme gibt es?

Alexa hat sich weltweit millionenfach verkauft. Dein Google Navi erzählt dir, wo du abbiegen musst. Siri erinnert dich an deine Termine. Cortana gibt dir Windows-Tipps. Watson beantwortet Support-Anfragen usw. Aber es gibt auch eine Reihe von webbasierten Programmen oder Handy-Apps, die einen eingegebenen Text vorlesen.

In vielen digitalen Geräten gibt es schon eingebaute TTS-Systeme, z. B. in Computern, Smartphones, usw.

Microsoft/Windows: besitzt das eingebaute TTS-System Narrator und die Microsoft Speech API
Mac: hat VoiceOver (oder auf älteren Rechnern PlainTalk)
Linux: verschiedene TTS Programme können installiert werden, z.B. eSpeak

Viele TTS-Systeme gibt es als Software zum Herunterladen und Installieren und/oder webbasiert im Browser bzw. als API. Die großen Cloud-Anbieter wie Amazon, Google, IBM und Microsoft bieten TTS-Systeme “as a Service” an, so dass man mit wenig Aufwand Sprachausgabe in seine eigenen Programme integrieren kann. Aber es existieren auch einige Open-Source-Projekte für TTS (allerdings sind die meistens nur für Windows verfügbar). Hier eine unvollständige Liste von Systemen:

Text-to-Speech von der Kommandozeile aus

Mit espeak können wir auch direkt von der Kommandozeile aus TTS generieren:

1espeak -v german -w 'tongue_twister_intro2.wav' 'Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech (TTS) Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.'

Das Ergebnis hört ihr hier .

Text-to-Speech in Python

Auch mit Python kann man schnell und einfach TTS erzeugen, z. B. mit dem gTTS-Paket, das die Google Text-to-Speech (TTS) API nutzt:

1# Python3
2pip install gTTS

1# Python3
2from gtts import gTTS
3import os
4 
5# Text
6mytext = 'Computer haben angefangen, mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.'
7 
8# Sprache (ISO Code)
9language = 'de'
10 
11# Erzeugen der Sprachausgabe
12myobj = gTTS(text=mytext, lang=language, slow=False)
13 
14# Speichern als mp3
15myobj.save("tongue_twister_intro.mp3")

Das Ergebnis hört ihr hier .

Wer spricht am besten?

Mit der Vielzahl an (frei verfügbaren) TTS Systemen ist es inzwischen sehr leicht, TTS in eigene Programme oder Apps einzubauen. Ein paar Beispiele habt ihr hier kennengelernt. In unserem Video und in der Audioversion von diesem Blogpost konntet ihr verschiedene TTS-Systeme im Vergleich hören. Im Moment klingen die englischen Stimmen meist noch deutlich besser als die deutschen. Die deutschen Stimmen klingen bei den meisten Anbietern noch ziemlich blechern. Auch ist es noch problematisch, wenn z. B. englische Ausdrücke in einem deutschen Text vorkommen, wie in der vorgelesenen Versionen dieses Artikels deutlich zu hören ist; da wir uns nur für eine Sprache entscheiden können, wird in der deutschen Variante auch englischer Text von den TTS-Systemen sehr “deutsch” ausgesprochen. Aber wie wir im Video gehört haben, gibt es bereits ein paar Modelle, die deutlich besser klingen als andere. Es ist nur noch eine Frage der Zeit, bis diese für alle Services einsatzbereit sind.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Shirin Elsinghorst

Topic Lead Daten- & KI-Strategieberatung

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Vom Coding-Assistenten zum Sparringspartner: Die nächste Evolutionsstufe...

Wer über AI-Assisted Coding spricht, spricht im Kontext von Datenprojekten fast immer über den falschen Teil des Problems.  Die Debatte kreist um Prompt-to-Code, um Produktivitätsgewinne beim Schreiben von SQL- oder Python-Skripten, um Benchmarks und...

Analyse
Künstliche Intelligenz
Generative KI
LLM
Data Science
Machine Learning
Data
Big Data

30.6.2026 | 6 Minuten Lesezeit

Berthold Schulte

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

Garbage In, Garbage Out. Dieser Grundsatz der Informatik war noch nie so kritisch wie im Zeitalter der KI. Large Language Models verstärken schlechte Datenqualität nicht, sie verpacken sie in selbstsicher klingenden Formulierungen, die selbst erfahrene...

Generative KI
LLM
Künstliche Intelligenz
Data

7.5.2026 | 8 Minuten Lesezeit

Niklas Niggemann

Ask Your Data(bricks) mit Natural Language

Das derzeit wohl heißeste Thema im Bereich Daten und KI ist die Möglichkeit, mit den eigenen Daten zu sprechen. Das Schreiben von SQL-Abfragen ist bei der Datenexploration alles andere als intuitiv, daher klingt die Möglichkeit, einfach Fragen in natürlicher...

Data
Big Data

16.4.2026 | 9 Minuten Lesezeit

Niklas Niggemann

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

Dives sind interaktive Visualisierungen, die durch natürliche Sprache erstellt werden und direkt auf den Daten in MotherDuck aufbauen. Nutzer beschreiben, was sie sehen möchten, und ein KI-Agent generiert eine persistente, interaktive Komponente, die...

MotherDuck
Data
Data Science
Big Data

9.3.2026 | 8 Minuten Lesezeit

Niklas Niggemann

KI-Pflaster statt KI-Strategie

Die erste Welle ist durch. Copilot-Lizenzen sind gekauft, ein CompanyGPT steht, ein paar Meetings werden per KI zusammengefasst. In vielen Chefetagen stellt sich jetzt die richtige Frage: Was hat das eigentlich gebracht? Die Time-to-Market für die eigenen...

Data
Künstliche Intelligenz

6.3.2026 | 9 Minuten Lesezeit

Marcel Mikl

Narwhals: DataFrame-Agnostic Libraries ohne Dependencies Bauen

Nach der Veröffentlichung unseres Artikels über Ibis wies uns Dr. André Schemaitat auf ein ähnliches Tool mit wachsender Beliebtheit hin – Narwhals. Narwhals beschreibt sich selbst als eine „extrem leichtgewichtige und erweiterbare Kompatibilitätsschicht...

Data
Python
Softwareentwicklung

3.3.2026 | 11 Minuten Lesezeit

Niklas Niggemann

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

In unseren bisherigen Benchmarks hat DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertroffen. Doch reine Performancevergleiche übersehen eine entscheidende Frage: Was passiert, wenn Sie von lokaler DuckDB-Entwicklung in eine...

MotherDuck
Data
Big Data
Data Science

10.2.2026 | 6 Minuten Lesezeit

Niklas Niggemann

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Update 02.02.26 – Nach hilfreichen Hinweisen des Polars-Teams auf LinkedIn haben wir unser Benchmark-Setup um eine Polars-Konfiguration erweitert, bei der Async erzwungen wird. Dies wird im Artikel näher erläutert. Unser vorheriger Benchmark verglich...

MotherDuck
Data Science
Data

20.1.2026 | 14 Minuten Lesezeit

Niklas Niggemann

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

Daten- und KI-Strategie entwickeln: In 7 Schritten zum nachhaltigen Gesch...

Wer heute eine wertstiftende Daten- und KI-Strategie entwickeln will, blickt auf gewaltige Prognosen: McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Doch Hand aufs Herz: Spürst du diesen Wertbeitrag bereits in deinem...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 11 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

DuckDB vs. DataFrame Bibliotheken

Hinweis: Der folgende Artikel wurde auf Englisch erstellt und nachträglich maschinell auf Deutsch übersetzt. Update 10.12.25 – Nach hilfreichen Hinweisen von Polars-Entwickler Thijs Nieuwdorp nach der ersten Veröffentlichung dieses Artikels konnten ...

MotherDuck
Data
Data Science
Python
Datenbank

1.12.2025 | 10 Minuten Lesezeit

Niklas Niggemann

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Vergleich von Text-to-Speech-Systemen

Text-to-Speech-Systeme

Wie funktioniert TTS?

Welche TTS-Systeme gibt es?

Text-to-Speech von der Kommandozeile aus

Text-to-Speech in Python

Wer spricht am besten?

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Vom Coding-Assistenten zum Sparringspartner: Die nächste Evolutionsstufe...

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

Ask Your Data(bricks) mit Natural Language

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

KI-Pflaster statt KI-Strategie

Narwhals: DataFrame-Agnostic Libraries ohne Dependencies Bauen

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Daten- und KI-Strategie entwickeln: In 7 Schritten zum nachhaltigen Gesch...

DuckDB vs. DataFrame Bibliotheken

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Jetzt für unseren Newsletter anmelden