Speech to Text Vergleich: Siri & Co schreiben die Weihnachtsgeschichte 2018

Spracherkennung und Speech-to-Text Test im realen Leben – ein Vergleich

Eignen sich die mich umgebenden Systeme für ein Diktat? Gibt es Unterschiede zwischen Android und iOS? Wodrauf sollte man achten? Kann man Diktierfunktionen auch für geschäftliche Umfelder nutzen? In einem kleinen, zur Jahreszeit passenden Test lese ich meinen Systemen die Weihnachtsgeschichte vor und präsentiere die Ergebnisse.

Speech-to-Text: „Hey Siri, es begab sich aber zu der Zeit“

Seit Siri, Alexa und Co. sind Spracherkennung aus aller Munde. Was hier getestet wurde ist aber nicht die Befehlssteuerung, sondern das Diktieren eines Textes. Es ist vergleichbar mit dem Diktieren einer Email, eines Briefes oder einer Textnachricht. Die Sprache wird in digitalisiert, von irgendeiner „artificial intelligence“ in Text übersetzt und dann in meiner Tabelle mit dem Original verglichen.

Das Setup

Vier Systeme kamen zum Einsatz

  1. Motorola Z, Android 8.0.0, „Google voice typing“
  2. MacBook Pro, Mid 2018, macOS 10.14.1, Diktierfunktion/Diktat
  3. iPhone 8, iOS, 12.1.1, Diktierfunktion/Diktat
  4. Google Cloud, Speech-to-Text, kostenlose Testversion

Die Geschichte wurde vorgelesen, während die Smartphones und das MacBook Pro „zuhörten“. Ein weiteres Gerät schnitt eine Sprachnotiz mit.

Die ersten drei Systeme schreiben simultan zum Diktat. Für Google musste eine Datei hochgeladen werden. Das Soundfile war auf eine Minute limitiert und endet nach Vers 7 („…dass sie gebären sollte.“)

Übung benötigen S2T-Diktate, weil Verzögerungslaute das Ergebnis verschlechterten. Man sollte also vorher überlegen, was man sagt.

Luther Bibel, Lukas 2, 1-6+7

Android

MacBook Pro

iPhone

Google Cloud

108 Wörter

109 Wörter

61 Wörter

110 Wörter

109 Wörter

632 Zeichen

640 Zeichen

369 Zeichen

633 Zeichen

642 Zeichen

Es begab sich aber zu der Zeit, dass ein Gebot von dem Kaiser Augustus ausging, dass alle Welt geschätzt würde.

Es begab sich aber zu der Zeit, dass ein Gebot von dem Kaiser Augustus ausging, dass alle Welt geschätzt würde.

Es begab sich aber zu der Zeit, das [] Angebot von den Kaiser Augustus ausgehen, dass alle Welt geschätzt würde.

es begab sich aber zu der Zeit, das Angebot von dem Kaiser Augustus ausging, dass alle Welt geschätzt würde.

Es begab sich aber zu der Zeit, dass ein Gebot von dem Kaiser Augustus ausging, dass alle Welt geschätzt würde.

Und diese Schätzung war die allererste und geschah zur Zeit, da Quirinius Statthalter in Syrien war.

Und diese Schätzung war die allererste und geschah zur Zeit, da Quirinius Statthalter in Syrien war.

Und diese Schätzung war die allererste und geschah zur Zeit, da Greennews Statthalter in Syrien war.

Und diese Schätzung war die aller erste und geschah zur Zeit, da Quiriniusstraße Halter in Syrien war.

Und diese Schätzung war die allererste und geschah zur Zeit, dafür renius Statthalter in Syrien war.

Und jedermann ging, dass er sich schätzen ließe, ein jeglicher in seine Stadt.

Und jedermann ging, dass er sich schätzen ließe, ein jeglicher in seine Stadt.

Und jedermann ging, dass er sich schätzen ließe, ein wirklicher in Seine Stadt.

Und jeder Mann ging, dass er sich schätzen ließe, ein jeglicher in seine Stadt.

Und jedermann ging, dass er sich schätzen ließe, ein jeglicher in seine Stadt.

Da machte sich auf auch Josef aus Galiläa, aus der Stadt Nazareth, in das judäische Land zur Stadt Davids, die da heißt Bethlehem, darum dass er von dem Hause und Geschlechte Davids war,

Da machte sich auch auf Josef aus Galiläa, aus der Stadt Nazareth, in das jüdische Land zur Stadt Davids, die da heißt Bethlehem, darum dass er von dem Hause und Geschlechte Davids war,

Und jedermann ging, dass er sich schätzen ließe, ein wirklicher in seine Stadt.

Da machte sich auch auf Josef aus Galiläa , aus der Stadt Nazareth, in das jüdische Land zur Stadt Davids, die da heißt Bethlehem, darum dass er von dem Hause und Geschlecht Davids war,

Da machte sich auch auf Josef aus Galiläa, aus der Stadt Nazareth, in das jüdische Land zur Stadt Davids, die da heißt Bethlehem, darum, dass er von dem Hause und Geschlechte Davids war,

auf dass er sich schätzen ließe mit Maria, seinem vertrauten Weibe; die war schwanger.

auf dass er sich schätzen ließe mit Maria, seinem vertrauten Weibe Semikolon die war schwanger.

[      ]

auf dass er sich schätzen ließe mit Maria, seinem vertrauten Viber; die war schwanger.

Auf dass er sich schätzen ließe mit Maria, seinem vertrauten Weibe Semikolon, die war schwanger.

Und als sie daselbst waren, kam die Zeit, dass sie gebären sollte.

Und als sie daselbst waren, kam die Zeit, dass sie gebären sollte.

[      ]

Und als sie da selbst waren, kann die Zeit, dass sie gebären sollte.

Und als sie daselbst waren, kam die Zeit, dass sie gebären sollte.

Und sie gebar ihren ersten Sohn und wickelte ihn in Windeln und legte ihn in eine Krippe; denn sie hatten sonst keinen Raum in der Herberge.

Und sie gebar ihren ersten Sohn und wickelte ihn in Windeln und legte ihn in eine Krippe Semikolon denn sie hatten sonst keinen Raum in der Herberge.

Und sie gebar ihren ersten Sohn und wickelte ihn in Windeln und legte ihn in eine Krippe; denn sie hatten sonst keinen Raum in der Herberge.

In der Tabelle sieht man die Ergebnisse. Gelb markiert sind die Abweichungen von dem Original in der linken Spalte.

Fazit

Android und Google haben die Nase oder Ohren vorne. Es ist erstaunlich, dass der Name des Statthalters „Quirinius“ von den Google Systemen erkannt wurde, wo das iPhone „Quiriniusstrasse“ verstand. „das judäische Land“ hat kein System richtig erkannt.

Um eine SMS oder kurze Emails zu diktieren, funktionieren die System ausreichend gut, wenn man sich hier und da auch noch daran gewöhnen muss. Für längere Texte sollte man Zeit für das Korrekturlesen einrechnen.

Vermutlich hängen die Ergebnisse auch mit der Sprache (Englisch vs. Deutsch) zusammen. Weitere Einflussfaktoren sind die Inhalte, da die Weihnachtsgeschichte nicht in Umgangssprache verfasst ist. An der Rechenleistung selbst fehlte es den Geräten nicht, obwohl das Motorola Z bereits im Juni 2016 auf den Markt gebracht wurde.

Weiteres

Das Soundfile „Weihnachtsgeschichte 2018“

Hier die Aufnahme, die ich auf ca. 55 Sekunden kürzte. Vers 8 wurde auch noch diktiert, aber Google Cloud wollte nur eine Minute annehmen und das iPhone verabschiedete sich ungewollt hörbar nach 50 Sekunden.

Es mag ein bisschen überartikuliert sein, aber es wurde nicht langsamer gesprochen, als normal. „Absatz“ wurde überlesen, Satzzeichen allerdings nicht.

In Vers 4 wurden beim Lesen die Worte „auf“ und „auch“ vertauscht. Daher weicht der erkannte Text von der Vorlage ab.

Lukas 2, 1-7

MacBook Pro

Das MacBook Pro produzierte die schlechtesten Ergebnisse. Es dauerte ein paar Sekunden, bis das System „zuhörte“ und verschluckte ganze Absätze. Vielleicht findet sich hier doch irgendwie eine Lösung, dass das Diktat am Rechner noch flüssiger in Prozesse einfließen kann.

Android war auf „English (Australia)“ gestellt

Aus Versehen war das Android System bei einem ersten Anlauf auf Englisch gestellt. Aber mit ein paar Glühwein könnte man den Text so nuscheln, dass ein Dritter ihn versteht.

Espghan Abbotswood outside, design your bored for him kaiser Augustus asking, the salivate cassettes it will prompt you to shut somebody other asked on keyshot Southside, that women use start hire in Zurich invoked Gina Mangan, to say as he needs it, and Yateley canzoni start pumped the Masters of our users was Galileo, or said that not so innocent so stop David’s, did a high-speed lamb, the home does a farmhouse on reflective it’s about us it’s Lisa meet Maria, sign and fat Houghton Viber semicolon device ranked oh nice, campsite, decisions I can’t unsee Good by Kevin Erskine Zone and Vicky to eat in Findon on LinkedIn and Anna clipper semicolon Dinsey Hattons own kind in the home in their hair bag of punk’d