Lokale Transkription und Tastatur-Diktate
Schneller und genauer als Apple: Diktier-App VoiceInk auf dem iPhone
Mit VoiceInk steht iPhone- und iPad-Nutzern inzwischen auch eine mobile Variante der bereits vom Mac bekannten Diktierlösung zur Verfügung. Wie schon die Desktop-Version setzt auch die iOS-App auf Spracherkennung, die wahlweise lokal auf dem Gerät oder über externe Dienste erfolgt.
Nutzer können so selbst entscheiden, ob sie ihre Sprachdaten ausschließlich auf dem eigenen Gerät verarbeiten lassen oder zusätzliche Cloud-Anbieter einbinden.
Zum Einsatz kommen verschiedene KI-Modelle, darunter auch das rasend schnelle Parakeet V3, die gesprochene Sprache deutsch schnell in Text umwandeln als Apple Bordwerkzeuge. Neben lokal verfügbaren Varianten lassen sich auch externe Dienste wie Gemini oder andere Anbieter über eigene Schnittstellen einbinden.
Bereits im vergangenen Jahr haben wir VoiceInk als Alternative zu MacWhisper vorgestellt. Damals lag der Fokus auf der lokalen Verarbeitung und der Möglichkeit, Texte systemweit per Tastenkombination einzufügen. Diese Grundidee bleibt auch unter iOS erhalten, wird dort jedoch technisch anders umgesetzt.
Lokale Tastatur-Diktate möglich
Im Alltag zeigt sich, dass die iOS-Version nicht ganz so direkt arbeitet wie die Mac-Ausgabe. Nach der Installation müssen Nutzer zunächst eine eigene Tastatur aktivieren und ihr erweiterte Berechtigungen erteilen. Erst danach lässt sich die Diktierfunktion in anderen Anwendungen verwenden.
Die eigentliche Texteingabe erfolgt dann über diese VoiceInk-Tastatur. Allerdings kann die Aufnahme kann nicht vollständig im Hintergrund gestartet werden. Stattdessen öffnet sich die App, bevor die Spracherkennung aktiv wird. Diese Einschränkung hängt mit Systemvorgaben von iOS zusammen. Standardmäßig läuft eine Aufnahme für wenige Minuten, lässt sich aber in den Einstellungen anpassen.
Innerhalb der App können verschiedene Modi für unterschiedliche Anwendungsfälle angelegt werden, etwa für E-Mails oder kurze Notizen. Ergänzend speichert VoiceInk vergangene Transkripte und macht sie durchsuchbar. Auch eine nachträgliche Bearbeitung oder erneute Verarbeitung mit anderen Einstellungen ist möglich.
Die iOS-Version erweitert das bestehende Angebot damit um eine mobile Komponente, bleibt in der Bedienung jedoch stärker an die Plattformgrenzen gebunden als die Mac-Variante. Dafür lässt sich VoiceInk unter iOS komplett kostenfrei nutzen.




Bin ganz angetan. Übersetzt einen deutsch gesprochenen Text direkt ins englische. Finde keine Einstellung dass da ein Deutsch gesprochener Text zu einem deutschen Text transkribiert wird.
Die Walser Einstellung ist unter den Einstellungen zu finden…
Unter Modes. Hier kann ich nur den Provider Groq empfehlen, schnellste auf dem Markt zur Zeit. Whisper-large-v3-Turbo ist fantastisch.
*Diese* Einstellung…
Nett aber voller Tastatur Zugriff ich weiß nicht …..
Muss man allerdings nicht machen. Wenn die Berechtigung ausbleibt, kann man den Dialog auch einfach skippen beim initialen Setup.
Ist aber auch der Standard bei Tatstatur-Erweiterungen und allen Diktier-Apps.
Unterstützt nur englische Sprache!
In den Einstellungen kannst du die Sprache ändern.
Wo denn?
Parakeet kann viele Sprachen, darunter auch deutsch. Das ist kein Problem.
Wo stellt man genau deutsch ein?
Du musst nichts einstellen. Einfach unter „Models“ –> Local Models Parakeet V2 oder Parakeet V3 (ich empfehle 3 zu probieren) runterladen.
Dann kannst du schon loslegen mit dem diktieren. Er transkribiert dann die Sprache die zu sprichst. ;-)
Bei mir übersetzt er auch mit V3 zu englisch.
Im Start Bildschirm „Modes“ drücken, dann kann man für Default, Email und Chat jeweils eine Sprache einstellen.
Danke. Habe es gefunden :)
Wo stelle ich die Tastatur auf deutsch?
Sorry für 3 mal fragen. Die App hat nichts angezeigt.
Ihr müsst zuerst das Multi Sprachpaket Downloaden.
Das können auch andere Modelle
die neue gemini ai edge eloquent soll das diktieren wohl (bald auch in deutschland) ein stück weit revolutionieren!
Wenn man klar und deutlich spricht (was ich tue), dann funktioniert das Bordmittel von Apple tadellos. Klar, wenn man so eine grausige Aussprache hat wie dieser Inder, dann braucht man wohl so eine App. Ich finde sie unnötig kompliziert (ok, das ist natürlich den iOS Vorgaben geschuldet) und deswegen fliegt sie gleich wieder raus aus meinem iPhone. Fazit: unnötig!
Extrem gute Erkennung mit dem Sprachen Paket auch auf Deutsch. Gerade ausprobiert, normale umgangssprachliche Texte ohne Fachbegriffe oder wissenschaftlichen Kontext werden wirklich eins zu eins erkannt und offenbar auch automatisch korrigiert. Insbesondere keine ständigen Fehler mit Komposita im Deutschen, wie innerhalb der Apple eigenen Spracherkennung, die immerhin mittlerweile auch offline ziemlich gut funktioniert.
Guter Anfang jedenfalls, unklar ist uns allerdings, was ist mit der freien Zeit Aufsicht hat, die ganz oben links immer angezeigt wird. Bei 15 Sekunden Diktat sind schon 5 % verbraucht, dies gilt nur für die reguläre Einstellung für eine 2 Minuten Session? Ansonsten aber klare Empfehlung, bisher die mit Abstand beste Erkennung, und diese Aussage trifft eine Userin, die ansonsten mit dem Pionier der Spracherkennung Dragon DNS seit den späten neunziger Jahren arbeitet und kämpft.
Zur Ehrenrettung der Apple eigenen Spracherkennung sei anmerkt, dass mittlerweile auch die offline Version ziemlich gut funktioniert, aber immer noch eine Fehlerquote von 5-10 % auch bei normalen Texten aufweist, leider auch dann, wenn einwandfrei und klar gesprochen wird. Große Probleme hat die Apple eigene Spracherkennung bis heute mit Komposita im Deutschen, hier gerade wieder als Kompost erkannt, und daneben schleichen sich pro DIN-A vier Seite doch immer 10-15 Flüchtigkeitsfehler ein, die entsprechend nach korrigiert werden müssen. Klare Aussprache hilft, aber eine Garantie für eine akzeptable Qualität in punkto Orthographie und Grammatik ist dies bis heute nicht. Deswegen klare Empfehlung für die vorgestellte, uns bisher unbekannt, herzlichen Dank für diesen Tipp.
Und im Text oben wieder mal ein Apple typischer Fehler: statt „auf sich hat“ wurde „Aufsicht“ erkannt, die hier diskutierte App hat solche Fehler bisher nicht produziert.
Lässt sich zwar kostenfrei nutzen, allerdings ist die Redezeit doch sehr begrenzt und auf ein Maximum von 30 Minuten begrenzt, schon für den ersten Test von weniger 2 Minuten wurden 10 % LimitVerbrauch angezeigt. Der richtige Kick dieser App ist in der Tat auch die online Verarbeitung im zweiten Schritt, mit dem lokalen Modell gibt es immer noch einige Fehler, zwar etwas weniger als die Apple eigene Spracherkennung, aber eben deutlich mehr als null und deutlich mehr als die zulässigen 3-4 Flüchtigkeitsfehler pro DIN-A 4 Seite. Für eine zeitlich unbeschränkte Nutzung wird innerhalb der App angeboten, eines der bekannten APIs herunterzuladen, die sind aber alle nicht kostenlos (oder haben wir da im ersten Test etwas übersehen?) und implizieren in punkto Datenschutz dann eben auch die Strukturen des jeweiligen Modells.
Sicherlich nur ein Flüchtigkeitsfehler, aber innerhalb der App fehlen jegliche Angaben zum Impressum oder zu den Datenschutzbestimmungen gemäß DSGV O (beziehungsweise überhaupt). Heute anders Entwickler Team eine entsprechende E-Mail geschickt mit der Bitte, diese Informationen schnellstmöglich nachzureichen, denn außer einer E-Mail Support Adresse ist nichts zu finden, und die kurze YouTube Anleitung ist auch etwas dünn. Lässt sich hoffentlich schnell nacharbeiten, denn die Qualität der Spracherkennung jedenfalls in der deutschen Sprache ist überraschend gut und deutlich besser als die Apple eigene online wie offline.
Jedenfalls ein vielversprechender Anfang, der Entwickler wird in der nächsten Zeit noch einiges an Dokumentation zum verwendeten Modell beisteuern und hoffentlich auch eine Erklärung zum Thema Datenschutz/DSGV O und Angaben zum Impressum.
Auch in der zweiten Testrunde kommt diese App auf den von uns verwendeten TestSeiten auf circa 2-3 Fehler pro Seite, wo die Apple eigene Engine 10-20 produziert und, wie oben schon beschrieben, mit Komposita im deutschen einfach auf Kriegsfuß steht, ohne dass ich in diesem Punkt in den letzten Jahren ein wesentlicher Fortschritt zu erkennen gewesen wäre. gleiches gilt auch für ein mehrsprachiges Diktat, selbst einschlägige englische Begriffe wie Engine werden in der integrierten Spracherkennung bei Apple, nebenbei auch bei Google und Android, gerne falsch erkannt.