DolphinAttack im Video

Lautlos aktiviert: Siri-Angriff im nicht hörbaren Bereich

Kennt ihr die Sprachbanane? Falls nicht, könnt ihr hier einen Blick auf das Hörflächen-Schaubild werfen, das die Grundtöne unserer Sprache im Verhältnis zu Pegel und Tonhöhe darstellt.

Viel besser noch als die Faustregel „Menschen hören Töne, derer Frequenz zwischen 20Hz und 20.000Hz liegt“ bildet die Sprachbanane den Lautstärke- und Frequenzbereich ab, in dem gesprochene Sprache am häufigsten zu finden ist. Und was macht die Banane gerade relevant? Dieser Siri-Angriff eines chinesischen Forscher-Teams.

Unter Laborbedingungen ist es sechs Forschern der Zhejiang Universität gelungen, mehrere Sprachassistenz-Systeme – darunter Siri, Alexa und den Google Assistent – mit Sprachkommandos im nicht-hörbaren Bereich zu aktivieren.

Die Forscher, die ihr Experiment als „DolphinAttack“ beschreibe (PDF), haben herkömmliche Sprachbefehle digital manipuliert und diese mit speziellen Frequenz-Effekten versehen, so dass die Sätze in einen Frequenzbereich oberhalb von 20.000Hz moduliert wurden.

Zwar können Menschen die Befehle anschließen nicht mehr wahrnehmen, die in iPhone und Co. verbauten Mikrofone sind allerdings so gut, dass Siri hier nach wie vor anspringt.

In this work, we design a completely inaudible attack, DolphinAttack, that modulates voice commands on ultrasonic carriers (e.g., f > 20 kHz) to achieve inaudibility. By leveraging the nonlinearity of the microphone circuits, the modulated low- frequency audio commands can be successfully demodulated, recov- ered, and more importantly interpreted by the speech recognition systems. We validate DolphinAttack on popular speech recogni- tion systems, including Siri […]

Die Empfehlung der Forscher: Apple, Google und Co. sollten ihre Assistenz-Systeme so konfigurieren, dass Sprachbefehle die außerhalb der Sprachbanane liegen, standardmäßig ignoriert werden.

Dieser Artikel enthält Affiliate-Links. Wer darüber einkauft unterstützt uns mit einem Teil des unveränderten Kaufpreises. Was ist das?

07. Sep. 2017 um 17:36 Uhr von Nicolas Fehler gefunden?

24 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Mr-Fly 07.09.2017, 17:38 Uhr

Finde ich krass und verstehe auch nicht warum man diese Frequenzbereiche nicht filtert. Irgendwie kann es für die Erkennungsrate ja auch nicht wirklich gut sein, wenn z.b. Etwas Hochfrequentes die Aufnahme stört.

Antworten Melden

Oliver 07.09.2017, 18:10 Uhr

Hatte bisher halt einfach niemand auf dem Schirm …

Antworten Melden

Antworten Melden
DC 07.09.2017, 18:36 Uhr

Das mit dem Filtern ist nicht so einfach. Auch wenn die Frequenzen nicht mehr als eigenständige Töne hörbar sind, werden Sie dennoch von der Software zur besseren Erkennung und Zuordnung zu den einzelnen Wörtern benötigt (Klarheit der Sprache/Oberwellen). Die Forderung muss sein, zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen

Antworten Melden

Antworten Melden

wolfissimo 07.09.2017, 20:09 Uhr

> Die Forderung muss sein, zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen

Darin liegt aber das Problem, siehe mein Beitrag weiter unten. Man muss Mikrofone konstruieren, die Frequenzen > 20 kHz rein akustisch filtern, noch bevor das Signal an die Elektronik gelangt.
Appeltouché 07.09.2017, 21:24 Uhr

Und es ist doch sehr einfach das Gerät nennt sich Tiefpassfilter
Und da die Sprache in keinem Falle in diese Bereiche geht wird dort auch nichts zur Erkennung benötigt.
wolfissimo 07.09.2017, 21:47 Uhr

Wenn die Nichtlinearität schon im Elektretmikrofon liegt, ist es dort schon passiert. Dann nützt ein Tiefpassfilter dahinter auch nichts mehr.

Es scheint aber doch Abhilfe zu geben, siehe Abschnitt 7.1 und vor allem 7.2 im verlinkten PDF. Interessantes Thema …
Scoo 08.09.2017, 08:07 Uhr

Wie geil ist das denn?! :D
Gelungenes Experiment würd ich sagen.

@wolfissimo „[…]zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen[…]“
Du willst also, dass weiterhin dass auch unhörbare Befehle funktionieren. Wieso? Ist doch totaler Quatsch!

Harold 08.09.2017, 22:25 Uhr

Es hat bisher keiner daran gedacht, es kostet Geld & Ressourcen, es zu ändern… Kein Wunder ;-)

Antworten Melden

Antworten Melden

Marc 07.09.2017, 17:52 Uhr

Krasser Scheiß!

Tim 07.09.2017, 17:55 Uhr

Einfache Lösung: Mikro digital auf den Frequenzbereich beschränken und fertig. Dramaqueens Hurra

wolfissimo 07.09.2017, 18:58 Uhr

Hier werden Nichtlinearitäten in der Mikrofonschaltung ausgenutzt, das heißt das Mikrofon liefert die Sprache in ihrer ursprünglichen Frequenz an den signalverarbeitenden Chip weiter. Siehe das Abstract im verlinkten PDF. Da kann man hinterher mit einem Filter nichts mehr machen. Funktioniert ähnlich wie die Demodulation bei einem AM-Radio.

Antworten Melden

Antworten Melden

silent hunter 07.09.2017, 18:15 Uhr

Fledermäuse und Wale müssen demnächst Siri testen!

Baumtreter 07.09.2017, 18:21 Uhr

Klasse! Und bei mir reagiert die Dame noch nicht mal wenn ich Sir anbrülle :)

Mark 08.09.2017, 06:06 Uhr

you made my day :D

Antworten Melden

Antworten Melden
traum 08.09.2017, 12:06 Uhr

Dito! Was mache ich falsch? Die Erkennung von Hey Siri und die ganzen Behfehle werden sehr sehr schlecht erkannt. Ich rede Hochdeutsch klar und deutlich. Alexa versteht jedes Wort zu 99,99% aber Siri würde ich grad mal 10% sagen. Das hey Siri Kalibrieren bringt was…. aber nur eine ganz kurze Zeit, oder wenn der Raum anders klingt.

Antworten Melden

Antworten Melden
Olga 08.09.2017, 12:19 Uhr

Wie, die reagiert auch, wenn ich sie nur anspreche? Bei mir ist immer ein Doppelklick notwendig. Sie mir hat sie zu 100% NICHT auf Sprache reagiert. Deshalb habe ich das zwischenzeitlich auch aufgegeben. :-(

Antworten Melden

Antworten Melden

Solman_Admin 08.09.2017, 09:45 Uhr

kann mir kurz jemand erklären warum siri aktiv wird obwohl es ja dann nicht meine Stimme ist? Das versteh ich grade nicht …

kamo 08.09.2017, 20:04 Uhr

Jeder darf mit deiner Siri sprechen.

Antworten Melden

Antworten Melden

Qualle 08.09.2017, 10:39 Uhr

Vielleicht fehlt mir ja gerade die kriminelle Kreativität – aber wo liegt eigentlich das Problem, wenn jemand durch nicht hörbare Signale mein Siri aktiviert? Wofür würde sich jemand den Aufwand machen? Ist das mehr als ein lustiger Streich?

Spaminator 08.09.2017, 10:50 Uhr

Rein theoretisch ist es so möglich deine Handynummer zu bekommen:

„Hey Siri, schreibe eine Nachricht an 0156-1234567: Test“, 5 Sek. warten, „Ja“.

Somit schickt Siri eine Nachricht an die Nummer.

Antworten Melden

Antworten Melden

Qualle 08.09.2017, 11:05 Uhr

Hmm – aber mit der Einschränkung dass ich dies mitbekomme – z. B. durch die Reaktion von Siri die ja dann laut und im hörbaren Bereich nachfragt, ob die Nachricht gesendet werden soll – und dass die Nachricht gespeichert bleibt und ich so nachvollziehen kann, wer diese erhalten hat… lohnt sich da der Aufwand wirklich?
michi 08.09.2017, 11:16 Uhr

Sehe das ähnlich, Gefahr im Alltag besteht wohl nicht, trozdem finde ich es gut das soetwas getestet wird, schließlich wollen wir sichere Geräte, und wo Potenzial zur Kriminalität liegt werden Menschen gerne kreativ. Dennoch kein Grund zur Sorge meiner Meinung nach :)
Markus 08.09.2017, 12:13 Uhr

@Qualle . . . das stimmt so nicht, z.b. kann die Siri auf der Applewatch bis heute NICHT antworten . . . Punkt.

…nur beim iPhone/ iPad kann man einschalten das die Siri’s antworten ;-)
9xKlug 09.09.2017, 12:14 Uhr

Das ist mal ein sinnvoller Kommentar.
Ob dieser Anwendungsfall Sinn macht mag ich nicht beurteilen, aber damit die Automatikfunktionen auszunutzen, was ja die Kernaussage ist, wäre schon eine Gefahr.

DolphinAttack im Video

Lautlos aktiviert: Siri-Angriff im nicht hörbaren Bereich

Redet mit. Seid nett zueinander! Antworten abbrechen