iphone-ticker.de — Alles zum iPhone. Seit 2007. 21 350 Artikel
DolphinAttack im Video

Lautlos aktiviert: Siri-Angriff im nicht hörbaren Bereich

Artikel auf Google Plus teilen.
24 Kommentare 24

Kennt ihr die Sprachbanane? Falls nicht, könnt ihr hier einen Blick auf das Hörflächen-Schaubild werfen, das die Grundtöne unserer Sprache im Verhältnis zu Pegel und Tonhöhe darstellt.

Hoerflaeche

Viel besser noch als die Faustregel „Menschen hören Töne, derer Frequenz zwischen 20Hz und 20.000Hz liegt“ bildet die Sprachbanane den Lautstärke- und Frequenzbereich ab, in dem gesprochene Sprache am häufigsten zu finden ist. Und was macht die Banane gerade relevant? Dieser Siri-Angriff eines chinesischen Forscher-Teams.

Unter Laborbedingungen ist es sechs Forschern der Zhejiang Universität gelungen, mehrere Sprachassistenz-Systeme – darunter Siri, Alexa und den Google Assistent – mit Sprachkommandos im nicht-hörbaren Bereich zu aktivieren.

Die Forscher, die ihr Experiment als „DolphinAttack“ beschreibe (PDF), haben herkömmliche Sprachbefehle digital manipuliert und diese mit speziellen Frequenz-Effekten versehen, so dass die Sätze in einen Frequenzbereich oberhalb von 20.000Hz moduliert wurden.

Zwar können Menschen die Befehle anschließen nicht mehr wahrnehmen, die in iPhone und Co. verbauten Mikrofone sind allerdings so gut, dass Siri hier nach wie vor anspringt.

In this work, we design a completely inaudible attack, DolphinAttack, that modulates voice commands on ultrasonic carriers (e.g., f > 20 kHz) to achieve inaudibility. By leveraging the nonlinearity of the microphone circuits, the modulated low- frequency audio commands can be successfully demodulated, recov- ered, and more importantly interpreted by the speech recognition systems. We validate DolphinAttack on popular speech recogni- tion systems, including Siri […]

Die Empfehlung der Forscher: Apple, Google und Co. sollten ihre Assistenz-Systeme so konfigurieren, dass Sprachbefehle die außerhalb der Sprachbanane liegen, standardmäßig ignoriert werden.

Donnerstag, 07. Sep 2017, 17:36 Uhr — Nicolas
24 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
Rede mit!
  • Finde ich krass und verstehe auch nicht warum man diese Frequenzbereiche nicht filtert. Irgendwie kann es für die Erkennungsrate ja auch nicht wirklich gut sein, wenn z.b. Etwas Hochfrequentes die Aufnahme stört.

    • Hatte bisher halt einfach niemand auf dem Schirm …

    • Das mit dem Filtern ist nicht so einfach. Auch wenn die Frequenzen nicht mehr als eigenständige Töne hörbar sind, werden Sie dennoch von der Software zur besseren Erkennung und Zuordnung zu den einzelnen Wörtern benötigt (Klarheit der Sprache/Oberwellen). Die Forderung muss sein, zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen

      • > Die Forderung muss sein, zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen

        Darin liegt aber das Problem, siehe mein Beitrag weiter unten. Man muss Mikrofone konstruieren, die Frequenzen > 20 kHz rein akustisch filtern, noch bevor das Signal an die Elektronik gelangt.

      • Und es ist doch sehr einfach das Gerät nennt sich Tiefpassfilter
        Und da die Sprache in keinem Falle in diese Bereiche geht wird dort auch nichts zur Erkennung benötigt.

      • Wenn die Nichtlinearität schon im Elektretmikrofon liegt, ist es dort schon passiert. Dann nützt ein Tiefpassfilter dahinter auch nichts mehr.

        Es scheint aber doch Abhilfe zu geben, siehe Abschnitt 7.1 und vor allem 7.2 im verlinkten PDF. Interessantes Thema …

      • Wie geil ist das denn?! :D
        Gelungenes Experiment würd ich sagen.

        @wolfissimo „[…]zu verhindern, dass nur Befehle zugelassen werden, die im wesentlichen im hörbaren Bereich liegen[…]“
        Du willst also, dass weiterhin dass auch unhörbare Befehle funktionieren. Wieso? Ist doch totaler Quatsch!

    • Es hat bisher keiner daran gedacht, es kostet Geld & Ressourcen, es zu ändern… Kein Wunder ;-)

  • Einfache Lösung: Mikro digital auf den Frequenzbereich beschränken und fertig. Dramaqueens Hurra

    • Hier werden Nichtlinearitäten in der Mikrofonschaltung ausgenutzt, das heißt das Mikrofon liefert die Sprache in ihrer ursprünglichen Frequenz an den signalverarbeitenden Chip weiter. Siehe das Abstract im verlinkten PDF. Da kann man hinterher mit einem Filter nichts mehr machen. Funktioniert ähnlich wie die Demodulation bei einem AM-Radio.

  • Fledermäuse und Wale müssen demnächst Siri testen!

  • Klasse! Und bei mir reagiert die Dame noch nicht mal wenn ich Sir anbrülle :)

    • Dito! Was mache ich falsch? Die Erkennung von Hey Siri und die ganzen Behfehle werden sehr sehr schlecht erkannt. Ich rede Hochdeutsch klar und deutlich. Alexa versteht jedes Wort zu 99,99% aber Siri würde ich grad mal 10% sagen. Das hey Siri Kalibrieren bringt was…. aber nur eine ganz kurze Zeit, oder wenn der Raum anders klingt.

    • Wie, die reagiert auch, wenn ich sie nur anspreche? Bei mir ist immer ein Doppelklick notwendig. Sie mir hat sie zu 100% NICHT auf Sprache reagiert. Deshalb habe ich das zwischenzeitlich auch aufgegeben. :-(

  • kann mir kurz jemand erklären warum siri aktiv wird obwohl es ja dann nicht meine Stimme ist? Das versteh ich grade nicht …

  • Vielleicht fehlt mir ja gerade die kriminelle Kreativität – aber wo liegt eigentlich das Problem, wenn jemand durch nicht hörbare Signale mein Siri aktiviert? Wofür würde sich jemand den Aufwand machen? Ist das mehr als ein lustiger Streich?

    • Rein theoretisch ist es so möglich deine Handynummer zu bekommen:

      „Hey Siri, schreibe eine Nachricht an 0156-1234567: Test“, 5 Sek. warten, „Ja“.

      Somit schickt Siri eine Nachricht an die Nummer.

      • Hmm – aber mit der Einschränkung dass ich dies mitbekomme – z. B. durch die Reaktion von Siri die ja dann laut und im hörbaren Bereich nachfragt, ob die Nachricht gesendet werden soll – und dass die Nachricht gespeichert bleibt und ich so nachvollziehen kann, wer diese erhalten hat… lohnt sich da der Aufwand wirklich?

      • Sehe das ähnlich, Gefahr im Alltag besteht wohl nicht, trozdem finde ich es gut das soetwas getestet wird, schließlich wollen wir sichere Geräte, und wo Potenzial zur Kriminalität liegt werden Menschen gerne kreativ. Dennoch kein Grund zur Sorge meiner Meinung nach :)

      • @Qualle . . . das stimmt so nicht, z.b. kann die Siri auf der Applewatch bis heute NICHT antworten . . . Punkt.

        …nur beim iPhone/ iPad kann man einschalten das die Siri’s antworten ;-)

      • Das ist mal ein sinnvoller Kommentar.
        Ob dieser Anwendungsfall Sinn macht mag ich nicht beurteilen, aber damit die Automatikfunktionen auszunutzen, was ja die Kernaussage ist, wäre schon eine Gefahr.

    Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 21350 Artikel in den vergangenen 3678 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2017 aketo GmbH   ·   Impressum   ·   Datenschutz   ·   Auf dieser Seite werben aketo GmbH Powered by SysEleven