Kein Jailbreak, keine Apple-Sonderrechte

Beeindruckende Demo: ChatGPT übernimmt die Steuerung des iPhones

Ein persönliches Projekt eines OpenAI-Entwicklers sorgt derzeit als Machbarkeitsstudie für Aufsehen in der iPhone-Community: Mit seinem sogenannten „PhoneAgent“ demonstriert der App-Entwickler Rounak Jain, wie sich ein iPhone mithilfe von ChatGPT nahezu vollständig per Sprache steuern lässt – ganz ohne Zugriff auf nicht-öffentliche Apple-Schnittstellen oder den Umweg über einen Jailbreak.

ChatGPT: Schon jetzt in iOS integriert, allerdings nur als Siri-Notlösung

Die Anwendung basiert ausschließlich auf offiziell verfügbaren Entwicklerwerkzeugen und nutzt die Benutzeroberfläche des Betriebssystems, wie sie auch für UI-Tests in Xcode zur Verfügung steht. Darüber kann der PhoneAgent Inhalte auslesen, auf Schaltflächen tippen, Texteingaben machen oder durch Apps scrollen. Die Kommunikation zwischen App und Testumgebung erfolgt dabei über eine lokale Netzwerkverbindung.

Sprachsteuerung quer durch Apps

Der PhoneAgent verarbeitet Eingaben über Sprache oder Text und kann in mehreren Apps hintereinander Aufgaben ausführen – ähnlich wie ein Nutzer, der sein Gerät aktiv bedient. In einer Demonstration verschickte der virtuelle Assistent unter anderem Selfies mit dazu gedichteten Haikus, aktivierte die Taschenlampe, rief Fahrdienste oder öffnete Anwendungen auf Zuruf. Eine optionale „Always On“-Funktion erkennt Sprachbefehle sogar bei minimierter App im Hintergrund, sofern ein definiertes Schlüsselwort verwendet wird.

Die Umsetzung erfolgt auf Basis des GPT-4.1-Modells von OpenAI, das mithilfe der auslesbaren App-Struktur fundierte Entscheidungen trifft und passende Aktionen einleitet. Ein vollständiges Bild der Benutzeroberfläche erhält das System dabei nicht – dennoch reicht die zugängliche Datenstruktur für viele der typischen iPhone-Aktionen aus.

Perspektive für Apple und OpenAI?

Auch wenn es sich um ein privates Experiment handelt, zeigt das Projekt, welches Potenzial in einer engeren Kooperation zwischen Apple und OpenAI stecken könnte. Theoretisch ließe sich das iPhone mit den vorhandenen Mitteln in einen durchgängigen, sprachgesteuerten Assistenten verwandeln – ganz ohne tiefgreifende Eingriffe in das Betriebssystem.

Der PhoneAgent ist auf dem Code-Portal GitHub öffentlich verfügbar, bei dessen Einsatz gilt jedoch: Alle Inhalte, mit denen der Assistent arbeitet, werden an die OpenAI-Schnittstelle übermittelt.

02. Juni 2025 um 09:00 Uhr von Nicolas Fehler gefunden?

43 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Jan 02.06.2025, 09:03 Uhr

Wie toll für Menschen mit Einschränkungen.
Ich weiss, dass gerade Apple in dem Bereich auch schon recht viel macht, aber genau so muss die KI genutzt werden, damit sie viel mehr hilft.
Super und einen ganz großen gehobenen Daumen! Respekt!

Antworten Melden

Jense 02.06.2025, 09:10 Uhr

+ 1.

Antworten Melden

Antworten Melden
Taurus_86 02.06.2025, 09:31 Uhr

+1

Antworten Melden

Antworten Melden
waldelf 02.06.2025, 09:35 Uhr

+1 für alle mit Einschränkungen und die das auch einfach ausprobieren wollen. Richtig nice!

Antworten Melden

Antworten Melden
Marcel 02.06.2025, 14:08 Uhr

Auch für Menschen ohne Einschränkungen

Antworten Melden

Antworten Melden

CrissGross 02.06.2025, 09:09 Uhr

Wahnsinn. Ernsthaft.

Bo 02.06.2025, 09:10 Uhr

Lustig, dass ein einzelner Entwickler mehr hinbekommt als Apple mit seinen tausenden Mitarbeitern…

Bierbauch 02.06.2025, 09:17 Uhr

Das wirkt tatsächlich so. Denke aber, dass es mehr damit zu tun hat, dass Apple das so nicht will und deshalb an ihrem eigenen Ansatz – welcher ewig hinterherhinkt – festhält. Apple-Arroganz?

Antworten Melden

Antworten Melden
revosback 02.06.2025, 09:17 Uhr

Naja. Apple hat die Schnittstellen geschaffen.

Antworten Melden

Antworten Melden

Bierbauch 02.06.2025, 12:11 Uhr

Aber ganz sicher nicht so freiwillig! Gäbe es keine Schnittstelle, würde die EU Apple wieder die Ohren langziehen.

Ich 02.06.2025, 10:15 Uhr

Ja das Problem hierbei ist, Open AI hat Chat gpt und Apple das iOS, der Entwickler hat halt beides so eingepflegt, das es funktioniert. Er musste quasi nur Verbindungen schaffen und das war’s. Gute Idee…. natürlich…. genau so sollte es ja auch schon längst steuerbar sein aber wir hängen leider in einem Technik Loch. Kaum bis nichts Neues, keine Innovationen, nichts. Da ist sowas hier wie weit entfernte Zukunft. Man könnte es sich zwar installieren aber wenn Daten irgendwohin gesendet werden?!? Ist die Gefahr groß, dass Passwörter, Fotos, Videos, private Nachrichten gesendet werden und das an jemanden den keiner kennt.

Antworten Melden

Antworten Melden

ebi13 02.06.2025, 09:18 Uhr

Das wäre genau das richtige für meine gerade erblindende Mutter. Mit 91 Jahren ist sie ziemlich fit im Umgang mit iPhone und Mac (kann man stolz drauf sein!), aber die Sicht lässt eben stark nach …

Bierbauch 02.06.2025, 10:09 Uhr

Das ist dann nicht das Richtige! Sie sollte sich mit Voiceover beschäftigen! Ich weiß, wovon ich rede und habe mich damals mit meinem Restsehvermögen eingearbeitet. Wenn man das System dahinter versteht, kann sie das iPhone genauso gut bedienen wie jeder andere. Man muss sich allerdings damit beschäftigen und einarbeiten und dann nach und nach die Einstellungen durcharbeiten. Anfangs würde ich aber sofort die Stimme auf „Anna Erweitert“ oder „Anna Premium“ umstellen. Dann hört sich das ganze schonmal natürlicher an. Später dann die Ausführlichkeitsstufe zurückstellen, da VO standardmäßig immer und alle Möglichkeiten erklärt, was später nervig ist. Leider ist deine Oma nun schon recht alt und ich befürchte, dass sie deshalb total überfordert sein könnte, aber vielleicht ist deine Oma ja doch „EDV-Fit“ und bekommt das hin…

Antworten Melden

Antworten Melden

Steff 02.06.2025, 12:28 Uhr

Meine Mutter erblindet derzeit auch und für sie ist VoiceOver eine komplette Überforderung. Eine rein sprachliche dialogartige Bedienung wäre sehr viel näher an ihrem Nutzungsverhalten.
Cicero 02.06.2025, 14:38 Uhr

Genauso ist’s bei meinem fast blinden Vater, obwohl er relativ fit auf iPhone und Mac ist. Leider jedoch schnell ungeduldig.
Hartmut Bachmann 02.06.2025, 23:38 Uhr

Hut ab. Ich bewundere das dann können wir gar nicht vorstellen, wie das funktioniert.

ROP 02.06.2025, 14:01 Uhr

Ich wünsche euren Müttern alles Glück der Welt!

Antworten Melden

Antworten Melden

Ray M. 02.06.2025, 09:19 Uhr

Ein indisches Superbrain. Wahnsinn, was der in seiner Freizeit so hinbekommt!

Aber er muss die letzten zwei Sätze vom Prompter ablesen, das beruhigt mich.

Hill269 02.06.2025, 09:23 Uhr

Siri sucht noch immer ihre Kinnlade

echodeck 02.06.2025, 10:45 Uhr

mal abgesehen von Menschen mit Einschränkungen, was möglich ist wird noch lange nicht in der Öffentlichkeit noch daheim übermässig genutzt, Sprach gesteuerte ist für mich eine Traumblase die an der Realität zerschellen wird, ich will mich nicht im bus mit meinem Sprach Assistenten unterhalten oder im Geschäft fragen überprüf mal den Preis, noch diktiere ich Mails auf der Strasse oder daheim und nerve andere die da noch wohnen. warum soll ich mir den Lichtschalter abgewöhnen ? Dieses ganze Traumschiff KI ist ein Börsen Liebling zum dahin schmelzen in Wahnsinnigen Allmachs Fantasien das das aber in der Wirklichkeit ankommt stell ich mal in Frage …

Helmut 02.06.2025, 11:12 Uhr

Selbst wenn ich allein bin find ich mich irgendwie blöd wenn ich mit dem Rechner oder Telefon spreche. Bin da oldschool

Antworten Melden

Antworten Melden
Sven 02.06.2025, 11:47 Uhr

Ich verstehe euch total. Ihr seid im gestern gefangen, weil ihr es so nicht kennt und nicht bereit seid, es auszuprobieren.

In fünf Jahren werden wir uns fragen, warum wir jemals Finger benutzt haben. Es wird uns wie Steinzeit vorkommen. Naja, zumindest den jüngeren Menschen, die dieses System dann ganz selbstverständlich nutzen werden.

Aber keine Sorge, es wird immer noch die Möglichkeit geben, eine Tastatur zu nutzen. Genau wie es heute noch Leute gibt, die Zeitung auf Papier lesen, statt im Internet.

Es ist einfach ein natürlicher Wandel von einer Generation zur nächsten. Die meisten werden im vorgeschrittenen Alter nicht mehr das zugrundeliegende Bedienkonzept ändern.

Antworten Melden

Antworten Melden

Bierbauch 02.06.2025, 12:18 Uhr

Genau Sven! Falsch zu glauben, dass Apple das nur für uns alte Säcke „baut“. Die junge Generation wird das Ganze völlig normal nutzen und auch wird niemand der jungen Generation dumm gucken, wenn es genutzt wird. Davon mal ab wird das eine Ergänzung zur normalen Handhabung sein.
Heisenboerg 02.06.2025, 12:23 Uhr

Dein Statement hat was. Meine Töchter Gen Z sprechen ganz „normal“, also auch umgangssprachlich, mit GPT. Unglaublich wie sich das teilweise anhört. Aber es führt meistens zum Resultat.
Satyrus 02.06.2025, 21:12 Uhr

Ich nutze daheim längst keinen Lichtschalter mehr und bin auch sonst gern bereit jeden „modernen Blödsinn“ auszuprobieren. Sprachsteuerung im Auto finde ich auch ok. Allerdings glaube auch ich nicht, dass die junge Generation wirklich in der Öffentlichen eMails etc. diktieren werden. Genau genommen ist das nämlich eher ein Rückschritt, quasi die Sekretär*in an der Seite, bereit zum Diktat.
Bis zur Entwicklung einer „gedanklichen“ Schnittstelle wird es aber noch dauern.
Blauhasser 03.06.2025, 06:46 Uhr

Wieso soll die Umwandlung von Sprache zu Text ein Rückschritt sein? Es geht doch nicht um eine Analogie zu einem Sekretariat sondern darum, dass der Text simultan zum gesprochenen Text generiert wird.

Marcel 02.06.2025, 14:12 Uhr

Du sollst gar nichts, aber lass doch anderen die Freiheit.

Bei uns sind alle Lichter Smart. Nur im Wohnzimmer und im Schlafzimmer haben wir noch Schalter (Fernbedienung). Du darfst das bei dir aber gern oldschool lassen.

Ich würde mir wünschen, von den HomePods Antworten zu Fragen auf chatGPT-Niveau zu bekommen.

Antworten Melden

Antworten Melden
MaChristoph 02.06.2025, 19:04 Uhr

Das ist doch genial fürs Auto !

Antworten Melden

Antworten Melden

Holger 02.06.2025, 10:50 Uhr

Das Smartphone, dessen Flashlight am Ende ausgeschaltet wird, sieht nicht nach einem iPhone aus.

Lanope 02.06.2025, 11:55 Uhr

Das stimmt. Beim Einschalten ist es noch definitiv ein iPhone. Beim Ausschalten fehlen die 3 Kameralinsen.

Antworten Melden

Antworten Melden
Gruml 02.06.2025, 14:51 Uhr

Könnte man fast meinen. Ist aber wohl ein Kodierungsartefakt des Videos in der niedrigen Auflösung durch das „geblendet werden“ durch das Flashlight. Stellt man die Auflösung des YT-Videos auf das Maximum (leider 720p möglich), sieht man kurz bevor diese Einblendung ausgeblendet wird, dass die typischen iPhone-Kameralinsen wieder langsam sichtbar werden. Ist also definitiv ein iPhone, und somit nur ein Fehler in der Video-Kodierung

Antworten Melden

Antworten Melden

Maik 02.06.2025, 11:14 Uhr

Apple wird sowas mit Sichheit mitdenken, wenn sie das Backend von Siri auf eine andere Architektur umstellen, damit Siri mittels LLM besser wird. Siri war halt für sowas nie vorgesehen. Ein Auto wurde auch zum Autofahren und nicht zum Fliegen konzipiert. Aber wie überall in der Industrie/Wirtschaft. Du schiebst solche grundsätzlichen Überarbeitungen eines integrierten Systems gern so lange weg, in der Hoffnung, dass der Kelch vorrübergeht oder du versprichst dir einen so hohen Output, dass die hohe zeitliche und ressoourcenintensivie Investition als gerechtfertigt angesehen wird. Ich hoffe Apple lernt daraus für die Zukunft.

David 02.06.2025, 11:25 Uhr

Das hätte Siri sein können, wenn Tim genug in Forschung und Entwicklung investiert hätte

Sebastian Maskov 02.06.2025, 11:58 Uhr

Die Knalltüten hier im Thread und der Autor dieses Jubelartikels haben offensichtlich noch nie gesehen, was mit Kurzbefehlen alles auf dem iPhone automatisiert werden kann und dann über Siri gesteuert wird. Und Voce-Over kennen sie auch nicht. Das ist genau die Klientel, die bereitwillig sämtliche Daten zu ChatGPT senden würden, inkl. Passwörter. Genau solche gedankenlosen Idioten brauchen OpenAI, Google, Microsoft und Konsorten.

Gruml 02.06.2025, 14:45 Uhr

Und Du „Knalltüte“ hast offensichtlich nicht verstanden, was genau hier gemacht wurde. Dass es Shortcuts und VoiceOver gibt, ist klar, dass man damit viel machen kann, ebenfalls. Aber dabei kann man ausschliesslich das tun, was die Apps, die diese Shortcuts bereitstellen, auch an Kontrolle zulassen, und du als Nutzer musst hier haarklein dem System beibringen, was zu tun ist.

Hier wurde aber deutlich mehr gemacht: Hier steuert eine KI die Apps über deren normale UI (wie im Artikel erwähnt, geht das über die nur für Entwickler gedachte Test-API die Xcode anbietet, weswegen diese Demo auch über eine AppStore-App nicht funktionieren würde). Die KI kann hier also ggfs. mehrere Apps selbständig mit einem kurzen Prompt steuern, ohne dass der Nutzer die Einzelheiten selbst kennen und dem System beibringen muss.

Das ist eine komplett andere Liga als Shortcuts und VoiceOver. Aktuell ist das natürlich nur eine Machbarkeitsstudie, und nur durch den „Entwickler-Modus“-Trick möglich.

Antworten Melden

Antworten Melden
Blauhasser 03.06.2025, 06:51 Uhr

M. E. geht es hier um eine hochflexible Orchestrierung von Apps bzw. Spezialanwendungen. Für mich ist das sowas wie das Nextlevel von Anwendungen für RPA wie UIPath.

Antworten Melden

Antworten Melden

Gnurf 02.06.2025, 12:47 Uhr

Beeindruckend, durchaus. Aber bin ich der einzige, der darin eher eine „Sicherheitslücke“ sieht? Man stelle sich vor, eine solche KI-App würde auch ohne Nutzerinteraktion auf so einem Weg das Smartphone, mehr oder weniger, unbemerkt steuern können.

Reiner 02.06.2025, 16:11 Uhr

Ich bin da deiner Meinung ich versuche schon lange die Leute zu sensibilisieren um ihnen klar zu machen das der alternative App Store dieses auch fördert und Apple in Sachen Sicherheit dann in Zukunft
genauso wie ein Android Gerät funktioniert.
Aber das genau wollen alle ja so…
Seit 2007 haben die Hacker es immer wieder versucht aber nun ist zusammen mit der Alternativen App Store alles möglich.
Und demnächst ist nichts mehr sicher.
Warum Passwörter? Und Gesichtserkennung, Fingerabdruck wenn es mit KI auch so funktioniert.
Schöne neue Welt…
Einmal ja sagen und der Vertrag ist geschlossen und das ja Sagen übernimmt die kI mit deiner Stimme.
Aber ja wir sind glaube ich die einzigen…
(Verschwörungstheoretiker)
Lass die Blinden Vögel machen, kannste eh nicht ändern.

Antworten Melden

Antworten Melden

Gruml 02.06.2025, 18:36 Uhr

Nein, alternative AppStores sind nicht unsicher, denn hier ist alles genauso technisch abgesichert, wie beim Apple-AppStore. Und Apple hat auch hier die volle Kontrolle, kann jede App lahmlegen, wenn diese sich als MNalware herausstellen sollte. Apple darf sich bei alternativen AppStores zwar nicht inhaltlich einmischen (tut es aber offensichtlich dennoch), technisch überprüft Apple dennoch jede App für alternatiove Stores.

Mach daher bitte nicht Leuten unnötig Angst, insbesondere da Du anscheined nicht wirklich weisst, wie das technisch alles abgesichert ist.

amtht 02.06.2025, 16:15 Uhr

Ich hoffe doch das Apple jetzt noch etwas mehr in Richtung Stimmerkennung macht. Das fehlt mir schon lange aber diese Studie sollte hoffentlich den Startschuss geben.

Antworten Melden

Antworten Melden
Gruml 02.06.2025, 18:31 Uhr

Nein, du bist sicherlich nicht der einzige. Aber nein, keine Angst, App Store-Apps können das nicht. Diese Demo nutzt Entwicklerwerkzeuge zum App-Testen um genau das zu erreichen. Und als Entwickler hat man ja grundsätzlich mehr Möglichkeiten, damit man überhaupt Apps entwickeln kann. Diverse Einschränkungen sind hier ausgeschaltet (das fängt schon damitan, das Entwickler ja ohne AppStore Apps direkt installieren können müssen)

Also keine Angst, das iOS ist nicht unsicher geworden, nichts davon ist neu, diese Möglichkeiten gibt es schon immer, und sind auch schon immer nur im „Entwickler-Modus“ verfügbar, nicht im AppStore.

Antworten Melden

Antworten Melden

Reiner 03.06.2025, 09:58 Uhr

Aber wie lange wird Apple noch kostenlos diese App’s prüfen aus den Alternativen…
Wer soll das bezahlen?

ErikX 02.06.2025, 14:32 Uhr

Leute, das ganze funktioniert nur wenn man sein iPhone mit einem Mac inkl. Xcode verbindet und aktiviertem Testing-Framework nutzt… und ja es ist beeindruckend aber dieser Testing-Framework verlangsamt das Telefon, reisst erhebliche Sicherheitslücken (also nichts was man in freier Wildbahn nutzen sollte) und benötigt zwingend eine Verbindung. Das ganze ist auch sehr hakelig und eigentlich ein Glücksfall, dass ChatGPT mit den UI-Infos aus dem Testing-Framework doch so gut funktioniert.

Richtigerweise müsste etwas ähnliches in eine eigene API (z.B. mittels Shortcuts) integriert werden aber hier fällt Apple auf die Füsse, dass Shortcuts damals ebenfalls nur hinzugekauft wurde und ähnlich Siri nie richtig in Apple integriert wurde.

Apple muss also erst einmal Shortcuts (wie auch Siri) auf das nächste Level heben bevor die AI hier irgendwie loslegen kann… das dauert, aber wenn es richtig gemacht wird, wäre das wirklich ein tolles System.

Kein Jailbreak, keine Apple-Sonderrechte

Beeindruckende Demo: ChatGPT übernimmt die Steuerung des iPhones

ChatGPT: Schon jetzt in iOS integriert, allerdings nur als Siri-Notlösung

Sprachsteuerung quer durch Apps

Perspektive für Apple und OpenAI?

Redet mit. Seid nett zueinander! Antwort abbrechen