Ein persönliches Projekt eines OpenAI-Entwicklers sorgt derzeit als Machbarkeitsstudie für Aufsehen in der iPhone-Community: Mit seinem sogenannten „PhoneAgent“ demonstriert der App-Entwickler Rounak Jain, wie sich ein iPhone mithilfe von ChatGPT nahezu vollständig per Sprache steuern lässt – ganz ohne Zugriff auf nicht-öffentliche Apple-Schnittstellen oder den Umweg über einen Jailbreak.

ChatGPT: Schon jetzt in iOS integriert, allerdings nur als Siri-Notlösung

Die Anwendung basiert ausschließlich auf offiziell verfügbaren Entwicklerwerkzeugen und nutzt die Benutzeroberfläche des Betriebssystems, wie sie auch für UI-Tests in Xcode zur Verfügung steht. Darüber kann der PhoneAgent Inhalte auslesen, auf Schaltflächen tippen, Texteingaben machen oder durch Apps scrollen. Die Kommunikation zwischen App und Testumgebung erfolgt dabei über eine lokale Netzwerkverbindung.

Sprachsteuerung quer durch Apps

Der PhoneAgent verarbeitet Eingaben über Sprache oder Text und kann in mehreren Apps hintereinander Aufgaben ausführen – ähnlich wie ein Nutzer, der sein Gerät aktiv bedient. In einer Demonstration verschickte der virtuelle Assistent unter anderem Selfies mit dazu gedichteten Haikus, aktivierte die Taschenlampe, rief Fahrdienste oder öffnete Anwendungen auf Zuruf. Eine optionale „Always On“-Funktion erkennt Sprachbefehle sogar bei minimierter App im Hintergrund, sofern ein definiertes Schlüsselwort verwendet wird.

Die Umsetzung erfolgt auf Basis des GPT-4.1-Modells von OpenAI, das mithilfe der auslesbaren App-Struktur fundierte Entscheidungen trifft und passende Aktionen einleitet. Ein vollständiges Bild der Benutzeroberfläche erhält das System dabei nicht – dennoch reicht die zugängliche Datenstruktur für viele der typischen iPhone-Aktionen aus.

Perspektive für Apple und OpenAI?

Auch wenn es sich um ein privates Experiment handelt, zeigt das Projekt, welches Potenzial in einer engeren Kooperation zwischen Apple und OpenAI stecken könnte. Theoretisch ließe sich das iPhone mit den vorhandenen Mitteln in einen durchgängigen, sprachgesteuerten Assistenten verwandeln – ganz ohne tiefgreifende Eingriffe in das Betriebssystem.

Der PhoneAgent ist auf dem Code-Portal GitHub öffentlich verfügbar, bei dessen Einsatz gilt jedoch: Alle Inhalte, mit denen der Assistent arbeitet, werden an die OpenAI-Schnittstelle übermittelt.