Kein Jailbreak, keine Apple-Sonderrechte
Beeindruckende Demo: ChatGPT übernimmt die Steuerung des iPhones
Ein persönliches Projekt eines OpenAI-Entwicklers sorgt derzeit als Machbarkeitsstudie für Aufsehen in der iPhone-Community: Mit seinem sogenannten „PhoneAgent“ demonstriert der App-Entwickler Rounak Jain, wie sich ein iPhone mithilfe von ChatGPT nahezu vollständig per Sprache steuern lässt – ganz ohne Zugriff auf nicht-öffentliche Apple-Schnittstellen oder den Umweg über einen Jailbreak.
ChatGPT: Schon jetzt in iOS integriert, allerdings nur als Siri-Notlösung
Die Anwendung basiert ausschließlich auf offiziell verfügbaren Entwicklerwerkzeugen und nutzt die Benutzeroberfläche des Betriebssystems, wie sie auch für UI-Tests in Xcode zur Verfügung steht. Darüber kann der PhoneAgent Inhalte auslesen, auf Schaltflächen tippen, Texteingaben machen oder durch Apps scrollen. Die Kommunikation zwischen App und Testumgebung erfolgt dabei über eine lokale Netzwerkverbindung.
Sprachsteuerung quer durch Apps
Der PhoneAgent verarbeitet Eingaben über Sprache oder Text und kann in mehreren Apps hintereinander Aufgaben ausführen – ähnlich wie ein Nutzer, der sein Gerät aktiv bedient. In einer Demonstration verschickte der virtuelle Assistent unter anderem Selfies mit dazu gedichteten Haikus, aktivierte die Taschenlampe, rief Fahrdienste oder öffnete Anwendungen auf Zuruf. Eine optionale „Always On“-Funktion erkennt Sprachbefehle sogar bei minimierter App im Hintergrund, sofern ein definiertes Schlüsselwort verwendet wird.
Die Umsetzung erfolgt auf Basis des GPT-4.1-Modells von OpenAI, das mithilfe der auslesbaren App-Struktur fundierte Entscheidungen trifft und passende Aktionen einleitet. Ein vollständiges Bild der Benutzeroberfläche erhält das System dabei nicht – dennoch reicht die zugängliche Datenstruktur für viele der typischen iPhone-Aktionen aus.
Perspektive für Apple und OpenAI?
Auch wenn es sich um ein privates Experiment handelt, zeigt das Projekt, welches Potenzial in einer engeren Kooperation zwischen Apple und OpenAI stecken könnte. Theoretisch ließe sich das iPhone mit den vorhandenen Mitteln in einen durchgängigen, sprachgesteuerten Assistenten verwandeln – ganz ohne tiefgreifende Eingriffe in das Betriebssystem.
Der PhoneAgent ist auf dem Code-Portal GitHub öffentlich verfügbar, bei dessen Einsatz gilt jedoch: Alle Inhalte, mit denen der Assistent arbeitet, werden an die OpenAI-Schnittstelle übermittelt.
Wie toll für Menschen mit Einschränkungen.
Ich weiss, dass gerade Apple in dem Bereich auch schon recht viel macht, aber genau so muss die KI genutzt werden, damit sie viel mehr hilft.
Super und einen ganz großen gehobenen Daumen! Respekt!
+ 1.
+1
+1 für alle mit Einschränkungen und die das auch einfach ausprobieren wollen. Richtig nice!
Auch für Menschen ohne Einschränkungen
Wahnsinn. Ernsthaft.
Lustig, dass ein einzelner Entwickler mehr hinbekommt als Apple mit seinen tausenden Mitarbeitern…
Das wirkt tatsächlich so. Denke aber, dass es mehr damit zu tun hat, dass Apple das so nicht will und deshalb an ihrem eigenen Ansatz – welcher ewig hinterherhinkt – festhält. Apple-Arroganz?
Naja. Apple hat die Schnittstellen geschaffen.
Aber ganz sicher nicht so freiwillig! Gäbe es keine Schnittstelle, würde die EU Apple wieder die Ohren langziehen.
Ja das Problem hierbei ist, Open AI hat Chat gpt und Apple das iOS, der Entwickler hat halt beides so eingepflegt, das es funktioniert. Er musste quasi nur Verbindungen schaffen und das war’s. Gute Idee…. natürlich…. genau so sollte es ja auch schon längst steuerbar sein aber wir hängen leider in einem Technik Loch. Kaum bis nichts Neues, keine Innovationen, nichts. Da ist sowas hier wie weit entfernte Zukunft. Man könnte es sich zwar installieren aber wenn Daten irgendwohin gesendet werden?!? Ist die Gefahr groß, dass Passwörter, Fotos, Videos, private Nachrichten gesendet werden und das an jemanden den keiner kennt.
Das wäre genau das richtige für meine gerade erblindende Mutter. Mit 91 Jahren ist sie ziemlich fit im Umgang mit iPhone und Mac (kann man stolz drauf sein!), aber die Sicht lässt eben stark nach …
Das ist dann nicht das Richtige! Sie sollte sich mit Voiceover beschäftigen! Ich weiß, wovon ich rede und habe mich damals mit meinem Restsehvermögen eingearbeitet. Wenn man das System dahinter versteht, kann sie das iPhone genauso gut bedienen wie jeder andere. Man muss sich allerdings damit beschäftigen und einarbeiten und dann nach und nach die Einstellungen durcharbeiten. Anfangs würde ich aber sofort die Stimme auf „Anna Erweitert“ oder „Anna Premium“ umstellen. Dann hört sich das ganze schonmal natürlicher an. Später dann die Ausführlichkeitsstufe zurückstellen, da VO standardmäßig immer und alle Möglichkeiten erklärt, was später nervig ist. Leider ist deine Oma nun schon recht alt und ich befürchte, dass sie deshalb total überfordert sein könnte, aber vielleicht ist deine Oma ja doch „EDV-Fit“ und bekommt das hin…
Meine Mutter erblindet derzeit auch und für sie ist VoiceOver eine komplette Überforderung. Eine rein sprachliche dialogartige Bedienung wäre sehr viel näher an ihrem Nutzungsverhalten.
Genauso ist’s bei meinem fast blinden Vater, obwohl er relativ fit auf iPhone und Mac ist. Leider jedoch schnell ungeduldig.
Hut ab. Ich bewundere das dann können wir gar nicht vorstellen, wie das funktioniert.
Ich wünsche euren Müttern alles Glück der Welt!
Ein indisches Superbrain. Wahnsinn, was der in seiner Freizeit so hinbekommt!
Aber er muss die letzten zwei Sätze vom Prompter ablesen, das beruhigt mich.
Siri sucht noch immer ihre Kinnlade
mal abgesehen von Menschen mit Einschränkungen, was möglich ist wird noch lange nicht in der Öffentlichkeit noch daheim übermässig genutzt, Sprach gesteuerte ist für mich eine Traumblase die an der Realität zerschellen wird, ich will mich nicht im bus mit meinem Sprach Assistenten unterhalten oder im Geschäft fragen überprüf mal den Preis, noch diktiere ich Mails auf der Strasse oder daheim und nerve andere die da noch wohnen. warum soll ich mir den Lichtschalter abgewöhnen ? Dieses ganze Traumschiff KI ist ein Börsen Liebling zum dahin schmelzen in Wahnsinnigen Allmachs Fantasien das das aber in der Wirklichkeit ankommt stell ich mal in Frage …
Selbst wenn ich allein bin find ich mich irgendwie blöd wenn ich mit dem Rechner oder Telefon spreche. Bin da oldschool
Ich verstehe euch total. Ihr seid im gestern gefangen, weil ihr es so nicht kennt und nicht bereit seid, es auszuprobieren.
In fünf Jahren werden wir uns fragen, warum wir jemals Finger benutzt haben. Es wird uns wie Steinzeit vorkommen. Naja, zumindest den jüngeren Menschen, die dieses System dann ganz selbstverständlich nutzen werden.
Aber keine Sorge, es wird immer noch die Möglichkeit geben, eine Tastatur zu nutzen. Genau wie es heute noch Leute gibt, die Zeitung auf Papier lesen, statt im Internet.
Es ist einfach ein natürlicher Wandel von einer Generation zur nächsten. Die meisten werden im vorgeschrittenen Alter nicht mehr das zugrundeliegende Bedienkonzept ändern.
Genau Sven! Falsch zu glauben, dass Apple das nur für uns alte Säcke „baut“. Die junge Generation wird das Ganze völlig normal nutzen und auch wird niemand der jungen Generation dumm gucken, wenn es genutzt wird. Davon mal ab wird das eine Ergänzung zur normalen Handhabung sein.
Dein Statement hat was. Meine Töchter Gen Z sprechen ganz „normal“, also auch umgangssprachlich, mit GPT. Unglaublich wie sich das teilweise anhört. Aber es führt meistens zum Resultat.
Ich nutze daheim längst keinen Lichtschalter mehr und bin auch sonst gern bereit jeden „modernen Blödsinn“ auszuprobieren. Sprachsteuerung im Auto finde ich auch ok. Allerdings glaube auch ich nicht, dass die junge Generation wirklich in der Öffentlichen eMails etc. diktieren werden. Genau genommen ist das nämlich eher ein Rückschritt, quasi die Sekretär*in an der Seite, bereit zum Diktat.
Bis zur Entwicklung einer „gedanklichen“ Schnittstelle wird es aber noch dauern.
Wieso soll die Umwandlung von Sprache zu Text ein Rückschritt sein? Es geht doch nicht um eine Analogie zu einem Sekretariat sondern darum, dass der Text simultan zum gesprochenen Text generiert wird.
Du sollst gar nichts, aber lass doch anderen die Freiheit.
Bei uns sind alle Lichter Smart. Nur im Wohnzimmer und im Schlafzimmer haben wir noch Schalter (Fernbedienung). Du darfst das bei dir aber gern oldschool lassen.
Ich würde mir wünschen, von den HomePods Antworten zu Fragen auf chatGPT-Niveau zu bekommen.
Das ist doch genial fürs Auto !
Das Smartphone, dessen Flashlight am Ende ausgeschaltet wird, sieht nicht nach einem iPhone aus.
Das stimmt. Beim Einschalten ist es noch definitiv ein iPhone. Beim Ausschalten fehlen die 3 Kameralinsen.
Könnte man fast meinen. Ist aber wohl ein Kodierungsartefakt des Videos in der niedrigen Auflösung durch das „geblendet werden“ durch das Flashlight. Stellt man die Auflösung des YT-Videos auf das Maximum (leider 720p möglich), sieht man kurz bevor diese Einblendung ausgeblendet wird, dass die typischen iPhone-Kameralinsen wieder langsam sichtbar werden. Ist also definitiv ein iPhone, und somit nur ein Fehler in der Video-Kodierung
Apple wird sowas mit Sichheit mitdenken, wenn sie das Backend von Siri auf eine andere Architektur umstellen, damit Siri mittels LLM besser wird. Siri war halt für sowas nie vorgesehen. Ein Auto wurde auch zum Autofahren und nicht zum Fliegen konzipiert. Aber wie überall in der Industrie/Wirtschaft. Du schiebst solche grundsätzlichen Überarbeitungen eines integrierten Systems gern so lange weg, in der Hoffnung, dass der Kelch vorrübergeht oder du versprichst dir einen so hohen Output, dass die hohe zeitliche und ressoourcenintensivie Investition als gerechtfertigt angesehen wird. Ich hoffe Apple lernt daraus für die Zukunft.
Das hätte Siri sein können, wenn Tim genug in Forschung und Entwicklung investiert hätte
Die Knalltüten hier im Thread und der Autor dieses Jubelartikels haben offensichtlich noch nie gesehen, was mit Kurzbefehlen alles auf dem iPhone automatisiert werden kann und dann über Siri gesteuert wird. Und Voce-Over kennen sie auch nicht. Das ist genau die Klientel, die bereitwillig sämtliche Daten zu ChatGPT senden würden, inkl. Passwörter. Genau solche gedankenlosen Idioten brauchen OpenAI, Google, Microsoft und Konsorten.
Und Du „Knalltüte“ hast offensichtlich nicht verstanden, was genau hier gemacht wurde. Dass es Shortcuts und VoiceOver gibt, ist klar, dass man damit viel machen kann, ebenfalls. Aber dabei kann man ausschliesslich das tun, was die Apps, die diese Shortcuts bereitstellen, auch an Kontrolle zulassen, und du als Nutzer musst hier haarklein dem System beibringen, was zu tun ist.
Hier wurde aber deutlich mehr gemacht: Hier steuert eine KI die Apps über deren normale UI (wie im Artikel erwähnt, geht das über die nur für Entwickler gedachte Test-API die Xcode anbietet, weswegen diese Demo auch über eine AppStore-App nicht funktionieren würde). Die KI kann hier also ggfs. mehrere Apps selbständig mit einem kurzen Prompt steuern, ohne dass der Nutzer die Einzelheiten selbst kennen und dem System beibringen muss.
Das ist eine komplett andere Liga als Shortcuts und VoiceOver. Aktuell ist das natürlich nur eine Machbarkeitsstudie, und nur durch den „Entwickler-Modus“-Trick möglich.
M. E. geht es hier um eine hochflexible Orchestrierung von Apps bzw. Spezialanwendungen. Für mich ist das sowas wie das Nextlevel von Anwendungen für RPA wie UIPath.
Beeindruckend, durchaus. Aber bin ich der einzige, der darin eher eine „Sicherheitslücke“ sieht? Man stelle sich vor, eine solche KI-App würde auch ohne Nutzerinteraktion auf so einem Weg das Smartphone, mehr oder weniger, unbemerkt steuern können.
Ich bin da deiner Meinung ich versuche schon lange die Leute zu sensibilisieren um ihnen klar zu machen das der alternative App Store dieses auch fördert und Apple in Sachen Sicherheit dann in Zukunft
genauso wie ein Android Gerät funktioniert.
Aber das genau wollen alle ja so…
Seit 2007 haben die Hacker es immer wieder versucht aber nun ist zusammen mit der Alternativen App Store alles möglich.
Und demnächst ist nichts mehr sicher.
Warum Passwörter? Und Gesichtserkennung, Fingerabdruck wenn es mit KI auch so funktioniert.
Schöne neue Welt…
Einmal ja sagen und der Vertrag ist geschlossen und das ja Sagen übernimmt die kI mit deiner Stimme.
Aber ja wir sind glaube ich die einzigen…
(Verschwörungstheoretiker)
Lass die Blinden Vögel machen, kannste eh nicht ändern.
Nein, alternative AppStores sind nicht unsicher, denn hier ist alles genauso technisch abgesichert, wie beim Apple-AppStore. Und Apple hat auch hier die volle Kontrolle, kann jede App lahmlegen, wenn diese sich als MNalware herausstellen sollte. Apple darf sich bei alternativen AppStores zwar nicht inhaltlich einmischen (tut es aber offensichtlich dennoch), technisch überprüft Apple dennoch jede App für alternatiove Stores.
Mach daher bitte nicht Leuten unnötig Angst, insbesondere da Du anscheined nicht wirklich weisst, wie das technisch alles abgesichert ist.
Ich hoffe doch das Apple jetzt noch etwas mehr in Richtung Stimmerkennung macht. Das fehlt mir schon lange aber diese Studie sollte hoffentlich den Startschuss geben.
Nein, du bist sicherlich nicht der einzige. Aber nein, keine Angst, App Store-Apps können das nicht. Diese Demo nutzt Entwicklerwerkzeuge zum App-Testen um genau das zu erreichen. Und als Entwickler hat man ja grundsätzlich mehr Möglichkeiten, damit man überhaupt Apps entwickeln kann. Diverse Einschränkungen sind hier ausgeschaltet (das fängt schon damitan, das Entwickler ja ohne AppStore Apps direkt installieren können müssen)
Also keine Angst, das iOS ist nicht unsicher geworden, nichts davon ist neu, diese Möglichkeiten gibt es schon immer, und sind auch schon immer nur im „Entwickler-Modus“ verfügbar, nicht im AppStore.
Aber wie lange wird Apple noch kostenlos diese App’s prüfen aus den Alternativen…
Wer soll das bezahlen?
Leute, das ganze funktioniert nur wenn man sein iPhone mit einem Mac inkl. Xcode verbindet und aktiviertem Testing-Framework nutzt… und ja es ist beeindruckend aber dieser Testing-Framework verlangsamt das Telefon, reisst erhebliche Sicherheitslücken (also nichts was man in freier Wildbahn nutzen sollte) und benötigt zwingend eine Verbindung. Das ganze ist auch sehr hakelig und eigentlich ein Glücksfall, dass ChatGPT mit den UI-Infos aus dem Testing-Framework doch so gut funktioniert.
Richtigerweise müsste etwas ähnliches in eine eigene API (z.B. mittels Shortcuts) integriert werden aber hier fällt Apple auf die Füsse, dass Shortcuts damals ebenfalls nur hinzugekauft wurde und ähnlich Siri nie richtig in Apple integriert wurde.
Apple muss also erst einmal Shortcuts (wie auch Siri) auf das nächste Level heben bevor die AI hier irgendwie loslegen kann… das dauert, aber wenn es richtig gemacht wird, wäre das wirklich ein tolles System.