Echtbilder statt KI-Fakes
Neuer Ansatz: Apple veröffentlicht Datensatz für KI-Bildbearbeitung
Mit dem jetzt veröffentlichten Datensatz „Pico-Banana-400K“ liefert Apple eine umfangreiche Grundlage für die Entwicklung bildbearbeitender KI-Systeme. Die Sammlung umfasst rund 400.000 Beispiele, in denen jeweils ein Originalbild, eine Bearbeitungsanweisung in natürlicher Sprache sowie die bearbeitete Version enthalten sind.
Im Unterschied zu vielen bisherigen Bilddatensätzen basiert die neue Sammlung nicht auf synthetisch erzeugtem Material, sondern auf realen Fotos aus dem Open-Images-Projekt.
Die Bearbeitungen wurden mithilfe des von Google bereitgestellten KI-Modells „Nano Banana“ erzeugt. Um die Qualität der Resultate sicherzustellen, kam eine automatisierte Prüfinstanz zum Einsatz, die unter anderem beurteilt, wie realistisch und korrekt die Bildveränderungen ausfallen. Nur die hochwertig bewerteten Ergebnisse sind im Hauptdatensatz enthalten, während fehlerhafte Bearbeitungen separat als Trainingsmaterial für Fehlermodellerkennung bereitstehen.
Trainingsdaten für realistische KI-Bearbeitung
Inhaltlich deckt Pico-Banana-400K 35 verschiedene Bearbeitungstypen in acht semantischen Kategorien ab, darunter Objektmanipulation, Lichtverhältnisse, Stilwechsel oder Layoutänderungen. Die Auflösung der Bilder liegt zwischen 512 und 1024 Pixeln. Neben einfachen Einzelschritten enthält der Datensatz auch komplexe Bearbeitungsketten über mehrere Arbeitsschritte hinweg sowie sogenannte Präferenzpaare, mit denen sich gezielt zwischen guten und schlechten Ergebnissen differenzieren lässt.
Für Entwicklerinnen und Entwickler, die sich mit der automatisierten Bildbearbeitung auf Basis von Beschreibungen in natürlicher Sprache beschäftigen, stellt Pico-Banana-400K eine breite und praxisnahe Referenz dar. Auch jenseits universitärer Forschung dürften die Inhalte mittelfristig in konkreten Anwendungsfällen relevant werden.
Ausbau der On-Device-Modelle
Für iPhone-Nutzer ergibt sich aus Apples Forschung ein potenzieller Ausblick auf lokal arbeitende Bildbearbeitungsfunktionen. Die Kombination aus natürlicher Spracheingabe und direkter Umsetzung auf dem Gerät könnte dazu beitragen, Bearbeitungen künftig ohne Cloud-Anbindung durchzuführen.
Bereits heute setzt Apple bei Funktionen wie dem Identitätsschutz oder der Motivfreistellung auf On-Device-Modelle. Datensätze wie Pico-Banana-400K könnten diese Systeme künftig noch vielseitiger und anpassungsfähiger machen.
- PDF-Download: A Large-Scale Dataset for Text-Guided Image Editing


Ja toll. Fast so mitreisend wie die jahrelange Arbeit an einem Gesetzentwurf mit 4000 Seiten der nie umgesetzt wird.
Hä also doch synthetisch generiert?
Nein, das Ausgangsmaterial nicht.