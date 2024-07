OpenAI, das Unternehmen hinter dem KI-Chatbot ChatGPT, hat mit der Einführung des neuen, erweiterten Audio-Modus begonnen. Der neue Sprachmodus wird zur Stunde für eine begrenzte Anzahl von ChatGPT Plus-Nutzern bereitgestellt.

Ab Herbst für alle Plus-Nutzer

Die neue Funktion, die OpenAI im Rahmen einer beeindruckenden Demo Anfang Juni vorstellte, soll natürlichere Echtzeit-Gespräche ermöglichen, bei denen Nutzer die KI jederzeit unterbrechen können. Zudem soll der Chatbot in der Lage sein, Emotionen wahrzunehmen und auf diese zu reagieren.

Wie OpenAI in einer Mitteilung auf dem Kurznachrichten-Portal X.com bekanntgegeben hat, werden Nutzer, die an dieser Alpha-Phase teilnehmen, per E-Mail und über eine Nachricht in der mobilen ChatGPT-App informiert. Das Unternehmen plant, den erweiterten Audio-Modus bis zum Herbst schrittweise für alle Plus-Nutzer verfügbar zu machen. Zudem sollen später auch Video- und Bildschirmfreigabe-Funktionen integriert werden.

Seit der ersten Demonstration des erweiterten Sprachmodus arbeitet OpenAI eigenen Angaben zufolge daran, die Sicherheit und Qualität der Sprachunterhaltungen zu verbessern. Dabei wurde die Sprachfähigkeit des Modells GPT-4o mit über 100 externen Testern in 45 verschiedenen Sprachen geprüft.

Sicherheitsbericht kommt im August

Zur Wahrung der Privatsphäre der Nutzer wurde das Modell so trainiert, dass es nur in vier voreingestellten Stimmen sprechen kann. Zusätzlich wurden Systeme entwickelt, die verhindern sollen, dass das Modell in anderen als diesen voreingestellten Stimmen antwortet.

OpenAI plant, Anfang August einen detaillierten Bericht über die Fähigkeiten, Einschränkungen und Sicherheitsbewertungen von GPT-4o zu veröffentlichen.

Der erweiterte Sprachmodus könnte eine wichtige Entwicklung in der Nutzung von KI-gesteuerten Sprachassistenten darstellen und endlich liefern, was Siri, Alexa und der Google Assistent seit Jahren versprechen. Insbesondere durch die Möglichkeit der Echtzeit-Interaktion und emotionaler Reaktionen. Wie sich diese Funktionen in der Praxis bewähren, wird sich im Laufe der weiteren Tests und nach der vollständigen Einführung zeigen.