Die aktuellen Sprachassistenten wie Siri, Alexa und Google Assistant sind im Vergleich zu den neuesten AI-gestützten Chatbots wie ChatGPT oder Google Bard relativ einfach. Doch wenn die Früchte der jüngsten generativen AI-Blüte in diese Legacy-Assistenten integriert werden, werden sie sicherlich viel interessanter.
Um einen Vorgeschmack auf das zu bekommen, was kommt, habe ich einen experimentellen AI-Sprachhelfer namens vimGPT getestet. Als ich ihn bat, "WIRED zu abonnieren", ging er mit beeindruckender Fähigkeit ans Werk, fand die richtige Webseite und zugriff auf das Online-Formular. Wenn er Zugriff auf meine Kreditkartendaten gehabt hätte, bin ich sicher, dass er es geschafft hätte.
vimGPT ist ein experimentelles Open-Source-Programm, das von Ishan Shah, einem alleinigen Entwickler, gebaut wurde. Es basiert auf GPT-4V, der multimodalen Version von OpenAIs berühmtem Sprachmodell. Durch die Analyse einer Anfrage kann es bestimmen, was zu klicken oder zu tippen ist, viel zuverlässiger als textbasierte Software, die versucht, das Web durch das Entwirren von HTML zu verstehen.
Ruslan Salakhutdinov, ein Professor an der Carnegie Mellon University, der von 2016 bis 2020 als Direktor der AI-Forschung bei Apple tätig war, glaubt, dass Siri und andere Assistenten für ein mächtiges AI-Upgrade anstehen. "Die nächste Evolution wird Agents sein, die nützliche Aufgaben erledigen", sagt Salakhutdinov. "Es wird so viel mehr Auswirkungen haben, wenn ich Siri bitte, etwas zu tun, und es einfach meine Probleme löst."
Salakhutdinov und seine Studenten haben mehrere simulierte Umgebungen entwickelt, die für das Testen und Feinjustieren der Fähigkeiten von AI-Helfern konzipiert sind, die Aufgaben erledigen können.
Ein Beispiel für die Zukunft der Sprachassistenten ist VoiceGPT, eine kostenlose KI-Chatbot-App, die auf der fortschrittlichen GPT-3/4-Technologie basiert. Die App ermöglicht es Benutzern, mit dem KI-Assistenten über Text- oder Spracheingabe zu kommunizieren und schriftliche oder gesprochene Ausgaben zu erhalten, genau wie mit einem Menschen.
VoiceGPT bietet eine umfassende Lösung für Personen mit Seh- oder Legastheniebeeinträchtigungen, die mit herkömmlichen textbasierten Chatbot-Diensten vor Herausforderungen stehen. Mit Spracheingabe- und -ausgabefunktionen wird die Kommunikation mit dem GPT-3/4-Modell viel einfacher.
Die Zukunft der Sprachassistenten wird von AI-gestützten Voice Assistants wie vimGPT und VoiceGPT geprägt sein, die in der Lage sind, komplexe Aufgaben auf dem Web zu erledigen und die Interaktion mit dem Benutzer zu revolutionieren. Wir können uns auf eine Zukunft freuen, in der wir unsere Computer nicht mehr nur durch Klicken und Tippen bedienen, sondern durch natürliche Sprache.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.