Microsoft hat kürzlich ein neues multimodales KI-Modell namens Kosmos-1 vorgestellt, das in der Lage ist, Bildinhalte zu erfassen und in natürlicher Sprache Fragen zum Dargestellten zu beantworten. Kosmos-1 ist ein großes Sprachmodell (Multimodal Large Language Model, MLLM), das visuelle und sprachliche Fertigkeiten kombiniert.
Kosmos-1 soll in der Lage sein, Bildrätsel zu lösen, bildlich dargestellten Text zu erkennen, visuelle Intelligenztests zu bestehen und natürliche Sprachanweisungen zu befolgen. Das Modell verbindet zwei Modalitäten: natürliche Sprache und die Bildebene, um kontextuelle Verknüpfungen herzustellen.
Die Verbindung mehrerer Modalitäten in einem Modell gilt als Schritt hin zu transformativer Künstlicher Intelligenz, die mit statistischen Methoden zunehmend in Bereiche menschlicher Wahrnehmungsfähigkeit vordringt. Kosmos-1 ist ein Beispiel dafür, wie Computer Vision mit den breit gefächerten Fähigkeiten großer Sprachmodelle kombiniert werden kann, um eine Art Weltmodell zu erstellen.
Kosmos-1 wurde auf web-skalierten multimodalen Corpora trainiert, einschließlich arbiträrer Text- und Bild-Kombinationen, Bild-Beschreibungen und Text-Daten. Das Modell wurde auf verschiedenen Aufgaben getestet, darunter Zero-Shot-, Few-Shot- und Multimodal-Chain-of-Thought-Prompting, ohne Gradient-Updates oder Feintuning.
Die experimentellen Ergebnisse zeigen, dass Kosmos-1 beeindruckende Leistungen auf verschiedenen Aufgaben erzielt, darunter Sprachverständnis, -generierung und OCR-freie NLP, multimodale Dialoge, Bild-Beschreibungen, visuelle Frage-Antwort-Systeme und Bild-Erkennung mit Beschreibungen. Kosmos-1 kann auch von cross-modalen Übertragungen profitieren, d.h. Wissen von Sprache auf Multimodalität und von Multimodalität auf Sprache zu übertragen.
Kosmos-1 ist ein wichtiger Schritt in Richtung einer transformativen Künstlichen Intelligenz, die in der Lage ist, unsere Welt zu verstehen und zu beschreiben. Das Modell hat das Potenzial, in verschiedenen Anwendungen eingesetzt zu werden, von der Bild- und Sprachverarbeitung bis hin zu multimodalen Dialogsystemen und Weltmodellen.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.