KI Apps

MiniGPT-4

Website
Screenshot der Startseite von MiniGPT-4
Zusammenfassung mit KI ⊛

Das kürzlich vorgestellte GPT-4 hat beeindruckende Fähigkeiten im Bereich des Vision-Sprach-Verständnisses gezeigt, wie z.B. die direkte Generierung von Websites aus handschriftlichen Texten und die Erkennung humorvoller Elemente in Bildern. Diese Fähigkeiten sind in bisherigen Vision-Sprach-Modellen selten zu finden. Wir glauben, dass der Hauptgrund für die erweiterten Fähigkeiten von GPT-4 in der Verwendung fortschrittlicher großer Sprachmodelle (LLM) liegt.

Um dieses Phänomen zu untersuchen, präsentieren wir MiniGPT-4, das einen gefrorenen visuellen Encoder mit einem gefrorenen fortschrittlichen LLM, Vicuna, mittels einer Projektionsschicht ausrichtet. Unsere Arbeit zeigt, dass die ordnungsgemäße Ausrichtung der visuellen Merkmale mit einem fortschrittlichen LLM viele erweiterte Fähigkeiten von GPT-4 aufweist, wie z.B. die Generierung detaillierter Bildbeschreibungen und die Erstellung von Websites aus handgezeichneten Entwürfen. Darüber hinaus beobachten wir auch andere aufkommende Fähigkeiten in MiniGPT-4, wie z.B. das Schreiben von Geschichten und Gedichten, die von gegebenen Bildern inspiriert sind, oder das Lehren von Benutzern, wie man nach Fotos von Lebensmitteln kocht.

In unserem Experiment fanden wir heraus, dass das Modell, das auf kurzen Bildunterschrift-Paaren trainiert wurde, unnatürliche Sprachausgaben produzierte (z.B. Wiederholungen und Fragmentierung). Um dieses Problem zu lösen, haben wir ein detailliertes Bildbeschreibungs-Dataset in der zweiten Stufe erstellt, um das Modell zu feintunen, was die Zuverlässigkeit der Generierung und die allgemeine Benutzerfreundlichkeit des Modells verbessert hat.

Architektur von MiniGPT-4

MiniGPT-4 besteht aus einem visuellen Encoder mit einem vortrainierten ViT und Q-Former, einer einzelnen linearen Projektionsschicht und einem fortschrittlichen Vicuna-LLM. MiniGPT-4 erfordert nur das Training der linearen Schicht, um die visuellen Merkmale mit Vicuna auszurichten.

Ergebnisse

Unsere Ergebnisse zeigen, dass MiniGPT-4 viele Fähigkeiten von GPT-4 aufweist, wie z.B. die Generierung detaillierter Bildbeschreibungen und die Erstellung von Websites aus handgezeichneten Entwürfen. Darüber hinaus beobachten wir auch andere aufkommende Fähigkeiten in MiniGPT-4, wie z.B. das Schreiben von Geschichten und Gedichten, die von gegebenen Bildern inspiriert sind, oder das Lehren von Benutzern, wie man nach Fotos von Lebensmitteln kocht.

Code und Daten

Unser Code, das vortrainierte Modell und das gesammelte Dataset sind auf unserer Website verfügbar.

Zitat

Wenn Sie MiniGPT-4 in Ihrer Arbeit verwenden, bitten wir Sie, unseren Artikel zu zitieren:

@article{zhu2023minigpt, title={MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models}, author={Zhu, Deyao and Chen, Jun and Shen, Xiaoqian and Li, Xiang and Elhoseiny, Mohamed}, journal={arXiv preprint arXiv:2304.10592}, year={2023} }

Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.