CMU-Forscher schlagen GILL vor: eine KI-Methode zur Fusion von LLMs mit Bild-Encoder- und Decoder-Modellen

Nachricht

HeimHeim / Nachricht / CMU-Forscher schlagen GILL vor: eine KI-Methode zur Fusion von LLMs mit Bild-Encoder- und Decoder-Modellen

May 16, 2023

CMU-Forscher schlagen GILL vor: eine KI-Methode zur Fusion von LLMs mit Bild-Encoder- und Decoder-Modellen

Mit der Veröffentlichung des neuen GPT 4 von OpenAI wurde Multimodalität in großen Sprachmodellen eingeführt. Im Gegensatz zur Vorgängerversion GPT 3.5, die nur dazu dient, das bekannte ChatGPT textuell zu nutzen

Mit der Veröffentlichung des neuen GPT 4 von OpenAI wurde Multimodalität in großen Sprachmodellen eingeführt. Im Gegensatz zur Vorgängerversion GPT 3.5, die nur dazu diente, das bekannte ChatGPT Texteingaben zu ermöglichen, akzeptiert das neueste GPT-4 sowohl Texte als auch Bilder als Eingaben. Kürzlich hat ein Forscherteam der Carnegie Mellon University einen Ansatz namens Generating Images with Large Language Models (GILL) vorgeschlagen, der sich auf die Erweiterung multimodaler Sprachmodelle konzentriert, um einige großartige, einzigartige Bilder zu generieren.

Die GILL-Methode ermöglicht die Verarbeitung von Eingaben, die mit Bildern und Text gemischt werden, um Text zu erzeugen, Bilder abzurufen und neue Bilder zu erstellen. GILL erreicht dies, obwohl die Modelle unterschiedliche Text-Encoder verwenden, indem der Ausgabeeinbettungsraum eines eingefrorenen Nur-Text-LLM auf den eines eingefrorenen Bildgenerierungsmodells übertragen wird. Im Gegensatz zu anderen Methoden, die verschachtelte Bild-Text-Daten erfordern, erfolgt die Zuordnung durch die Feinabstimmung einer kleinen Anzahl von Parametern mithilfe von Bild-Beschriftungs-Paarungen.

Das Team hat erwähnt, dass diese Methode große Sprachmodelle für eingefrorenen Text mit bereits trainierten Modellen für die Bildkodierung und -dekodierung kombiniert. Es kann eine breite Palette multimodaler Funktionen bereitstellen, z. B. Bildabruf, einzigartige Bildproduktion und multimodalen Dialog. Dies wurde erreicht, indem die Einbettungsräume der Modalitäten kartiert wurden, um sie zu verschmelzen. GILL arbeitet mit der Konditionierung gemischter Bild- und Texteingaben und erzeugt Ausgaben, die sowohl kohärent als auch lesbar sind.

Diese Methode stellt ein effektives Mapping-Netzwerk bereit, das das LLM auf einem Text-zu-Bild-Generierungsmodell basiert, um eine hervorragende Leistung bei der Bildgenerierung zu erzielen. Dieses Zuordnungsnetzwerk wandelt verborgene Textdarstellungen in den Einbettungsraum der visuellen Modelle um. Dabei nutzt es die leistungsstarken Textdarstellungen des LLM, um ästhetisch konsistente Ergebnisse zu erzeugen.

Mit diesem Ansatz kann das Modell neben der Erstellung neuer Bilder auch Bilder aus einem bestimmten Datensatz abrufen. Das Modell entscheidet zum Zeitpunkt der Schlussfolgerung, ob es ein Bild erzeugen oder erhalten möchte. Um diese Wahl zu treffen, wird ein erlerntes Entscheidungsmodul verwendet, das von den verborgenen Darstellungen des LLM abhängig ist. Dieser Ansatz ist recheneffizient, da er funktioniert, ohne dass das Bilderzeugungsmodell zum Zeitpunkt des Trainings ausgeführt werden muss.

Diese Methode bietet eine bessere Leistung als Baseline-Generierungsmodelle, insbesondere bei Aufgaben, die eine längere und anspruchsvollere Sprache erfordern. Im Vergleich dazu übertrifft GILL die Stable Diffusion-Methode bei der Verarbeitung längerer Texte, einschließlich Dialog und Diskurs. GILL ist bei der dialogbedingten Bildgenerierung leistungsfähiger als nicht-LLM-basierte Generierungsmodelle, profitiert vom multimodalen Kontext und generiert Bilder, die besser zum gegebenen Text passen. Im Gegensatz zu herkömmlichen Text-zu-Bild-Modellen, die nur Texteingaben verarbeiten, kann GILL auch beliebig verschachtelte Bild-Text-Eingaben verarbeiten.

Zusammenfassend lässt sich sagen, dass GILL (Generating Images with Large Language Models) vielversprechend erscheint, da es im Vergleich zu früheren multimodalen Sprachmodellen ein breiteres Spektrum an Fähigkeiten abbildet. Seine Fähigkeit, nicht-LLM-basierte Generierungsmodelle bei verschiedenen Text-zu-Bild-Aufgaben, die die Kontextabhängigkeit messen, zu übertreffen, macht es zu einer leistungsstarken Lösung für multimodale Aufgaben.

Besuche diePapierUndProjektseite.Vergessen Sie nicht, mitzumachenunser 26k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter , wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an[email protected]

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an

Tanya Malhotra studiert im letzten Studienjahr an der University of Petroleum & Energy Studies in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen großes Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.

PapierProjektseite.unser 26k+ ML SubRedditDiscord-KanalE-Mail-Newsletter[email protected]🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an