NVIDIA erklärt AI Foundation-Modelle (ChatGPT, Stable, ChatRTX)

NVIDIA beschreibt weiterhin detailliert die Entwicklungen im Bereich der künstlichen Intelligenz, die in seinen Grafikkarten und Technologien sehr präsent sind DLSS. Nach einem langen Artikel überAvatar Cloud Engine (AS), kehrt der Hersteller diese Woche zurück Grundlagenmodelle, neuronale Netze, die auf Datenmengen trainiert werden, die eigentliche Grundlage generativer KI.

Ohne weitere Umschweife hier die Präsentation der Stiftungsmodelle von NVIDIA :

Wolkenkratzer stehen auf soliden Fundamenten. Das Gleiche gilt für KI-gestützte Anwendungen.

A Gründungsmodell ist ein neuronales KI-Netzwerk, das auf riesigen Mengen an Rohdaten trainiert wird, normalerweise mit unbeaufsichtigtes Lernen.

Dabei handelt es sich um eine Art künstliches Intelligenzmodell, das darauf trainiert ist, menschenähnliche Sprache zu verstehen und zu erzeugen. Stellen Sie sich vor, Sie geben einem Computer eine riesige Bibliothek mit Büchern zum Lesen und Lernen, damit er den Kontext und die Bedeutung von Wörtern und Sätzen verstehen kann, genau wie ein Mensch.

Die umfassende Wissensbasis und die Fähigkeit eines Basismodells, in natürlicher Sprache zu kommunizieren, machen es für eine Vielzahl von Anwendungen nützlich, darunter Texterstellung und -zusammenfassung, Co-Pilot-Produktion und Computercode-Analyse, Bild- und Videoerstellung sowie Audiotranskription und Text zu Sprache.

ChatGPT, eine der bemerkenswertesten Anwendungen generativer KI, ist ein Chatbot, der auf dem GPT-Kernmodell von OpenAI basiert. GPT-4 ist jetzt in seiner vierten Version ein großes multimodales Modell, das Text oder Bilder aufnehmen und Text- oder Bildantworten generieren kann.

Online-Anwendungen, die auf Basismodellen basieren, greifen in der Regel über ein Rechenzentrum auf die Modelle zu. Aber viele dieser Modelle und die von ihnen betriebenen Anwendungen können jetzt lokal auf PCs und Workstations mit GPU ausgeführt werden Nvidia GeForce Und NVIDIA RTX.

Verwendung von Fundamentvorlagen

Stiftungsmodelle können eine Vielzahl von Funktionen erfüllen, darunter:

Sprachverarbeitung: Text verstehen und erzeugen.
Codegenerierung: Analyse und Debugging von Computercode in vielen Programmiersprachen.
Visuelle Verarbeitung: Bilder analysieren und erzeugen.
Sprache: Text in Sprache umwandeln und von Sprache in Text transkribieren.

Sie können unverändert oder mit zusätzlicher Verfeinerung verwendet werden. Anstatt für jede generative KI-Anwendung ein völlig neues KI-Modell zu trainieren – ein kostspieliges und zeitaufwändiges Unterfangen – verfeinern Benutzer häufig Basismodelle für spezielle Anwendungsfälle.

Die vorab trainierten Basismodelle funktionieren dank Eingabeaufforderungen und Datenextraktionstechniken wie z. B. bemerkenswert gut Generation durch Extraktion erweitert oder RAG (Retrieval-Augmented Generation). Auch die Basismodelle zeichnen sich dadurch aus TransferlernenDas heißt, sie können trainiert werden, eine zweite Aufgabe auszuführen, die mit ihrem ursprünglichen Ziel zusammenhängt.

Beispielsweise kann ein universelles Large Language Model (LLM), das für die Kommunikation mit Menschen entwickelt wurde, als Kundenservice-Chatbot trainiert werden, der in der Lage ist, auf Anfragen mithilfe einer Unternehmenswissensdatenbank zu antworten.

Unternehmen aller Branchen optimieren Kernmodelle, um die beste Leistung aus ihren KI-Anwendungen herauszuholen.

Arten von Fundamententwürfen

Mehr als 100 Fundamententwürfe sind im Einsatz, Tendenz steigend. LLMs und Bildgeneratoren sind die beiden beliebtesten Grundmodelltypen. Die meisten davon können kostenlos – auf jeder Hardware – im Katalog von ausprobiert werdenNVIDIA-API.

LLMs sind Modelle, die natürliche Sprache verstehen und Anfragen beantworten können. Gemma von Google ist ein Beispiel; Es zeichnet sich durch Textverständnis, Transformation und Codegenerierung aus. Auf die Frage nach dem Astronomen Cornelius Gemma bemerkte er, dass seine „Beiträge zur Himmelsnavigation und Astronomie einen erheblichen Einfluss auf den wissenschaftlichen Fortschritt hatten“. Er informierte auch über seine wichtigsten Leistungen, sein Vermächtnis und andere Fakten.

Durch die Ausweitung der Zusammenarbeit Gemma-Modelle, beschleunigt durch NVIDIA TensorRT-LLM auf RTX-GPUs, bietet CodeGemma von Google der Community leistungsstarke und dennoch leichte Codierungsfunktionen. CodeGemma-Modelle sind als vorab trainierte 7B- und 2B-Varianten verfügbar und auf Aufgaben zur Codevervollständigung und -generierung spezialisiert.

Mistral LLM von MistralAI kann Anweisungen befolgen, auf Anfragen reagieren und kreative Texte erstellen. Er wurde eingeladen, eine Variation des Serienschlüsselworts zu verwenden, entschlüsselt, und trug zum Brainstorming des Titels dieses Blogs und des Textes bei, der erklärt, was ein Grundlagenmodell ist.

DER Lama 2 von Meta ist ein hochmodernes LLM, das als Reaktion auf Eingabeaufforderungen Text und Code generiert.

Mistral und Llama 2 sind in der technischen Demo verfügbar NVIDIA ChatRTX, läuft auf RTX-PCs und Workstations. Mit ChatRTX können Benutzer diese Basisvorlagen personalisieren, indem sie sie über RAG mit persönlichen Inhalten (Dokumente, Arztbriefe und andere Daten) verbinden. Es wird beschleunigt durch TensorRT-LLM für schnelle, kontextbezogene Antworten. Und weil es lokal funktioniert, sind die Ergebnisse schnell und sicher.

Bildgeneratoren wie z.B Stabile Diffusion XL Und SDXL Turbo von StabilityAI ermöglichen es Benutzern, atemberaubende und realistische Bilder und Visuals zu erzeugen. Der StabilityAI-Videogenerator, Stabile Videoübertragungverwendet ein generatives Diffusionsmodell, um Videosequenzen mit einem einzelnen Frame als Konditionierungsframe zu synthetisieren.

Multimodale Basismodelle können mehr als eine Art von Daten – etwa Text und Bilder – gleichzeitig verarbeiten, um anspruchsvollere Ergebnisse zu generieren.

Ein multimodales Modell, das sowohl mit Text als auch mit Bildern funktioniert, könnte es Benutzern ermöglichen, ein Bild hochzuladen und Fragen dazu zu stellen. Diese Art von Modellen findet schnell Eingang in reale Anwendungen wie den Kundenservice, wo sie als schnellere und benutzerfreundlichere Versionen herkömmlicher Handbücher dienen können.

Kosmos 2 ist das revolutionäre multimodale Modell von Microsoft, das entwickelt wurde, um die visuellen Elemente von Bildern zu verstehen und zu begründen.

Denken Sie global, führen Sie KI-Modelle lokal aus

GeForce RTX- und NVIDIA RTX-GPUs können Basismodelle lokal ausführen.

Die Ergebnisse sind schnell und sicher. Anstatt sich auf Cloud-basierte Dienste zu verlassen, können Benutzer Anwendungen wie ChatRTX nutzen, um vertrauliche Daten auf ihrem lokalen PC zu verarbeiten, ohne die Daten an Dritte weiterzugeben oder eine Internetverbindung zu benötigen.

Benutzer können aus einem wachsenden Katalog offener Foundation-Modelle auswählen, diese herunterladen und auf ihrer eigenen Hardware ausführen. Dies trägt dazu bei, die Kosten im Vergleich zur Verwendung cloudbasierter Anwendungen und APIs zu senken und Latenz- und Netzwerkkonnektivitätsprobleme zu vermeiden.

Sie können Grafikkarten finden NVIDIA GeForce RTX An Amazonas, Cdiscount Und Dort Fnac.