Wie funktionieren LLMs? Ein Einblick in große Sprachmuster
In diesem Blogbeitrag erklären KI-Experten die Komponenten von LLMs (Large Language Models).
So funktioniert ein LLM: In 4 Schritten zum Ergebnis
Die großartigen Sprachmuster, die wir heute kennen, sind nur die Spitze des Eisbergs. In der Geschichte der künstlichen Intelligenz wurden Sprachmodelle – Modelle zur Lösung sprachbezogener Probleme (Übersetzung, Klassifikation, Textgenerierung) – stets mit Techniken entwickelt, die nicht auf neuronalen Netzen beruhten (z. B. Hidden-Markov-Modelle). Heute leben wir im Zeitalter der Transformatormodelle (Ta in GPT): neuronale Netzwerkmodelle, die auf dem „Aufmerksamkeits“-Mechanismus basieren.
Grundsätzlich lässt sich das Large Language Model (LLM) in vier Hauptteile bzw. Funktionen unterteilen:
- Tokenisierung (Tokenizer)
- einfügen (Einfügung)
- Berechnung der Wahrscheinlichkeit des nächsten Tokens (die Ankündigung)
- Exit-Selektionsstrategien (manchmal Dekodierung angerufen).
Tokenisierung: Vom Text zum Token
Der erste Teil, die Tokenisierung, besteht darin, einen Text in kleinere Teile zu unterteilen. Es ist für den Menschen ganz natürlich, Wörter als Ausdrücke zu verwenden. Es gibt verschiedene Tokenisierungstechniken, von einzelnen Zeichen über mehrere Zeichen („n-grams“, Unterwörter) bis hin zu Wörtern. Die Wahl der Tokenisierungstechnik ist ein Kompromiss zwischen zwei wichtigen Parametern. Dabei wird zum einen die Gesamtzahl der Token berücksichtigt. Wenn wir nur ASCII-Zeichen verwenden würden, würden wir 128 Token erhalten. Mit englischen Wörtern wären das etwa 200.000 Token. Es könnte mehr auf Deutsch geben. Andererseits wird der Inhalt der semantischen Informationen berücksichtigt. Einzelne Zeichen enthalten im Vergleich zu Wörtern nicht viele Informationen. Aktuelle LLMs sind auf Tokenisierungsmethoden umgestiegen, die Teilwörter verwenden. Beispiele hierfür sind Byte-Paar-Kodierung, Chunk-of-Word, Unigram und Chunk-of-Sentence.
Verkapselung: Vom Token zum Vektor
Der zweite Teil, die Einbettung, ist die Abbildung von Token in Vektoren. Obwohl die Forschung zur Worteinbettung schon früher begann, ist word2vec (2013) eine der ersten bekannten Einbettungstechniken. Dies ist ein Schlüsselelement, das es Analysetechniken (z. B. neuronalen Netzen) ermöglicht, mit Text zu arbeiten. Einbettungen werden typischerweise so berechnet, dass zwei semantisch ähnliche Token einen ähnlichen Vektor bilden. Beispielsweise wendet die BPEmb-Kapselungstechnik die Endowing-Tokenisierung von Bytepaaren auf Wikipedia-Artikel in verschiedenen Sprachen an und verwendet GloVe, um Vektoren mit semantischen Informationen zu generieren. In der Transformers-Architektur werden Token nicht nur basierend auf ihrer Semantik, sondern auch basierend auf ihrer Position im Satz (sogenannte Codierungsposition) in Vektoren eingefügt.
Der Kern des LLM: die Ankündigung des nächsten Tokens
Der dritte Teil ist die Berechnung der Wahrscheinlichkeit des nächsten Tokens. Das ist das Herzstück von LLMs und der Grund, warum sie so großartig sind. Obwohl im Prinzip jede Vorhersagetechnik funktionieren würde (hier könnte auch Random Forest verwendet werden), verwenden alle aktuellen LLMs neuronale Netze und die meisten (bisher) die Transformer-Architektur. Die Wahl der Architektur hängt von der Fähigkeit ab, lange Eingaben (Kontext genannt) zu erfassen, viele Daten mit möglichst geringem Rechenaufwand zu trainieren und so gute Ergebnisse wie möglich zu erzielen.
Dekodierung: von der Token-Wahrscheinlichkeit bis zum Text (hoffentlich lesbar).
Nachdem das Modell die Wahrscheinlichkeit aller möglichen Token berechnet hat, muss eine Entscheidung darüber getroffen werden, welche Token ausgegeben werden sollen. Die Dekodierungsstrategie kann einfach (z. B. Greedy Search: Wählen Sie immer den wahrscheinlichsten Token aus oder Top-K-Sampling: Wählen Sie aus den meisten k Token aus) oder komplexer (z. B. Beam Search: Wählen Sie aus den wahrscheinlichsten Token-Sequenzen oder Contrastive Search aus): die Wahrscheinlichkeit des Tokens im Vergleich zu seiner Ähnlichkeit mit der Kontextgewichtung).
Ausbildung mit ausreichenden Daten und Anpassungen
Heutige LLMs werden zunächst anhand eines großen und vielfältigen Datensatzes vorab trainiert. Ziel ist es, ein umfassendes Verständnis und Wissen der Sprache zu erlangen. Das ist sehr rechenintensiv. Anschließend werden die Modelle darauf trainiert, den Anweisungen genauer zu folgen. Dies wird als Befehlsoptimierung bezeichnet. Schließlich können diese Modelle bei Bedarf für bestimmte Aufgaben feinabgestimmt werden.
Unser Fazit: Zu wissen, wie ein LLM funktioniert, hilft!
LLMs entwickeln sich rasant weiter. Es werden ständig neue Architekturen und Einbettungen entwickelt und evaluiert. Das Verständnis ihres Innenlebens ist hilfreich, da es bei der Entwicklung von Anwendungen und der Auswahl von LLMs hilfreich ist.
Weitere Blogbeiträge zu generativer KI und großen Sprachmodellen:
Wir helfen Ihnen, Open-Source-LLMs erfolgreich in Ihrem Unternehmen einzusetzen!
Unser Data Science Team bietet Unterstützung zu folgenden Themen:
- Auswahl an Modellen
- Wie das Modell funktioniert
- Wie integriere ich große Open-Source-Sprachmuster in meine Anwendungen?
- Wie kann ich Open-Source-Large-Language-Patterns verwenden, um Unternehmensdaten besser zugänglich zu machen (z. B. mithilfe von Retrieval Augmented Generation (RAG))?
- Wie kann ich Open-Source-LLMs für meine spezifischen Anwendungsfälle oder Daten anpassen (z. B. Anpassung mit LoRA)?
- Wie kann ich große Open-Source-Sprachmodelle für deutsche Anwendungen oder Code- und Software-Engineering nutzen?
- Wie kann ich große Sprachmuster für meinen Anwendungsfall bewerten?
Bieten Sie an, unsere Lösung im PDF-Format mitzunehmen: