Wie funktionieren LLMs?  Ein Einblick in große Sprachmuster
5 mins read

Wie funktionieren LLMs? Ein Einblick in große Sprachmuster


In diesem Blogbeitrag erklären KI-Experten die Komponenten von LLMs (Large Language Models).

So funktioniert ein LLM: In 4 Schritten zum Ergebnis

Die großartigen Sprachmuster, die wir heute kennen, sind nur die Spitze des Eisbergs. In der Geschichte der künstlichen Intelligenz wurden Sprachmodelle – Modelle zur Lösung sprachbezogener Probleme (Übersetzung, Klassifikation, Textgenerierung) – stets mit Techniken entwickelt, die nicht auf neuronalen Netzen beruhten (z. B. Hidden-Markov-Modelle). Heute leben wir im Zeitalter der Transformatormodelle (Ta in GPT): neuronale Netzwerkmodelle, die auf dem „Aufmerksamkeits“-Mechanismus basieren.
Grundsätzlich lässt sich das Large Language Model (LLM) in vier Hauptteile bzw. Funktionen unterteilen:

  1. Tokenisierung (Tokenizer)
  2. einfügen (Einfügung)
  3. Berechnung der Wahrscheinlichkeit des nächsten Tokens (die Ankündigung)
  4. Exit-Selektionsstrategien (manchmal Dekodierung angerufen).

Tokenisierung: Vom Text zum Token

Der erste Teil, die Tokenisierung, besteht darin, einen Text in kleinere Teile zu unterteilen. Es ist für den Menschen ganz natürlich, Wörter als Ausdrücke zu verwenden. Es gibt verschiedene Tokenisierungstechniken, von einzelnen Zeichen über mehrere Zeichen („n-grams“, Unterwörter) bis hin zu Wörtern. Die Wahl der Tokenisierungstechnik ist ein Kompromiss zwischen zwei wichtigen Parametern. Dabei wird zum einen die Gesamtzahl der Token berücksichtigt. Wenn wir nur ASCII-Zeichen verwenden würden, würden wir 128 Token erhalten. Mit englischen Wörtern wären das etwa 200.000 Token. Es könnte mehr auf Deutsch geben. Andererseits wird der Inhalt der semantischen Informationen berücksichtigt. Einzelne Zeichen enthalten im Vergleich zu Wörtern nicht viele Informationen. Aktuelle LLMs sind auf Tokenisierungsmethoden umgestiegen, die Teilwörter verwenden. Beispiele hierfür sind Byte-Paar-Kodierung, Chunk-of-Word, Unigram und Chunk-of-Sentence.

So funktioniert LLM: Ein Transformatormodell wandelt die Eingabe in Token um und führt dann gleichzeitig mathematische Gleichungen aus, um die Beziehungen zwischen den Token zu bestimmen.  - Ein Beispiel für die Tokenisierung des Satzes: "Die Kfz-Haftpflichtversicherung ist eine Pflichtversicherung für jedes Auto, um auf der Straße fahren zu dürfen."
Ein Beispiel für Tokenisierung (hergestellt mit

Verkapselung: Vom Token zum Vektor

Der zweite Teil, die Einbettung, ist die Abbildung von Token in Vektoren. Obwohl die Forschung zur Worteinbettung schon früher begann, ist word2vec (2013) eine der ersten bekannten Einbettungstechniken. Dies ist ein Schlüsselelement, das es Analysetechniken (z. B. neuronalen Netzen) ermöglicht, mit Text zu arbeiten. Einbettungen werden typischerweise so berechnet, dass zwei semantisch ähnliche Token einen ähnlichen Vektor bilden. Beispielsweise wendet die BPEmb-Kapselungstechnik die Endowing-Tokenisierung von Bytepaaren auf Wikipedia-Artikel in verschiedenen Sprachen an und verwendet GloVe, um Vektoren mit semantischen Informationen zu generieren. In der Transformers-Architektur werden Token nicht nur basierend auf ihrer Semantik, sondern auch basierend auf ihrer Position im Satz (sogenannte Codierungsposition) in Vektoren eingefügt.

Wie funktionieren LLMs?  2D-Projektion von mit GloVe erstellten WortvektorenWie funktionieren LLMs?  2D-Projektion von mit GloVe erstellten Wortvektoren
2D-Projektion von mit GloVe erstellten Wortvektoren (basierend auf selbst generiertem:

Der Kern des LLM: die Ankündigung des nächsten Tokens

Der dritte Teil ist die Berechnung der Wahrscheinlichkeit des nächsten Tokens. Das ist das Herzstück von LLMs und der Grund, warum sie so großartig sind. Obwohl im Prinzip jede Vorhersagetechnik funktionieren würde (hier könnte auch Random Forest verwendet werden), verwenden alle aktuellen LLMs neuronale Netze und die meisten (bisher) die Transformer-Architektur. Die Wahl der Architektur hängt von der Fähigkeit ab, lange Eingaben (Kontext genannt) zu erfassen, viele Daten mit möglichst geringem Rechenaufwand zu trainieren und so gute Ergebnisse wie möglich zu erzielen.

Dekodierung: von der Token-Wahrscheinlichkeit bis zum Text (hoffentlich lesbar).

Nachdem das Modell die Wahrscheinlichkeit aller möglichen Token berechnet hat, muss eine Entscheidung darüber getroffen werden, welche Token ausgegeben werden sollen. Die Dekodierungsstrategie kann einfach (z. B. Greedy Search: Wählen Sie immer den wahrscheinlichsten Token aus oder Top-K-Sampling: Wählen Sie aus den meisten k Token aus) oder komplexer (z. B. Beam Search: Wählen Sie aus den wahrscheinlichsten Token-Sequenzen oder Contrastive Search aus): die Wahrscheinlichkeit des Tokens im Vergleich zu seiner Ähnlichkeit mit der Kontextgewichtung).

Funktionsweise von LLMs: Beam-Search-Dekodierungsstrategie – Die Ausgabe von LLM ist höchstwahrscheinlich eine Folge von TokenSo funktionieren LLMs: Beam-Search-Dekodierungsstrategie – Die Ausgabe von LLM ist wahrscheinlich eine Folge von Token
Beam-Search-Dekodierungsstrategie: Die Ausgabe von LLM ist eine Folge von Token, die am wahrscheinlichsten ist (Bildquelle).

Ausbildung mit ausreichenden Daten und Anpassungen

Heutige LLMs werden zunächst anhand eines großen und vielfältigen Datensatzes vorab trainiert. Ziel ist es, ein umfassendes Verständnis und Wissen der Sprache zu erlangen. Das ist sehr rechenintensiv. Anschließend werden die Modelle darauf trainiert, den Anweisungen genauer zu folgen. Dies wird als Befehlsoptimierung bezeichnet. Schließlich können diese Modelle bei Bedarf für bestimmte Aufgaben feinabgestimmt werden.

Unser Fazit: Zu wissen, wie ein LLM funktioniert, hilft!

LLMs entwickeln sich rasant weiter. Es werden ständig neue Architekturen und Einbettungen entwickelt und evaluiert. Das Verständnis ihres Innenlebens ist hilfreich, da es bei der Entwicklung von Anwendungen und der Auswahl von LLMs hilfreich ist.

Weitere Blogbeiträge zu generativer KI und großen Sprachmodellen:

Wir helfen Ihnen, Open-Source-LLMs erfolgreich in Ihrem Unternehmen einzusetzen!

Unser Data Science Team bietet Unterstützung zu folgenden Themen:

  • Auswahl an Modellen
  • Wie das Modell funktioniert
  • Wie integriere ich große Open-Source-Sprachmuster in meine Anwendungen?
  • Wie kann ich Open-Source-Large-Language-Patterns verwenden, um Unternehmensdaten besser zugänglich zu machen (z. B. mithilfe von Retrieval Augmented Generation (RAG))?
  • Wie kann ich Open-Source-LLMs für meine spezifischen Anwendungsfälle oder Daten anpassen (z. B. Anpassung mit LoRA)?
  • Wie kann ich große Open-Source-Sprachmodelle für deutsche Anwendungen oder Code- und Software-Engineering nutzen?
  • Wie kann ich große Sprachmuster für meinen Anwendungsfall bewerten?

Bieten Sie an, unsere Lösung im PDF-Format mitzunehmen:



technische Probleme auf

Leave a Reply

Your email address will not be published. Required fields are marked *