Large Language Model

Was ist ein Large Language Model (LLM)?

‍

Aussprache: [lɑːdʒ ˈlæŋɡwɪdʒ ˈmɒdl]

‍

Wortart und Herkunft

Substantiv, Neutrum; englischer Fachbegriff aus "large" (groß), "language" (Sprache) und "model" (Modell). Der Begriff etablierte sich ab 2018 mit der Veröffentlichung von BERT durch Google und gewann durch GPT-3 (2020) breite Bekanntheit. Die Bezeichnung reflektiert die beispiellose Größe dieser Modelle im Vergleich zu früheren Sprachverarbeitungssystemen.

‍

Kurzdefinition

Ein Large Language Model ist ein auf Deep Learning basierendes Sprachmodell mit typischerweise Milliarden bis Billionen von Parametern, das auf enormen Textkorpora trainiert wurde. LLMs können menschenähnlichen Text verstehen und generieren, komplexe Sprachaufgaben bewältigen und zeigen emergente Fähigkeiten wie logisches Denken, Übersetzung und Programmierung, ohne explizit dafür trainiert worden zu sein.

‍

Ausführliche Erklärung

Large Language Models repräsentieren einen Quantensprung in der Verarbeitung natürlicher Sprache. Ihre Größe ist nicht nur numerisch beeindruckend, sondern führt zu qualitativ neuen Fähigkeiten. Das Phänomen der "Emergenz" beschreibt, wie bestimmte Fähigkeiten erst ab einer kritischen Modellgröße auftreten, ohne explizit trainiert worden zu sein. Ein LLM mit 10 Milliarden Parametern kann plötzlich mathematische Textaufgaben lösen, während kleinere Modelle daran scheitern.

‍

Die Architektur basiert fast ausschließlich auf dem Transformer-Design mit Selbst-Attention-Mechanismen. Diese ermöglichen es, Beziehungen zwischen allen Wörtern in einem Text effizient zu modellieren. Moderne LLMs nutzen Decoder-only (GPT-Familie) oder Encoder-Decoder-Architekturen (T5, BART). Die schiere Größe erfordert Innovationen wie Model Parallelism, wo das Modell über mehrere GPUs verteilt wird, und Mixed Precision Training für Speichereffizienz.

‍

Das Training erfolgt typischerweise in mehreren Phasen. Pre-Training auf riesigen Webkorpora (oft Terabytes von Text) lehrt das Modell Sprachstrukturen und Weltwissen. Dabei lernt es, das nächste Wort vorherzusagen (autoregressive Modellierung) oder maskierte Wörter zu rekonstruieren (masked language modeling). Instruction Tuning verfeinert das Modell für das Befolgen von Anweisungen. RLHF (Reinforcement Learning from Human Feedback) optimiert für Hilfsbereitschaft und Sicherheit.

‍

Die Skalierungsgesetze (Scaling Laws) zeigen eine vorhersagbare Beziehung zwischen Modellgröße, Datenmenge, Rechenleistung und Leistung. Diese Gesetzmäßigkeiten treiben die Entwicklung immer größerer Modelle voran. Gleichzeitig erforschen Techniken wie Quantisierung, Distillation und Sparse Models, wie die Effizienz verbessert werden kann, ohne Leistung einzubüßen.

‍

LLMs haben die KI-Landschaft fundamental verändert. Sie dienen als Grundlage für Chatbots, Schreibassistenten, Programmierhilfen und Suchmaschinen der nächsten Generation. In der Forschung ermöglichen sie neue Ansätze in Biologie, Chemie und Mathematik. Die Fähigkeit zum "In-Context Learning" erlaubt Anpassung an neue Aufgaben ohne zusätzliches Training, nur durch Beispiele im Prompt.

‍

Praktische Beispiele

GPT-4 (OpenAI): Multimodales LLM, das Text und Bilder versteht. Besteht Anwaltsprüfungen, löst komplexe Programmieraufgaben und führt nuancierte Unterhaltungen über philosophische Themen.
Claude 3 (Anthropic): Fokussiert auf Sicherheit und Hilfsbereitschaft, kann Dokumente mit 200.000 Tokens verarbeiten und zeigt starke Fähigkeiten in Analyse und kreativem Schreiben.
PaLM 2 (Google): Multilinguales Modell mit Stärken in Mathematik und Logik, unterstützt über 100 Sprachen und powers Google Bard sowie Workspace-Funktionen.
LLaMA 2 (Meta): Open-Source-Modell, das die Demokratisierung von LLMs vorantreibt und Forschern sowie Entwicklern ermöglicht, eigene Anwendungen zu bauen.
Codex (OpenAI): Spezialisiertes LLM für Programmierung, das GitHub Copilot antreibt und Code in Dutzenden Programmiersprachen generiert.

Technische Details

Architekturkomponenten

Transformer-Blöcke: Multi-Head Attention, Feed-Forward Networks, Layer Normalization
Positional Encoding: Learned Embeddings, Rotary Position Embeddings (RoPE), ALiBi
Tokenizer: BPE, SentencePiece, Unigram, oft mit 30.000-100.000 Token Vokabular
Optimierungen: Flash Attention, Gradient Checkpointing, ZeRO Optimization

Trainingsaspekte

Datenmenge: Billionen von Tokens (CommonCrawl, Bücher, Wikipedia, Code)
Compute: Tausende GPU-Jahre für große Modelle
Hyperparameter: Learning Rate Schedules, Warmup, Weight Decay
Infrastruktur: Distributed Training, Model Parallelism, Pipeline Parallelism

Modellgrößen (Parameter)

GPT-3: 175 Milliarden
PaLM: 540 Milliarden
GPT-4: Geschätzt 1+ Billion
Chinchilla: 70 Milliarden (aber compute-optimal)

Vor- und Nachteile

‍

Vorteile

Vielseitigkeit über unzählige Sprachaufgaben
Zero-Shot und Few-Shot Lernfähigkeiten
Tiefes Sprachverständnis und Kontextualität
Kreative Textgenerierung auf menschlichem Niveau
Mehrsprachigkeit ohne explizites Training
Kontinuierliche Verbesserung durch Skalierung
Breites Weltwissen aus Trainingsdaten

Nachteile

Extreme Trainings- und Betriebskosten
Halluzinationen und Faktenfehler
Inkonsistenz über lange Konversationen
Datenschutz bei sensiblen Informationen
Umweltbelastung durch Energieverbrauch
Schwierige Interpretierbarkeit
Potenzial für Missbrauch und Bias

Synonyme

Große Sprachmodelle, Foundation Language Models, Generative Pre-trained Models, Massive Language Models

‍

Weiterführende Ressourcen

Das Paper "Language Models are Few-Shot Learners" (GPT-3) bietet fundamentale Einblicke. "Scaling Laws for Neural Language Models" erklärt Skalierungsgesetze. Die Stanford-Kurse CS324 und CS224N behandeln LLMs ausführlich. Für praktische Anwendung sind die OpenAI Cookbook und Anthropic's Prompt Engineering Guide wertvoll.

‍

Die Plattform Papers with Code trackt aktuelle Entwicklungen. Für ethische Überlegungen empfiehlt sich "On the Dangers of Stochastic Parrots" von Bender et al.