Large Language Model
KI-Modell das auf riesigen Textmengen trainiert wurde und Sprache versteht und generiert
Ein Large Language Model (LLM) ist ein KI-System das auf enormen Textmengen trainiert wurde — oft hunderte Milliarden Wörter aus dem Internet, Büchern und wissenschaftlichen Texten.
Das Training befähigt das Modell, statistische Muster in Sprache zu erkennen. Daraus folgt die Fähigkeit, Text zu verstehen, zu vervollständigen, zu übersetzen, zusammenzufassen und zu generieren.
Wie funktioniert ein LLM?
LLMs basieren auf der Transformer-Architektur. Der Kern ist der sogenannte Attention-Mechanismus: Das Modell lernt, welche Wörter in einem Satz besonders relevant füreinander sind — “Der Hund, der bellte, war groß” verknüpft “Hund” und “groß” auch über mehrere Wörter hinweg.
Während des Trainings versucht das Modell immer wieder, das nächste Wort vorherzusagen. Falsche Vorhersagen werden durch Backpropagation korrigiert. Nach Milliarden solcher Korrekturen entstehen interne Repräsentationen von Konzepten, Fakten und Zusammenhängen.
Bekannte LLMs
- GPT-4 / GPT-4o (OpenAI)
- Claude 3.5 / Claude 4 (Anthropic)
- Gemini 1.5 Pro (Google DeepMind)
- Llama 3 (Meta, Open Source)
- DeepSeek V3 (DeepSeek, Open Source)
Grenzen von LLMs
LLMs haben kein echtes Verständnis — sie modellieren Wahrscheinlichkeiten. Das führt zu Halluzinationen: Das Modell erfindet plausibel klingende, aber falsche Fakten. Außerdem endet ihr Wissen am Trainings-Cutoff — neuere Ereignisse kennen sie nicht ohne externe Tools.