Bevor ein LLM überhaupt genutzt werden kann, muss es trainiert werden.
Dieses Training dauert oft Wochen und funktioniert im Grunde ähnlich wie bei einfacheren Machine‑Learning‑Modellen – nur viel größer, viel komplexer und mit gigantischen Datenmengen.
1. Das Modell bekommt viele Beispiele von Sprache
Es sieht Millionen oder Milliarden Textbeispiele:
Sätze, Dialoge, Erklärungen, technische Texte, Geschichten.
2. Es versucht vorherzusagen, welches Wort als Nächstes kommt
Beispiel:
„Die Sonne geht im …"
→ Das Modell rät: „Westen".
„Die Sonne geht im Westen…"
→ Das Modell rät: unter".
3. Wenn das Modell falsch liegt, wird es korrigiert
Hier passiert das Entscheidende:
Die Software passt winzige Zahlen im Modell an – die Gewichte.
Diese Korrektur heißt Backpropagation.
Ganz einfach erklärt:
So lernt es aus jedem Fehler.
4. Dieser Vorgang wird Milliardenfach wiederholt
Immer wieder:
Tagelang oder wochenlang, auf riesigen Rechenclustern.
5. Am Ende entsteht ein Modell, das Sprache erstaunlich gut beherrscht
Das fertige LLM besteht aus:
Diese Gewichte sind das, was das Modell gelernt hat – nicht als Fakten, sondern als Sprachmuster.
Ein LLM ist im Kern ein mathematischer Motor.
Damit dieser Motor im Alltag funktioniert, entsteht eine intelligente Software‑Umgebung rundherum.
Diese Software sorgt dafür, dass das Modell:
Die API macht das Modell überhaupt erreichbar.
Sie sorgt dafür, dass normale Texteingaben möglich sind und Antworten sauber zurückkommen.
Das Modell kann nur mit Zahlen arbeiten.
Embeddings sind die mathematische Form von Sprache.
Hier passiert die eigentliche Berechnung:
Die Embeddings werden durch Milliarden Gewichte geschickt, bis das Modell das nächste Wort bestimmt.
Die mathematische Ausgabe wird wieder zu lesbarem Text.
Damit Antworten sinnvoll sind, sammelt die Software:
Diese Schicht schützt:
Das Modell kann interne Funktionen aufrufen, z. B.:
Die Software führt diese Funktionen aus und gibt die Ergebnisse zurück.
Eine zentrale Steuerung sorgt dafür, dass:
harmonisch zusammenarbeiten.
Ein LLM wird trainiert, indem es Milliarden Male lernt, das nächste Wort vorherzusagen.
Dabei werden seine Gewichte über Backpropagation immer weiter verbessert.
Nutzbar wird es erst durch die Software drumherum – API, Sicherheit, Kontextlogik und Tools.
Das Modell ist der Motor. Die Software ist das Auto.