KI-Grundlagen

Transformer erklärt: Wie ChatGPT Texte versteht

Hinter GPT, Llama und Gemini steckt dieselbe Architektur von 2017: der Transformer. Wie Self-Attention Bedeutung aus Kontext berechnet und was das für den Einsatz im Unternehmen heißt.

7 Min. LesezeitAutor: Martin TomczakAktualisiert: 04.07.2026

Abstrakte Darstellung von Self-Attention: leuchtende Verbindungslinien zwischen Wort-Tokens einer Textzeile

Was ist ein Transformer?

Der Transformer ist die Netzarchitektur hinter praktisch allen modernen Sprachmodellen: GPT von OpenAI, Llama von Meta, Gemini von Google. Vorgestellt wurde sie 2017 im Forschungspapier „Attention Is All You Need". Die Kernidee heißt Self-Attention: Jedes Wortstück einer Eingabe kann auf alle anderen gleichzeitig schauen und daraus seine Bedeutung im Kontext ableiten. Ältere Architekturen arbeiteten Texte Wort für Wort ab; der Transformer verarbeitet die ganze Sequenz parallel. Das Arbeitsprinzip darüber ist verblüffend schlicht: Das Modell sagt immer nur das wahrscheinlichste nächste Token voraus, ein Wort oder Wortteil, und baut so Texte Stück für Stück auf.

Wer versteht, wie diese Maschine arbeitet, kann Sprachmodelle realistisch einschätzen: was sie leisten, warum sie schnell trainierbar wurden und warum sie Fakten erfinden können. Dieser Beitrag erklärt die Architektur ohne Formeln, von der Zerlegung des Texts bis zur Aufmerksamkeit, und zieht am Ende die Konsequenzen für den Unternehmenseinsatz. Als Anschauungsmodell dient wie im interaktiven Transformer Explainer das kleine GPT-2 mit 124 Millionen Parametern: längst nicht mehr Stand der Technik, aber nach denselben Bauprinzipien konstruiert wie die aktuellen Modelle. Stand: Juli 2026.

Wie wird aus Text etwas, womit ein Modell rechnen kann?

Ein neuronales Netz versteht nur Zahlen. Deshalb durchläuft jede Eingabe drei Vorbereitungsschritte. Zuerst zerlegt die Tokenisierung den Text in kleine Einheiten: ganze Wörter oder Wortteile, die Tokens. Häufige Wörter bekommen ein eigenes Token, seltenere werden zerlegt; „Lesen" etwa kann in „Les" und „en" zerfallen. Das Vokabular steht vor dem Training fest; bei GPT-2 umfasst es 50.257 verschiedene Tokens.

Danach wird jedes Token durch ein Embedding ersetzt, einen hochdimensionalen Zahlenvektor, der seine Bedeutung repräsentiert. Das Bemerkenswerte daran: Bedeutungsähnliche Wörter liegen in diesem Vektorraum nahe beieinander. Zuletzt kommt die Positionskodierung dazu, denn durch die parallele Verarbeitung kennt der Transformer von sich aus keine Reihenfolge. Ohne diese Information wären „Der Hund jagt die Katze" und „Die Katze jagt den Hund" für das Modell identisch.

Wie funktioniert Self-Attention?

Self-Attention ist das Herzstück der Architektur und beantwortet für jedes Token die Frage: Welche anderen Tokens im Satz sind für meine Bedeutung gerade relevant? Dafür erzeugt das Modell für jedes Token drei Vektoren. Der Query-Vektor ist die Suchanfrage eines Tokens nach relevanter Information. Der Key-Vektor ist sein Angebotsschild, das anzeigt, welche Information es anderen liefern kann. Der Value-Vektor trägt den eigentlichen Inhalt.

Aus dem Skalarprodukt von Query und Key entsteht ein Attention-Score: ein Maß dafür, wie viel Aufmerksamkeit ein Token einem anderen schenkt. Die Scores werden skaliert, per Softmax in Gewichte umgerechnet und bestimmen dann, mit welchem Anteil die Value-Vektoren der anderen Tokens in die neue, kontextabhängige Repräsentation einfließen. Bei textgenerierenden Modellen sorgt zusätzlich eine Maske dafür, dass kein Token in die Zukunft schauen kann; das Modell soll das nächste Wort ja vorhersagen, nicht ablesen.

Der Effekt lässt sich am Wort „Bank" greifen. In „Ich sitze auf der Bank im Park" zieht das Wort seine Bedeutung aus „sitze" und „Park"; in „Die Bank prüft den Kredit" aus „prüft" und „Kredit". Ein statisches Wörterbuch müsste sich festlegen. Self-Attention berechnet die Bedeutung je Satz neu.

Was passiert nach der Aufmerksamkeit?

Self-Attention läuft nicht einmal, sondern vielfach parallel. In der sogenannten Multi-Head-Attention arbeiten mehrere Aufmerksamkeits-Köpfe nebeneinander, und jeder kann sich auf andere Beziehungen konzentrieren: einer auf Satzbau, einer auf Bedeutung, einer auf Positionen. Danach verfeinert ein kleines vorwärtsgerichtetes Netz (MLP) die Repräsentation jedes Tokens. Dieses Duo aus Attention und MLP bildet einen Transformer-Block, und davon werden viele übereinandergestapelt; jede Ebene versteht den Kontext ein Stück abstrakter.

Zwei unscheinbare Helfer halten das Ganze stabil. Die Layer-Normalisierung glättet die Zahlenwerte zwischen den Schritten, damit das Training nicht aus dem Ruder läuft. Dropout schaltet beim Training zufällig Verbindungen ab, damit sich das Modell nicht an einzelne Muster klammert; GPT-2 nutzt es noch, neuere Sprachmodelle verzichten wegen ihrer riesigen Trainingsdatenmengen oft darauf.

Am Ende der Kette steht die Ausgabe: Für jedes der 50.257 Vokabular-Tokens berechnet das Modell eine Wahrscheinlichkeit, das nächste zu sein. Aus dieser Verteilung wird das nächste Token gewählt, an die Eingabe angehängt, und der gesamte Durchlauf beginnt von vorn. Token für Token entsteht so die Antwort, die im Chat wie aus einem Guss wirkt.

Warum hat der Transformer RNNs abgelöst?

Vor 2017 waren rekurrente neuronale Netze (RNNs) der Standard für Text. Sie verarbeiten Sequenzen Schritt für Schritt und tragen dabei eine Art Gedächtnis über das bisher Gelesene mit; die LSTM-Variante erweitert dieses Gedächtnis, wie Google Cloud in seiner Architekturübersicht beschreibt. Zwei Schwächen wurden ihnen trotzdem zum Verhängnis. Bei langen Texten verblasst der Bezug zu weit entfernten Wörtern; Beziehungen über viele Sätze hinweg gehen verloren. Und die sequentielle Verarbeitung lässt sich schlecht parallelisieren, was das Training auf GPUs ausbremst.

Der Transformer dreht beides um. Self-Attention verbindet jedes Token direkt mit jedem anderen, egal wie weit sie auseinanderliegen. Und weil die ganze Sequenz gleichzeitig verarbeitet wird, skaliert das Training mit moderner Hardware. Erst diese Eigenschaft machte es wirtschaftlich, Modelle auf riesigen Textmengen zu trainieren, und ebnete den Weg von GPT-2 zu den heutigen Systemen. Die Architektur blieb dabei nicht auf Sprache beschränkt: Dasselbe Prinzip arbeitet inzwischen in Audio-Generierung, Bilderkennung und der Vorhersage von Proteinstrukturen.

Was folgt daraus für den Einsatz im Unternehmen?

Die wichtigste Konsequenz steckt im Arbeitsprinzip. Ein Transformer sagt das statistisch wahrscheinlichste nächste Token voraus; ein Wahrheitsbegriff ist in der Architektur nicht vorgesehen. Plausibel klingende, aber falsche Aussagen sind damit kein Betriebsunfall, sondern eine Eigenschaft des Verfahrens. Prüfen Sie Ausgaben mit Faktenbezug deshalb immer gegen eine Quelle, oder bauen Sie die Quellenprüfung gleich in das System ein. Für den Unternehmenseinsatz heißt das: Verlassen Sie sich nicht auf das Trainingswissen des Modells, sondern geben Sie ihm Ihre Fakten zur Laufzeit mit. Wie das mit Retrieval-Augmented Generation aussieht, zeigt der Beitrag über Agentic RAG.

Die Embedding-Mechanik nutze ich dabei in jedem RAG-Projekt selbst: Dokument-Abschnitte werden als Vektoren in einer Qdrant-Datenbank abgelegt, und die Suche vergleicht Nähe im Vektorraum. Dasselbe Prinzip, das im Modell Bedeutung abbildet, macht außerhalb des Modells die Suche über Firmendokumente möglich. Praktisch relevant wird die Architektur auch bei der Modellwahl, etwa zwischen Llama 4 und Mistral: Alle Kandidaten sind Transformer, sie unterscheiden sich in Größe, Training und Lizenz. Die Grundlagen-Einordnung dazu liefert KI, Machine Learning, Deep Learning: der Unterschied. Und wenn Sprachmodelle bei Ihnen nicht nur antworten, sondern Aufgaben übernehmen sollen, beginnt das Thema KI-Agenten für Unternehmen. Für die Einordnung Ihres konkreten Anwendungsfalls stehe ich im Erstgespräch bereit.

FAQ

Häufige Fragen

Ist ChatGPT ein Transformer?

Ja. Das GPT in ChatGPT steht für Generative Pre-trained Transformer. Das Modell nutzt die Transformer-Architektur mit Self-Attention und wurde auf großen Textmengen vortrainiert, um jeweils das wahrscheinlichste nächste Token vorherzusagen.

Was ist ein Token?

Ein Token ist die kleinste Einheit, in die ein Sprachmodell Text zerlegt: ein ganzes Wort oder ein Wortteil. Das Vokabular wird vor dem Training festgelegt; GPT-2 arbeitet mit 50.257 Tokens. Auch die Abrechnung der meisten Modell-APIs erfolgt pro Token.

Warum erfinden Sprachmodelle manchmal Fakten?

Weil die Architektur auf die Vorhersage des wahrscheinlichsten nächsten Tokens optimiert ist, nicht auf Wahrheit. Fehlt dem Modell Wissen, erzeugt es trotzdem eine sprachlich plausible Fortsetzung. Abhilfe schafft die Anbindung eigener, geprüfter Quellen zur Laufzeit, etwa über Retrieval-Augmented Generation mit Quellenangabe.

Funktionieren Transformer nur mit Text?

Nein. Die Architektur verarbeitet beliebige Sequenzen und wird neben Text unter anderem für Audio-Generierung, Bilderkennung und die Vorhersage von Proteinstrukturen eingesetzt. Entscheidend ist nur, dass sich die Eingabe in Token-Folgen mit Positionsinformation übersetzen lässt.