KI-Grundlagen

Wie lernen neuronale Netze? Backpropagation erklärt

Neuronale Netze lernen in vier Schritten: Vorhersage, Fehlermessung, Backpropagation, Gradientenabstieg. Was dahintersteckt und was Datenqualität, Kosten und Modellwahl damit zu tun haben.

6 Min. LesezeitAutor: Martin TomczakAktualisiert: 04.07.2026

Stilisiertes neuronales Netz mit Schichten und rückwärts laufendem Fehlersignal als leuchtender Pfad

Wie lernen neuronale Netze?

Neuronale Netze lernen, indem sie ihre internen Stellschrauben (Gewichte und Bias-Werte) schrittweise so anpassen, dass der Fehler zwischen Vorhersage und tatsächlichem Ergebnis kleiner wird. Der Ablauf besteht aus vier Schritten, die sich tausendfach wiederholen: Erstens schickt das Netz Trainingsdaten durch seine Schichten und erzeugt eine Vorhersage (Vorwärtsdurchlauf). Zweitens misst eine Kostenfunktion, wie weit diese Vorhersage vom Sollwert entfernt liegt. Drittens berechnet die Backpropagation rückwärts durch das Netz, welchen Anteil jedes einzelne Gewicht am Fehler hat. Viertens verschiebt der Gradientenabstieg jedes Gewicht ein Stück in die Richtung, die den Fehler verringert. Danach beginnt der Kreislauf von vorn, so lange, bis sich der Fehler stabilisiert.

Mehr ist es nicht. Kein Verstehen, kein Bewusstsein, sondern iterative Optimierung einer Fehlerfunktion. Genau deshalb lohnt sich der Blick unter die Haube auch für Nicht-Mathematiker: Wer den Mechanismus kennt, versteht, warum Datenqualität über Modellqualität entscheidet, warum Training Geld kostet und wo die Grenzen liegen. Dieser Beitrag erklärt die vier Schritte ohne Formelballast. Stand: Juli 2026.

Woraus besteht ein neuronales Netz?

Aus vielen einfachen Recheneinheiten, den Neuronen, die in Schichten angeordnet sind: einer Eingabeschicht, einer oder mehreren verborgenen Schichten und einer Ausgabeschicht. In einem klassischen Feedforward-Netz ist jedes Neuron mit allen Neuronen der nächsten Schicht verbunden, wie IBM in seiner Backpropagation-Erklärung beschreibt. Der Großteil des Lernens passiert in den verborgenen Schichten.

Jedes Neuron rechnet dabei denkbar simpel: Es bildet die gewichtete Summe seiner Eingänge, addiert einen Bias-Wert und schickt das Ergebnis durch eine nichtlineare Aktivierungsfunktion wie ReLU, Sigmoid oder Tanh. Diese Nichtlinearität ist kein Detail, sondern die Existenzberechtigung tiefer Netze: Ohne sie würden beliebig viele hintereinandergeschaltete Schichten mathematisch zu einer einzigen linearen Funktion zusammenfallen, und das Netz könnte die komplexen Zusammenhänge echter Daten nicht abbilden.

Vor dem Training starten alle Gewichte mit Zufallswerten. Das Netz rät also anfangs. Erst der Lernprozess macht aus dem Rateapparat ein brauchbares Modell.

Schritt 1: Der Vorwärtsdurchlauf erzeugt eine Vorhersage

Ein Trainingsbeispiel wird an die Eingabeschicht angelegt und fließt durch das Netz: Die Ausgaben der einen Schicht sind die Eingaben der nächsten, eine lange Kette verschachtelter Gleichungen. Am Ende steht eine Vorhersage, etwa eine Wahrscheinlichkeit pro Klasse bei einer Bilderkennung. Bei einem untrainierten Netz ist diese Vorhersage in aller Regel falsch. Das ist eingeplant.

Schritt 2: Die Kostenfunktion misst den Fehler

Nach jedem Vorwärtsdurchlauf vergleicht eine Kostenfunktion (auch Verlustfunktion genannt) die Vorhersage mit dem bekannten Sollwert aus den Trainingsdaten. Eine Standardmetrik ist der mittlere quadratische Fehler (MSE), der die quadrierten Abweichungen mittelt. Anschaulich spannt die Kostenfunktion über allen möglichen Gewichtskombinationen eine Fehleroberfläche auf, ein Gebirge aus Bergen und Tälern. Ziel des Trainings ist das tiefste erreichbare Tal.

Schritt 3: Backpropagation verteilt den Fehler rückwärts

Jetzt kommt der namensgebende Kern. Die Backpropagation („Fehlerrückführung") rechnet von der Ausgabeschicht rückwärts zur Eingabeschicht aus, welchen Beitrag jedes Gewicht zum Gesamtfehler geleistet hat. Mathematisch nutzt sie dafür die Kettenregel der Differenzialrechnung und bestimmt für jeden Parameter die partielle Ableitung der Kostenfunktion. Das Ergebnis ist der Gradient: ein Richtungsvektor, der für jedes einzelne Gewicht angibt, in welche Richtung und wie stark es angepasst werden muss.

Die Idee ist übrigens älter, als viele denken. Laut Wikipedia wurden die Grundlagen ab 1960 in der Steuerungstheorie entwickelt, unter anderem von Henry J. Kelley; 1962 publizierte Stuart Dreyfus eine einfachere Herleitung über die Kettenregel. Durchgesetzt hat sich das Verfahren in neuronalen Netzen erst Jahrzehnte später, als Rechenleistung und Datenmengen nachzogen.

Schritt 4: Der Gradientenabstieg passt die Gewichte an

Mit dem Gradienten in der Hand aktualisiert der Gradientenabstieg die Parameter: Jedes Gewicht wird entgegen der Gradientenrichtung verschoben, im Bild des Fehlergebirges also bergab in Richtung des steilsten Abfalls. Wie groß der Schritt ausfällt, bestimmt die Lernrate, ein zentraler Hyperparameter. Zu klein gewählt, dauert das Training quälend lange. Zu groß gewählt, springt das Verfahren über das Tal hinweg, beginnt zu oszillieren oder findet gar keine Lösung. Moderne Trainings nutzen deshalb oft adaptive Lernraten, die im Verlauf kleiner werden.

In der Praxis werden die Gewichte selten nach jedem einzelnen Beispiel und selten erst nach dem ganzen Datensatz angepasst, sondern nach kleinen Datenpaketen (Mini-Batches). Ein kompletter Durchlauf durch alle Trainingsdaten heißt Epoche; trainiert wird über viele Epochen, bis sich die Fehlerquote stabilisiert. Ganz sauber ist das Bergab-Bild übrigens nicht: Die Fehleroberfläche hat viele Täler, und das Verfahren findet oft nur ein lokales Minimum. Für den produktiven Einsatz reicht das in aller Regel.

Wer die Mechanik einmal durchspielen will: Der Beitrag „Wie lernen neuronale Netze?" von statworx rechnet den Ablauf an einem kleinen Beispielnetz vor.

Woran erkennt man, dass das Training fertig ist?

Der naive Blick auf den Trainingsfehler täuscht. Ein Netz kann seine Trainingsdaten schlicht auswendig lernen, inklusive Rauschen und Zufallskorrelationen; die Fachwelt nennt das Overfitting. Im Training sehen die Werte dann glänzend aus, an neuen Daten scheitert das Modell. Deshalb hält man während des Trainings einen Validierungsdatensatz zurück, den das Netz nie zum Lernen zu sehen bekommt. Solange der Fehler auf diesen unberührten Daten weiter sinkt, lernt das Modell echte Zusammenhänge. Beginnt er zu steigen, während der Trainingsfehler weiter fällt, hat das Auswendiglernen begonnen und das Training gehört gestoppt.

Ganz am Ende kommt ein dritter, bis dahin unangetasteter Testdatensatz zum Einsatz. Er simuliert den Ernstfall und liefert die Zahl, die in keiner Anbieter-Präsentation fehlen sollte: die Leistung auf wirklich unbekannten Daten.

Was heißt das für Ihr KI-Projekt?

Drei Konsequenzen halte ich für unterschätzt. Erstens: Das Netz lernt ausschließlich, was in den Trainingsdaten steckt. Fehlerhafte Labels, einseitige Beispiele oder Lücken landen direkt in den Gewichten; keine Architektur der Welt korrigiert schlechte Daten. Zweitens: Lernen heißt Millionen von Vorwärts- und Rückwärtsdurchläufen über große Datenmengen. Deshalb frisst Training GPU-Stunden, und deshalb lohnt ein Blick auf die Kosten von KI im Eigenbetrieb, bevor eigene Trainingspläne entstehen.

Drittens, und das ist meine wichtigste Botschaft aus der Projektpraxis: Sie werden diesen Kreislauf wahrscheinlich nie selbst anstoßen. In meinen Kundenprojekten habe ich noch kein Netz von Grund auf trainiert; mein RAG Starter Kit kommt komplett ohne eigenes Training aus, weil fertige Sprachmodelle das Sprachverständnis mitbringen und das Firmenwissen zur Laufzeit angebunden wird. Wie das funktioniert, zeigt der Beitrag über RAG-Systeme für Unternehmen. Das Verständnis der Trainingsmechanik brauchen Sie trotzdem: Es erklärt, warum Nachtrainieren (Fine-Tuning) teuer ist, warum Modelle veralten und warum ein Anbieter, der „lernt ständig dazu" verspricht, präzise nachfragen verdient. Die Einordnung der Begriffe darüber liefert der Artikel KI, Machine Learning, Deep Learning: der Unterschied, den Weg in die Umsetzung der Leitfaden KI-Integration in bestehende Systeme.

FAQ

Häufige Fragen

Was ist Backpropagation in einem Satz?

Backpropagation ist das Verfahren, das nach jeder Vorhersage rückwärts durch das Netz berechnet, welchen Anteil jedes Gewicht am Fehler hat, damit der Gradientenabstieg die Gewichte gezielt korrigieren kann.

Was ist der Unterschied zwischen Backpropagation und Gradientenabstieg?

Backpropagation liefert die Information, Gradientenabstieg handelt. Die Backpropagation berechnet für jeden Parameter die Fehlerbeiträge (den Gradienten), der Gradientenabstieg nutzt diesen Gradienten, um die Gewichte in Richtung des kleineren Fehlers zu verschieben. Erst das Zusammenspiel beider Verfahren ergibt den Lernprozess.

Warum braucht ein neuronales Netz eine Aktivierungsfunktion?

Weil ohne Nichtlinearität jede noch so tiefe Schichtenfolge mathematisch zu einer einzigen linearen Funktion zusammenfällt. Erst Aktivierungsfunktionen wie ReLU, Sigmoid oder Tanh erlauben es dem Netz, nichtlineare Zusammenhänge zu lernen, wie sie in Sprache, Bildern und realen Geschäftsdaten die Regel sind.

Muss ich als Entscheider die Mathematik dahinter beherrschen?

Nein, die Kettenregel dürfen Sie getrost den Frameworks überlassen. Wichtig sind die Konsequenzen: Modellqualität hängt an Datenqualität, Training kostet Rechenzeit und Geld, und fertige Modelle plus eigene Daten sind für die meisten Anwendungsfälle im Mittelstand der schnellere Weg als eigenes Training.