Die Entscheidung, welches Modell für die Ermittlung der Ausfallwahrscheinlichkeiten gewählt wird, hängt u.a. von seiner Praktikabilität im spezifischen Anwendungsfall und seiner Prognosequalität ab. Die Anwendung künstlicher neuronaler Netze wäre dafür besonders geeignet, wenn sehr viele Parameter vorhanden und die statistische Verteilung der Parameter sowie die Zusammenhänge zwischen den Parametern unbekannt sind (vgl. Werner, S. 3).
Die künstlichen neuronalen Netze sollen die Vorteile von Computern und dem menschlichen Gehirn verknüpfen. Die Schnelligkeit der Computer beim Lösen von Algorithmen wird mit der Fähigkeit des menschlichen Gehirns, Dinge zu erkennen und zu erlernen und dann auch trotz fehlerhaften „Inputs“ die Informationen richtig zu verarbeiten, kombiniert (vgl. Pacelli und Azzollini, S. 105ff.).
Erstmals haben sich im Jahr 1943 Warren McCulloch und Walter Pitts mit einem künstlichen Neuronenmodell beschäftigt. Auf dieser Idee basierend wurden immer bessere Lernalgorithmen und Modelle entwickelt. Bereits 1958 wurde der erste Neurocomputer („Mark I Perceptron“) erfolgreich programmiert. Mit der Entwicklung des Backpropagations-Lernalgorithmus im Jahre 1986 intensivierte sich die Forschung auf diesem Thema und die Anwendbarkeit derartiger Modelle wird kontinuierlich weiterentwickelt (vgl. Kriesel, S. 9ff.).
Das Besondere an neuronalen Netzen ist, dass sie selbstständig lernen und sich anpassen können. Nach einmaliger Programmierung und einem Training mithilfe von Trainingsdaten können sie nicht nur die erlernten, sondern auch ähnliche Aufgaben ohne weitere menschliche Eingriffe lösen. Außerdem können neuronale Netze auch bei unvollständigem oder falschem Input noch korrekte Ergebnisse erzielen (vgl. Kriesel, S. 4).
Diese Eigenschaften machen neuronale Netze interessant für die Anwendung in der Statistik, Wirtschaftswissenschaft – hier u.a. in der Prognose von Aktienkursen oder im Kreditrisikomanagement –, Technik, Medizin und vielen weiteren Gebieten. Ihre Hauptanwendungsgebiete sind die Mustererkennung, bei der z.B. Texte oder Gesichter erkannt oder Daten klassifiziert werden sollen, die Vorhersage – beispielsweise in der Medizin zur Vorhersage von Krankheiten auf Basis der Symptome – sowie die Problemoptimierung (vgl. Strecker und Schwickert 1997, S. 4).
Der Aufbau künstlicher neuronaler Netze basiert auf dem biologischer neuronaler Netze. Künstliche neuronale Netze bestehen aus zahlreichen Neuronen, die in mindestens drei Schichten aufgeteilt sind (siehe Abb. 1):
- die Eingabeschicht,
- eine oder mehrere verdeckte Schichten (Hidden Layers) und
- eine Ausgabeschicht.
Die Neuronen der Eingabeschicht sind die Komponenten des Eingabevektors, der die Signale der Außenwelt (Daten, Muster) in das Netz einspielt, und die Neuronen der letzten Schicht geben Signale an die Außenwelt (Output) ab (vgl. Gouvêa und Gonçalves 2007, S. 15f.).
Künstliche Neuronen bestehen wie ihre biologischen Vorbilder aus einem Zellkörper und mehreren Dendriten (siehe Abb. 2 und 3).
Abb. 1: Aufbau eines künstlichen neuronalen Netzes (Quelle: google.de/wirtschaftslexikon)
Abb. 2: Aufbau eines künstlichen Neurons (Quelle: Michael Baumann 2011, veränderte Abbildung)
Abb. 3: Aufbau eines biologischen Neurons (Quelle: Michael Baumann, 2011)
Wie aus den Abbildungen hervorgeht, sind die Neuronen durch gerichtete Kanten verbunden. Diese Verbindungen sind mit Gewichten versehen, die den Einfluss des Wertes des vorangehenden Neurons auf das betrachtete Neuron spezifiziert. Diese Gewichte werden durch den Gewichtsvektor dargestellt. Je größer der Betrag des Verbindungsgewichts ist, desto stärker beeinflusst das vorangehende Neuron das nachfolgende. Dabei können drei Einflüsse unterschieden werden (vgl. Oberhofer und Zimmerer 1996, S. 8):
- Das Gewicht ist positiv (): Das Neuron übt einen exzitatorischen bzw. erregenden Einfluss auf das Neuron aus.
- Das Gewicht ist negativ (): Das Neuron übt einen inhibitorischen bzw. hemmenden Einfluss auf das Neuron aus.
- Das Gewicht ist Null (: Zwischen den beiden Neuronen existiert keine Verbindung oder es besteht kein Einfluss.
Diesen Gewichten kommt eine zentrale Bedeutung zu, da diese während des Lernprozesses angepasst werden und in ihnen das Wissen eines neuronalen Netzes gespeichert ist (vgl. Oberhofer und Zimmerer 1996, S. 14).
Anhand der Struktur dieser Verbindungen können zwei Netztypen unterschieden werden: Netze ohne Rückkopplung (Feedforward-Netze) – die Informationen werden nur in eine Richtung weitergegeben, es existieren keine Verbindungen, die von einem Neuron wieder zurück zu diesem Neuron führen – und rekkurente Netze, bei denen Rückkopplungen existieren, die von Neuronen einer Schicht zu anderen Neuronen derselben oder einer vorangegangenen Schicht führen (vgl. Gouvêa und Gonçalves 2007, S. 16).
Wie werden nun die Informationen in dem neuronalen Netz weitergegeben?
bezeichne die Komponenten des Eingabevektors und die Verbindungsgewichte zwischen den Neuronen. Die Informationen des Eingangsvektors, die über die Eingabeschicht in das neuronale Netz gelangen, werden mit ihren jeweiligen Gewichtungen an jedem nachfolgenden Neuron zusammengefasst. Dies ergibt an jedem Neuron einen bestimmten Aktivitätslevel (vgl. Oberhofer und Zimmerer 1996, S. 11f.).
Innerhalb des Zellkörpers kann zwischen dem Netzinput und dem Aktivitätslevel unterschieden werden. Der gesamte Input eines Neurons, der Netzinput, berechnet sich aus der Summe aller Inputs, die das Neuron empfängt. Diese wiederum sind abhängig von dem gewichteten Aktivitätslevel des vorangehenden Neurons, wobei das Gewicht der Verbindung zwischen dem sendenden und empfangenden Neuron ist (vgl. Oberhofer und Zimmerer 1996, S. 12):
Der Aktivitätslevel des empfangenden Neurons wird zur Weitergabe an das darauffolgende Neuron mithilfe der Outputfunktion zum Output überführt. Diese Funktion hängt wiederum von einer nicht-linearen Transformationsfunktion und einem bestimmten Schwellenwert ab. Die dafür verwendete Transformationsfunktion soll den Output auf einen Wertebereich zwischen und begrenzen, wofür beispielsweise eine logistische Funktion gewählt werden kann. Durch die Transformation des Aktivitätslevels berechnet sich ein Wert, der mit dem Schwellenwert verglichen wird (vgl. hier und im Folgenden Franke et al. 2004, S. 394ff.):
Den resultierenden Output gibt das sendende Neuron anschließend an jedes seiner nachfolgenden Neuronen in Form des Aktivitätslevels weiter.
Um die Darstellung mit dem Schwellenwert zu vereinfachen, wird oft der Ausdruck des Netzinputs so modifiziert, dass eine neue Variable mit dem Gewicht und den zugehörigen Merkmalswert mit einbezogen werden. Diese neue Verbindung bzw. Variable nennt sich „Bias“ oder „Intercept“. So kann das neuronale Netz auch den Schwellenwert der Neuronen immer wieder anpassen und optimieren. Dadurch gilt folgendes Äquivalent:
Bevor künstliche neuronale Netze selbstständig Anpassungen vornehmen und eigenständig Aufgaben lösen können, werden sie in der Trainingsphase mit dem vorgegebenen Lernmaterial (Trainingsdaten) auf die Aufgabe...