Diplomarbeit - Konstruktion von NN für Regressionsanalysen - Kapitel 3.2

von Daniel Schwamm (09.11.2000)

3.2 Durchführung eines neurometrischen Modellbildungsprozesses

Bei der Analyse in Kapitel 2 hat sich ergeben, dass neuronale Netzwerke als Modelle interpretiert werden können, die auf einem Kontinuum zwischen parametrischen und nichtparametrischen Modellen liegen. Des Weiteren wurde ausgeführt, dass durch Variation der Anzahl der Parameter des neuronalen Netzwerks ein Kompromiss zwischen Bias und Varianz gefunden werden kann. Mit diesem Zielansatz wird hier ein allgemeiner Prozess zur problemspezifischen Konstruktion von neuronalen Netzwerken eingesetzt (neurometrischer Modellbildungsprozess; vergleiche Abbildung 3.1). Seine Vorgehensweise orientiert sich an dem klassischen Konzept der Modellbildung für statistische Schätzungen, wie es Box und Jenkins (1976) vorgeschlagen haben.

Image165

Abbildung 3.1: Neurometrischer Modellbildungsprozess.
Quelle: Angelehnt an Anders (1995), S. 27.

Die vier Hauptschritte des neurometrischen Modellbildungsprozesses - Identifikation, Spezifikation, Schätzung und Diagnose - werden bei Neurometricus durch ein oder mehrere Module repräsentiert. Thema der nächsten Abschnitte wird die Funktionalität sein, die die Module dem Anwender in jedem Modellierungsschritt anbieten. Die Beschreibung erfolgt weitgehend in der statistischen Terminologie, da diese im Rahmen der vorliegenden Arbeit eine Obermenge der neuroinformatischen Terminologie darstellt.

3.2.1 Identifikation der Daten

Probleme, die im Zusammenhang mit Regressionsmodellen auftreten, müssen bei neuronalen Netzwerken ebenfalls beachtet werden (vergleiche Abschnitt 2.3). Da zum Beispiel beide Modelle auf mathematischen Gleichungen basieren, die einen hohen Komplexitätsgrad annehmen können, reagieren ihre Ergebnisse im hohem Masse empfindlich auf Fehler in den Eingabevariablen. Um diesem als Konditionsproblem bezeichneten Phänomen entgegenzuwirken, ist das zur Verfügung stehende Datenmaterial zu selektieren und einer genauen Analyse zu unterziehen.

3.2.1.1 Auswahl der Daten

Zum Austesten des Verhaltens von statistischen Modellen lassen sich sogenannte Designmatrizen bilden, die Eingabevariablen enthalten, die vom Prüfer deterministisch vorgegeben werden. Die Auswahl der Daten ist in diesem Fall unproblematisch. Bei der Verwendung empirischer Daten treten jedoch zahlreiche kritische Situationen auf, wie die folgende - unvollständige - Aufzählung zeigt:

  1. Multikollinearität: Die unabhängigen Variablen korrelieren zu stark, um eine Analyse ihrer individuellen Effekte zu erlauben.
  2. Fehlende Beobachtungen: Die Ausprägungen einer Variable können nicht immer zu allen Zeitpunkten erhoben werden. In diesem Fall wird bisweilen versucht, den fehlenden Wert künstlich zu berechnen, was wiederum andere Fehlerquellen birgt.
  3. Gruppierte Daten: In der Statistik muss man häufig auf gruppierte Durchschnittswerte einer Variablen zurückgreifen, da nicht immer Einzelbeobachtungen möglich sind. Dadurch wird die Realität jedoch bis zu einem gewissen Grad verzerrt wiedergeben.
  4. Messfehler: Jede Messung der Ausprägung einer (stetigen) Variable ist fehlerbehaftet. In den statistischen Modellen findet dieser Umstand durch die Einführung von Störtermen Berücksichtigung, denen man jedoch gewisse Annahmen unterstellen muss, die nicht immer erfüllt sind (vergleiche Abschnitt 2.3).
  5. Stetige Variablen: Zeitreihen sind natürlicherweise stetig. Aus ihnen sind diskrete Zeitreihen erst zu entwickeln. Dazu wird ein Sample-Schema benutzt, welches die Zeit in gleiche Intervalle einteilt. Die Intervallgrösse ist aber meist nicht frei von menschlicher Willkür.
  6. Indikatoren: Sind Variablen unmessbar geartet, so werden stattdessen ihre Indikatoren erhoben. Dadurch werden aber gezwungenermassen nur Teilaspekte der Realität der Variablen berücksichtigt.
  7. Ausreisser: (Stochastische) Variablen unterliegen bisweilen Schwankungen, die ihrem natürlichem Verhalten zuwiderlaufen. Dies konkretisiert sich in Ausreissern, die vor einer Schätzung nach Möglichkeit auszufiltern sind.
  8. Nichtstationarität: (Stochastische) nichtstationäre Variablen schwanken um keinen Gleichgewichtszustand. In diesem Fall wird den Variablen durch sogenannte Schocks ein Trend vermittelt, der im Lauf der Zeit nicht verloren geht. Dies bedingt Ausreisser in den Residuen einer Schätzung.

In der statistischen Literatur werden verschiedene Verfahren erörtert, um die oben genannten Datenprobleme zu mildern oder ganz zu verhindern. Die Diskussion fällt zum Teil kontrovers aus. Azoff (1994) schlägt zum Beispiel vor, fehlende Beobachtungen durch Interpolation der vorhandenen Beobachtung zu gewinnen, während Greene (1993) darauf hinweist, dass sich in Monte-Carlo-Studien abgezeichnet hat, dass diese Vorgehensweise eher aufwendig als vorteilhaft ist. Es existieren jedoch allgemein anerkannte Methoden, um Probleme in den Daten vor beziehungsweise nach einer Schätzung zu erkennen und zu beheben. Einige von ihnen sind als Funktionen in den Datenidentifikations-Modulen von Neurometricus integriert worden und werden im Folgenden beschrieben.

3.2.1.2 Deskriptive Analyse der Daten

Um sich über die Qualität des zur Verfügung stehenden Datenmaterials zu informieren, kann man sich von Neurometricus wichtige Statistiken (Median, Maximum, Summe, Schiefe, ...) der zur Verfügung stehenden Variablen berechnen lassen. Eine grafische Analyse, die sich daran anschliesst, hilft dem Anwender ebenfalls bei der Identifikation von etwaigen Datenproblemen. Das Zeitreihen-Diagramm in Abbildung 3.2a zeigt beispielsweise eine Variable, die ab der 50. Beobachtung nicht mehr um Null streut, d.h. nichtstationär wird. In Abbildung 3.2b ist ein XY-Streuungs-Diagramm zu sehen, welches verdeutlicht, dass 5 Ausreisser bei 100 Beobachtungen genügen, um die lineare Regressionsgerade zu verzerren. Anhand des in Abbildung 3.2c gegebenen Histogramms erkennt man, dass die betrachtete Variable nicht normalverteilt ist und Ausreisser besitzt.

Image166

(a) Zeitreihen-Diagramm

Image167

(b) XY-Streuungs-Diagramm mit Regressionsgerade

Image168

(c) Histogramm

Abbildung 3.2: Grafische deskriptive Analyse der Daten.

Nichtstationäre Prozesse können auf relativ einfache Weise durch sogenannte Differenzfilter erster (oder höherer) Ordnung in stationäre Prozesse transformiert werden, deren Momente invariant sind, und deren durch Schocks verursachte Trends asymptotisch verschwinden. Dadurch wird verhindert, dass sich gute Approximationen zwischen zwei Variablen alleine aufgrund eines gemeinsamen Zeittrends ergeben.

Ausreisser kann man beseitigen, indem man zum Beispiel nur diejenigen Beobachtungen zulässt, die sich innerhalb der Standardabweichung bewegen, oder indem man die Daten nichtlinear in ein beschränktes Intervall transformiert (Glättung der Daten). Besitzt man vergleichbare Zeitreihen früherer Erhebungen, so kann man die Ausreisser eventuell auch durch dazu adäquate Werte ersetzen.

Zeigt eine Variable nicht die gewünschte Verteilung, so kann sie unter Umständen durch Bildung neuer Klassen oder Hinzunahme zusätzlicher Effekte nachträglich dahin gehend angepasst werden. In einigen Untersuchungen hat es sich beispielsweise als vorteilhaft erwiesen, die abhängigen Variablen mit einem künstlichen Störterm zu versehen, der die für ein Regressionsmodell nötigen Bedingungen erfüllt (vergleiche Abschnitt 2.3).

3.2.1.3 Kollinearitätsanalyse der Daten

Annähernde lineare Abhängigkeiten (Kollinearitäten) zwischen unabhängigen Variablen sind vor einer Schätzung zu verhindern, da sie sich negativ auf die Stabilität ihrer Ergebnisse auswirken. Typische Symptome der (Multi-)Kollinearität sind zum Beispiel signifikante, aber mit unglaubwürdig grossen Standardabweichungen versehene Parameter. Im Fall von exakter linearer Abhängigkeit ist aus mathematischen Gründen überhaupt keine Schätzung möglich; die Kovarianzmatrix der unabhängigen Variablen ist dann singulär Neurometricus beinhaltet mehrere Verfahren, mit denen Kollinearität zwischen den unabhängigen Variablen festgestellt werden kann. Aus Platzgründen werden hier nur die Methoden der Eigenwertberechnung und der grafischen Kollinearitätsanalyse vorgestellt.

Die Korrelationsmatrix wird aus den Beobachtungen der unabhängigen Variablen gebildet. Ihre Komponenten beschreiben, wie stark die Variablen untereinander zusammenhängen. Positive Korrelation zwischen der Variable x1 und der Variable x2 ist zum Beispiel gegeben, wenn bei grösser beziehungsweise kleiner werdenden Werten von x1 auch tendenziell grösser beziehungsweise kleiner werdende Werte von x2 beobachtet werden. Die Eigenvektoren einer Matrix besitzen die Eigenschaft, dass sie orthogonal zueinander sind. Im Falle der Korrelationsmatrix der unabhängigen Variablen liefern sie die Richtung der jeweils grössten Streuung der Beobachtungen der einzelnen Variablen. Multipliziert man sie mit den zugehörigen Eigenwerten, so erhält man die Hauptachsen des sogenannten Eigenraums. Da die Eigenwerte umso grösser ausfallen, je weniger die unabhängigen Variablen untereinander zusammenhängen, sind sie ein geeignetes Kriterium, um Kollinearität feststellen zu können.

Bei der grafischen Kollinearitätsanalyse werden zunächst die n unabhängigen Variablen orthonormalisiert, wodurch ihre Beobachtungsvektoren senkrecht zueinanderstehen und eine Länge von Eins besitzen. Auf Basis der sich daraus ergebenden Korrelationsmatrix werden im nächsten Schritt die Hauptachsen des n-dimensionalen Eigenraums berechnet. In Form von zwei- und dreidimensionalen Kollinearitätsanalyse-Schaubildern lassen sich dann jeweils Untereigenräume grafisch darstellen. Hierbei gilt, dass der Untereigenraum umso besser aufgespannt wird, je unabhängiger die beteiligten Variablen voneinander sind. Abbildung 3.3a zeigt zum Beispiel ein Kollinearitätsanalyse-Schaubild von drei Variablen, die offenbar nicht korreliert sind, da die Hauptachsen des Eigenraums alle gleichlang sind. Im Gegensatz dazu ist in Abbildung 3.3b ein Kollinearitätsanalyse-Schaubild gegeben, dessen Variablen x1 und x2 mit x3 korrelieren, weswegen die x3-Hauptachse des Eigenraums kaum ausgeprägt ist.

Image169

(a) Dreidimensionales Kollinearitätsanalyse-Schaubild
mit voll aufgespanntem Eigenraum

Image170

(b) Dreidimensionales Kollinearitätsanalyse-Schaubild
mit annähernd zweidimensionalem Eigenraum

Abbildung 3.3: Grafische Kollinearitätsanalyse der Daten.

Probleme mit Multikollinearität lassen sich unterbinden, indem die am stärksten korrelierten Variablen von der Betrachtung ausgeschlossen werden. Durch die Reduzierung der Dimension der Eingabevariablen erhält man den positiven Nebeneffekt, dass das zu schätzende Modell weniger Parameter allokiert, wodurch die Varianz der Schätzung abnimmt. Wenn die Eingabevariable aber nicht zu 100% korreliert ist mit einer anderen Eingabevariable und einen signifikanten Erklärungsbeitrag zur Approximation liefern kann, wird durch ihre Entnahme immer auch ein Bias in der Schätzung verursacht.

3.2.1.4 Teilung der Daten

Ein neuronales Netzwerk gilt als generalisierungsfähig, wenn mit seiner Hilfe aus einer ungeschätzten Eingabemenge eine sinnvolle Ausgabemenge generiert werden kann. Um die Leistungsfähigkeit eines geschätzten neuronalen Netzwerks unter realen Bedingungen adäquat beurteilen zu können, muss es mit Beobachtungen überprüft werden, die bei der Schätzung nicht verwendet wurden. Dieses Testverfahren macht es erforderlich, dass das zur Verfügung stehende Datenmaterial auf verschiedene Mengen aufgeteilt wird. In Neurometricus werden insgesamt vier Mengentypen unterschieden:

  1. Trainingsmenge: Die Parameter des neuronalen Netzwerk werden in der Regel ausschliesslich mithilfe dieser Menge geschätzt. Sie lässt sich unterteilen in die Eingabe- und Ausgabemenge, deren Dimension jeweils durch die Anzahl der Eingabe- beziehungsweise Ausgabevariablen definiert ist. Jede Variable wird durch einen Spaltenvektor von n Beobachtungen repräsentiert.
  2. Validierungsmenge (optional): Um während der Schätzung die Generalisierungsfähigkeit des neuronalen Netzwerks überprüfen zu können (und um dadurch gegebenfalls einen Abbruch der Schätzung zu erwirken), wird diese Menge benötigt. Ihre Grösse, d.h. die Anzahl der enthaltenen Beobachtungen, kann vom Benutzer bestimmt werden. Kerling/Poddig (1994) empfehlen 15% der Trainingsmenge.
  3. Prüfmenge (optional): Mithilfe der Prüfmenge testet man die Generalisierungsfähigkeit des neuronalen Netzwerks nach der Schätzung. Ihre Grösse ist optional; 50% der Trainingsmenge schlagen Kerling/Poddig (1994) vor.
  4. Realmenge (optional): Ist ein neuronales Netzwerk geschätzt und geprüft, kann es unter Verwendung von empirischem Datenmaterial praktisch eingesetzt werden. Die Realmenge besteht aus den tatsächlichen Beobachtungen der Eingabevariablen.

Die Aufteilung der originalen Eingabemenge lässt sich durch die Funktionen von Neurometricus auf mehrere Arten realisieren. Im folgenden wird nur die analytische Methode des (erweiterten) Duplex-Verfahrens von Kennard/Stone (1969) und Snee (1977) vorgestellt.

Das Teilungsverfahren muss sicherstellen, dass die mit ihm gebildeten Mengen über ähnliche statistische Eigenschaften verfügen, da den zugehörigen Variablen implizit eine gemeinsame Grundgesamtheit unterstellt wird. Um dieses Ziel zu erreichen, berechnet das Duplex-Verfahren im ersten Schritt die euklidischen Distanzen der orthonormalisierten Zeilenvektoren der Matrix, die die Beobachtungen der Eingabevariablen bilden. Als Spezialfall der Minkowski-Q-Metriken beschreiben die euklidischen Distanzen die geometrischen Abstände der Beobachtungspunkte in einem n-dimensionalen Raum mit kanonischer Basis. Euklidische Distanzen besitzen die Eigenschaft, dass sie transformations- und skaleninvariant sind, d.h sie sind unabhängig von den (verschiedenen) Masseinheiten der Eingabevariablen und ändern sich nicht durch Drehung/Spiegelung des Koordinatensystems. Aus ihnen lässt sich eine sogenannte Distanzmatrix generieren, aus der wiederum sukzessive die am weitesten voneinander entfernten Beobachtungspunkte bestimmt und auf zwei verschiedene Mengen verteilt werden können. Da die statistischen Eigenschaften einer Menge vor allem durch ihre Extrema beeinflusst werden, erfüllt man auf diese Weise das angestrebte Ziel.

3.2.1.5 Varianzanalyse der Neurometricus-Mengen

Wie beschrieben, muss sichergestellt sein, dass die Neurometricus-Mengen derselben Grundgesamtheit entstammen. Das Duplex-Verfahren stellt dies durch eine analytisch-deterministische Berechnungen sicher. Neurometricus bietet dem Anwender jedoch auch einige stochastische Teilungsverfahren an, deren resultierende Mengen mit Hilfe einer einfachen Varianzanalyse auf Ähnlichkeit überprüft werden sollten. Bei diesem Verfahren wird die Nullhypothese "die Mengen verfügen über den gleichen Mittelwert" getestet. Es wird dazu eine Prüfgrösse berechnet, die hypothetisch F-verteilt ist. Erfolgt unter dieser Annahme keine signifikante Ablehnung der Nullhypothese, so können die beteiligten Mengen bzgl. ihres arithmetischen Mittels als aus der gleichen Grundgesamtheit entstammend angenommen werden. Der Anwender sollte die Mengenteilung unter Umständen mehrfach wiederholen, bis dieses Ergebnis erreicht ist. Zu überprüfen sind dabei immer auch die Annahmen, die die einfache Varianzanalyse voraussetzt, um gültige Aussagen treffen zu können: Alle betrachteten Variablen müssen normalverteilt und homoskedastisch sein, d.h. die gleiche Varianz besitzen.

3.2.1.6 Normierung der Daten

Liegen den Beobachtungen der Eingabevariablen verschiedene Masseinheiten zugrunde, so kann dies dazu führen, dass die Variablen mit den grösseren Zahlenwerten unverhältnismässig stark die Ergebnisse der Schätzung beeinflussen. Solche Skalenvarianz kann auch im Zusammenhang mit den Aktivierungsfunktionen der Neuronen zu Problemen führen, selbst wenn deren Definitionsbereich unbegrenzt sein sollte. Bei Verwendung des Tangens hyperbolicus ist beispielsweise darauf zu achten, dass diese Funktion für Eingabevariablen mit Beobachtungen kleiner -3 beziehungsweise grösser +3 nur die Werte -1 beziehungsweise 1 zurückliefert. Durch eine Einschränkung des Definitionsbereichs kann das nichtlineare Transformationspotenzial des Tangens hyperbolicus effizienter genutzt werden.

Neurometricus bietet dem Anwender derzeit zwei Verfahren an, um multivariate Eingabemengen auf einen gemeinsamen numerischen Rang zu transformieren: Die Mittelwert-Varianz-Normierung und die Intervall-Normierung. Ihre jeweilige Wirkung auf die Variablen kann mit den Zeitreihen-Diagrammen von Neurometricus grafisch demonstriert werden (vergleiche Abbildung 3.4).

Image171

(a) Zeitreihen-Diagramm von nichtnormierten Variablen

Image172

(b) Zeitreihen-Diagramm von [-1,1]-Intervall-normierten Variablen

Image173

(c ) Zeitreihen-Diagramm von Mittelwert-Varianz-normierten Variablen

Abbildung 3.4: Normierung der Daten.

Vor der Normierung (vergleiche Abbildung 3.4a) besitzt die Variable x2 einen deutlich grösseren Streuungs- und Wertebereich als die Variable x1. Bei einer nichtlinearen Schätzung (vergleiche Abschnitt 3.2.3) würde dieser Sachverhalt aus den oben genannten Gründen dazu führen, dass der Einfluss von x2 über x1 dominiert. Nach der [-1,1]-Intervall-Normierung (vergleiche Abbildung 3.4b) beziehungsweise Mittelwert-Varianz-Normierung (vergleiche Abbildung 3.4c) befinden sich die Variablen dagegen auf demselben numerischem Rang, weswegen sie zu gleichen Teilen bei der Schätzung berücksichtigt werden.

Durch die Normierung ergeben sich weitere Vorteile, zum Beispiel im Zusammenhang mit den später beschriebenen Gradienten- und Diagnoseverfahren, worauf hier nicht näher eingegangen wird. Zu erwähnen ist jedoch, dass nach einer Normierung der Trainingsmenge immer auch eine Normierung der anderen Mengentypen zu erfolgen hat. Nur so kann die (implizite) Annahme bestehen bleiben, dass alle Mengen der gleichen Grundgesamtheit entstammen. Damit dem neuronalen Netzwerk dabei keine Informationen zugeleitet werden, die es unter realen Bedingungen nicht zur Verfügung hätte, müssen die Normierungsstatistiken der Trainingsmenge (Mittelwerte, Varianzen, Minima und Maxima) jeweils auch die Basis für die Normierung der restlichen Mengen bilden.

3.2.2 Spezifikation des Modells

Die Festlegung der Eigenschaften des neuronalen Netzwerks stellt den zentralen Schritt im neurometrischen Modellbildungsprozess dar. Die Suche nach der optimalen Spezifikation zur Approximation einer wahren Funktion ist nicht trivial, und in der Literatur der Neuroinformatik lassen sich nur wenige Kriterien und Verfahren finden, die eine automatisierte, problembezogene Konstruktion derselben ermöglichen. In den meisten Fällen behilft man sich stattdessen mit Methoden von eher heuristischer Natur, die zumindest allgemeine Anhaltspunkte zur Modellbildung beisteuern können. Wie weiter unten beschrieben wird, bietet Neurometricus im Gegensatz dazu eine Reihe von Strategien zur Modell-Selektion an, die auf statistischen Methoden basieren.

Abbildung 3.5
Abbildung 3.5: nn_Spec-Funktion von Neurometricus.

Mit der nn_Spec-Funktion von Neurometricus, die auf diverse, vom Benutzer gesetzte globale Variablen zurückgreift, lässt sich eine beliebige Spezifikation in Form eines vorwärtsgekoppelten, (mehrschichtigen) neuronalen Netzwerks implementieren. Wie Abbildung 3.5 zeigt, wird zuerst die Schichtstruktur aufgebaut. Während die Anzahl der Neuronen in der Eingabe- und Ausgabeschicht durch die Anzahl der Eingabe- beziehungsweise Ausgabevariablen determiniert ist, kann die Anzahl der versteckten Schichten und der versteckten Neuronen frei gestaltet werden. Danach wird die Funktionsstruktur definiert: Jede versteckte Schicht bekommt eine Aktivierungsfunktion, die Ausgabeschicht eine Ausgabefunktion, und das Lernverfahren eine Kostenfunktion zugewiesen. Zu diesem Zweck stehen mehrere lineare und nichtlineare Aktivierungs- beziehungsweise Ausgabefunktionen, sowie derzeit eine Kostenfunktion zur Verfügung. Anschliessend findet die (Zufalls-)Initialisierung der Gewichte-/Parameterstruktur statt, wobei zwischen den folgenden drei Parametertypen unterschieden wird:

  1. Gamma-Typ: Die Parameter dieses Typs gewichten die Signale, die von den Eingabeneuronen beziehungsweise versteckten Neuronen zu den versteckten Neuronen geleitet werden.
  2. Beta-Typ: Die Parameter dieses Typs gewichten die Signale, die von den versteckten Neuronen zu den Ausgabeneuronen geleitet werden.
  3. Alpha-Typ: Die Parameter dieses Typs gewichten die Signale, die von den Eingabeneuronen zu den Ausgabeneuronen geleitet werden.

Alle Parametertypen können, müssen aber nicht gleichzeitig in einem neuronalen Netzwerk aktiv sein (vergleiche Abbildung 3.6). Ihre Werte sind entweder fest vorgegeben oder werden zufällig aus einen Intervall gezogen, dessen Grenzen durch den jeweiligen Parametertyp vorgegeben sind. Man kann die Alpha-Parameter alternativ dazu auch mit denjenigen Parametern belegen, die ein linearen Regressionsmodell aus den Eingabe- und Ausgabevariablen berechnet (Ordinary Least Squares- beziehungsweise OLS-Vorschätzung). Alle allokierten Parameter lassen sich durch einen Dimmfaktor zusätzlich verstärken oder bis auf null herabsetzen, wodurch sehr individuelle Spezifikationen kreierbar sind. Das Beispiel in Abbildung 3.6c zeigt, dass Neurometricus auch eine Spezifikation von neuronalen Netzwerken mit mehreren Ausgabevariablen ermöglicht.

Image175

(a) Neuronales Netzwerk mit Bezeichnung der Parameter

Image162
(b) Neuronales Netzwerk mit einer
Ausgabevariable
Image152
(c) Neuronales Netzwerk mit mehreren
Ausgabevariablen

Abbildung 3.6: Neurometricus-Spezifikationen.

Zuletzt werden durch die nn_Spec-Funktion wichtige Steuervariablen für das maxlik.src-Modul gesetzt, welches für die in Abschnitt 3.2.3 beschriebene Schätzung der Parameter zuständig ist. Durch die Steuervariablen wird unter anderem festgelegt, nach welchem Gradientenverfahren die Parameter zu optimieren sind, wie viele Schätzschritte maximal durchgeführt werden sollen, welche Verbesserung des Kostenfunktionswerts je Iterationsschritt erreicht werden muss usw.

3.2.2.1 Informations- und Selektionskriterien

Mit jeder Festlegung der Modelleigenschaften, die der Benutzer oder ein entsprechendes Verfahren trifft, wird das Approximationspotenzial des zugrunde liegenden neuronalen Netzwerks eingeschränkt. Es gilt generell, dass sich die Güte der Approximation durch die Allokierung von zusätzlichen Parametern beliebig verbessern lässt. Wie in Abschnitt 2.3 im Zusammenhang mit dem Bias-Varianz-Dilemma erläutert wurde, korreliert jedoch die Anzahl der Parameter positiv mit der Varianz der Schätzung. Neben den in der Statistik üblichen Gütemassen wie zum Beispiel SSE, MSE, R2 etc., können mit Neurometricus deshalb auch sogenannte Informations- und Selektionskriterien bestimmt werden. Hierbei handelt es sich um spezielle Gütemasse, die bei ihrer Berechnung die Komplexität des geschätzten Modells bestrafen, indem sie die quadrierten Residuen zu der Anzahl der Parameter in Beziehung setzen. Die Informationskriterien (IC), die auch bei den später erläuterten Strategien zur statistischen Modell-Selektion von Neurometricus Verwendung finden, sind unter anderem von Akaike (1973), Schwarz (1978) und Murata et al. (1994) entwickelt worden.

3.2.2.2 Regularisierung und Pruning

An dieser Stelle werden zwei weitere Verfahren zur Bestimmung der optimalen Spezifikation vorgestellt, die derzeit nicht als Funktionen in Neurometricus implementiert sind. Durch eine geringügige Erweiterung des Lernverfahrens können sie jedoch nachträglich realisiert werden. Bei der Regularisierung wird die Kostenfunktion um einen Term erweitert, der die Komplexität des neuronalen Netzwerks (d.h. die Anzahl der Parameter) bestraft. Das Lernverfahren kann dann dahin gehend modifiziert werden, dass es kleinen Parametern die Tendenz gibt, auf null hin abzunehmen. Zum anderen werden Pruning-Techniken diskutiert, bei denen versucht wird, nach der Schätzung durch Deaktivierung einzelner Parameter ihre Redundanz zu beweisen.

3.2.2.3 Strategien zur statistischen Modell-Selektion

Die bisher vorgestellten Strategien zur Modell-Selektion verlangen die Festlegung der Spezifikation, mit dem die wahre Funktion approximiert werden soll, durch den/die Benutzer. Neurometricus enthält jedoch auch Strategien, die zu einer automatisierten, statistischen Modell-Selektion eingesetzt werden können, wenn maximal eine versteckte Schicht mit beliebig vielen versteckten Neuronen und eine Ausgabevariable produziert werden soll. Die im Folgenden beschriebenen Strategien zur statistischen Modell-Selektion basieren auf den theoretischen Arbeiten von White (1988), Teräsvirta et al. (1993) sowie Anders/Korn (1996). Durch Neurometricus ist erstmals die Möglichkeit gegebene, die dort gemachten theoretischen Erkenntnisse in die Praxis umzusetzen (vergleiche Abschnitt 3.3).

Abbildung 3.7
Abbildung 3.7: nn_MS-Funktion von Neurometricus.

Obwohl im Detail verschieden, sind die prinzipiellen Vorgehensweisen der White- und der Teräsvirta-Strategie ähnlich zueinander (vergleiche Abbildung 3.7):

  1. Basismodell: Der Benutzer muss ein erstes Schätzmodell "von Hand" spezifizieren. Üblicherweise handelt es sich dabei um ein neuronales Netzwerk, welches ausschliesslich aus Alpha-Parametern besteht (vergleiche Abbildung 3.8a).
  2. Schätzung des aktuellen Neuronalen Netzwerks: Nachdem die Parameter des aktuellen neuronalen Netzwerks geschätzt worden sind, werden die resultierenden Residuen und der SSE1 bestimmt.
  3. Modellerweiterung: Das neuronalen Netzwerk wird um ein verstecktes Neuron erweitert. Nur diejenigen Eingabeneuronen, die mit allen vorherigen versteckten Neuronen verbunden sind, werden auch mit dem zusätzlichen versteckten Neuron verbunden (vergleiche Abbildung 3.8b und Abbildung 3.8d).
  4. Simulation einer nichtlineare Schätzung: Um das gesamte nichtlineare Potenzial der originalen Eingabemenge in Form neuer Variablen zu simulieren, wird durch die White- beziehungsweise Teräsvirta-Strategie eine neue Eingabemenge gebildet. Es wird mit ihr eine lineare Schätzung der Residuen aus (2) durchgeführt und dadurch der SSE2 bestimmt.
  5. Hypothesen-Prüfung: Aus dem SSE1 und dem SSE2 wird eine Prüfgrösse gebildet, die einer hypothetischen Chi-Quadrat-Verteilung gehorcht. Es wird danach die Nullhypothese "die Verbesserung des SSE2 gegenüber dem SSE1 rechtfertigt die Modellerweiterung nicht" bei einem gegeben Sicherheitsniveau getestet. Bei Ablehnung der Nullhypothese ist der neue Beta-Parameter signifikant identifiziert, und es wird mit (6) fortgefahren, sonst bei (8) abgebrochen (vergleiche Abbildung 3.8c). Man bezeichnet die Schritte von (3) bis (5) als Langrange-Multiplier-Test (LM-Test). Um gültige Ausagen zu erhalten, muss eine (asymptotische) Normalverteilung der geschätzten Parameter angenommen werden.
  6. Schätzung des erweiterten Modells: Nachdem der zusätzliche Beta-Parameter als signifikant von Null abweichend angenommen werden kann und damit die Notwendigkeit des versteckten Neurons gezeigt wurde, wird das erweiterte Modell neu geschätzt.
  7. Wald-Test: Die Modellerweiterung von (3) allokierte neben einem Beta-Parameter auch ein oder mehrere Gamma-Parameter, deren Signifikanz nicht überprüft wurde. Durch die Schätzung des erweiterten Modells in (6) müssen zudem auch die Signifikanzen der alten Gamma-Parameter neu überprüft werden. Der Wald-Test prüft hierzu die Nullhypothese "der betrachtete Parameter hat einen Wert von Null" mit einer chi-quadrat-verteilten Prüfgrösse. Wird der Wald-Test so häufig angenommen, dass ein verstecktes Neuron eingespart werden kann, wird mit (8) abgebrochen, sonst mit (2) fortgefahren (vergleiche Abbildung 3.8d).
  8. Abbruch: Es ist ein Modell spezifiziert worden, bei dem alle Parameter als signifikant abweichend von Null angenommen werden dürfen und dessen MSE sich alleine aus einem Störterm zusammensetzt.

Image179

(a) Lineares Basismodell

Image180

(b) Ergänzung eines versteckten Neurons

Image181

(c) Prüfung der Signifikanz der Gamma-Parameter

Image182

(d) Resultierendes erweitertes Modell

Abbildung 3.8: Statistische Modell-Selektion bei der White-
beziehungsweise Teräsvirta-Strategie.

In Abbildung 3.8 wird an einem Beispiel die statistische Modell-Selektion durch Anwendung der White- beziehungsweise der Teräsvirta-Strategie demonstriert. Das Basismodell besteht zunächst ausschliesslich aus Alpha-Neuronen (vergleiche Abbildung 3.8a). Es wird ein verstecktes Neuron ergänzt, und die Signifikanz des beta1-Parameters durch einen LM-Test geprüft (vergleiche Abbildung 3.8b). Durch Anwendung des Wald-Tests wird anschliessend festgestellt, dass im Beispiel der gamma1-Parameter signifikant von Null abweicht, nicht aber der gamma2-Parameter (vergleiche Abbildung 3.8c). Die Strategie wird mit dem jeweils resultierenden erweiterten Modell (vergleiche Abbildung 3.8d) so lange wiederholt, bis die Ergänzung versteckter Neuronen keine Verbesserungen des Approximationsfehlers mehr erbringt.

Der "Trick" hinter der White- und der Teräsvirta-Strategie besteht darin, dass zwischen betrachteten Variablen nicht einfach ein nichtlinearer Zusammenhang vermutet wird, da dies dazu führen könnte, dass das zugrunde liegende Modell überparametrisiert wird. Stattdessen wird schon vorab geprüft, ob die Nullhypothese "der wahre Zusammenhang zwischen den Variablen ist linear" abgelehnt wird. Dadurch können unnötige und zeitraubende Schätzungen der Parameter des neuronalen Netzwerks verhindert werden. Darüber hinaus wird durch den LM-Test sichergestellt, dass nur Verbesserungen bezüglich des Approximationsfehlers (und nicht des Störterms) zur Erweiterung des neuronalen Netzwerks führen. Im Zusammenhang mit der Teräsvirta-Strategie ist zu erwähnen, dass die den versteckten Neuronen zugeordnete Aktivierungsfunktion hinsichtlich ihrer Eignung für den LM-Test zu untersuchen ist.

Strategien zur statistischen Modell-Selektion können auch durch die in Abschnitt 3.2.2.1 erläuterten IC realisiert werden. Möglichkeiten hierzu stellen Anders/Korn (1996) vor: Ähnlich wie bei der White- und der Teräsvirta-Strategie werden ausgehend von einem Basismodell sukzessive versteckte Neuronen zu einem neuronalen Netzwerk hinzugeschaltet. Die Signifikanz der Parameter wird jedoch nicht mit einem LM-Test überprüft. Stattdessen wird für das Ausgangsmodell zunächst ein ausgewähltes IC berechnet. Anschliessend wird getestet, ob sich durch Aktivierung beziehungsweise Deaktivierung der Parameter, die in Verbindung mit dem neuen versteckten Neuron stehen, eine Verbesserung des IC erreichen lässt. Ein zusätzlicher Parameter wird nur dann in das Modell aufgenommen, wenn dadurch das IC einen geringeren Wert annimmt. Die IC, die Neurometricus für die IC-Strategien zur statistischen Modell-Selektion anbietet, sind das Akaike (1973) Informationskriterium (AIC), das Schwarz (1978) Informationskriterium (SIC) und das Netzwerk-Informationskriterium (NIC) von Murata et al. (1994).

3.2.3 Schätzung der Parameter des Modells

Wie in Abschnitt 3.2.2 beschrieben, bekommen die Parameter des Modells bei der Spezifikation üblicherweise Zufallswerte zugewiesen, die aus einem Intervall um Null gezogen werden. Um die wahre Funktion zu approximieren, müssen die Parameter geschätzt werden. In diesem Abschnitt werden die in Neurometricus integrierten Methoden beschrieben, durch die sich (annähernd) optimale Parameter bestimmen lassen.

3.2.3.1 Kostenfunktionsanalyse

Durch die Kostenfunktion von Neurometricus wird der MSE (vergleiche Abschnitt 2.3) in Abhängigkeit von den n Parametern des zugrunde liegenden neuronalen Netzwerks berechnet. Werden im Rahmen der grafischen Kostenfunktionsanalyse n-2 Parameter auf einem konstantem Niveau gehalten und die restlichen zwei Parameter diskret innerhalb eines vorher angegebenen Intervalls variiert, so kann das abstrakt gegebene, (n+1)-dimensionale Fehlergebirge der MSE-Kostenfunktion in dreidimensionale Unterräume aufgespalten und in grafischer Weise dargestellt werden (vergleiche Abbildung 3.9).

Image183

(a) Kostenfunktionsanalyse-Schaubild mit negiertem MSE-Gebirge

Image184

(b) Erste Annäherung an eines der beiden globalen Maxima von (a)

Image185

(c) Zweite Annäherung an eines der beiden globalen Maxima von (a)

Abbildung 3.9: Grafische Kostenfunktionsanalyse. Aus optischen
Gründen wurde das MSE-Gebirge negiert dargestellt.

Auf diese Weise lässt sich der Einfluss einzelner Parameter auf die Kostenfunktion des zugrunde liegenden Modells analysieren. Anhand obiger Abbildung 3.9 wird deutlich, dass die optimalen Parameter jeweils die höchste Erhebung im Fehlergebirge der negierten MSE-Kostenfunktion kennzeichnen (in diesem Fall ergeben sich für die Parameter g_001 und g_002 die optimalen Werte 1.95 und 7.95; vergleiche 3.8c). Die Ergebnisse der grafischen Kostenfunktionsanalyse können zum Beispiel verwendet werden, um die Zufallsinitialisierung der Parameter für die im folgenden beschriebenen numerischen Schätzverfahren effektiver zu gestalten.

3.2.3.2 Maximum-Likelihood-Methode

Zur automatisierten Bestimmung der (annähernd) optimalen Parameter eines Modells wird in Neurometricus die sogenannte Maximum-Likelihood-Methoden eingesetzt (vergleiche Abschnitt 2.2). Dabei handelt es sich um ein Verfahren zur Gewinnung von Punktschätzungen für die Parameter einer Grundgesamtheit. Die Schätzer sind unter ziemlich allgemeinen Bedingungen konsistent und asymptotisch normalverteilt, jedoch nicht immer erwartungstreu. Unter den Annahmen, dass die Störterme der gesuchten, wahren Funktion multivariat normalverteilt sind und eine konstante Kovarianz, sowie einen Erwartungswert von Null besitzen, kann die Maximum-Likelihood-Methode mathematisch in die Methode der kleinsten Quadrate (vergleiche Abschnitt 2.3) überführt werden. Die letztgenannte Methode basiert auf der Minimierung des MSE, der - wie oben beschrieben - mithilfe der Kostenfunktion berechnet werden kann. Durch die Maximierung der negierten Kostenfunktion werden daher Schätzer für die Parameter der wahren Funktion bestimmt.

3.2.3.3 Gradientenverfahren

Die Extrema der Kostenfunktion können nur in wenigen Fällen analytisch bestimmt werden. Zum überwiegenden Teil muss die Maximierung daher iterativ auf numerischem Weg erfolgen, zum Beispiel durch die sogenannten Gradientenverfahren. Im folgenden sind die wesentlichen vier Schritte beschrieben, in die sich diese Verfahren gliedern lassen.

  1. Wahl der Startwerte für die Parameter: Die Parameter werden in der Regel mit einem Zufallswert belegt, der möglichst in der Nähe ihres optimalen Wertes liegen sollte. Zur Zufallsinitialisierung der Parameter kann - wie oben ausgeführt - die grafische Kostenfunktionsanalyse eingesetzt werden.
  2. Bestimmung der Abstiegs-/Aufstiegsrichtung: Um den MSE zu verkleinern beziehungsweise um die negierte Kostenfunktion zu vergrössern, müssen die Parameter entweder vergrössert oder verkleinert werden. Diese Änderung wird in jedem Iterationsschritt durch eine Richtungsmatrix festgelegt (vergleiche Abbildung 3.10d).
  3. Bestimmung der Schrittlänge: Der Vektor der Schrittlängen gibt an, wie stark sich die einzelnen Parameter in der berechneten Richtung ändern sollen, um die grösste Minimierung des MSE zu erreichen.
  4. Überprüfung der Abbruchkriterien: Numerische Verfahren konvergieren unter bestimmten Umständen nur asymptotisch oder überhaupt nicht. Um in jedem Fall einen Abbruch des numerischen Iterationsprozesses zu erzwingen, müssen bestimmte Abbruchkriterien gesetzt und überprüft werden, zum Beispiel eine maximale Anzahl von Iterationsschritten, eine minimale Änderung des MSE je Iterationsschritt usw. Wurde eines dieser Kriterien erfüllt, bricht das Gradientenverfahren ab, sonst wird mit Schritt 2 fortgefahren.

Um die Vorgehensweise der Gradientenverfahren zu verdeutlichen, ist in Abbildung 3.10 eine univariate negierte Kostenfunktion mit ihrer ersten und zweiten Ableitungen sowie ihrer Richtungsfunktion gegeben. Durch Bestimmung der Nullstellen der ersten Ableitung werden die Extrema gefunden (vergleiche Abbildung 3.10b). Ist die zweite Ableitung an dieser Stelle kleiner als Null, so liegt ein Maximum vor (vergleiche Abbildung 3.10c). Im multivariaten Fall wird in dazu analoger Weise der Gradienten und die Hessematrix betrachtet.

Image186
(a) Negierte MSE-Kostenfunktion
Image187
(b) Erste Ableitung von (a)
Image188
(c) Zweite Ableitung von (a)
Image189
(d) Richtungsfunktion, die sich durch
(b) und (c) ergibt

Abbildung 3.10: Funktionen für das Gradientenverfahren.

In Neurometricus stehen mehrere Gradientenverfahren zur Verfügung. Sie sind in den nnestim.src- und maxlik.src-Modulen definiert worden (vergleiche Abbildung 3.11).

Abbildung 3.11
Abbildung 3.11: maxlik-Funktion von Neurometricus.

Als das fundamentalste der Gradientenverfahren präsentiert sich das Newton-Verfahren. Hier wird in jedem Iterationsschritt die Hessematrix an der Stelle der aktuellen Parameter neu bestimmt, und dieselbe dann zur Berechnung der Richtungsmatrix benutzt. In Anhang D wird das Taylor-Verfahren beispielhaft durchgeführt.

Die sogenannten Verfahren zweiter Ordnung, zu denen das BFGS- (Broyden, Fletcher, Goldfarb und Shannon) und das DFP-Verfahren (Davidon, Fletcher und Powell) gehören, berechnen die Hessematrix nur im ersten Iterationsschritt und approximieren sie danach. Sie benötigen in der Regel mehr Iterationsschritte als das Newton-Verfahren. Durch den verringerten Rechenaufwand der approximativen Hessematrix-Bestimmung finden sie das Minimum der Kostenfunktion jedoch im Allgemeinen schneller. Mit einem Substitut der Hessematrix wird dagegen beim BHHH-Verfahren (Berndt, Hall, Hall und Hausman) gearbeitet. Die Richtungsmatrix berechnet sich hier aus dem Gradienten und dem sogenannten Gradientenkreuzprodukt, was bei relativ kleinen Eingabemengen weitere Geschwindigkeitsvorteile mit sich bringt.

Die Verfahren erster Ordnung, bestehend aus dem SD- (Steepest Descent) und PRCG-Verfahren (Polak-Ribiere-type Conjugate Gradient), verzichten bei der Berechnung der Richtungsmatrix auf die Hessematrix beziehungsweise einem Substitut von ihr, wodurch sie vergleichsweise wenig Speicher- und Rechenressourcen beanspruchen. Bei ungünstig gewählten Startwerten der Parameter eignen sie sich damit besonders zu einer ersten, schnellen Annäherung an ein Maximum. In der Region um das Maximum herum konvergieren sie jedoch schlecht.

Um das Kovergenzverhalten den jeweiligen Umständen anpassen zu können, hat der Anwender die Möglichkeit, während des numerischen Iterationsprozesses zwischen den gezeigten Gradientenverfahren interaktiv zu wechseln. Die für die Berechnung der Richtungsmatrix benötigte Invertierung der Hessematrix beziehungsweise ihres Ersatzes erfolgt im Übrigen durch die besonders schnelle und numerisch stabile Methode der Cholesky-Dekomposition.

3.2.3.4 Gradient und Hessematrix

Während des numerischen Iterationsprozesses kann der Gradient und die Hessematrix der Kostenfunktion wahlweise auf numerischem oder analytischem Weg bestimmt werden (vergleiche Abbildung 3.11). Die numerische Vorgehensweise hat den Vorteil, dass sie auf beliebige (Schätz-)Funktionen angewendet werden kann, und den Nachteil, dass sie rechenintensiv und damit langsam ist. Im Vergleich dazu erfolgt die analytische Berechnung im Schnitt schneller. Wie die analytischen ersten und zweiten partiellen Ableitungen der Kostenfunktion für beliebige Spezifikationen innerhalb von Neurometricus funktional gebildet wurden, ist in Anhang C beschrieben.

3.2.3.5 Schrittlängen-Berechnungsverfahren

Bei allen Gradientenverfahren besteht die Gefahr, dass der Abstiegsweg (beziehungsweise Aufstiegsweg) im Zickzack verläuft, und dadurch nie ein Extrema erreicht wird. Um ein solches Fehlverhalten zu verhindern, stehen in Neurometricus eine Reihe von Schrittlängen-Berechnungsverfahren zur Verfügung, die sich wie folgt beschreiben lassen:

Das One-Verfahren setzt die Schrittlänge auf eine konstante Grösse von Eins, wodurch das oben beschriebene Problem jedoch nicht verhindert wird. Alle anderen Verfahren variieren daher die Schrittlänge in Abhängigkeit von dem sich ergebenden Kostenfunktionswert. Ohne hier näher auf die Unterschiede der Stepbt-, Brent-, Half- und BHHHStep-Verfahren einzugehen, kann durch sie in jedem Fall sichergestellt werden, dass die Parameter in der zuvor berechneten Richtung nur so stark modifiziert werden, dass der Kostenfunktionswert in jedem Iterationsschritt kleiner wird. Lässt sich auf diese Weise kein kleinerer Kostenfunktionswert mehr finden, wird - automatisch oder interaktiv - durch das Random Search-Verfahren innerhalb eines bestimmten Zufallsradius nach einer alternativen Schrittlänge gesucht. Versagt auch dieser Versuch, bricht das Gradientenverfahren ab.

3.2.3.6 Lokale und globale Verfahren

Gradientenverfahren sind lokale Optimierungsalgorithmen, da sie das globale Minimum einer (Schätz-)Funktion nicht generell finden können. Der Grund für dieses Verhalten sei durch die in Abbildung 3.12 gegebenen Grafik einer bivariaten Kostenfunktion veranschaulicht: Man kann sich den von den Gradientenverfahren im Laufe des numerischen Iterationsprozesses veränderten Parameterpunkt nämlich als einen Ball vorstellen, der zufällig über dem Fehlergebirge fallen gelassen wird, in das nächstgelegen Tal rollt und dort liegen bleibt, unabhängig davon, ob es sich dabei um die tiefste Stelle handelt oder nicht.

Image191

(a) Bivariate Kostenfunktion mit einem globalen Minimum

Image192

(b) Bivariate Kostenfunktion mit einem lokalen und einem globalen Minimum

Image193

(c) Bivariate Kostenfunktion mit einer grossen Anzahl von Minima

Abbildung 3.12: Fehlergebirge von bivariaten Kostenfunktionen.

In der Literatur werden verschiedentlich auch globale Optimierungsalgorithmen diskutiert, mit denen auch bei schlecht gewählter Zufallsinitialisierung der Parameter die globalen Extrema der Kostenfunktion bestimmt werden können. Beispiele hierfür sind die genetischen Algorithmen, das "simulierte Ausglühen" und der Sintflut-Algorithmus. Für die vorliegende Arbeit sind sie jedoch nicht weiter von Interesse, denn der mit ihnen verbundene Aufwand steht offenbar in keinem Verhältnis zu dem Ertrag, den sie erbringen.

3.2.3.7 Resampling-Verfahren

Um den zu erwartenden Approximationsfehler eines neuronalen Netzwerks bezüglich unbekannter Daten zu prognostizieren, wurden in Neurometricus das Bootstrap-, Jackknife- und Cross Validation-Verfahren integriert. Bei jedem dieser Resampling-Verfahren wird die einfache Schätzung n-mal hintereinander durchgeführt, wobei jeweils individuelle Stichproben betrachtet werden (vergleiche Abbildung 3.13). Interessant sind Resampling-Verfahren vor allem im Zusammenhang mit der Analyse von Variablen mit grossen Störtermen (wie zum Beispiel Finanzmarktdaten).

Abbildung 3.13
Abbildung 3.13: Resampling-Verfahren von Neurometricus.

Eine Bootstrap-Menge wird durch zufälliges Ziehen-mit-Zurücklegen aus der ursprünglichen Stichprobe generiert. Dadurch besitzt jede Bootstrap-Menge zwar den gleichen Umfang, aber andere Beobachtungen als das Original. Mithilfe der n Bootstrap-Mengen und der n Schätzungen können dann interessierende Statistiken berechnet und hinsichtlich ihrer Verteilung analysiert werden. Das Bootstrap-Verfahren ermöglicht es, die Varianzen einzelner Parameter auch dann korrekt zu bestimmen, wenn das zugrunde liegende Modell fehlspezifiziert wurde.

Zur Bildung der n Jackknife-Menge werden vor jeder Schätzung v Beobachtungen aus der ursprünglichen Stichprobe entnommen. Dabei ist n beziehungsweise v so gewählt, dass dem neuronalen Netzwerk alle verfügbaren Beobachtungen mindestens einmal zur Schätzung präsentiert werden. Danach können interessierende Statistiken in gleicher Weise wie beim Bootstrap-Verfahren analysiert werden. Gegenüber dem Bootstrap-Verfahren besitzt das Jackknife-Verfahren den Vorteil, dass durch die deterministische Mengenbildung weniger Zufall in die Schätzungen eingeht. Jedoch sind die Schätzungen dafür in der Regel mit grösseren Standardabweichungen behaftet.

Auch die Cross-Validation-Mengen werden durch Teilung der ursprünglichen Stichprobe in n disjunkte Mengen gebildet. Im Gegensatz zum Jackknife-Verfahren werden interessierende Statistiken jedoch mit den v Beobachtungen der jeweiligen Restmengen (Validierungsmengen) berechnet. Auf diese Weise kann zum Beispiel über den Mittelwert des MSE der zu erwartende Approximationsfehler einer Vorhersage des zugrunde liegenden Modells berechnet werden.

Zufall wirkt sich in zweierlei Hinsicht auf die Modellbildung aus: Durch die stochastische Datenteilung beziehungsweise Datenbildung und durch die Zufallsinitialisierung der Parameter. Es gilt im Allgemeinen, dass zum Beispiel bei Anwendung des Bootstrap-Verfahrens die Varianz einer Schätzung stärker durch die dort gegebenen stochastischen Mengenbildung beeinflusst wird als durch die Zufallsinitialisierung der Parameter. Das setzt aber eine spezielle Behandlung der Parameter voraus, wie im Folgenden anhand eines Beispiels demonstriert wird.

In Neurometricus gibt es eine globale Variable, durch die sich festlegen lässt, ob vor jeder Resampling-Schätzung eine neue Zufallsinitialisierung der Parameter vorgenommen wird oder ob die jeweils letzten Parameter beibehalten werden. Wie in den Abbildungen 3.14 und 3.15 anhand der grafischen Parameteranalyse von Neurometricus veranschaulicht wird, streuen die Parameter des in Abbildung 3.16 gezeigten Modells nach 50 Bootstrap-Schätzungen im ersten Fall (vergleiche Abbildung 3.14) erheblich stärker als nach Deaktivierung der Zufallsinitialisierung der Parameter (vergleiche Abbildung 3.15).

Image195
(a) Histogramm von Parameter g_001
Image196
(b) Histogramm von Parameter g_002

Image197

(c) Parameteranalyse-Schaubild mit gemeinsamer
Häufigkeit der Parameter g_001 und ag002

Abbildung 3.14: Grafische Parameteranalyse nach einer
Bootstrap-Schätzung mit aktivierter Zufallsinitialisierung
der Parameter.

Image198
(a) Dichte von Parameter g_001
Image199
(b) Dichte von Parameter g_002

Image200

(c) Parameteranalyse-Schaubild mit gemeinsamer
Häufigkeit der Parameter g_001 und ag002

Abbildung 3.15: Grafische Parameteranalyse nach einer
Bootstrap-Schätzung mit deaktivierter
Zufallsinitialisierung der Parameter.

Der Grund für die allgemein gegebene stärkere Streuung der Parameter bei aktivierter Zufallsinitialisierung lässt sich grösstenteils auf Symmetrien zurückführen, die durch den Aufbau der neuronalen Netzwerke, die quadratische Natur der MSE-Kostenfunktion und den mathematischen Eigenschaften einiger Aktivierungsfunktionen begründet sind. Wie in Abbildung 3.16 gezeigt wird, können nämlich die Parameter unter Umständen die Positionen und das Vorzeichen wechseln, ohne dass sich dadurch die von einem neuronalen Netzwerk zurückgelieferte Ausgabemenge ändert. Durch alleiniges Deaktivierung der Zufallsinitialisierung der Parameter während der Resampling-Verfahren werden Permutationen der Parameter jedoch nicht völlig verhindert. Einen effektiveren Weg schlagen Rüger/Ossen (1995) vor: Sie empfehlen, die Parameter des Modells nach jeder Schätzung in einer bestimmten Weise zu sortieren und bezüglich ihrer Vorzeichen zu behandeln.. Zunächst werden hierzu alle negativen Beta-Parameter positiv gemacht und die Vorzeichen der zugehörigen Gamma-Neuronen invertiert. Anschliessend werden die Beta-Neuronen der Grösse nach sortiert und im neuronalen Netzwerk replatziert, wobei auch die zugehörigen Gamma-Neuronen ihre Position im neuronalen Netzwerk ändern müssen. In Abbildung 3.16a sieht man beispielsweise ein geschätztes Modell, welches durch den Sortieralgorithmus von Rüger/Ossen (1995) in die einheitliche Form von Abbildung 3.16 gebracht wird. Beide Modelle liefern eine identische Ausgabemenge zurück.

Image201

(a) Neuronales Netzwerk mit geschätzten Parametern

Image202

(b) Wie (a), aber nach der Sortierung der Parameter

Abbildung 3.16: Probleme mit Symmetrien.

Ein weiteres Problem bei den Resampling-Verfahren ergibt sich dadurch, dass der Verlauf der Kostenfunktion nicht nur von den Parametern des zugrunde liegenden Modells abhängt, sondern auch von der Menge der Beobachtungen der Variablen, die dem neuronalen Netzwerk zur Schätzung jeweils zur Verfügung stehen. Die lokal optimalen Parameter des Modells nach der i-ten Resampling-Schätzung müssen nicht mit den lokal optimalen Parametern der (i+1)-ten Resampling-Schätzung übereinstimmen. Man muss daher die variierenden Parameter jeweils einem lokalen Optimum zuordnen, um daraus das globale Optimum des gegebenen neuronalen Netzwerks identifizieren zu können. Rüger/Ossen (1995) verwenden hierzu ein Verfahren der partitionierenden Cluster-Analyse, durch das sich die von den Resampling-Verfahren ermittelten "guten" Parameter von den "schlechten" Parametern trennen lassen. Auf diese Weise lassen sich Modelle mit kleinerer Varianz bilden.

Die n Schätzungen der Resampling-Verfahren können zur Bildung von speziellen Vertrauensintervalle herangezogen werden. Kennt man beispielsweise die zukünftigen Beobachtungen der unabhängigen Variablen X, dann können die Beobachtungen der abhängigen Variable Y durch diese Vertrauensintervalle mit bestimmter Genauigkeit prognostiziert werden. Abbildung 3.17 zeigt dies anhand eines schematischen Beispiels: Die senkrecht eingezeichneten Verteilungen von Y ergeben sich durch jeweils n Berechnungen von Y für einen bestimmten Zeitpunkt in der Zukunft; die durchgezogene Linie verläuft durch die zugehörigen Erwartungswerte von Y.

Image203

Abbildung 3.17: Resampling-Vertrauensintervalle einer Prognose.
Quelle: Angelehnt an Weigend/LeBaron (1995), S. 8.

3.2.4 Diagnose des Modells

In den vorherigen drei Schritten der Modellbildung wurden die Daten identifiziert, das Modell spezifiziert und die Parameter des jeweils zugrunde liegenden neuronalen Netzwerks geschätzt. Eine eingehende Diagnose der Schätzung, der Parameter, der Residuen und der verwendeten Variablen bilden den Abschluss jeden Durchgangs dieses Prozesses. Auf Basis vor allem dieser Untersuchung ist ein relativ objektiver Vergleich zwischen mehreren zur Auswahl stehenden Modellen gegeben.

3.2.4.1 Berechnung der globalen Basisergebnisse

Alle Funktionen von Neurometricus, die sich zur Diagnose der Ergebnisse des geschätzten Modells einsetzen lassen, greifen auf globale Variablen zurück, deren Inhalte durch die nn_CalcGlobals-Funktion gesetzt werden. Hierdurch werden die folgenden Voraussetzungen geschaffen:

  1. Typ der zugrunde liegenden Menge: Geschätzt wird das Modell in der Regel ausschliesslich mit der Trainingsmenge. Die mit diesem Mengentyp diagnostizierten Ergebnisse sagen jedoch nichts über die Fähigkeit des Modells aus, auch mit anderen Beobachtungen der Variablen sinnvolle Ergebnisse produzieren zu können. Zu diesem Zweck kann der Mengentyp, auf den sich die Diagnose bezieht, gewechselt werden.
  2. Analytische oder numerische Ergebnisse: Durch Aktivierung beziehungsweise Deaktivierung der globalen Variable nn_anaok werden alle Ergebnisse der Diagnose entweder auf Basis analytischer oder numerischer Funktionen berechnet. Dies dient in erster Linie der Kontrolle der Korrektheit der analytischen Funktionen. Zum Teil muss jedoch auf die numerische Variante zurückgegriffen werden, da entsprechende analytische Funktionen (noch) nicht implementiert worden sind.
  3. Einfache oder mehrfache Schätzungen: Jede neue Schätzungen bildet eine Matrix aus alternativen Parametern. Der Inhalt der globalen Variable nn_basenr legt fest, ob eine Schätzung oder alle vorhandenen Schätzungen bei der Diagnose betrachtet werden sollen. Dabei gilt, dass auf Basis der einfachen Schätzungen je Statistik nur ein Ergebnis berechnet wird, während es bei n Schätzungen auch n Statistiken sind. In Abschnitts 3.2.4.6 wird darauf näher eingegangen.
  4. Typ der Kovarianzmatrix der Parameter: Viele Diagnoseergebnisse, zum Beispiel die Varianz und die Korrelationsmatrix der Parameter, basieren auf der Kovarianzmatrix der Parameter. Sie kann durch Setzung der globalen Variable nn_covnr auf drei Arten geschätzt werden. Erwähnenswert ist vor allem, dass es nach einem von White (1980) entwickelten Verfahren möglich ist, eine heteroskedastie-konsistente Kovarianzmatrix der Parameter zu berechnen, die eine konsistente Schätzung der Kovarianzmatrix der Parameter erlaubt, auch wenn die a priori getroffene Annahme der varianzkonstanten Residuen einer Überprüfung nicht standhält.

3.2.4.2 Diagnose der Schätzung

Neurometricus bietet grundsätzlich zwei Möglichkeiten, um das gebildeten Modell hinsichtlich seiner Fähigkeit zur Approximation eines gesuchten Zusammenhangs zwischen unabhängigen und abhängigen Variablen zu diagnostizieren. Zum einen werden Masszahlen berechnet, die den Fehler des Modells gegen die Anzahl seiner Parameter abwägt. Neben den Informations- und Selektionskriterien gibt es auch Statistiken, die den Fehler im Erwartungswert von Prognosen quantifizieren (Prognosequalitätsmasse), denn die Güte jedes ökonometrischen Modells muss sich daran messen, wie gut es zukünftige Entwicklungen vorhersagen kann. Zum anderen können Grafiken ausgegeben werden, die eine anschauliche Interpretation der Ergebnisse des neurometrischen Modellbildungsprozesses gestatten, wie der Vergleich der zwei Modelle in den Abbildungen 3.18 und 3.19 verdeutlichen mag.

Image204

(a) Kostenfunktionswertanalyse-Diagramm

Image205

(b) Regressions-Diagramm für die Trainingsmenge

Image206

(c) Regressions-Diagramm für die Prüfmenge

Abbildung 3.18: Grafische Diagnose der Schätzung eines
überparametrisierten Modells.

Image207

(a) Kostenfunktionswertanalyse-Diagramm

Image208

(b) Regressions-Diagramm für die Trainingsmenge

Image209

(c) Regressions-Diagramm für die Prüfmenge

Abbildung 3.19: Grafische Diagnose der Schätzung eines
korrekt spezifizierten Modells.

Eine mögliche Interpretation der oben gezeigten Ergebnisse ist, dass das erste Modell überparametrisiert wurde, weswegen seine Benutzung zu einer Approximation des Störterms der wahren Funktion geführt hat. Dies macht sich durch Steigerung des Kostenfunktionswerts während der Schätzung mit der Validierungsmenge bemerkbar, was durch eine grafische Kostenfunktionswertanalyse angezeigt wird (vergleiche Abbildung 3.18a). Obwohl in diesem Fall die Approximation mit der Trainingsmenge biasfrei ist (vergleiche Abbildung 3.18b), trifft die Prüfmenge die wahre Funktion nicht (vergleiche Abbildung 3.18c). Beim zweiten Modell dagegen nähern sich die Kostenfunktionswerte von Trainings- und Validierungsmenge während der Schätzung einander an (vergleiche Abbildung 3.19a). In diesem Fall wird die wahre Funktion mit der Trainings- und der Prüfmenge ohne Bias approximiert (vergleiche Abbildung 3.19b/c).

3.2.4.3 Diagnose der Parameter

Wie Davidson/MacKinnon (1993), Fahrmeir/Schell (1975) und Greene (1993) ausführen, lassen sich die Diagnoseverfahren für die Parameter linearer Regressionsmodelle auch auf nichtlineare Modelle anwenden. Voraussetzung dazu ist, dass anstelle der unabhängigen Variablen der Gradient der Kostenfunktion, und anstelle des Kreuzprodukts aus unabhängigen Variablen die Hessematrix der Kostenfunktion betrachtet werden. Alle Wahrscheinlichkeitsaussagen, die sich über die Parameter treffen lassen, besitzen dann asymptotische Gültigkeit. Ihre Bedeutung ist jedoch gegenüber linearen Modellen schwächer zu bewerten, denn die Parameter sind in den nichtlinearen Modellen nicht in eindeutiger Weise bestimmten Eingabevariablen zuweisbar (vergleiche Abschnitt 3.2.4.5). Darüber hinaus besitzen die Parameter der nichtlinearen Modelle eine andere hypothetische Verteilung als die Parameter der linearen Modelle, weshalb die Tests der linearen Modelle keine gültigen Aussagen bezüglich der Signifikanz der Parameter von nichtlinearen Modellen garantieren können. Für statistisch saubere Parameteranalysen müssen daher Wald- und Lagrange-Multiplier-Tests herangezogen werden, wie sie in Abschnitt 3.2.3 im Zusammenhang mit den Strategien zur statistischen Modell-Selektion beschrieben wurden.

Durch die Funktionen von Neurometricus kann man für jeden Parameter einzeln die Standardabweichung, das Vertrauensintervall und die Signifikanz bestimmen. Dazu werden statistische Methoden eingesetzt, wie sie in Abschnitt 2.2 vorgestellt wurden. Ihre Vorgehensweise wird hier anhand eines für nichtlineare Modelle modifizierten sogenannten Pseudo-t-Tests beispielhaft vorgeführt:

  1. Nullhypothese und Signifikanzniveau: Die zu prüfende Nullhypothese des t-Tests ist "der Parameter i hat den Wert Null". Das Sicherheitsniveau Alpha wird mit 0.05 vorgegeben, das bedeutet, dass von 100 signifikanten Ablehnungen der Nullhypothese maximal 5 falsch sein werden.
  2. Prüfgrösse und Testverteilung bei Gültigkeit der Nullhypothese: Als Prüfgrösse T dient beim t-Test der Quotient des Parameters i und der Standardabweichung des Parameters i. Durch diese Zusammensetzung ist T hypothetisch t-verteilt mit v Freiheitsgraden, wobei v der um Eins verringerten Anzahl der Beobachtungen der Eingabevariablen entspricht.
  3. Kritischer Bereich: Beim t-Test liegt eine zweiseitige Fragestellung vor, denn es wird geprüft, ob T in negativer oder positiver Richtung signifikant von Null abweicht. Mithilfe der Tabelle der t-Verteilung erkennt man bei v Freiheitsgraden und einem Sicherheitsniveau von 0.05 für den kritischen Bereich den oberen Grenzwert tcu auf negativer Seite, und den unteren Grenzwert tco auf positiver Seite (vergleiche Abbildung 3.20).
  4. Wert der Prüfgrösse: Anhand der Ergebnissen der Schätzung kann der Wert der empirischen Prüfgrösse T rechnerisch bestimmt werden.
  5. Entscheidung und Interpretation: Die Nullhypothese wird abgelehnt, wenn sich T innerhalb des kritischen Bereichs befindet, d.h. wenn T kleiner als tcu oder grösser als tco ist. Man sagt in diesem Fall, der Parameter i weicht signifikant von Null ab.

Image210

Abbildung 3.20: Testverteilung und kritischer Bereich
bei einem (Pseudo-)t-Test.
Quelle: Angelehnt an Bleymüller et al. (1988), S. 110.

Eine Möglichkeit, die Verteilung jedes einzelnen Parameters nach mehrfacher Schätzung zu analysieren, ist mit der grafischen Parameteranalyse von Neurometricus gegeben. Ein Beispiel hierfür wurde bereits in Abschnitt 3.2.3 dargestellt. Dort wurden auch die damit eventuell auftretenden Probleme beschrieben. Da die mit der Methode der kleinsten Quadrate geschätzten Parameter jedoch unter bestimmten Annahmen (vergleiche Abschnitt 3.2.4.4) biasfrei sind, stimmen ihre Erwartungswerte mit den Parametern der Grundgesamtheit überein.

Die Robustheit eines einfach geschätzten Modells ergibt sich aus der Streuung seiner Parameter. Um Aussagen über die Modellstabilität bei Variation der Parameter treffen zu können, existiert in Neurometricus eine Funktion namens nn_SW. Dabei werden die Parameter des neuronalen Netzwerks in mehreren Durchgängen "geschüttelt", d.h. zufällig innerhalb eines Vielfachen ihrer Standardabweichung modifiziert. Anschliessend werden die ursprünglichen Ergebnisse der Approximation und der Residuen mit den sich daraus ergebenden gemittelten Ergebnissen grafisch überlagert.

Image211

(a) Robustheitsanalyse-Diagramm der Approximation

Image212

(b) Robustheitsanalyse-Diagramm der Residuen

Abbildung 3.21: Grafische Diagnose der Parameter bezüglich der Robustheit.

Das in Abbildung 3.21 gezeigte Ergebnis legt beispielsweise den Schluss nahe, dass das betrachtete Modell bei gegebener Spezifikation und Schätzung keine robusten Ergebnisse vorzuweisen hat, denn die Approximation ändert sich durch die Modifikation der Parameter in unabsehbarer Weise. Grosse Standardabweichungen der Parameter und die dadurch bedingten Modellinstabilitäten sind häufig auf Kollinearitäten in den Eingabevariablen zurückzuführen.

3.2.4.4 Diagnose der Residuen

Wie in Abschnitt 2.3 erwähnt, besitzen die Ergebnisse einer linearen oder nichtlinearen Schätzung, die auf der Methode der kleinsten Quadrate basiert, nur dann Gültigkeit, wenn dem Modell bestimmte Annahmen unterstellt werden können. Die Diagnose der Residuen ist eine ex-post-Überprüfung dieser Modellannahmen. Sie kann in Form statistischer Tests und grafischer Analysen (vergleiche Abbildung 3.22) realisiert werden.

Image213
(a) Zeitreihen-Diagramm der Residuen
Image214
(b) Histogramm der Residuen
Image215
(c) Heteroskedastizitätsanalyse-
Diagramm der Residuen
Image216
(d) Autokorrelationsanalyse-
Diagramm der Residuen

Abbildung 3.22: Grafische Diagnose der Residuen verschiedener Modelle.

Grafische Zeitreihen von Residuen lassen eventuell vorhandene Strukturen erkennen, die den Modellannahmen widersprechen (vergleiche Abbildung 3.22a). Durch die Darstellung der Häufigkeitsverteilung der Residuen kann geprüft werden, ob die Fehler in der geforderten Weise normalverteilt sind mit einem Erwartungwert von Null. Diese Annahme ist bei dem in Abbildung 3.22b gezeigten Beispiel nicht erfüllt. Heteroskedastizitätsanalyse-Diagramme, die sich aus den Residuen und den Beobachtungen der einzelnen Eingabevariablen zusammensetzen, kann man verwenden, um das Bestehen von Heteroskedastizität in den Residuen aufzudecken (vergleiche Abbildung 3.22c). Ob eine Korrelation der Residuen untereinander vorliegt, lässt sich mithilfe von Autokorrelationsanalyse-Diagrammen kontrollieren. Da die Regressionsgerade in Abbildung 3.22d eine Steigung ungleich Null besitzt, liegt hier zum Beispiel Autokorrelation vor.

Das Vorhandensein von Heteroskedastizität und/oder Autokorrelationen in den Residuen führt zu einer beträchtlichen Unterschätzung der tatsächlichen Standardabweichungen der Parameter. Wie sich mathematisch beweisen lässt, sind in diesem Fall die geschätzten Maximum-Likelihood-Parameter zwar immer noch erwartungstreu, aber nicht mehr effizient.

3.2.4.5 Diagnose der Variablen

In linearen Regressionsmodellen sind die einzelnen Parameter jeweils einer bestimmten Eingabevariable zuweisbar. Die Grösse und t-Statistik eines Parameters liefert einen Hinweis darauf, welche Bedeutung die ihm zugeordneten Variable für die Güte der Regression besitzt. Bei Einsatz von nichtlinearen Modellen ist die Möglichkeit einer solchen Diagnose der Einflussgrössen nicht mehr gegeben, da hier die Parameter eventuell Funktionswerte gewichten, die sich durch Summierung mehrerer Eingabevariablen ergeben (vergleiche Abbildung 3.23).

Image217

Abbildung 3.23: Zuordnung mehrerer Variablen zu einem Parameter.

Um dennoch Aussagen über die Bedeutung jeder einzelnen Eingabevariable für die Güte der Approximation treffen zu können, wurden in Neurometricus die folgenden zwei grafischen Analyseverfahren integriert:

Die Sensitivitätsanalyse liefert die schlüssigsten Ergebnisse, wenn eine Mittelwert-Varianz-Normierung der Variablen vorausgesetzt werden kann. Dadurch variieren alle Beobachtungen der Eingabevariablen in einem Intervall von ungefähr [-3,3]. Man kann dann jede Eingabevariable durch eine Sequenz von Beobachtungen ersetzen, die sich gleichmässig über dieses [-3,3]-Intervall erstrecken. Indem die restlichen, nicht betrachteten Eingabevariablen konstant auf ihrem Mittelwert gehalten werden, lässt sich die Approximation jeweils in Abhängigkeit der Beobachtungssequenz berechnen und darstellen. Auf diese Weise gewinnt man einen Eindruck davon, wie sensitiv die abhängige Variable auf eine Änderung der betrachteten unabhängigen Variablen reagiert. Abbildung 3.24 zeigt dies an einem Beispiel, bei dem eine Eingabevariable einen linearen Einfluss auf die Approximation besitzt, während die zwei restlichen Eingabevariablen nichtlinear in die Schätzung eingehen.

Image218

Abbildung 3.24: Grafische Diagnose der Variablen mithilfe
der Sensitivitätsanalyse.

Bei der Sensitivitätstrendanalyse wird die Approximation in Abhängigkeit von nur einer Eingabevariable berechnet, indem diese unverändert, die restlichen Variablen aber konstant auf dem Mittelwert ihrer Beobachtungen gehalten werden. Man kann dann beobachten, ob der Verlauf der sich daraus ergebenden Funktion tendenziell dem der wahren Funktion entspricht. Auf diese Weise lassen sich zum Beispiel diejenigen Eingabevariablen des Modells identifizieren, die die Güte der Approximation eher mindern als verbessern. Ein Beispiel für den zuletzt geschilderten Fall zeigt Abbildung 3.25b.

Image219

(a) Sensitivitätstrendanalyse-Diagramm für Variable x1

Image220

(b) Sensitivitätstrendanalyse-Diagramm für Variable x2

Abbildung 3.25: Grafische Diagnose der Variablen mithilfe
der Sensistivitätstrendanalyse.

3.2.4.6 Diagnose der Verteilung der Modellstatistiken

Wie am Anfang des Abschnitts erwähnt, kann die Diagnose der Modellbildung auf Basis einer einfachen Schätzung als auch auf Basis mehrfacher Schätzungen erfolgen. Während im ersten Fall je Parameter nur ein geschätzer Wert generiert wurde, steht im zweiten Fall je Parameter eine Anzahl variierender Werte zur Verfügung (gesampelte Parameter). Die gesampelten Parameter können zur Bildung von Häufigkeitsverteilungen der Diagnose-Statistiken (vergleiche Abbildung 3.26), sowie zur Schätzung von speziellen Vertrauensintervallen und speziellen Kovarianzmatrizen der Parameter herangezogen werden.

Image221

(a) AIC-Dichte

Image222

(b) MSE-Dichte

Image223

(c) Varianz-Dichte

Abbildung 3.26: Grafische Diagnose der Verteilung der Modellstatistiken.

Abbildung 3.26a zeigt die normalverteilte AIC-Dichte. Die bimodale MSE-Dichte in Abbildung 3.26b verweist auf eine Kostenfunktion, deren Minima bezüglich der Parameter relativ nahe beieinanderliegen. Durch Einschränkung des Intervallbereichs bei der Zufallsinitialisierung der Parameter kann eventuell ein konsistenteres Bild erzeugt werden. Der chaotische Verlauf der Varianz-Dichte in Abbildung 3.26c lässt ein fehlspezifiziertes Modell vermuten, da der Erwartungswert der Varianz nicht in einem Punkt kollabiert.