Vom Umgang mit fehlenden Werten - fu:stat thesis (2024)

Im Folgenden wird eine Auswahl an Verfahren zur Behandlung von fehlenden Werten unter Berücksichtigung der jeweiligen Vor- und Nachteile kurz erläutert.

Traditionelle Methoden

Ausschluss von Fällen

Die einfachste und am häufigsten in der Praxis verwendete Methode zur Behandlung von fehlenden Werten ist der listenweise Fallausschluss. Bei diesem Verfahren werden bei der statistischen Analyse nur Fälle berücksichtigt, bei denen alle beteiligten Variablen gültige Ausprägungen aufweisen. Fehlt z.B. bei der multiplen Regression nur eine einzige Prädiktorausprägung, wird der komplette Fall ausgeschlossen.

Zu beachten ist, dass bei Verletzung der MCAR Bedingung die Schätzer unter Umständen verzerrt sein können. Ein weiterer Nachteil ist der mitunter sehr große Informationsverlust, da häufig eine Vielzahl von Fällen ausgeschlossen werden müssen. Dies hat unter anderem Auswirkungen auf die Power von Testaussagen.

Zu den Vorteilen zählen die einfache Anwendung, sowie erwartungstreue Schätzer und korrekte Inferenzergebnisse, wenn die MCAR-Annahme zutrifft. Erfahrungsgemäß trifft der MCAR jedoch nur sehr selten zu.

Substitution durch Lagemaße

Bei der Substitution durch ein Lagemaß, dem einfachsten Imputationsverfahren, werden fehlende Werte durch ein empirisches Lagemaß ersetzt. Die Wahl des Lagemaßes hängt vom Skalenniveau der zu imputierenden Variablen ab. Durch die Imputation durch ein Lagemaß bleiben die Mittelwerte der marginalen Verteiluingunverändert, jedoch ergeben sich verzerrte Schätzer für die Varianz und die Kovarianz mit anderen Merkmalen. Außerdem wird die Korrelation zwischen zwei Variablen, die imputiert wurden, abgeschwächt, da die imputierten - konstanten - Fälle keine Korrelation mit irgendeiner anderen Variable aufweisen. Folglich kann die Substitution durch ein Lagemaß für univariate Analysen geeignet sein, für multivariate Analysen in der Regel jedoch nicht.

Regressionsimputation

Die Regressionsimputation nutzt den funktionalen Zusammenhang zwischen mehreren Variablen aus, indem ein Regressionsmodell mit den beobachteten Fällen berechnet wird. Anschließend wird das Modell genutzt, um die fehlenden Werte zu imputieren (per Prädiktion). Zur Berechnung der Prädiktion müssen natürlich die Merkmale zur Bestimmung des Prädiktors bekannt sein.Diese Art der direkten Ersetzung wird deterministische Regressionsimputation genannt. Das Problem besteht darin, dass die imputierten Fälle keine Residualstreuung besitzen, d.h. sie liegen alle genau auf der Regressionsgeraden. Neben verzerrten Varianzen und Korrelationen führt dieses Verfahren außerdem zu einem inflationierten Determinationskoeffizienten bei Regressionsanalysen.

Einen Ansatz, dieses Problem zu beheben, liefert die stochastische Regressionsimputation, bei der eine Residualkomponente mit geeigneter Varianz auf die Prädiktion addiert wird. Problematisch ist, dass in der anschließenden Analyse die imputierten Werte auf die gleiche Weise wie die beobachteten Werte verwendet werden, obwohl diese - durch die Imputation - einer erhöhten Unsicherheit unterliegen. Daraus folgen systematisch unterschätzte Standardfehler und eine zu liberale Inferenzstatistik, d.h. zu kleine Konfidenzintervalle und zu häufige Ablehnungen einer Nullhypothese. Trotz dessen liefert die stochastische Regression, wenn die MAR-Annahme erfüllt ist, unverzerrte Schätzer.

Im Folgenden werden Verfahren vorgestellt, die unter der MAR-Bedingung sowohl zu konsistenten Schätzern als auch zu korrekter Inferenzstatistik führen.

Maximum Likelihood Methoden

Maximum Likelihood (ML) Methoden spielen bei vielen statistischen Verfahren zur Schätzung von Modellen und deren Parametern eine wichtige Rolle. Die Intuition hinter dem Verfahren ist dabei immer die gleiche: Gegeben ein parametrisches statistisches Modells und die beobachteten Daten werden die Parameter des Modells so geschätzt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten - unter dem parametrischen Modell - maximiert wird. Im Imputationskontext wird die ML-Methode bei zwei gebräuchlichen Verfahren verwendet.

Das erste Verfahren, welches die ML-Methode verwendet, ist der EM-Algorithmus (Expectation Maximization). Bei diesem Verfahren werden im ersten Schritt die Verteilungsmomente (Mittelwert, Varianz, Kovarianz) geschätzt, welche in demdarauffolgenden Schritt bei der Berechnung der traditionellen statistischen Verfahren genutzt werden können. Wenn die MAR-Bedingung erfüllt ist, sind die so berechneten Schätzer konsistent. Die Standardfehler werden hingegen unterschätzt, was wiederum zu inkorrekter Inferenzstatistik führt.

Das zweite Verfahren, welches die ML-Methode verwendet, ist die FIML-Technik (Full Information Maximum Likelihood). Beim FIML-Verfahren werden die fehlenden Werte nicht imputiert. Die Berechnung der Parameter beruht ausschließlich auf allen beobachteten Werten. Unter der MAR-Bedingung erhält man konsistente Schätzer und korrekte Standardfehler.

Multiple Imputation

Wie bereits erwähnt, führt die Imputation von nur einem Datensatz zu verminderten Standardfehlern und ungültiger Inferenz. Deshalb schlägt Rubin (1987) vor, mehrere Datensätze zu erstellen. Verfahren, die mehrere Datensätze erstellen, werden unter dem Begriff "Multiple Imputation" zusammengefasst. Die anschließende statistische Analyse (z.B. die Berechnung einer multiplen Regression) erfolgt dann parallel für jeden Datensatz getrennt. Somit werden verschiedene Schätzer für den gleichen Parameter gewonnen. Dieses Vorgehen hat den Vorteil, dass die durch die Imputation erzeugte Unsicherheit berücksichtigt wird und in die Berechnung der Standardfehler mit einfließen kann.

Ablauf

Die Analyse und Imputation eines Datensatzes erfolgt in drei Schritten.

  1. Imputation
    Zuerst werden die fehlenden Werte in jeder Variable ersetzt, indem ein auf Regressionstechniken basierendes Imputationsmodell für jede Variable spezifiziert wird. Umdie Unsicherheit bei der Erzeugung der Imputationswerte zu kontrollieren, werden hierfür mehrere Datensätze (z.B. 10) erstellt. Damit nicht für jeden Datensatz die gleichen Parameterschätzungen verwendet werden, wird aus einer Verteilung potentieller Parameterausprägungen gezogen. Diese Verteilung kann mit den Bayes-Prinzipien erzeugt werden, wofür Vorwissen über die Parameter und Informationen aus der beobachteten Stichprobe benötigt werden.
  2. Analyse
    Zur Analyse werden die gleichen Verfahren angewendet, wie bei der Analyse eines vollständigen Datensatzes (z.B. die multiple Regression). Allerdings muss die Analyse für jeden erzeugten Datensatz durchgeführt werden (z.B. die Berechnung von 10 multiplen Regressionen mit 10 Parameterschätzungen und 10 Standardfehlern).
  3. Zusammenfassung
    Anschließend werden die Schätzungen für jeden Parameter gemittelt und ergeben so die gesuchte Punktschätzung. Aus den Standardfehlern und der Varianz der Parameterschätzung lassen sich außerdem Konfidenzintervalle und Hypothesentests konstruieren. Die Methode liefert erwartungstreue Parameterschätzer und korrekte Standardfehler für die Inferenzstatistik. Leider existieren fürmanche statistischen Ergebnisse, die aus den Imputationsstichproben gewonnen wurden, noch keine allgemein anerkannten Methoden zur Zusammenfassung.

Als Voraussetzung für die Durchführung der Multiplen Imputation muss die MAR-Bedingung erfüllt sein.

Benutzung von Gewichtungsverfahren

Gewichtungsverfahren benutzen Prädiktionsmodelle für das Auftreten von fehlenden Werten – im Unterschied zur Prädiktion desfehlenden Werts. Die erklärenden Merkmale müssen sowohl für die Einheiten mit den fehlenden Merkmalen als auch für die Einheiten mit den beobachteten Merkmalen bekannt sein. Daher wird dieses Verfahren häufig bei Item-Nonresponse, also dem Fehlen einzelner Merkmalswerte bei sonstiger Teilnahme an der Befragung,angewendet. Auf Basis dieser Prädiktion wird für die beobachteten Einheiten (Complete Cases) eine Gewichtungsvariable über den Kehrwert derPrädiktion bestimmt. Die Gewichtungsvariablewird bei der Schätzung von Totals und Mittelwerten aber auch bei der Berechnung von Momenten bei der Regressionsanalyse angewendet. Im Rahmen des Design-basierten Ansatzes wird die Angabe eines Werts als letzte Auswahlstufe des Ziehungsverfahrens betrachtet. Allerdings sind in diesem Fall die Ziehungswahrscheinlichkeiten nicht bekannt sondernmüssen über das Prädiktionsmodell geschätzt werden. In einem einfachen Modell sind die Responsewahrscheinlichkeiten innerhalbeiner Gruppeneinteilung konstant. Dieses sogenannte Response hom*ogeneityGroup Model(siehe Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan (1992): Model Assisted Survey Sampling, Springer Verlag, NewYork) bestimmt innerhalb jeder Gruppe die Antwortbereitschaft über die Responserate innerhalb der Gruppenmitglieder.

Ein anderer Gewichtungsansatz benutzt einen Kalibrationsansatz. Hier wird für ausgewählte Merkmale, etwa Altergruppen nach Geschlecht, die Kenntnis der Populationswerte benutzt, um die bestehenden Gewichtungsvariablen so zu modifizieren, dass die vorgegebenen Populationswerte mit den modifizierten Gewichtungsvariablen genau eingehalten werden ("Kalibration"). Dieser Ansatz wird daher meistens bei Unit-Nonresponse eingesetzt. Je nach benutzter Distanzfunktion zwischen den Designgewichten und den modifizierten Gewichten kommt man auf unterschiedliche Kalibrationsschätzer: Bei quadratischen Abstand erhält manden GeneralizedRegression Schätzer (GREG); bei logarithmischer Abstandsfunktion erhält den Raking-Schätzer. Dieser Ansatz wird in der Survey-Literatur auch als Iterative Proportional Fitting, Randanpassung oder Soll/Ist-Anpassungbezeichnet.Einen Überblick über den Kalibrationsansatz bietet der Artikel von Särndal (2007).

Vom Umgang mit fehlenden Werten - fu:stat thesis (2024)

References

Top Articles
Latest Posts
Article information

Author: Edmund Hettinger DC

Last Updated:

Views: 5970

Rating: 4.8 / 5 (58 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Edmund Hettinger DC

Birthday: 1994-08-17

Address: 2033 Gerhold Pine, Port Jocelyn, VA 12101-5654

Phone: +8524399971620

Job: Central Manufacturing Supervisor

Hobby: Jogging, Metalworking, Tai chi, Shopping, Puzzles, Rock climbing, Crocheting

Introduction: My name is Edmund Hettinger DC, I am a adventurous, colorful, gifted, determined, precious, open, colorful person who loves writing and wants to share my knowledge and understanding with you.