Abschlussarbeit.at

Datenkorrekturen systematischer Fehler

Datenkorrekturen systematischer Fehler
 

Beschreibung:

Systematische Fehler, die im Rahmen einer Erhebung entstanden sind, können über geeignete Korrekturverfahren reduziert werden. Hierzu sind eine detaillierte Analyse des Rohdatensatzes bzw. zusätzliche Erhebungen nötig. Die wichtigsten Korrekturverfahren sind die Datengewichtung und die Datenimputation:

Datengewichtung:

Das Ziel der Datengewichtung ist die Adaptierung der Erhebungsdaten (des Rohdatensatzes), damit diese die Grundgesamtheit möglichst gut abbilden. Datengrundlagen hierfür können einerseits nationale Daten der Grundgesamtheit (Zensus-Daten) und andererseits Datenanalysen der Befragungsdaten selbst sein. Zu ersteren zählen Gewichtungen zur Ziehungswahrscheinlichkeit sowie zu soziodemographischen Variablen. Gewichtung nach Ergebnissen der Analysen der Befragungsdaten kann zum Beispiel eine Nichtantwort Gewichtungen sein. Das Ergebnis all dieser Gewichtungsschritte sind im allgemeinen Faktorengewichte auf Erhebungseinheit.

Die Methode der Errechnung der Gewichte hängt von der Verfügbarkeit und der Struktur der Befragungsdaten, der nationalen Daten der Grundgesamtheit sowie der Stichprobengröße ab. Wenn Zensus-Daten nur als Randsummenverteilungen verfügbar sind (man weiß z.B. wie viele Frauen und Männer in einem Bezirk leben und wie viele Personen in Städten und am Land, aber nicht wie viele Frauen in Städten und Frauen am Land und Männer in Städten und Männer am Land) oder die Stichprobe zu klein ist, ist ein iteratives Verfahren zum Angleich der Stichprobenverteilungen an diese Randsummenverteilungen nötig. Wenn die Soll-Verteilungen je Einzelzelle bekannt sind und die Stichprobengröße ausreicht, ist eine Iteration nicht nötig. In diesem Fall können die Gewichte je Klasse direkt aus dem Ist-Soll-Vergleich errechnet werden. Grundsätzlich sollte Datengewichtung so disaggregiert ("nicht zu Klassen zusammengefasst") wie möglich durchgeführt werden.

Eine Datengewichtung und Datenkorrektur sollte, je nach Erhebungsgegenstand, Erhebungsmethode und Erhebungsdauer, folgende Schritte enthalten:

  • Gewichtung der unterschiedlichen Ziehungswahrscheinlichkeiten
  • Gewichtung nach soziodemographischen Merkmalen
  • Saisonale Gewichtung
  • Regionale Gewichtung
  • Nichtantwort Gewichtung
  • Gewichtung des Erinnerungseffekts und gegebenenfalls
  • Nicht Einschluss Gewichtung (Coverage-Problem)

Datenimputation:

Datenimputation ist das "Auffüllen" von Item-Non-Response in Erhebungen – dies bedeutet, dass "Löcher" im Fragebogen mit "generierten" Daten aufgefüllt werden. Im Idealfall wird dies zufällig, jedoch Verteilungswahrscheinlichkeiten innerhalb relevanter Variablen berücksichtigend, vorgenommen. Durch geeignete Datenimputation können nicht verwertbare Erhebungsteile verwertbar werden.

Tipps & sonstige Anmerkungen:

Im Rahmen der Durchführung einer Erhebung muss der Reduzierung von systematischen Fehlern höchste Aufmerksamkeit geschenkt werden. Da jedoch diese Effekte nie ausgeschlossen werden können, sind folgende zwei Schritte unerlässlich:
  • Die Analyse der Daten auf mögliche systematische Fehler und gegebenenfalls.
  • die Durchführung einer Datengewichtung (Unit-Non-Response, Coverage Probleme, Interviewer Bias) oder die Generierung der fehlenden Daten durch Datenimputation (Item-Non-Response).