Saturday 15 July 2017

How To Deal Mit Fehlenden Daten In Stata Forex


HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ: Wie kann ich die Anzahl der fehlenden Werte und Muster fehlender Werte in meiner Datendatei sehen Manchmal kann ein Datensatz quotholesquot darin haben, Dh fehlende Werte. Einige statistische Verfahren wie die Regressionsanalyse funktionieren nicht oder gar nicht auf einem Datensatz mit fehlenden Werten. Die Beobachtungen mit fehlenden Werten müssen gelöscht werden oder die fehlenden Werte müssen ersetzt werden, damit ein statistisches Verfahren sinnvolle Ergebnisse liefert. Die meisten statistischen Programme (einschließlich SAS, SPSS und Stata) entfernen automatisch solche Fälle von einer Analyse, die Sie ausführen (ohne die Fälle aus dem Dataset zu löschen). Aus diesem Grund variiert der Quotient häufig von Analyse zu Analyse, auch wenn der Dataset derselbe ist. Unterschiedliche Variablen haben unterschiedliche Mengen an fehlenden Daten und daher ändert die Änderung der Variablen in einem Modell die Anzahl der Fälle mit vollständigen Daten zu allen Variablen im Modell. Weil die Software Fälle mit fehlenden Werten für uns sinkt, ist es sehr einfach, über fehlende Daten vollständig zu quittieren. Allerdings kann das Vorhandensein fehlender Daten unsere Ergebnisse beeinflussen, insbesondere wenn ein Datensatz oder sogar eine einzelne Variable einen hohen Prozentsatz an Werten fehlt. Daher ist es immer eine gute Idee, einen Datensatz auf fehlende Daten zu überprüfen und darüber nachzudenken, wie die fehlenden Daten unsere Analysen beeinflussen können. Auf dieser Seite finden Sie einige Methoden, um fehlende Werte in einem Datensatz zu suchen. Diese Informationen können verwendet werden, um fundiertere Entscheidungen zur Handhabung der fehlenden Werte zu treffen. Bevor wir anfangen, benötigen wir einige Daten mit fehlenden Werten, der Code unten gibt einen kleinen Dataset in Stata ein und zeigt dann diese Daten an. In einem kleinen Datensatz, wie der unten, ist es sehr einfach, die Rohdaten zu betrachten und zu sehen, wo Werte fehlen. Wenn Datenmengen groß sind, benötigen wir jedoch eine systematischere Methode, um unseren Datensatz auf fehlende Werte zu untersuchen. Im Folgenden zeigen wir Ihnen einige Möglichkeiten, dies zu tun, mit den folgenden Daten als Beispiel. 1. Anzahl der fehlenden Werte vs. Anzahl der nicht fehlenden Werte Das erste, was wir tun werden, ist festzustellen, welche Variablen eine Menge fehlender Werte haben. Wir haben ein kleines Stata-Programm namens mdesc erstellt, das die Anzahl der fehlenden Werte sowohl in numerischen als auch in Zeichenvariablen zählt. Sie können mdesc von innerhalb von Stata downloaden, indem Sie findit mdesc eingeben (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über die Verwendung von finidit zu erhalten). Dann können Sie mdesc für eine oder mehrere Variablen ausführen, wie unten dargestellt. Nun kennen wir die Anzahl der fehlenden Werte in jeder Variablen. Zum Beispiel hat variable salepric vier fehlende Werte und saltoapr hat zwei fehlende Werte. 2. Ermitteln der Anzahl fehlender Werte pro Beobachtung Wir können auch die Verteilung der fehlenden Werte über Beobachtungen betrachten. Der folgende Code erzeugt eine Variable namens nmis, die die Anzahl der fehlenden Werte für jede Beobachtung angibt. Die hier verwendete Funktion rmiss2 () ist eine Erweiterung der egen-Funktion rmiss (). Es zählt die Anzahl der fehlenden Werte in der varlist. Rmiss2 () akzeptiert sowohl String als auch numerische Variablen. (Statas rmiss () akzeptiert nur numerische Variablen.) Sie können rmiss2 () über das Internet herunterladen, indem Sie findit rmiss2 eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten ). Darunter tabellieren wir die Variable, die wir gerade erstellt haben. Betrachtet man die Frequenztabelle, so wissen wir, dass es vier Beobachtungen ohne fehlende Werte gibt, neun Beobachtungen mit fehlenden Werten, eine Beobachtung mit zwei fehlenden Werten und eine Beobachtung mit drei fehlenden Werten. 3. Muster fehlender Werte Wir können auch die Muster fehlender Werte betrachten. Sie können mvpatterns über das Internet von innerhalb von Stata downloaden, indem Sie findit mvpatterns eintippen (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über usingitit zu erhalten). Der Befehl mvpatterns erzeugt eine Ausgabe für alle Variablen im Datenbestand, für fehlende Datenmuster über eine Teilmenge von Variablen kann eine Variablenliste enthalten sein, z. B. mvpatterns landval improval totval. Die Ausgabe, die von mvpatterns erzeugt wird, ist unten gezeigt. In der ersten Tabelle sind die Variablen, deren Speichertyp (Typ), die Anzahl der Beobachtungen (obs), die Anzahl der fehlenden Werte (mv) und die Variablenbeschriftung aufgelistet. Die zweite Tabelle enthält die Informationen über das Muster der fehlenden Werte. Der erste Spaltenblock in der Ausgabe zeigt die Muster fehlender Daten. Innerhalb des Blocks wird jede Variable durch eine Spalte dargestellt, ein Quotient zeigt an, dass Werte dieser Variablen in einem gegebenen fehlenden Datenmuster vorhanden sind, ein quadratisches Zeichen bedeutet, dass sie fehlen. Die Spalten folgen der gleichen Reihenfolge wie die Variablenliste in der ersten Tabelle, sodass die erste Spalte in der Ausgabe unten repräsentiert landval. Die zweite Verbesserung. und so weiter. Die fehlenden Datenmuster werden in absteigender Häufigkeit aufgelistet, hier ist das gebräuchlichste fehlende Datenmuster vollständige Daten (quotquot). Die Tabelle zeigt auch die Anzahl der fehlenden Werte in diesem Muster (mv) und die Anzahl der Fälle mit dem fehlenden Datenmuster (freq). Basierend auf den Informationen in der zweiten Tabelle wissen wir, dass es vier Beobachtungen ohne fehlende Werte, zwei Fälle fehlen auf nur die variable salepric. Und eine Beobachtung mit fehlenden Werten zur Verbesserung. Salepric und saltoapr. 4. Wenn alle interessierenden Variablen numerisch sind Die obigen Beispiele funktionieren unabhängig davon, ob die interessierenden Variablen (d. h. die Variablen, deren fehlende Datenmuster Sie untersuchen möchten) numerisch oder string sind. Wenn alle Variablen, die Sie auf fehlende Werte überprüfen möchten, numerisch sind, können wir ein Programm mit dem Namen misschk verwenden, um die Schritte der Untersuchung der fehlenden Daten in unserem Datensatz zu vereinfachen. (Beachten Sie, dass numerische Variablen diejenigen mit Wertbeschriftungen enthalten, die Strings sind, solange die tatsächlichen Werte der Variablen als Zahlen gespeichert sind.) Sie können misschk aus Stata herunterladen, indem Sie findit misschk eingeben (siehe Wie kann ich den findit-Befehl verwenden? Nach Programmen suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit erhalten). Unten ist der Befehl für misschk. Wir haben alle fünf Variablen in unserem Datensatz in der Variablenliste nach dem Befehl misschk aufgelistet. Allerdings hätten wir die Variablenleerliste einfach leer lassen können (d. H. Stattdessen nur misschk. gen (miss)), wenn wir hatten, hätte misschk mit allen Variablen in unserem Datensatz laufen gelassen. Die Variablenliste ist nur dann notwendig, wenn wir nur einige der Variablen in unserem Datensatz ausführen wollen. Die gen (miss) - Option sagt misschk, dass wir wollen, dass sie zwei neue Variablen erzeugt, die beide mit quotmissquot beginnen. Diese beiden Variablen werden als Fehl - und Fehlzahl bezeichnet. Die Variable misspattern gibt an, welches der fehlenden Datenmuster jeweils folgt. Die variable Fehlzahl gibt die Anzahl der fehlenden Werte für jeden Fall an. Die Ausgabe für misschk besteht aus drei Tabellen. Die erste Tabelle listet die Anzahl der fehlenden Werte sowie prozentual fehlende Werte für jede Variable auf, dies entspricht der Tabelle, die von mdesc in Teil 1 oben erstellt wurde. Diese Tabelle enthält auch eine Spalte, die beschriftet ist, die jeder Variablen eine Zahl zuweist, die verwendet wird, um die Variable später in der Ausgabe zu identifizieren. Die zweite Tabelle zeigt die Verteilung der fehlenden Werte. Das Muster des Fehlens wird unter Verwendung der variablen Zahlen aus der ersten Tabelle und Unterstriche () beschrieben. Die Zahlen geben an, welche Variablen in diesem Muster fehlen, wobei die Unterstriche nicht fehlende Beobachtungen darstellen. Zum Beispiel sehen wir aus der zweiten Tabelle, dass zwei Fälle fehlende Werte auf Variable 1 (Landval) haben, aber vollständige Daten zu allen anderen Variablen enthalten und dass in einem Fall Daten der Variablen 2, 4 und 5 fehlen Dass vier Fälle überhaupt keine Werte fehlen (alle Unterstriche). Diese Tabelle zeigt die gleichen Informationen, die in Teil 3 oben, aber in einem etwas anderen Format erzeugt wurden. Das fehlende Datenmuster für jeden Fall wird in dem variablen Fehlspattern beschrieben. Schließlich zeigt die dritte Tabelle die Verteilung der Anzahl fehlender Werte pro Fall. Dies ist die gleiche Information, die oben in Teil 2 diskutiert wurde. Die Anzahl der Variablen, die jeder Fall fehlt, ist auch in der variablen Fehlzahl enthalten. Der Inhalt dieser Website sollte nicht als eine Anerkennung für eine bestimmte Website, Buch oder Software-Produkt von der University of California ausgelegt werden. Dealing mit fehlenden Daten aus PsychWiki - Eine kollaborative Psychologie Wiki Wie behandle ich mit fehlenden Werten Sie haben Drei grundlegende Optionen beim Umgang mit fehlenden Werten. Option 1 ist nichts zu tun. Lassen Sie die Daten so, wie sie sind, mit den fehlenden Werten. Dies ist der häufigste Ansatz, für ein paar Gründe. Erstens ist die Anzahl der fehlenden Werte typischerweise klein. Zweitens sind fehlende Werte typischerweise nicht zufällig. Drittens erstellen Sie, auch wenn es nur wenige fehlende Werte für einzelne Elemente gibt, in der Regel Zusammensetzungen der Elemente, indem sie diese zu einer neuen Variablen zusammenfassen, und diese zusammengesetzte Variable hat keine fehlenden Werte, da sie ein Durchschnitt der vorhandenen Daten ist. Wenn Sie diese Option gewählt haben, müssen Sie jedoch bedenken, wie SPSS die fehlenden Werte behandeln wird. SPSS verwendet entweder das Löschvorzeichen oder das paarweise Löschen der fehlenden Werte. Sie können wählen, entweder bei der Durchführung jeder Prüfung in SPSS. Listwise-Löschung SPSS enthält keine Fälle (Themen), die fehlende Werte für die Variable (n) in der Analyse haben. Wenn Sie nur eine Variable analysieren, dann wird das Lösen der Liste einfach die vorhandenen Daten analysiert. Wenn Sie mehrere Variablen analysieren, werden die Fälle (Subjekte) durch Listenlöschung entfernt, wenn auf den Variablen ein fehlender Wert vorhanden ist. Der Nachteil ist ein Datenverlust, da Sie alle Daten von Personen entfernen, die einige der Fragen beantwortet haben, aber nicht andere (z. B. die fehlenden Daten). Pairwise löschen SPSS enthält alle verfügbaren Daten. Im Gegensatz zum listweisen Löschen, das Fälle (Subjekte) entfernt, die fehlende Werte auf einer der zu analysierenden Variablen haben, entfernt das paarweise Löschen nur die spezifischen fehlenden Werte aus der Analyse (nicht den gesamten Fall). Mit anderen Worten, alle verfügbaren Daten sind enthalten. - Wenn Sie eine Korrelation auf mehrere Variablen durchführen, führt SPSS die bivariante Korrelation zwischen allen verfügbaren Datenpunkten aus und ignoriert nur jene fehlenden Werte, wenn sie auf einigen Variablen vorhanden sind. In diesem Fall führt das paarweise Löschen zu unterschiedlichen Probengrößen für jede Korrelation. Eine paarweise Deletion ist nützlich, wenn die Stichprobengröße klein ist oder die fehlenden Werte groß sind, da es nicht viele Werte zu Beginn gibt, weswegen Sie mit dem Lösen der Liste noch mehr auslassen. Um besser zu verstehen, wie das Lösen von Listenwörtern gegen die paarweise Löschung Ihre Ergebnisse beeinflusst, versuchen Sie, denselben Test mit beiden Löschmethoden durchzuführen. Ändert sich das Ergebnis Auch ist es wichtig zu beachten, dass für jede Art von Test, den Sie durchführen, müssen Sie identifizieren, wenn SPSS wird mit listwise oder paarweise löschen. Die meisten Tests erlauben Ihnen, Ihre Präferenz auszuwählen, aber Sie sollten immer überprüfen Sie Ihre Ausgabe für die Anzahl der Fälle in jeder Analyse verwendet, um zu identifizieren, wenn paarweise oder listwise Löschung verwendet wurde. Option 2 besteht darin, Fälle mit fehlenden Werten zu löschen. - Für jeden fehlenden Wert im Datenbestand können Sie die Themen mit den fehlenden Werten löschen. So bleiben Sie mit allen Daten für alle Fächer zurück. Der Nachteil dieses Ansatzes ist, dass Sie die Stichprobengröße Ihrer Daten reduzieren. Wenn Sie einen großen Datensatz haben, dann kann es nicht ein großer Nachteil sein, weil Sie genug Themen haben, auch nachdem Sie die Fälle mit fehlenden Werten löschen. Ein weiterer Nachteil dieses Ansatzes besteht darin, dass die Subjekte mit fehlenden Werten sich von den Probanden ohne fehlende Werte unterscheiden können (z. B. fehlende Werte, die nicht zufällig sind), so dass Sie nach dem Entfernen der Fälle mit fehlenden Werten eine nicht repräsentative Stichprobe haben. Sobald die Situation, in der ich Option 2 verwenden, ist, wenn bestimmte Themen nicht eine gesamte Skala oder Seite der Studie beantwortet haben. Option 3 soll die fehlenden Werte ersetzen, die sogenannte Imputation. Es gibt wenig Übereinstimmung darüber, ob oder nicht zu führen Anrechnung. Es gibt jedoch eine gewisse Übereinstimmung in der Art der Anrechnung zu führen. - Üblicherweise führen Sie keine mittlere Substitution oder Regressionssubstitution durch. Die mittlere Substitution ersetzt den fehlenden Wert durch den Mittelwert der Variablen. Regressionssubstitution verwendet Regressionsanalyse, um den fehlenden Wert zu ersetzen. Die Regressionsanalyse ist so ausgelegt, dass sie eine Variable basierend auf einer anderen Variablen vorhersagt, so dass sie verwendet werden kann, um den fehlenden Wert auf der Grundlage der Antwort der Versuchsperson auf eine andere Variable vorherzusagen. Die bevorzugte Art der Imputation ersetzt die fehlenden Werte durch verschiedene Schätzmethoden. Das Add-On-Modul Fehlende Werteanalyse in SPSS enthält die Schätzmethoden.

No comments:

Post a Comment