Als «outliers» getaggte Fragen

Ein Ausreißer ist eine Beobachtung, die in Bezug auf eine einfache Charakterisierung eines Datensatzes ungewöhnlich oder nicht gut beschrieben erscheint. Eine unangenehme Möglichkeit besteht darin, dass diese Daten aus einer anderen Population stammen als die, die untersucht werden soll.


1
Robuster PCA vs. robuster Mahalanobis-Abstand zur Erkennung von Ausreißern
Robustes PCA (wie von Candes et al. 2009 oder besser Netrepalli et al. 2014 entwickelt ) ist eine beliebte Methode für die multivariate Ausreißererkennung. Aufgrund einer robusten, regulierten Schätzung der Kovarianzmatrix kann der Mahalanobis-Abstand jedoch auch für die Ausreißererkennung verwendet werden . Ich bin neugierig auf die (negativen) Vorteile einer …


3
Robuste Ausreißererkennung in finanziellen Zeitreihen
Ich suche nach robusten Techniken, um Ausreißer und Fehler (aus welchen Gründen auch immer) aus finanziellen Zeitreihendaten (z. B. Tickdata) zu entfernen. Tick-by-Tick-Finanzzeitreihendaten sind sehr unübersichtlich. Es enthält große (Zeit-) Lücken, wenn die Börse geschlossen wird, und macht große Sprünge, wenn die Börse wieder geöffnet wird. Wenn die Börse geöffnet …

5
Betrügt es, die Ausreißer auf der Grundlage des Boxplots des mittleren absoluten Fehlers zu löschen, um ein Regressionsmodell zu verbessern?
Ich habe ein Vorhersagemodell mit vier Methoden getestet, wie Sie in der Boxplot-Abbildung unten sehen können. Das vom Modell vorhergesagte Attribut liegt im Bereich von 0 bis 8. Möglicherweise stellen Sie fest, dass bei allen Methoden ein Ausreißer mit Obergrenze und drei Ausreißer mit Untergrenze angegeben sind. Ich frage mich, …

2
Genaue Bedeutung und Vergleich zwischen Einflusspunkt, High Leverage Point und Ausreißer?
Aus Wikipedia Einflussreiche Beobachtungen sind Beobachtungen, die einen relativ großen Einfluss auf die Vorhersagen des Regressionsmodells haben. Aus Wikipedia Hebelpunkte sind die Beobachtungen, falls vorhanden, die bei extremen oder abweichenden Werten der unabhängigen Variablen gemacht wurden, so dass das angepasste Regressionsmodell aufgrund des Fehlens benachbarter Beobachtungen dieser bestimmten Beobachtung nahe …

2
Schätzparameter einer Normalverteilung: Median statt Mittelwert?
Der übliche Ansatz zur Schätzung der Parameter einer Normalverteilung besteht darin, den Mittelwert und die Standardabweichung / Varianz der Stichprobe zu verwenden. Wenn es jedoch einige Ausreißer gibt, sollten der Median und die mediane Abweichung vom Median viel robuster sein, oder? Bei einigen Datensätzen, die ich ausprobiert habe, scheint die …

3
Verständnis des Konfidenzbandes aus einer Polynomregression
Ich versuche, das Ergebnis zu verstehen, das ich in meiner Grafik unten sehe. Normalerweise verwende ich Excel und erhalte eine lineare Regressionslinie, aber im folgenden Fall verwende ich R und erhalte eine polynomielle Regression mit dem Befehl: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Meine Fragen beschränken sich also auf Folgendes: …

5
Gibt es eine einfache Möglichkeit, Ausreißer zu erkennen?
Ich frage mich, ob es eine einfache Möglichkeit gibt, Ausreißer zu erkennen. Bei einem meiner Projekte, bei dem es sich im Grunde genommen um eine Korrelation zwischen der Häufigkeit der Teilnahme der Befragten an körperlicher Aktivität in einer Woche und der Häufigkeit ihrer wöchentlichen Mahlzeiten außerhalb des Hauses (Fast Food) …

3
Crashkurs in robuster Mittelwertschätzung
Ich habe eine Menge (ungefähr 1000) Schätzungen, und alle sollen Schätzungen der langfristigen Elastizität sein. Etwas mehr als die Hälfte davon wird mit Methode A und der Rest mit Methode B geschätzt. Irgendwo las ich so etwas wie "Ich denke, Methode B schätzt etwas ganz anderes als Methode A, weil …

1
Ausreißer basierend auf dem 2,5-fachen des RMSE fallen lassen
In Kahneman und Deaton (2010) † schreiben die Autoren Folgendes:††^\dagger Diese Regression erklärt 37% der Varianz mit einem quadratischen mittleren Fehler (RMSE) von 0,67852. Um Ausreißer und unplausible Einkommensberichte zu eliminieren, haben wir Beobachtungen fallen gelassen, bei denen der absolute Wert der Differenz zwischen dem Log-Einkommen und seiner Vorhersage das …


2
Verwenden von Nachbarinformationen bei der Eingabe von Daten oder Finden von Off-Daten (in R)
Ich habe einen Datensatz mit der Annahme, dass die nächsten Nachbarn die besten Prädiktoren sind. Nur ein perfektes Beispiel für einen Zwei-Wege-Gradienten, der Angenommen, wir haben einen Fall, in dem nur wenige Werte fehlen, und wir können dies auf der Grundlage von Nachbarn und Trends leicht vorhersagen. Entsprechende Datenmatrix in …

1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

4
Trennen von zwei Populationen von der Probe
Ich versuche, zwei Wertegruppen von einem einzigen Datensatz zu trennen. Ich kann davon ausgehen, dass eine der Populationen normal verteilt ist und mindestens halb so groß wie die Stichprobe ist. Die Werte der zweiten sind beide niedriger oder höher als die Werte der ersten (Verteilung ist unbekannt). Was ich versuche, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.