Statistiken und Big Data

6

Kann die Hauptkomponentenanalyse auf Datensätze angewendet werden, die eine Mischung aus kontinuierlichen und kategorialen Variablen enthalten?

Ich habe einen Datensatz, der sowohl kontinuierliche als auch kategoriale Daten enthält. Ich analysiere mit PCA und frage mich, ob es in Ordnung ist, die kategorialen Variablen in die Analyse einzubeziehen. Meines Wissens kann PCA nur auf kontinuierliche Variablen angewendet werden. Ist das korrekt? Welche Alternativen für ihre Analyse gibt …

147 categorical-data pca correspondence-analysis mixed-type-data

5

Was soll ich tun, wenn mein neuronales Netzwerk nicht lernt?

Ich trainiere ein neuronales Netzwerk, aber der Trainingsverlust nimmt nicht ab. Wie kann ich das beheben? Ich frage nicht nach Überanpassung oder Regularisierung. Ich frage, wie ich das Problem lösen soll, bei dem sich die Leistung meines Netzwerks im Trainingssatz nicht verbessert . Diese Frage ist absichtlich allgemein gehalten, so …

147 neural-networks deep-learning

7

Welche intuitive Erklärung gibt es für den zentralen Grenzwertsatz?

In verschiedenen Kontexten wird der zentrale Grenzwertsatz herangezogen , um die statistische Methode zu rechtfertigen , die wir anwenden möchten (z. B. Annäherung der Binomialverteilung an eine Normalverteilung). Ich verstehe die technischen Details, warum der Satz wahr ist, aber mir ist gerade eingefallen, dass ich die Intuition hinter dem zentralen …

144 intuition central-limit-theorem

25

R vs SAS, warum wird SAS von privaten Unternehmen bevorzugt?

Ich habe R gelernt, aber es scheint, dass Unternehmen viel mehr an SAS-Erfahrungen interessiert sind. Was sind die Vorteile von SAS gegenüber R?

143 r sas

6

Was sind die Vorteile von ReLU gegenüber der Sigmoidfunktion in tiefen neuronalen Netzen?

Der Stand der Technik der Nichtlinearität ist die Verwendung von gleichgerichteten Lineareinheiten (ReLU) anstelle der Sigmoidfunktion in einem tiefen neuronalen Netzwerk. Was sind die Vorteile? Ich weiß, dass das Trainieren eines Netzwerks bei Verwendung von ReLU schneller wäre, und es ist biologisch inspirierter. Was sind die anderen Vorteile? (Das heißt, …

141 machine-learning neural-networks deep-learning

5

Wie genau steuert man "für andere Variablen"?

Hier ist der Artikel, der diese Frage motiviert hat: Macht uns Ungeduld dick? Mir hat dieser Artikel gefallen und er zeigt sehr gut das Konzept des „Kontrollierens für andere Variablen“ (IQ, Karriere, Einkommen, Alter usw.), um die wahre Beziehung zwischen den beiden fraglichen Variablen am besten zu isolieren. Können Sie …

141 regression causality confounding controlling-for-a-variable statistics-in-media

5

Training mit dem vollständigen Datensatz nach Quervalidierung?

Ist es immer eine gute Idee, nach einer Kreuzvalidierung mit dem vollständigen Datensatz zu trainieren ? Anders ausgedrückt, ist es in Ordnung, mit allen Mustern in meinem Datensatz zu trainieren und nicht zu überprüfen, ob diese bestimmte Passform überpasst ? Hintergrundinformationen zum Problem: Sagen wir , ich habe eine Familie …

139 machine-learning cross-validation model-selection

14

Amazon Interview Frage - Wahrscheinlichkeit des 2. Interviews

Ich habe diese Frage während eines Interviews mit Amazon erhalten: 50% aller Personen, die ein erstes Interview erhalten, erhalten ein zweites Interview 95% Ihrer Freunde, die ein zweites Interview hatten, fanden, dass sie ein gutes erstes Interview hatten 75% Ihrer Freunde, die KEIN zweites Interview erhalten haben, hatten das Gefühl, …

139 probability conditional-probability

8

Geht Facebook zu Ende?

In letzter Zeit hat dieses Papier viel Aufmerksamkeit erhalten (z . B. von WSJ ). Grundsätzlich schließen die Autoren, dass Facebook bis 2017 80% seiner Mitglieder verlieren wird. Sie stützen ihre Behauptungen auf eine Extrapolation des SIR-Modells , eines in der Epidemiologie häufig verwendeten Kompartimentmodells. Ihre Daten stammen aus Google-Suchen …

138 hypothesis-testing correlation epidemiology social-network

4

Auswahl von K bei der K-fachen Kreuzvalidierung

Ich habe die fache Kreuzvalidierung jetzt einige Male verwendet, um die Leistung einiger Lernalgorithmen zu bewerten, aber ich war immer verwirrt, wie ich den Wert von wählen sollte .KKKKKKK Ich habe oft einen Wert von gesehen und verwendet , aber das scheint mir völlig willkürlich zu sein, und ich verwende …

136 machine-learning classification cross-validation

15

Intuitive Erklärung zur Division durch bei der Berechnung der Standardabweichung?

Ich wurde heute in der Klasse gefragt, warum Sie bei der Berechnung der Standardabweichung die Summe der quadratischen Fehler durch anstelle von dividieren .nn−1n−1n-1nnn Ich sagte, ich werde es nicht im Unterricht beantworten (da ich mich nicht mit unvoreingenommenen Schätzern befassen wollte), aber später fragte ich mich - gibt es …

136 standard-error intuition teaching bessels-correction

7

Welchen Einfluss hat C in SVMs mit linearem Kernel?

Ich verwende derzeit eine SVM mit einem linearen Kernel, um meine Daten zu klassifizieren. Es liegt kein Fehler im Trainingssatz vor. Ich habe verschiedene Werte für den Parameter ausprobiert ( ). Dies hat den Fehler im Test-Set nicht verändert.10 - 5 , … , 10 2CCC10- 5, … , 10210−5,…,10210^{-5}, …

134 machine-learning svm libsvm

2

Eine Liste von Kostenfunktionen, die in neuronalen Netzen neben Anwendungen verwendet werden

Welche allgemeinen Kostenfunktionen werden bei der Bewertung der Leistung neuronaler Netze verwendet? Einzelheiten (Fühlen Sie sich frei, den Rest dieser Frage zu überspringen. Ich beabsichtige hier lediglich, Klarheit über die Notation zu schaffen, die Antworten verwenden können, um sie für den allgemeinen Leser verständlicher zu machen.) Ich denke, es wäre …

133 machine-learning neural-networks

2

Wie bestimme ich, welche Distribution am besten zu meinen Daten passt?

Ich habe einen Datensatz und möchte herausfinden, welche Verteilung am besten zu meinen Daten passt. Ich habe die fitdistr()Funktion verwendet, um die notwendigen Parameter zur Beschreibung der angenommenen Verteilung abzuschätzen (z. B. Weibull, Cauchy, Normal). Mit diesen Parametern kann ich einen Kolmogorov-Smirnov-Test durchführen, um abzuschätzen, ob meine Probendaten aus derselben …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

5

Was ist der Unterschied zwischen der Hauptkomponentenanalyse und der mehrdimensionalen Skalierung?

Wie unterscheiden sich PCA und klassisches MDS? Wie wäre es mit MDS im Vergleich zu nichtmetrischem MDS? Gibt es eine Zeit, in der Sie eine der anderen vorziehen würden? Wie unterscheiden sich die Interpretationen?

133 pca multidimensional-scaling pcoa