Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
Sind CDFs grundlegender als PDFs?
Mein stat prof sagte im Grunde, wenn eine der folgenden drei gegeben ist, können Sie die anderen zwei finden: Verteilungsfunktion Moment erzeugende Funktion Wahrscheinlichkeitsdichtefunktion Mein Ökonometrieprofessor sagte jedoch, CDFs seien grundlegender als PDFs, da es Beispiele gibt, in denen Sie eine CDF haben können, die PDF jedoch nicht definiert ist. …
43 probability  pdf  cdf  mgf 

13
Kann maschinelles Lernen die SHA256-Hashes dekodieren?
Ich habe einen SHA256-Hash mit 64 Zeichen. Ich hoffe, ein Modell zu trainieren, das vorhersagen kann, ob der zur Generierung des Hashs verwendete Klartext mit einer 1 beginnt oder nicht. Unabhängig davon, ob dies "Möglich" ist, welcher Algorithmus ist der beste Ansatz? Meine ersten Gedanken: Generieren Sie eine große Stichprobe …


3
Softmax-Schicht in einem neuronalen Netzwerk
Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen. Der Softmax-Ausgang ist wobeijdie Ausgangsneuronenzahl ist.hj= ezj∑ ezichhj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Wenn ich es ableite, bekomme ich ∂hj∂zj= hj( 1 - hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Ähnlich wie bei der logistischen Regression. Dies ist jedoch falsch, da …

2
Zufällige Waldannahmen
Ich bin ein bisschen neu in zufälligen Wäldern, also habe ich immer noch Probleme mit einigen grundlegenden Konzepten. In der linearen Regression nehmen wir unabhängige Beobachtungen, konstante Varianz ... an. Was sind die Grundannahmen / Hypothesen, die wir machen, wenn wir zufällige Gesamtstrukturen verwenden? Was sind die Hauptunterschiede zwischen zufälligen …


6
Funktionen zur Zeitreihenklassifizierung
Ich betrachte das Problem der (Mehrklassen-) Klassifikation basierend auf Zeitreihen variabler Länge , das heißt, eine Funktion über eine globale Darstellung der Zeitreihe durch einen Satz ausgewählter Merkmale fester Größe unabhängig von , und verwenden Sie dann Standardklassifizierungsmethoden für diesen Feature-Set. Ich bin nicht an Prognosen interessiert, dh an der …

5
Regression, wenn die OLS-Residuen nicht normal verteilt sind
Auf dieser Site befinden sich mehrere Threads, in denen erläutert wird, wie ermittelt werden kann, ob die OLS-Residuen asymptotisch normal verteilt sind. Eine weitere Möglichkeit, die Normalität der Residuen mit R-Code zu bewerten, bietet diese hervorragende Antwort . Dies ist eine weitere Diskussion über den praktischen Unterschied zwischen standardisierten und …

4
Wie vergleiche ich zwei Zeitreihen statistisch?
Ich habe zwei Zeitreihen, die in der folgenden Darstellung gezeigt werden: Der Plot zeigt die vollständigen Details beider Zeitreihen, aber ich kann ihn bei Bedarf leicht auf die zufälligen Beobachtungen reduzieren. Meine Frage ist: Mit welchen statistischen Methoden kann ich die Unterschiede zwischen den Zeitreihen bewerten? Ich weiß, dass dies …
43 r  time-series 

4
Kompendium der Kreuzvalidierungstechniken
Ich frage mich, ob irgendjemand von einem Kompendium von Kreuzvalidierungstechniken mit einer Diskussion der Unterschiede zwischen ihnen und einem Leitfaden, wann jeder von ihnen zu verwenden ist, weiß. Wikipedia hat eine Liste der gebräuchlichsten Techniken, aber ich bin gespannt, ob es andere Techniken gibt und ob es Taxonomien dafür gibt. …

9
Winzige (echte) Datensätze für Beispiele im Unterricht?
Beim Unterrichten einer Einführungsklasse erfinden die mir bekannten Lehrer in der Regel einige Zahlen und eine Geschichte, um die Methode zu veranschaulichen, die sie unterrichten. Ich würde es vorziehen, eine echte Geschichte mit reellen Zahlen zu erzählen. Diese Geschichten müssen sich jedoch auf einen sehr kleinen Datensatz beziehen, der manuelle …


3
Überprüfen von Statistiken in Papieren
Für einige von uns gehört das Begutachten von Papieren zum Job. Wenn ich statistische Methodikpapiere referiere, halte ich Ratschläge aus anderen Fachgebieten, dh Informatik und Mathematik, für ziemlich nützlich . Diese Frage betrifft die Überprüfung angewandter statistischer Papiere. Damit meine ich, dass die Arbeit in einem nicht statistischen / mathematischen …
43 journals  referee 

4
Was ist Unterschied in Unterschied?
Unterschiede in den Unterschieden sind seit langem als nicht-experimentelles Instrument beliebt, insbesondere in der Wirtschaft. Kann jemand bitte eine klare und nicht-technische Antwort auf die folgenden Fragen zu Unterschieden geben? Was ist ein Differenz-in-Differenz-Schätzer? Warum kann ein Differenz-in-Differenz-Schätzer verwendet werden? Können wir tatsächlich Differenz-in-Differenz-Schätzungen vertrauen?

9
Warum verwenden Menschen p-Werte anstelle der Berechnung der Wahrscheinlichkeit für das gegebene Modell?
Grob gesagt ergibt ein p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist. Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist). Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese unter Berücksichtigung des beobachteten Ergebnisses zu berechnen? In mehr …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.