Statistiken und Big Data

3

Mein stat prof sagte im Grunde, wenn eine der folgenden drei gegeben ist, können Sie die anderen zwei finden: Verteilungsfunktion Moment erzeugende Funktion Wahrscheinlichkeitsdichtefunktion Mein Ökonometrieprofessor sagte jedoch, CDFs seien grundlegender als PDFs, da es Beispiele gibt, in denen Sie eine CDF haben können, die PDF jedoch nicht definiert ist. …

43 probability pdf cdf mgf

13

Kann maschinelles Lernen die SHA256-Hashes dekodieren?

Ich habe einen SHA256-Hash mit 64 Zeichen. Ich hoffe, ein Modell zu trainieren, das vorhersagen kann, ob der zur Generierung des Hashs verwendete Klartext mit einer 1 beginnt oder nicht. Unabhängig davon, ob dies "Möglich" ist, welcher Algorithmus ist der beste Ansatz? Meine ersten Gedanken: Generieren Sie eine große Stichprobe …

43 machine-learning logistic

5

Was können wir ab einer Stichprobengröße von 1 zum Populationsmittelwert sagen?

Ich frage mich , was wir sagen können, wenn überhaupt, über die Bevölkerung bedeuten, , wenn alles , was ich habe eine Messung ist, (Probengröße von 1). Natürlich hätten wir gerne mehr Messungen, aber wir können sie nicht bekommen.y 1μμ\muy1y1y_1 Mir scheint, da der Stichprobenmittelwert trivial gleich , ist . …

43 mean sample-size small-sample unbiased-estimator

3

Softmax-Schicht in einem neuronalen Netzwerk

Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen. Der Softmax-Ausgang ist wobeijdie Ausgangsneuronenzahl ist.hj= ezj∑ ezichhj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Wenn ich es ableite, bekomme ich ∂hj∂zj= hj( 1 - hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Ähnlich wie bei der logistischen Regression. Dies ist jedoch falsch, da …

43 neural-networks

2

Zufällige Waldannahmen

Ich bin ein bisschen neu in zufälligen Wäldern, also habe ich immer noch Probleme mit einigen grundlegenden Konzepten. In der linearen Regression nehmen wir unabhängige Beobachtungen, konstante Varianz ... an. Was sind die Grundannahmen / Hypothesen, die wir machen, wenn wir zufällige Gesamtstrukturen verwenden? Was sind die Hauptunterschiede zwischen zufälligen …

43 regression classification random-forest

5

Was bedeuten "Endogenität" und "Exogenität" inhaltlich?

Ich verstehe, dass die grundlegende Definition der Endogenität darin besteht, dass nicht erfüllt ist, aber was bedeutet dies im Sinne der realen Welt? Ich habe den Wikipedia-Artikel mit dem Beispiel für Angebot und Nachfrage gelesen und versucht, einen Sinn daraus zu ziehen, aber es hat nicht wirklich geholfen. Ich habe …

43 regression causality instrumental-variables

6

Funktionen zur Zeitreihenklassifizierung

Ich betrachte das Problem der (Mehrklassen-) Klassifikation basierend auf Zeitreihen variabler Länge , das heißt, eine Funktion über eine globale Darstellung der Zeitreihe durch einen Satz ausgewählter Merkmale fester Größe unabhängig von , und verwenden Sie dann Standardklassifizierungsmethoden für diesen Feature-Set. Ich bin nicht an Prognosen interessiert, dh an der …

43 time-series classification feature-selection signal-processing

5

Regression, wenn die OLS-Residuen nicht normal verteilt sind

Auf dieser Site befinden sich mehrere Threads, in denen erläutert wird, wie ermittelt werden kann, ob die OLS-Residuen asymptotisch normal verteilt sind. Eine weitere Möglichkeit, die Normalität der Residuen mit R-Code zu bewerten, bietet diese hervorragende Antwort . Dies ist eine weitere Diskussion über den praktischen Unterschied zwischen standardisierten und …

43 regression least-squares residuals assumptions normality-assumption

4

Wie vergleiche ich zwei Zeitreihen statistisch?

Ich habe zwei Zeitreihen, die in der folgenden Darstellung gezeigt werden: Der Plot zeigt die vollständigen Details beider Zeitreihen, aber ich kann ihn bei Bedarf leicht auf die zufälligen Beobachtungen reduzieren. Meine Frage ist: Mit welchen statistischen Methoden kann ich die Unterschiede zwischen den Zeitreihen bewerten? Ich weiß, dass dies …

43 r time-series

4

Kompendium der Kreuzvalidierungstechniken

Ich frage mich, ob irgendjemand von einem Kompendium von Kreuzvalidierungstechniken mit einer Diskussion der Unterschiede zwischen ihnen und einem Leitfaden, wann jeder von ihnen zu verwenden ist, weiß. Wikipedia hat eine Liste der gebräuchlichsten Techniken, aber ich bin gespannt, ob es andere Techniken gibt und ob es Taxonomien dafür gibt. …

43 cross-validation

9

Winzige (echte) Datensätze für Beispiele im Unterricht?

Beim Unterrichten einer Einführungsklasse erfinden die mir bekannten Lehrer in der Regel einige Zahlen und eine Geschichte, um die Methode zu veranschaulichen, die sie unterrichten. Ich würde es vorziehen, eine echte Geschichte mit reellen Zahlen zu erzählen. Diese Geschichten müssen sich jedoch auf einen sehr kleinen Datensatz beziehen, der manuelle …

43 dataset references teaching

5

Gefälschte einheitliche Zufallszahlen: Gleichmäßiger verteilt als echte einheitliche Daten

Ich suche nach einer Möglichkeit, Zufallszahlen zu generieren , die gleichmäßig verteilt zu sein scheinen - und jeder Test zeigt, dass sie einheitlich sind - mit der Ausnahme, dass sie gleichmäßiger verteilt sind als echte einheitliche Daten . Das Problem, das ich mit den "wahren" einheitlichen Zufällen habe, ist, dass …

43 distributions random-generation uniform quasi-monte-carlo

3

Überprüfen von Statistiken in Papieren

Für einige von uns gehört das Begutachten von Papieren zum Job. Wenn ich statistische Methodikpapiere referiere, halte ich Ratschläge aus anderen Fachgebieten, dh Informatik und Mathematik, für ziemlich nützlich . Diese Frage betrifft die Überprüfung angewandter statistischer Papiere. Damit meine ich, dass die Arbeit in einem nicht statistischen / mathematischen …

43 journals referee

4

Was ist Unterschied in Unterschied?

Unterschiede in den Unterschieden sind seit langem als nicht-experimentelles Instrument beliebt, insbesondere in der Wirtschaft. Kann jemand bitte eine klare und nicht-technische Antwort auf die folgenden Fragen zu Unterschieden geben? Was ist ein Differenz-in-Differenz-Schätzer? Warum kann ein Differenz-in-Differenz-Schätzer verwendet werden? Können wir tatsächlich Differenz-in-Differenz-Schätzungen vertrauen?

43 regression econometrics difference-in-difference

9

Warum verwenden Menschen p-Werte anstelle der Berechnung der Wahrscheinlichkeit für das gegebene Modell?

Grob gesagt ergibt ein p-Wert eine Wahrscheinlichkeit für das beobachtete Ergebnis eines Experiments, wenn die Hypothese (Modell) gegeben ist. Mit dieser Wahrscheinlichkeit (p-Wert) wollen wir unsere Hypothese beurteilen (wie wahrscheinlich es ist). Aber wäre es nicht natürlicher, die Wahrscheinlichkeit der Hypothese unter Berücksichtigung des beobachteten Ergebnisses zu berechnen? In mehr …

43 likelihood p-value