Statistiken und Big Data

4

Welche Verlustfunktion ist für die logistische Regression richtig?

Ich habe zwei Versionen der Verlustfunktion für die logistische Regression gelesen. Welche davon ist richtig und warum? Aus dem maschinellen Lernen , Zhou ZH (auf Chinesisch), mit β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Aus meinem College-Kurs mit zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …

31 logistic loss-functions

2

Schaffe ich Voreingenommenheit, indem ich immer wieder denselben zufälligen Samen verwende?

In fast allen Analysen, die ich jemals durchgeführt habe, verwende ich: set.seed(42) Es ist eine Hommage an Per Anhalter durch die Galaxis . Aber ich frage mich, ob ich Voreingenommenheit schaffe, indem ich immer wieder denselben Samen verwende.

31 random-generation

3

Was ist der Unterschied zwischen posteriorer und posteriorer prädiktiver Verteilung?

Ich verstehe, was ein Posterior ist, bin mir aber nicht sicher, was Letzteres bedeutet? Wie unterscheiden sich die beiden? Kevin P Murphy wies in seinem Lehrbuch " Maschinelles Lernen: eine probabilistische Perspektive" darauf hin , dass es sich um einen "internen Glaubenszustand" handelt. Was heißt das eigentlich? Ich hatte den …

31 posterior definition

7

Statistische Methoden zur effizienteren Darstellung von Daten, wenn Millionen von Punkten vorhanden sind?

Ich finde, R kann lange dauern, um Diagramme zu erstellen, wenn Millionen von Punkten vorhanden sind - nicht überraschend, da die Punkte einzeln dargestellt werden. Darüber hinaus sind solche Diagramme häufig zu unübersichtlich und dicht, um nützlich zu sein. Viele der Punkte überlappen sich und bilden eine schwarze Masse, und …

31 r data-visualization

3

Sollte die gemeinsame Wahrscheinlichkeit von 2 unabhängigen Ereignissen nicht gleich Null sein?

Wenn die gemeinsame Wahrscheinlichkeit der Schnittpunkt von 2 Ereignissen ist, sollte dann die gemeinsame Wahrscheinlichkeit von 2 unabhängigen Ereignissen nicht Null sein, da sie sich überhaupt nicht schneiden? Ich bin verwirrt.

30 probability joint-distribution

7

Warum bezeichnen wir in der Regressionsanalyse unabhängige Variablen als „unabhängig“?

Ich meine, einige dieser Variablen sind stark miteinander korreliert. Wie / warum / in welchem Kontext definieren wir sie als unabhängige Variablen?

30 regression terminology predictor

2

Was hat mein neuronales Netzwerk gerade gelernt? Welche Funktionen sind ihm wichtig und warum?

Ein neuronales Netz lernt Merkmale eines Datensatzes, um ein bestimmtes Ziel zu erreichen. Wenn es fertig ist, möchten wir vielleicht wissen, was das neuronale Netz gelernt hat. Was waren die Features und warum kümmerten sie sich darum? Kann jemand Hinweise auf die Gesamtheit der Arbeiten geben, die dieses Problem betreffen?

30 neural-networks deep-learning

3

Nutzen des Feature-Engineerings: Warum neue Features basierend auf vorhandenen Features erstellen?

Ich sehe oft Leute, die neue Funktionen basierend auf vorhandenen Funktionen bei einem maschinellen Lernproblem erstellen. Zum Beispiel hier: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ Personen haben die Größe der Familie einer Person als neues Feature betrachtet auf die Anzahl der Brüder, Schwestern und Eltern, die vorhandene Merkmale waren. Aber wozu das? Ich verstehe nicht, …

30 machine-learning feature-engineering

1

Kreuzvalidierungsmissbrauch (Reporting-Leistung für den besten Hyperparameter-Wert)

Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden. Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten …

30 cross-validation references model-selection model-evaluation

6

Warum heißt der erwartete Wert so?

Ich verstehe, wie wir 3,5 als den erwarteten Wert für das Werfen eines fairen 6-seitigen Würfels erhalten. Aber intuitiv kann ich jedes Gesicht mit der gleichen Chance von 1/6 erwarten. Sollte der erwartete Wert eines Würfels nicht einer der Werte zwischen 1 und 6 mit gleicher Wahrscheinlichkeit sein? Mit anderen …

30 expected-value terminology history

2

Werden 50% -Konfidenzintervalle zuverlässiger geschätzt als 95% -Konfidenzintervalle?

Meine Frage ergibt sich aus diesem Kommentar in einem Blogbeitrag von Andrew Gelman, in dem er die Verwendung von 50% -Konfidenzintervallen anstelle von 95% -Konfidenzintervallen befürwortet, allerdings nicht aus dem Grund, dass diese robuster geschätzt werden: Ich bevorzuge Intervalle von 50% bis 95% aus drei Gründen: Rechenstabilität, Intuitivere Auswertung (die …

30 confidence-interval assumptions robust

1

Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?

Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …

30 classification optimization random-forest hyperparameter

3

Was ist die Hauptursache für das Problem des Klassenungleichgewichts?

Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …

30 classification predictive-models unbalanced-classes scoring-rules

13

Was ist die Intuition hinter der Formel für die bedingte Wahrscheinlichkeit?

Die Formel für die bedingte Wahrscheinlichkeit von Happening da passiert ist:B P ( AEINA\text{A}BB\text{B}P( A | B ) = P( A ∩ B )P( B ).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Mein Lehrbuch erklärt die Intuition dahinter anhand eines Venn-Diagramms. Angesichts dessen, dass aufgetreten ist, besteht die einzige Möglichkeit, dass …

30 probability conditional-probability intuition

7

Warum schwankt die Validierungsgenauigkeit?

Ich habe ein vierschichtiges CNN, um die Reaktion auf Krebs mithilfe von MRT-Daten vorherzusagen. Ich benutze ReLU-Aktivierungen, um Nichtlinearitäten einzuführen. Die Zuggenauigkeit und der Verlust nehmen monoton zu bzw. ab. Aber meine Testgenauigkeit beginnt wild zu schwanken. Ich habe versucht, die Lernrate zu ändern und die Anzahl der Schichten zu …

30 machine-learning python deep-learning