Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

4
Welche Verlustfunktion ist für die logistische Regression richtig?
Ich habe zwei Versionen der Verlustfunktion für die logistische Regression gelesen. Welche davon ist richtig und warum? Aus dem maschinellen Lernen , Zhou ZH (auf Chinesisch), mit β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Aus meinem College-Kurs mit zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …







3
Nutzen des Feature-Engineerings: Warum neue Features basierend auf vorhandenen Features erstellen?
Ich sehe oft Leute, die neue Funktionen basierend auf vorhandenen Funktionen bei einem maschinellen Lernproblem erstellen. Zum Beispiel hier: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ Personen haben die Größe der Familie einer Person als neues Feature betrachtet auf die Anzahl der Brüder, Schwestern und Eltern, die vorhandene Merkmale waren. Aber wozu das? Ich verstehe nicht, …

1
Kreuzvalidierungsmissbrauch (Reporting-Leistung für den besten Hyperparameter-Wert)
Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden. Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten …

6
Warum heißt der erwartete Wert so?
Ich verstehe, wie wir 3,5 als den erwarteten Wert für das Werfen eines fairen 6-seitigen Würfels erhalten. Aber intuitiv kann ich jedes Gesicht mit der gleichen Chance von 1/6 erwarten. Sollte der erwartete Wert eines Würfels nicht einer der Werte zwischen 1 und 6 mit gleicher Wahrscheinlichkeit sein? Mit anderen …

2
Werden 50% -Konfidenzintervalle zuverlässiger geschätzt als 95% -Konfidenzintervalle?
Meine Frage ergibt sich aus diesem Kommentar in einem Blogbeitrag von Andrew Gelman, in dem er die Verwendung von 50% -Konfidenzintervallen anstelle von 95% -Konfidenzintervallen befürwortet, allerdings nicht aus dem Grund, dass diese robuster geschätzt werden: Ich bevorzuge Intervalle von 50% bis 95% aus drei Gründen: Rechenstabilität, Intuitivere Auswertung (die …

1
Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …

3
Was ist die Hauptursache für das Problem des Klassenungleichgewichts?
Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …

13
Was ist die Intuition hinter der Formel für die bedingte Wahrscheinlichkeit?
Die Formel für die bedingte Wahrscheinlichkeit von Happening da passiert ist:B P ( AEINA\text{A}BB\text{B}P( A | B ) = P( A ∩ B )P( B ).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Mein Lehrbuch erklärt die Intuition dahinter anhand eines Venn-Diagramms. Angesichts dessen, dass aufgetreten ist, besteht die einzige Möglichkeit, dass …

7
Warum schwankt die Validierungsgenauigkeit?
Ich habe ein vierschichtiges CNN, um die Reaktion auf Krebs mithilfe von MRT-Daten vorherzusagen. Ich benutze ReLU-Aktivierungen, um Nichtlinearitäten einzuführen. Die Zuggenauigkeit und der Verlust nehmen monoton zu bzw. ab. Aber meine Testgenauigkeit beginnt wild zu schwanken. Ich habe versucht, die Lernrate zu ändern und die Anzahl der Schichten zu …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.