Ich habe zwei Versionen der Verlustfunktion für die logistische Regression gelesen. Welche davon ist richtig und warum? Aus dem maschinellen Lernen , Zhou ZH (auf Chinesisch), mit β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Aus meinem College-Kurs mit zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …
In fast allen Analysen, die ich jemals durchgeführt habe, verwende ich: set.seed(42) Es ist eine Hommage an Per Anhalter durch die Galaxis . Aber ich frage mich, ob ich Voreingenommenheit schaffe, indem ich immer wieder denselben Samen verwende.
Ich verstehe, was ein Posterior ist, bin mir aber nicht sicher, was Letzteres bedeutet? Wie unterscheiden sich die beiden? Kevin P Murphy wies in seinem Lehrbuch " Maschinelles Lernen: eine probabilistische Perspektive" darauf hin , dass es sich um einen "internen Glaubenszustand" handelt. Was heißt das eigentlich? Ich hatte den …
Ich finde, R kann lange dauern, um Diagramme zu erstellen, wenn Millionen von Punkten vorhanden sind - nicht überraschend, da die Punkte einzeln dargestellt werden. Darüber hinaus sind solche Diagramme häufig zu unübersichtlich und dicht, um nützlich zu sein. Viele der Punkte überlappen sich und bilden eine schwarze Masse, und …
Wenn die gemeinsame Wahrscheinlichkeit der Schnittpunkt von 2 Ereignissen ist, sollte dann die gemeinsame Wahrscheinlichkeit von 2 unabhängigen Ereignissen nicht Null sein, da sie sich überhaupt nicht schneiden? Ich bin verwirrt.
Ein neuronales Netz lernt Merkmale eines Datensatzes, um ein bestimmtes Ziel zu erreichen. Wenn es fertig ist, möchten wir vielleicht wissen, was das neuronale Netz gelernt hat. Was waren die Features und warum kümmerten sie sich darum? Kann jemand Hinweise auf die Gesamtheit der Arbeiten geben, die dieses Problem betreffen?
Ich sehe oft Leute, die neue Funktionen basierend auf vorhandenen Funktionen bei einem maschinellen Lernproblem erstellen. Zum Beispiel hier: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ Personen haben die Größe der Familie einer Person als neues Feature betrachtet auf die Anzahl der Brüder, Schwestern und Eltern, die vorhandene Merkmale waren. Aber wozu das? Ich verstehe nicht, …
Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden. Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten …
Ich verstehe, wie wir 3,5 als den erwarteten Wert für das Werfen eines fairen 6-seitigen Würfels erhalten. Aber intuitiv kann ich jedes Gesicht mit der gleichen Chance von 1/6 erwarten. Sollte der erwartete Wert eines Würfels nicht einer der Werte zwischen 1 und 6 mit gleicher Wahrscheinlichkeit sein? Mit anderen …
Meine Frage ergibt sich aus diesem Kommentar in einem Blogbeitrag von Andrew Gelman, in dem er die Verwendung von 50% -Konfidenzintervallen anstelle von 95% -Konfidenzintervallen befürwortet, allerdings nicht aus dem Grund, dass diese robuster geschätzt werden: Ich bevorzuge Intervalle von 50% bis 95% aus drei Gründen: Rechenstabilität, Intuitivere Auswertung (die …
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …
Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …
Die Formel für die bedingte Wahrscheinlichkeit von Happening da passiert ist:B P ( AEINA\text{A}BB\text{B}P( A | B ) = P( A ∩ B )P( B ).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Mein Lehrbuch erklärt die Intuition dahinter anhand eines Venn-Diagramms. Angesichts dessen, dass aufgetreten ist, besteht die einzige Möglichkeit, dass …
Ich habe ein vierschichtiges CNN, um die Reaktion auf Krebs mithilfe von MRT-Daten vorherzusagen. Ich benutze ReLU-Aktivierungen, um Nichtlinearitäten einzuführen. Die Zuggenauigkeit und der Verlust nehmen monoton zu bzw. ab. Aber meine Testgenauigkeit beginnt wild zu schwanken. Ich habe versucht, die Lernrate zu ändern und die Anzahl der Schichten zu …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.