Ich habe LSTMs für eine Weile studiert. Ich verstehe auf hohem Niveau, wie alles funktioniert. Als ich sie jedoch mit Tensorflow implementieren wollte, bemerkte ich, dass BasicLSTMCell eine Reihe von Einheiten (dh num_units) benötigt. Aus dieser sehr gründlichen Erklärung von LSTMs habe ich herausgefunden, dass eine einzelne LSTM-Einheit eine der …
Ich sehe die folgende Gleichung in " In Reinforcement Learning. Eine Einführung ", folge aber nicht ganz dem Schritt, den ich unten in Blau hervorgehoben habe. Wie genau leitet sich dieser Schritt ab?
Gemäß diesem sehr interessanten Artikel im Quanta Magazine: "Ein lang ersehnter Beweis, gefunden und fast verloren" - wurde bewiesen, dass ein gegebener Vektor eine multivariate Gaußsche Verteilung hat, und gegebenen Intervallen I 1 , ... , I n , die mittels der entsprechenden Komponenten zentriert um x , dannx =( …
Ich werde diese Frage anhand eines Beispiels vorschlagen. Angenommen, ich habe einen Datensatz, z. B. den Preisdatensatz für Wohnimmobilien in Boston, in dem ich kontinuierliche und kategoriale Variablen habe. Hier haben wir eine "Qualitäts" -Variable von 1 bis 10 und den Verkaufspreis. Ich kann die Daten in Häuser mit "niedriger", …
Hier ist eine einfache Statistikfrage, die mir gestellt wurde. Ich bin mir nicht sicher, ob ich das verstehe. X = Anzahl der in einer Prüfung erworbenen Punkte (Multiple Choice und richtige Antwort sind ein Punkt). Ist X-Binomial verteilt? Die Antwort des Professors war: Ja, weil es nur richtige oder falsche …
Ich versuche zu verstehen, warum die Ergebnisse der logistischen Regression dieser beiden Bibliotheken unterschiedliche Ergebnisse liefern. Ich verwende den Datensatz von der UCLA idre Tutorial , die Vorhersage admitbasiert auf gre, gpaund rank. rankwird als kategoriale Variable behandelt, daher wird sie zuerst mit rank_1drop in eine Dummy-Variable konvertiert . Eine …
Ich bin ein bisschen verwirrt mit einem Vortrag über lineare Regression von Andrew Ng über Coursera über maschinelles Lernen. Dort gab er eine Kostenfunktion an, die die Quadratsumme wie folgt minimiert: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Ich verstehe, woher das kommt. Ich denke, er hat es so gemacht, dass, wenn …
Morey et al. (2015) argumentieren, dass Konfidenzintervalle irreführend sind und es mehrere Vorurteile gibt, die mit ihrem Verständnis zusammenhängen. Unter anderem beschreiben sie den Präzisionsfehler wie folgt: Der Genauigkeitsfehler Die Breite eines Konfidenzintervalls zeigt die Genauigkeit unseres Wissens über den Parameter an. Enge Konfidenzintervalle zeigen genaues Wissen, während breite Konfidenzfehler …
Ich habe das folgende Problem zur Hand: Ich habe eine sehr lange Liste von Wörtern, möglicherweise Namen, Nachnamen usw. Ich muss diese Wortliste so gruppieren, dass ähnliche Wörter, zum Beispiel Wörter mit ähnlichem Bearbeitungsabstand (Levenshtein), in der Liste angezeigt werden gleichen Cluster. Zum Beispiel sollten "Algorithmus" und "Alogrithmus" hohe Chancen …
Nur ein Gedanke: Sparsame Modelle waren bei der Modellauswahl immer die Standardanwendung, aber inwieweit ist dieser Ansatz veraltet? Ich bin gespannt, wie sehr unsere Neigung zur Sparsamkeit ein Relikt aus einer Zeit von Abakus und Rechenschiebern (oder, im Ernst, nicht modernen Computern) ist. Die heutige Rechenleistung ermöglicht es uns, immer …
Hinton und Salakhutdinov schlugen bei der Reduzierung der Dimensionalität von Daten mit neuronalen Netzen in Science 2006 eine nichtlineare PCA durch die Verwendung eines tiefen Autoencoders vor. Ich habe mehrmals versucht, einen PCA-Autoencoder mit Tensorflow zu bauen und zu trainieren, aber ich konnte nie ein besseres Ergebnis erzielen als mit …
Ich habe mich über Werte, Typ 1-Fehlerraten, Signifikanzniveaus, Leistungsberechnungen, Effektgrößen und die Debatte zwischen Fisher und Neyman-Pearson informiert. Das hat mich ein bisschen überwältigt. Ich entschuldige mich für die Textwand, aber ich hielt es für notwendig, einen Überblick über mein derzeitiges Verständnis dieser Konzepte zu geben, bevor ich zu meinen …
Winsorizing Daten Mittel ersetzen die Extremwerte eines Datensatzes mit einem bestimmten Perzentilwert von jedem Ende, während Trimm- oder Abschneiden beinhaltet das Entfernen dieser Extremwerte. Ich sehe beide diskutierten Methoden immer als eine praktikable Option, um die Auswirkung von Ausreißern bei der Berechnung von Statistiken wie dem Mittelwert oder der Standardabweichung …
Ich hatte 2009 eine Diskussion mit einem Statistiker, in der er feststellte, dass der genaue Wert eines p-Werts irrelevant ist: Wichtig ist nur, ob er signifikant ist oder nicht. Dh ein Ergebnis kann nicht signifikanter sein als ein anderes; Ihre Proben stammen zum Beispiel entweder aus derselben Population oder nicht. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.