Künstliche neuronale Netze (ANNs) sind eine breite Klasse von Rechenmodellen, die lose auf biologischen neuronalen Netzen basieren. Sie umfassen Feedforward-NNs (einschließlich "tiefer" NNs), Faltungs-NNs, wiederkehrende NNs usw.
Mein Lehrer hat bewiesen, dass das 2. Derivat der Kreuzentropie immer positiv ist, so dass die Kostenfunktion neuronaler Netze mit Kreuzentropie konvex ist. Ist das wahr? Ich bin ziemlich verwirrt darüber, weil ich immer gelernt habe, dass die Kostenfunktion von ANN nicht konvex ist. Kann jemand das bestätigen? Vielen Dank! …
Ich möchte ein neuronales Netzwerk mit einer Zeichenfolge als Eingabevektor trainieren. Lernbeispiele sind unterschiedlich lang und aus diesem Grund weiß ich nicht, wie ich sie darstellen soll. Angenommen, ich habe zwei Beispiele für Sequenzen, hier Namen: john doe maurice delanoe Das erste Beispiel hat die Länge 8, das zweite die …
Ich habe gelernt, dass eine Überanpassung erkannt werden kann, indem der Trainingsfehler und der Testfehler gegen die Epochen aufgetragen werden. Wie in: Ich habe diesen Blogpost gelesen, in dem sie sagen, dass das neuronale Netzwerk net5 überpasst und sie diese Zahl liefern: Was für mich seltsam ist, da der Validierungs- …
Wenn wir den persistenten CD-Lernalgorithmus für eingeschränkte Bolzmann-Maschinen verwenden, starten wir unsere Gibbs-Abtastkette in der ersten Iteration an einem Datenpunkt, aber im Gegensatz zur normalen CD beginnen wir in den folgenden Iterationen nicht über unserer Kette. Stattdessen beginnen wir dort, wo die Gibbs-Abtastkette in der vorherigen Iteration endete. Beim normalen …
Ich verwende einen auf neuronalen Netzen basierenden Klassifizierer, um eine Klassifizierung für meine Daten in n-dimensional durchzuführen. Dann dachte ich, es wäre vielleicht eine gute Idee, zuerst eine Dimensionsreduzierung wie PCA für meine Daten durchzuführen und dann die PCA-Ergebnisse in den Klassifikator zu schreiben (ich behalte 3 PCs). Die Klassifizierung …
Kann ein generatives kontradiktorisches Netzwerk (GAN) zur Datenerweiterung verwendet werden (dh um synthetische Beispiele zu generieren, die einem Datensatz hinzugefügt werden)? Würde sich dies auf die Leistung eines Modells auswirken, das auf dem erweiterten Datensatz trainiert wurde?
Ich möchte eine Stimmungsanalyse für Text durchführen, habe mehrere Artikel durchgesehen, einige verwenden "Naive Bayes" und andere sind "Recurrent Neural Network (LSTM)" , andererseits habe ich eine Python-Bibliothek für die Stimmungsanalyse gesehen, die ist nltk. Es verwendet "Naive Bayes". Kann jemand erklären, was der Unterschied zwischen der Verwendung der beiden …
Diese Frage wird unter stats.stackexchange.com/q/233658 beantwortet Das logistische Regressionsmodell für die Klassen {0, 1} lautet P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} Diese Wahrscheinlichkeiten summieren sich eindeutig zu 1. Durch Setzen von …
Ist das Folgende wahr? niedrige Vorspannung = hohe Varianz hohe Vorspannung = niedrige Varianz Ich verstehe hohe und niedrige Vorurteile, aber wie unterscheidet sich die Varianz? Oder sind die oben genannten Synonyme?
Gilt der universelle Approximationssatz für neuronale Netze für eine Aktivierungsfunktion (Sigmoid, ReLU, Softmax usw.) oder ist er auf Sigmoidfunktionen beschränkt? Update: Wie Shimao in den Kommentaren hervorhebt, gilt es für absolut keine Funktion. Für welche Klasse von Aktivierungsfunktionen gilt dies?
Es ist ziemlich intuitiv, dass die meisten Topologien / Architekturen neuronaler Netze nicht identifizierbar sind. Aber was sind einige bekannte Ergebnisse auf diesem Gebiet? Gibt es einfache Bedingungen, die eine Identifizierbarkeit ermöglichen / verhindern? Zum Beispiel, Alle Netzwerke mit nichtlinearen Aktivierungsfunktionen und mehr als einer verborgenen Schicht sind nicht identifizierbar …
Wenn tiefe neuronale Netze als universelle Funktionsapproximatoren betrachtet werden, ist eine Basiserweiterung wirklich notwendig? Oder wäre dies fallspezifisch? Wenn man beispielsweise drei quantitative X-Variablen hat, wäre es dann von Vorteil, die Anzahl der Variablen durch Einführung von Wechselwirkungen, Polynomen usw. zu erweitern? Dies scheint beispielsweise bei RFs und SVM von …
In den Vorlesungsunterlagen der 5. Woche für Andrew Ngs Coursera Machine Learning Class wird die folgende Formel zur Berechnung des Werts von der zum Initialisieren von mit zufälligen Werten verwendet wird:ϵϵ\epsilonΘΘ\Theta In der Übung werden weitere Erläuterungen gegeben: Eine effektive Strategie für die Auswahl von besteht darin, sie auf der …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.