Künstliche neuronale Netze (ANNs) sind eine breite Klasse von Rechenmodellen, die lose auf biologischen neuronalen Netzen basieren. Sie umfassen Feedforward-NNs (einschließlich "tiefer" NNs), Faltungs-NNs, wiederkehrende NNs usw.
Vor kurzem habe ich mich mit dem Erlernen von Boosting-Algorithmen wie Adaboost und Gradienten-Boost befasst, und ich kenne die Tatsache, dass der am häufigsten verwendete schwache Lernende Bäume sind. Ich möchte wirklich wissen, ob es in letzter Zeit einige erfolgreiche Beispiele (ich meine einige Artikel oder Artikel) für die Verwendung …
Im Wesentlichen ist meine Frage, dass in mehrschichtigen Perzeptronen Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet werden. So dass in der Aktualisierungsregel y wird wie folgt berechnety^y^\hat{y} y^= 11 + exp( - wTxich)y^=11+exp(-wTxich)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression? Ich würde sagen , dass eine einlagige …
Ich würde gerne wissen, ob es einen Code zum Trainieren eines Faltungsnetzes für die Zeitreihenklassifizierung gibt. Ich habe kürzlich einige Veröffentlichungen gesehen ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ), bin mir aber nicht sicher, ob es etwas gibt oder ob ich es selbst codieren muss.
Für ein lineares Modell ist der Schrumpfterm immer .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen verkleinern?β0β0\beta_0
Eine Einschränkung der Standardalgorithmen für neuronale Netze (wie Backprop) besteht darin, dass Sie eine Entwurfsentscheidung treffen müssen, wie viele verborgene Schichten und Neuronen pro Schicht Sie möchten. In der Regel ist die Lernrate und Verallgemeinerung sehr empfindlich auf diese Entscheidungen. Dies war der Grund, warum neuronale Netzalgorithmen wie die Kaskadenkorrelation …
Hier ein Blick: Sie können genau sehen, wo die Trainingsdaten enden. Die Trainingsdaten reichen von bis .- 1-1-1111 Ich habe Keras und ein dichtes 1-100-100-2-Netzwerk mit Tanh-Aktivierung verwendet. Ich berechne das Ergebnis aus zwei Werten, p und q als p / q. Auf diese Weise kann ich eine beliebige Anzahl …
Diese Frage hat hier bereits Antworten : Wie kann eine Änderung der Kostenfunktion positiv sein? (1 Antwort) Was soll ich tun, wenn mein neuronales Netzwerk nicht lernt? (5 Antworten) Geschlossen im letzten Monat . Ich trainiere ein Modell (Recurrent Neural Network), um 4 Arten von Sequenzen zu klassifizieren. Während ich …
Es wird oft erwähnt, dass gleichgerichtete Lineareinheiten (ReLU) Softplus-Einheiten abgelöst haben, weil sie linear sind und schneller berechnet werden können. Hat softplus it noch den Vorteil der Sparity-Induktion oder ist das auf die ReLU beschränkt? Der Grund, den ich frage, ist, dass ich mich über die negativen Konsequenzen der Null-Steigung …
Durch Anwenden der Softmax-Funktion auf einen Vektor werden "Wahrscheinlichkeiten" und Werte zwischen 000 und . 111 Wir können aber auch jeden Wert durch die Summe der Vektoren dividieren, wodurch Wahrscheinlichkeiten und Werte zwischen000 und .111 Ich habe die Antwort hier gelesen , aber es heißt, dass der Grund darin liegt, …
In Tensorflows Implementierung von ResNet wird der Varianzskalierungsinitialisierer verwendet . Ich finde auch, dass der Xavier-Initialisierer beliebt ist. Ich habe nicht zu viel Erfahrung damit, was ist in der Praxis besser?
Ich habe es mit einem Bayesian Hierarchical Linear Model zu tun , hier das Netzwerk, das es beschreibt. YYY für den täglichen Verkauf eines Produkts in einem Supermarkt (beobachtet). XXX ist eine bekannte Matrix von Regressoren, einschließlich Preisen, Werbeaktionen, Wochentagen, Wetter, Feiertagen. 1SSS ist der unbekannte latente Lagerbestand jedes Produkts, …
Ich trainiere ein neuronales Netzwerk (Details nicht wichtig), bei dem die Zieldaten ein Winkelvektor sind (zwischen 0 und 2 * pi). Ich suche Rat, wie ich diese Daten verschlüsseln kann. Folgendes versuche ich derzeit (mit begrenztem Erfolg): 1) 1-von-C-Codierung: Ich bin die eingestellten möglichen Winkel in etwa 1000 diskrete Winkel …
Ich habe ein neuronales Netzwerk eingerichtet, um etwas vorherzusagen, bei dem die Ausgabevariable ordinal ist. Ich werde im Folgenden drei mögliche Ausgänge A <B <C beschreiben. Es ist ziemlich offensichtlich, wie ein neuronales Netzwerk zur Ausgabe kategorialer Daten verwendet wird: Die Ausgabe ist nur ein Softmax der letzten (normalerweise vollständig …
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.
Warum funktioniert die Backpropagation nicht, wenn Sie alle Gewichte mit demselben Wert initialisieren (z. B. 0,5), aber wenn Sie Zufallszahlen angeben, funktioniert sie einwandfrei? Sollte der Algorithmus den Fehler nicht berechnen und von dort aus arbeiten, obwohl die Gewichte anfangs gleich sind?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.