Als «gradient-descent» getaggte Fragen

4
Pytorch, was sind die Gradientenargumente?
Ich lese die Dokumentation von PyTorch durch und habe ein Beispiel gefunden, in dem sie schreiben gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) Dabei war x eine Anfangsvariable, aus der y konstruiert wurde (ein 3-Vektor). Die Frage ist, was sind die Argumente 0.1, 1.0 und 0.0001 des Gradiententensors? Die Dokumentation …

8
Warum sollten Gewichte neuronaler Netze mit Zufallszahlen initialisiert werden?
Ich versuche, ein neuronales Netzwerk von Grund auf neu aufzubauen. In der gesamten KI-Literatur besteht Konsens darüber, dass Gewichte mit Zufallszahlen initialisiert werden sollten, damit das Netzwerk schneller konvergiert. Aber warum werden Anfangsgewichte neuronaler Netze als Zufallszahlen initialisiert? Ich hatte irgendwo gelesen, dass dies getan wird, um "die Symmetrie zu …


5
Häufige Ursachen für Nans während des Trainings
Ich habe festgestellt, dass ein häufiges Auftreten während des Trainings NANeingeführt wird. Oft scheint es durch Gewichte in inneren Produkt- / vollständig verbundenen oder Faltungsschichten, die explodieren, eingeführt zu werden. Tritt dies auf, weil die Gradientenberechnung explodiert? Oder liegt es an der Gewichtsinitialisierung (wenn ja, warum hat die Gewichtsinitialisierung diesen …

1
R: Implementierung meines eigenen Algorithmus zur Erhöhung des Gradienten
Ich versuche, meinen eigenen Algorithmus zur Erhöhung des Gradienten zu schreiben. Ich verstehe , gibt es bestehende Pakete wie gbmund xgboost,aber ich wollte verstehen , wie der Algorithmus funktioniert durch meine eigenen zu schreiben. Ich verwende den irisDatensatz und mein Ergebnis ist Sepal.Length(kontinuierlich). Meine Verlustfunktion ist mean(1/2*(y-yhat)^2)(im Grunde der mittlere …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.