Als «dataset» getaggte Fragen

Anfragen nach Datensätzen sind auf dieser Site nicht zum Thema. Verwenden Sie dieses Tag für Fragen zum Erstellen, Verarbeiten oder Verwalten von Datasets.

2
Trainingsdaten sind unausgewogen - aber sollte mein Validierungssatz auch sein?
Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …



1
Best Practices zum Messen und Vermeiden von Überanpassungen?
Ich entwickle automatisierte Handelssysteme für die Börse. Die große Herausforderung war die Überanpassung. Können Sie einige Ressourcen empfehlen, die Methoden zur Messung und Vermeidung von Überanpassungen beschreiben? Ich habe mit Trainings- / Validierungssätzen begonnen, aber der Validierungssatz wird immer verschmutzt. Außerdem ändern sich die Zeitreihendaten ständig, da sich der Markt …

1
Würden Sie diese Daten als betrügerisch kennzeichnen?
Angenommen, Sie haben einige Daten aus einem randomisierten Blockdesign mit 4 Wiederholungen und 23 Behandlungen erhalten. Nach einer ersten Überprüfung der Daten stellen Sie fest, dass bei 8 Behandlungen alle Wiederholungen identisch sind, was offensichtlich falsch ist. Nachdem Sie das Problem gemeldet haben, wird Ihnen mitgeteilt, dass es auf eine …

2
Probleme mit der Ausreißererkennung
In einem Blogbeitrag schreibt Andrew Gelman : Die schrittweise Regression ist eines dieser Dinge, wie die Erkennung von Ausreißern und Kreisdiagramme, die bei Nicht-Statistikern beliebt zu sein scheinen, von Statistikern jedoch als Scherz angesehen werden. Ich verstehe den Verweis auf Kreisdiagramme, aber warum wird laut Gelman die Statistik der Ausreißer …

2
Analyse der Rotationsdaten des Hamsterrades
Bevor ich diese Frage gestellt habe, habe ich andere Fragen zu diesem Stapel durchgesehen, und dies wird wahrscheinlich ein Spaziergang im Park für jeden sein, der sie liest! Die Beschreibung dieses Stacks beinhaltet jedoch Datenanalyse und -visualisierung. Ich hoffe, dass dies der richtige Ort ist! </ präpologie> Ich benutze einen …


2
Wahrscheinlichkeitsfunktion von abgeschnittenen Daten
Ich habe ein wenig Probleme, das Konzept und die Ableitung der Wahrscheinlichkeit von Datenkürzungen zu verstehen. Wenn ich zum Beispiel die Wahrscheinlichkeitsfunktion basierend auf einer Stichprobe aus einer Verteilung finden möchte, aber wenn ich eine Stichprobe aus der Verteilung nehme, beobachte ich die abgeschnittenen Werte (wobei es einen Grenzwert für …

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …


1
Was bedeutet diese Unschärfe um die Linie in diesem Diagramm?
Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die …

2
Computerspiel-Datensätze
Ich habe nach Datensätzen für Computerspiele gesucht, aber bisher konnte ich nur den Datensatz "Avatar-Verlauf" für WoW finden. Gibt es noch andere interessante Datensätze, möglicherweise für andere Genres?

1
Höhere Überanpassung durch Datenerweiterung mit Rauschen?
Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung. Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 = 65% Wie erwartet führten höhere Geräuschpegel zu einer geringeren Genauigkeit. Dann entschied ich mich …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.