Statistiken und Big Data dataset

6

Was ist der Unterschied zwischen gepoolten Querschnittsdaten und Paneldaten?

Sie scheinen so ähnlich zu sein. Sind sie dasselbe, aber nur als unterschiedliche Namen bezeichnet?

18 regression dataset econometrics

2

Testen der Klassifizierung von überabgetasteten Ungleichgewichtsdaten

Ich arbeite an stark unausgeglichenen Daten. In der Literatur werden verschiedene Methoden verwendet, um die Daten durch erneutes Abtasten (Über- oder Unterabtasten) neu abzugleichen. Zwei gute Ansätze sind: SMOTE: Synthetic Minority-Überabtastung ( SMOTE ) ADASYN: Adaptiver Ansatz zur synthetischen Probenahme für unausgewogenes Lernen ( ADASYN ) Ich habe ADASYN implementiert, …

18 classification dataset resampling unbalanced-classes oversampling

2

Berechnung des 95. Perzentils: Vergleich von Normalverteilungs-, R-Quantil- und Excel-Ansätzen

Ich habe versucht, das 95. Perzentil für den folgenden Datensatz zu berechnen. Ich bin auf ein paar Online-Referenzen gestoßen. Ansatz 1: Basierend auf Beispieldaten Das erste fordert mich auf, das TOP 95 Percentdes Datensatzes zu erhalten und dann das MINoder AVGder Ergebnismenge zu wählen . Wenn ich dies für den …

17 r dataset quantiles sql

6

Wo finde ich einen großen Textkorpus? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 6 Jahren . Ich suche einen großen (> 1000) Textkorpus zum Herunterladen. Am liebsten mit Weltnachrichten oder irgendwelchen …

16 dataset

4

Was sind gute Datensätze zur Veranschaulichung bestimmter Aspekte der statistischen Analyse?

Mir ist klar, dass dies subjektiv ist, aber ich dachte, es wäre schön, über unsere Lieblingsdatensätze zu sprechen und was sie unserer Meinung nach interessant macht. Es gibt eine Fülle von Daten, und was ich zusammen mit allen APIs (z. B. Datamob ) und klassischen Datasets (z. B. R-Daten ) …

16 dataset

5

Welchen Einfluss hat die Erhöhung der Trainingsdaten auf die Genauigkeit des Gesamtsystems?

Kann mir jemand mit möglichen Beispielen zusammenfassen, in welchen Situationen eine Erhöhung der Trainingsdaten das Gesamtsystem verbessert? Wann stellen wir fest, dass das Hinzufügen weiterer Trainingsdaten möglicherweise zu einer Überanpassung der Daten führt und die Testdaten nicht genau genug sind? Dies ist eine sehr unspezifische Frage. Wenn Sie sie jedoch …

15 machine-learning classification dataset precision-recall

4

Kostenloses öffentliches Datenhosting? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie zum Thema passt für Kreuz Validated. Geschlossen vor 4 Jahren . Ich habe stündliche und tägliche Temperaturberichte für viele Stationen unter http://data.barrycarter.info/ Ich ermutige die …

15 dataset

3

Wie wird eine Datenerweiterung und eine Aufteilung der Zugvalidierung durchgeführt?

Ich mache eine Bildklassifizierung mit maschinellem Lernen. Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline. Welches ist die richtige Methode zur Datenerweiterung? …

14 machine-learning classification cross-validation dataset data-augmentation

6

Schnelle Wege in R, um die erste Zeile eines Datenrahmens zu erhalten, der nach einem Bezeichner gruppiert ist [closed]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Manchmal muss ich nur die erste Zeile eines Datensatzes abrufen, der nach einem Bezeichner gruppiert …

14 r dataset aggregation plyr

5

Ist es besser, eine explorative Datenanalyse nur für den Trainingsdatensatz durchzuführen?

Ich mache eine explorative Datenanalyse (EDA) für einen Datensatz. Dann werde ich einige Features auswählen, um eine abhängige Variable vorherzusagen. Die Frage ist: Soll ich die EDA nur für meinen Trainingsdatensatz durchführen? Oder sollte ich die Trainings- und Testdatensätze zusammenfügen und dann die EDA auf beiden durchführen und die Funktionen …

14 dataset feature-selection feature-construction eda

2

Wie passt die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen?

Meine Hauptfrage betrifft den Versuch zu verstehen, wie die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen passt (wenn sie überhaupt in einen solchen Kontext passt). Normalerweise wird davon gesprochen, die Daten in einen Trainings-, Validierungs- und Testsatz aufzuteilen - beispielsweise in einem Verhältnis von 60/20/20 pro …

14 cross-validation dataset overfitting

4

Wo finde ich Rohdaten zu klinischen Studien? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Ich möchte Rohdaten zu klinischen Studien für die Abschlussprüfung meiner Masterstudenten verwenden. Diese Daten können …

13 dataset teaching clinical-trials

2

Wie konvertiere ich eine Häufigkeitstabelle in einen Vektor von Werten?

Wie lässt sich eine Häufigkeitstabelle mit R oder Excel am einfachsten in einen Wertevektor umwandeln? Beispiel: Wie würden Sie die folgende Häufigkeitstabelle konvertieren? Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 in den folgenden Vektor? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5

13 r dataset excel

4

Trennen von zwei Populationen von der Probe

Ich versuche, zwei Wertegruppen von einem einzigen Datensatz zu trennen. Ich kann davon ausgehen, dass eine der Populationen normal verteilt ist und mindestens halb so groß wie die Stichprobe ist. Die Werte der zweiten sind beide niedriger oder höher als die Werte der ersten (Verteilung ist unbekannt). Was ich versuche, …

13 dataset outliers expectation-maximization

4

Beste Möglichkeiten zum Aggregieren und Analysieren von Daten

Ich habe gerade erst angefangen, mir Maschinelles Lernen und Datenanalyse beizubringen, und stoße auf eine Mauer, in der es darum geht, große Datenmengen zu erstellen und abzufragen. Ich möchte Daten, die ich in meinem beruflichen und privaten Leben gesammelt habe, aufgreifen und analysieren, bin mir jedoch nicht sicher, wie ich …

13 data-mining dataset eda

Als «dataset» getaggte Fragen