Als «dataset» getaggte Fragen

Anfragen nach Datensätzen sind auf dieser Site nicht zum Thema. Verwenden Sie dieses Tag für Fragen zum Erstellen, Verarbeiten oder Verwalten von Datasets.

3
Wann müssen Daten normalisiert werden, wenn zwei Datensätze aus derselben Verteilung verwendet werden?
Angenommen, Sie haben zwei Datensätze D1 und D2. Beide werden von derselben zugrunde liegenden Verteilung X abgetastet. Ich möchte sie zum Trainieren eines neuronalen Netzwerks verwenden. Die Features sind alle vorzeichenlose Ganzzahlen im Bereich [0; 2 ^ 64]. Aufgrund der Tatsache, dass die Merkmale sehr unterschiedliche Maßstäbe haben, habe ich …

2
Generieren eines hochdimensionalen Datensatzes, bei dem der nächste Nachbar bedeutungslos wird
In der Zeitung " Wann ist 'Nächster Nachbar' sinnvoll? " Lesen wir das: Wir zeigen, dass sich unter bestimmten allgemeinen Bedingungen (in Bezug auf Daten- und Abfrageverteilungen oder Arbeitsbelastung) mit zunehmender Dimensionalität die Entfernung zum nächsten Nachbarn der Entfernung zum entferntesten Nachbarn nähert. Mit anderen Worten, der Kontrast in Abständen …

4
Was ist die mathematisch strenge Definition von klobigen Daten?
Bestimmte Messgeräte unterliegen am Arbeitsplatz einer unterschiedlichen numerischen Genauigkeit. In einigen Fällen kann die Genauigkeit ziemlich schwach sein (dh nur auf einen oder zwei signifikante Werte). Anstelle von Datensätzen wie diesen: wobei jeder der Werte eindeutig ist, erhalten wir einen Datensatz, der wie aussieht: Auf einem einzelnen Bewegungsbereichsdiagramm grafisch dargestellt, …

1
Vorverarbeitung von E-Mail- und IP-Zeichenfolgen für die Klassifizierungsaufgabe
Ich bin relativ neu auf dem Gebiet der Datenwissenschaft, entschuldigen Sie meine Anfängerfrage. Welche Methoden stehen zur Konvertierung emailund ipin Vektoren für Online-Lernalgorithmen zur Verfügung? Das Klassifizierungsziel ist die Bewertung von Betrug / Nicht-Betrugstransaktionen. Zur weiteren Erläuterung: Die anderen relevanten Felder sind kategorisch und wurden vektorisiert.

2
Wie balanciere ich meinen Datensatz?
Ich habe 90% negative Beispiele und 10% positive Beispiele (13.000 Beobachtungen, 90 Variablen). Mein Modell zeigt mir, dass der Fehler bei der Fehlklassifizierung 0,1 beträgt, aber meine Verwirrungsmatrix zeigt mir, dass die Anzahl der TP sehr gering ist. Gibt es eine Möglichkeit, mein positives Beispiel zu übertasten oder meinen Datensatz …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.