Wenn ich "Dokument" sage, denke ich an Webseiten wie Wikipedia-Artikel und Nachrichten. Ich bevorzuge Antworten, die entweder lexikalische Entfernungsmetriken aus Vanille oder semantische Entfernungsmetriken nach dem neuesten Stand der Technik enthalten, wobei letztere stärker bevorzugt werden.
Durch meine eingeschränkte Beschäftigung mit Data Science mit R wurde mir klar, dass die Bereinigung fehlerhafter Daten ein sehr wichtiger Teil der Vorbereitung von Daten für die Analyse ist. Gibt es Best Practices oder Verfahren zum Bereinigen von Daten vor deren Verarbeitung? Wenn ja, gibt es automatisierte oder halbautomatisierte Tools, …
Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? …
Wie können Sie in der Keras-Bibliothek (oder im Tensorflow) programmieren, um das Training auf mehrere GPUs aufzuteilen? Angenommen, Sie befinden sich in einer Amazon ec2-Instanz mit 8 GPUs und möchten alle verwenden, um schneller zu trainieren. Ihr Code ist jedoch nur für eine einzelne CPU oder GPU bestimmt.
Ich habe über NCE (eine Form der Stichprobenauswahl) aus diesen beiden Quellen gelesen: Tensorflow-Zuschreibung Original Papier Kann mir jemand bei Folgendem helfen: Eine einfache Erklärung der Funktionsweise von NCE (Ich fand es schwierig, das oben Genannte zu analysieren und zu verstehen. Etwas Intuitives, das zur dort vorgestellten Mathematik führt, wäre …
Mit Hadoop 2.0 und YARN ist Hadoop angeblich nicht mehr nur an Kartenreduzierungslösungen gebunden. Was sind die Anwendungsfälle für Apache Spark und Hadoop, wenn man bedenkt, dass beide auf HDFS basieren? Ich habe die Einführungsdokumentation für Spark gelesen, bin aber gespannt, ob jemand auf ein Problem gestoßen ist, das mit …
Ich arbeite an der Forschung, wo Bedarf zum Klassifizieren eines von drei Ereignisse WINNER = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mein aktuelles Modell ist: …
In letzter Zeit gibt es ein Papier zur Ebenennormalisierung . Es gibt auch eine Implementierung auf Keras. Aber ich erinnere mich, dass es Artikel mit dem Titel Recurrent Batch Normalization (Cooijmans, 2016) und Batch Normalized Recurrent Neural Networks (Laurent, 2015) gibt. Was ist der Unterschied zwischen diesen drei? Es gibt …
Ich habe ein Problem mit großen Datenmengen (z. B. 50 Millionen Zeilen und 200 Spalten). Das Dataset besteht aus ungefähr 100 numerischen Spalten und 100 kategorialen Spalten sowie einer Antwortspalte, die ein Binärklassenproblem darstellt. Die Kardinalität jeder der kategorialen Spalten beträgt weniger als 50. Ich möchte a priori wissen, ob …
Es scheint mir, dass die VVV Funktion leicht durch die QQQ Funktion ausgedrückt werden kann und daher die Funktion für mich überflüssig zu sein scheint. Allerdings lerne ich noch nicht viel, also habe ich wohl etwas falsch gemacht.VVV Definitionen Q- und V-Learning stehen im Kontext von Markov-Entscheidungsprozessen . Ein MDP …
Warum Softmax im Gegensatz zur Standardnormalisierung verwenden? Im Kommentarbereich der oberen Antwort auf diese Frage hat @Kilian Batzner zwei Fragen aufgeworfen, die mich ebenfalls sehr verwirren. Es scheint, dass niemand eine Erklärung abgesehen von numerischen Vorteilen gibt. Ich habe die Gründe für die Verwendung von Cross-Entropy Loss herausgefunden, aber wie …
Bei maschinellen Lernaufgaben ist es üblich, Daten zu mischen und zu normalisieren. Der Zweck der Normalisierung ist klar (für den gleichen Bereich von Merkmalswerten). Aber nachdem ich viel gekämpft hatte, fand ich keinen wertvollen Grund, Daten zu mischen. Ich habe diesen Beitrag hier gelesen und erörtert, wann wir Daten mischen …
Ich versuche, eine Liste von Listen, die wie folgt aussieht, in einen Pandas-Datenrahmen zu konvertieren [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', …
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren. Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.