Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.
Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden geschätzt.
Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen Proteinsequenzen ("Unbekannter / schlecht kommentierter Hintergrund") oder ungefähr 100.000 überprüfte, relevante Proteine, die mit …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?
Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …
Ich würde gerne wissen, wie genau sich mahout benutzerbasierte und artikelbasierte Empfehlungen voneinander unterscheiden. Es definiert das Benutzerbasiert : Empfehlen Sie Artikel, indem Sie nach ähnlichen Benutzern suchen. Dies ist aufgrund der Dynamik der Benutzer oft schwieriger zu skalieren. Artikelbasiert : Berechnen Sie die Ähnlichkeit zwischen Artikeln und geben Sie …
Ich habe Textdokumente, die hauptsächlich Listen von Gegenständen enthalten. Jedes Objekt ist eine Gruppe von mehreren Token verschiedener Typen: Vorname, Nachname, Geburtsdatum, Telefonnummer, Stadt, Beruf usw. Ein Token ist eine Gruppe von Wörtern. Artikel können in mehreren Zeilen liegen. Elemente aus einem Dokument haben ungefähr dieselbe Tokensyntax, müssen jedoch nicht …
Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei …
Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten? Was war das …
Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?
In welchen Fällen ist es besser, einen Entscheidungsbaum und in anderen Fällen einen KNN zu verwenden? Warum in bestimmten Fällen einen von ihnen verwenden? Und der andere in verschiedenen Fällen? (Betrachtet man die Funktionalität, nicht den Algorithmus) Hat jemand Erklärungen oder Hinweise dazu?
Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten? Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit". Kennt jemand eine API, die mir eine Lösung geben kann? Ich …
Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die …
Soweit ich die Entwicklung von Algorithmen zur Lösung des FPM-Problems (Frequent Pattern Mining) kenne, gibt es auf dem Weg der Verbesserungen einige Hauptkontrollpunkte. Erstens wurde der Apriori- Algorithmus 1993 von Agrawal et al. zusammen mit der Formalisierung des Problems. Der Algorithmus konnte Strip-Off einige Sätze aus den 2^n - 1Sätzen …
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.