Unterschied zwischen Klassifizierung und Clustering beim Data Mining? [geschlossen]


195

Kann jemand erklären, was der Unterschied zwischen Klassifizierung und Clustering beim Data Mining ist?

Wenn Sie können, geben Sie bitte Beispiele für beides, um die Hauptidee zu verstehen.

Antworten:


242

Im Allgemeinen haben Sie bei der Klassifizierung eine Reihe vordefinierter Klassen und möchten wissen, zu welcher Klasse ein neues Objekt gehört.

Beim Clustering wird versucht, eine Reihe von Objekten zu gruppieren und festzustellen, ob zwischen den Objekten eine Beziehung besteht.

Im Kontext des maschinellen Lernens wird die Klassifizierung als überwachtes Lernen und das Clustering als unbeaufsichtigtes Lernen bezeichnet .

Schauen Sie sich auch Classification and Clustering bei Wikipedia an.


3
Danke für die Antwort. So wie ich es verstehe. In der Klassifizierung habe ich Beispiele und ich gruppiere diese Beispiele in die eine oder andere Klasse. Aber beim Clustering habe ich Beispiele, aber keine Klassen, in denen Beispiele gruppiert werden sollen. Beim Clustering anhand von Beispielen muss ich also Klassen finden? Habe ich recht oder gibt es etwas Wichtiges zu beachten? Und bitte können Sie ein Beispiel geben? Viele Grüße, Kristaps
Kristaps

4
@Kristaps: Ich denke du hast soweit recht. Sie finden jedoch nicht unbedingt Klassen mit Clustering. Es ist mehr so, dass Sie sehen möchten, ob einige Elemente eine Beziehung eingehen (indem Sie in einem Modell näher beieinander liegen). Normalerweise finden Sie keine Klassen (wenn Sie der Meinung sind, dass Sie Clustering verwenden, um Klassen für die Klassifizierung zu finden). Das ist nicht der Fall. Stattdessen haben Sie zu Beginn ein Trainingsset, das aus beschrifteten Elementen besteht (damit Sie wissen, zu welcher Klasse sie gehören). Anschließend trainieren Sie einen Klassifizierungsalgorithmus, um die Elemente den richtigen Klassen zuzuweisen, und überprüfen den
Felix Kling

4
Korrektheit (was Sie tun können, da die Daten beschriftet sind). Ein tägliches Beispiel für die Klassifizierung wäre die Spam-Filterung. Der Spamfilter muss entscheiden, ob es sich bei einer E-Mail um Spam handelt oder nicht. Sie können dem Filter auch mitteilen, ob eine E-Mail falsch klassifiziert wurde. Für das Clustering kenne ich kein Beispiel. Sie können jedoch z. B. 1000 Twitter-Nachrichten aufnehmen, versuchen, Cluster zu erstellen, und dann untersuchen, welche (und ob) Beziehung die Cluster aufweisen.
Felix Kling

Ich denke, sowohl Klassifizierung als auch Clustering sind Klassifizierungsmethoden , stimmt das?
WoooHaaaa

@ MrROY Wenn Sie mit Klassifizieren meinen: "Ordnen Sie (eine Gruppe von Personen oder Dingen) in Klassen oder Kategorien nach gemeinsamen Qualitäten oder Merkmalen an." , dann ja.
Bitek

76

Bitte lesen Sie die folgenden Informationen:

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein


Für das Clustering muss die Anzahl der Klassen nicht bekannt sein.
D1X

5
@ D1X True. Das ist, was diese Antwort sagt .. (unbekannte Anzahl von Klassen)
Sayali Sonawane

57

Wenn Sie diese Frage an Data Mining- oder maschinell lernende Personen gestellt haben, verwenden diese den Begriff überwachtes Lernen und unbeaufsichtigtes Lernen, um Ihnen den Unterschied zwischen Clustering und Klassifizierung zu erklären. Lassen Sie mich zunächst das Schlüsselwort überwacht und unbeaufsichtigt erläutern.

Betreutes Lernen: Angenommen, Sie haben einen Korb, der mit frischen Früchten gefüllt ist, und Ihre Aufgabe ist es, die gleichen Obstsorten an einem Ort zu arrangieren. Angenommen, die Früchte sind Apfel, Banane, Kirsche und Traube. Sie wissen also bereits aus Ihrer vorherigen Arbeit, dass die Form jeder einzelnen Frucht so einfach ist, die gleiche Art von Früchten an einem Ort anzuordnen. Hier wird Ihre vorherige Arbeit als trainierte Daten im Data Mining bezeichnet. Sie lernen also bereits die Dinge aus Ihren trainierten Daten. Dies liegt daran, dass Sie eine Antwortvariable haben, die besagt, dass es sich bei einigen Früchten um Trauben handelt, die für jede einzelne Frucht so sind.

Diese Art von Daten erhalten Sie aus den trainierten Daten. Diese Art des Lernens wird als überwachtes Lernen bezeichnet. Dieses Problem zur Typlösung fällt unter Klassifizierung. Sie lernen also bereits die Dinge, damit Sie Ihre Arbeit sicher erledigen können.

unbeaufsichtigt: Angenommen, Sie haben einen Korb, der mit frischen Früchten gefüllt ist, und Ihre Aufgabe ist es, die gleichen Obstsorten an einem Ort zu arrangieren.

Dieses Mal wissen Sie nichts über diese Früchte. Sie sehen diese Früchte zum ersten Mal. Wie werden Sie also die gleiche Art von Früchten arrangieren?

Was Sie zuerst tun werden, ist, dass Sie die Frucht annehmen und einen beliebigen physischen Charakter dieser bestimmten Frucht auswählen. Angenommen, Sie haben Farbe genommen.

Dann werden Sie sie basierend auf der Farbe anordnen, dann werden die Gruppen so etwas sein. RED COLOR GROUP: Äpfel & Kirschfrüchte. GRÜNE FARBGRUPPE: Bananen & Trauben. Jetzt nimmst du einen anderen physischen Charakter als Größe, und jetzt sind die Gruppen so ähnlich. ROTE FARBE UND GROSSE GRÖSSE: Apfel. ROTE FARBE UND KLEINE GRÖSSE: Kirschfrüchte. GRÜNE FARBE UND GROSSE GRÖSSE: Bananen. GRÜNE FARBE UND KLEINE GRÖSSE : Trauben. Arbeit erledigt Happy End.

hier hast du vorher nichts gelernt, heißt keine zugdaten und keine antwortvariable. Diese Art des Lernens ist als unbeaufsichtigtes Lernen bekannt. Clustering fällt unter unbeaufsichtigtes Lernen.


18

+ Klassifizierung: Sie erhalten einige neue Daten, für die Sie eine neue Bezeichnung festlegen müssen.

Beispielsweise möchte ein Unternehmen seine potenziellen Kunden klassifizieren. Wenn ein neuer Kunde kommt, muss er feststellen, ob dies ein Kunde ist, der seine Produkte kaufen wird oder nicht.

+ Clustering: Sie erhalten eine Reihe von Verlaufstransaktionen, in denen aufgezeichnet wird, wer was gekauft hat.

Mithilfe von Clustering-Techniken können Sie die Segmentierung Ihrer Kunden ermitteln.


3
Ich würde argumentieren: "Wenn ein neuer Kunde kommt, muss er feststellen, ob dies ein Kunde ist, der seine Produkte kaufen wird oder nicht." ist ein besserer Kandidat für die logistische Regression. Ein Beispiel für eine Klassifizierung wäre die Vorhersage, ob der Kunde das Modell "Premium", "Standard" oder "Economy" kaufen wird. Beispiel einer Fluggesellschaft: Reisebus, Reisebus mit frühem Einsteigen, Reisebus mit zusätzlicher Beinfreiheit.
GDB

16

Ich bin sicher, einige von Ihnen haben von maschinellem Lernen gehört. Ein Dutzend von Ihnen könnte sogar wissen, was es ist. Und einige von Ihnen haben möglicherweise auch mit Algorithmen für maschinelles Lernen gearbeitet. Sie sehen, wohin das führt? Nicht viele Menschen sind mit der Technologie vertraut, die in 5 Jahren unbedingt erforderlich sein wird. Siri lernt maschinell. Amazons Alexa ist maschinelles Lernen. Empfehlungssysteme für Anzeigen und Einkaufsartikel sind maschinelles Lernen. Versuchen wir, maschinelles Lernen mit einer einfachen Analogie eines 2-jährigen Jungen zu verstehen. Nennen wir ihn nur zum Spaß Kylo Ren

Quelle: blog.printkeg.com

Nehmen wir an, Kylo Ren hat einen Elefanten gesehen. Was wird ihm sein Gehirn sagen? (Denken Sie daran, dass er nur über eine minimale Denkfähigkeit verfügt, auch wenn er der Nachfolger von Vader ist.) Sein Gehirn wird ihm sagen, dass er eine große, sich bewegende Kreatur gesehen hat, die eine graue Farbe hatte. Als nächstes sieht er eine Katze und sein Gehirn sagt ihm, dass es sich um eine kleine sich bewegende Kreatur handelt, die eine goldene Farbe hat. Schließlich sieht er als nächstes ein Lichtschwert und sein Gehirn sagt ihm, dass es ein nicht lebendes Objekt ist, mit dem er spielen kann!

Sein Gehirn weiß zu diesem Zeitpunkt, dass sich der Säbel vom Elefanten und der Katze unterscheidet, weil der Säbel etwas zum Spielen ist und sich nicht von alleine bewegt. Sein Gehirn kann so viel herausfinden, auch wenn Kylo nicht weiß, was beweglich bedeutet. Dieses einfache Phänomen wird als Clustering bezeichnet.

Quelle: jeffcarpenterblog.tumblr.com

Maschinelles Lernen ist nichts anderes als die mathematische Version dieses Prozesses. Viele Leute, die Statistiken studieren, haben erkannt, dass sie einige Gleichungen genauso funktionieren lassen können wie das Gehirn. Das Gehirn kann ähnliche Objekte gruppieren, das Gehirn kann aus Fehlern lernen und das Gehirn kann lernen, Dinge zu identifizieren.

All dies kann mit Statistiken dargestellt werden, und die computergestützte Simulation dieses Prozesses wird als maschinelles Lernen bezeichnet. Warum brauchen wir die computergestützte Simulation? weil Computer schwerer rechnen können als das menschliche Gehirn. Ich würde gerne auf den mathematisch-statistischen Teil des maschinellen Lernens eingehen, aber Sie möchten nicht darauf eingehen, ohne vorher einige Konzepte zu klären.

Kommen wir zurück zu Kylo Ren. Nehmen wir an, Kylo nimmt den Säbel und beginnt damit zu spielen. Er trifft versehentlich einen Sturmtruppler und der Sturmtruppler wird verletzt. Er versteht nicht, was los ist und spielt weiter. Als nächstes schlägt er eine Katze und die Katze wird verletzt. Diesmal ist Kylo sicher, dass er etwas Schlechtes getan hat und versucht, etwas vorsichtig zu sein. Aber aufgrund seiner schlechten Säbelfähigkeiten schlägt er den Elefanten und ist sich absolut sicher, dass er in Schwierigkeiten ist. Danach wird er äußerst vorsichtig und schlägt seinen Vater nur absichtlich, wie wir in Force Awakens gesehen haben !!

Quelle: joyreactor.com

Dieser gesamte Prozess des Lernens aus Ihrem Fehler kann mit Gleichungen nachgeahmt werden, bei denen das Gefühl, etwas falsch zu machen, durch einen Fehler oder Kosten dargestellt wird. Dieser Prozess der Identifizierung, was nicht mit einem Säbel zu tun ist, wird als Klassifizierung bezeichnet. Clustering und Klassifizierung sind die absoluten Grundlagen des maschinellen Lernens. Schauen wir uns den Unterschied zwischen ihnen an.

Kylo unterschied zwischen Tieren und Lichtschwert, weil sein Gehirn entschied, dass Lichtschwerter sich nicht von selbst bewegen können und daher unterschiedlich sind. Die Entscheidung basierte ausschließlich auf den vorhandenen Objekten (Daten) und es wurde keine externe Hilfe oder Beratung bereitgestellt. Im Gegensatz dazu unterschied Kylo die Wichtigkeit des Umgangs mit Lichtschwertern, indem er zunächst beobachtete, was das Schlagen eines Objekts bewirken kann. Die Entscheidung basierte nicht vollständig auf dem Säbel, sondern darauf, was er mit verschiedenen Objekten tun konnte. Kurz gesagt, hier gab es etwas Hilfe.

Quelle: Pintrest

Aufgrund dieses Unterschieds beim Lernen wird Clustering als unbeaufsichtigte Lernmethode und Klassifizierung als überwachte Lernmethode bezeichnet. Sie sind in der Welt des maschinellen Lernens sehr unterschiedlich und werden oft von der Art der vorhandenen Daten bestimmt. Es ist oft nicht einfach, beschriftete Daten zu erhalten (oder Dinge, die uns beim Lernen helfen, wie Sturmtruppler, Elefant und Katze in Kylos Fall) und wird sehr kompliziert, wenn die zu differenzierenden Daten groß sind. Auf der anderen Seite kann das Lernen ohne Etiketten seine eigenen Nachteile haben, z. B. nicht zu wissen, was die Etikettentitel sind. Wenn Kylo lernen würde, ohne Beispiele oder Hilfe vorsichtig mit dem Säbel umzugehen, würde er nicht wissen, was er tun würde. Er würde nur wissen, dass es nicht angenommen wird, dass es getan wird. Es ist eine Art lahme Analogie, aber Sie verstehen es!

Wir fangen gerade erst mit maschinellem Lernen an. Die Klassifizierung selbst kann die Klassifizierung fortlaufender Nummern oder die Klassifizierung von Etiketten sein. Wenn Kylo beispielsweise die Größe jedes Sturmtrupplers klassifizieren müsste, gäbe es viele Antworten, da die Höhen 5,0, 5,01, 5,011 usw. betragen können. Eine einfache Klassifizierung wie Arten von Lichtschwertern (rot, blau, grün) hätte sehr begrenzte Antworten. Tatsächlich können sie mit einfachen Zahlen dargestellt werden. Rot kann 0 sein, Blau kann 1 sein und Grün kann 2 sein.

Wenn Sie sich mit Grundlagen der Mathematik auskennen, wissen Sie, dass 0,1,2 und 5,1,5,01,5.011 unterschiedlich sind und als diskrete bzw. kontinuierliche Zahlen bezeichnet werden. Die Klassifizierung diskreter Zahlen wird als logistische Regression bezeichnet, und die Klassifizierung fortlaufender Zahlen wird als Regression bezeichnet. Logistische Regression wird auch als kategoriale Klassifizierung bezeichnet. Seien Sie also nicht verwirrt, wenn Sie diesen Begriff an anderer Stelle lesen

Dies war eine sehr grundlegende Einführung in das maschinelle Lernen. Ich werde in meinem nächsten Beitrag auf die statistische Seite eingehen. Bitte lassen Sie mich wissen, wenn ich Korrekturen benötige :)

Zweiter Teil hier gepostet . Geben Sie hier die Bildbeschreibung ein


2
Hey Amit, warum fügst du nicht deinen Blog-Beitrag zur Antwort hinzu, anstatt nur einen Link? Nur-Link-Antworten werden verpönt, weil Websites ausfallen und damit die Antwort.
Mathemats

3
Vielen Dank. Ich werde das tun :)
Amit Juneja

2
"Die Klassifizierung diskreter Zahlen wird als logistische Regression bezeichnet" ist eine massive Vereinfachung. LR ist nur eine von vielen möglichen Techniken, die zur Klassifizierung verwendet werden könnten (andere sind baumbasiert (RF, GBT / XGB), NN-basiert usw. "Die Klassifizierung kontinuierlicher Zahlen wird als Regression bezeichnet" ist einfach widersprüchlich; du meinst "Die Vorhersage von fortlaufenden Zahlen" .
smci

7

Ich bin ein Neuling in Data Mining, aber wie in meinem Lehrbuch steht, soll KLASSIKIERUNG überwachtes Lernen und unbeaufsichtigtes Lernen sein. Der Unterschied zwischen überwachten Lernen und nicht überwachtes Lernen findet sich hier .


6

Einstufung

Ist die Zuordnung vordefinierter Klassen zu neuen Beobachtungen , basierend auf dem Lernen aus Beispielen.

Es ist eine der Schlüsselaufgaben beim maschinellen Lernen.

Clustering (oder Clusteranalyse)

Während im Volksmund als "unbeaufsichtigte Klassifizierung" abgetan, ist es ganz anders.

Im Gegensatz zu dem, was viele maschinelle Lernende Ihnen beibringen, geht es nicht darum, Objekten "Klassen" zuzuweisen, sondern sie nicht vordefinieren zu lassen. Dies ist die sehr eingeschränkte Sichtweise von Menschen, die zu viele Klassifizierungen vorgenommen haben. Ein typisches Beispiel dafür , dass bei einem Hammer (Klassifikator) alles für Sie wie ein Nagel (Klassifizierungsproblem) aussieht . Aber es ist auch der Grund, warum Klassifizierungsleute keine Ahnung von Clustering haben.

Betrachten Sie es stattdessen als Strukturerkennung . Die Aufgabe des Clusters besteht darin, eine Struktur (z. B. Gruppen) in Ihren Daten zu finden, die Sie zuvor nicht kannten . Clustering war erfolgreich, wenn Sie etwas Neues gelernt haben. Es ist fehlgeschlagen, wenn Sie nur die Struktur erhalten haben, die Sie bereits kannten.

Die Clusteranalyse ist eine Schlüsselaufgabe des Data Mining (und das hässliche Entlein beim maschinellen Lernen. Hören Sie also nicht auf maschinelle Lernende, die das Clustering ablehnen).

"Unbeaufsichtigtes Lernen" ist ein Oxymoron

Dies wurde in der Literatur auf und ab wiederholt, aber unbeaufsichtigtes Lernen ist nicht möglich . Es existiert nicht, aber es ist ein Oxymoron wie "militärischer Geheimdienst".

Entweder lernt der Algorithmus aus Beispielen (dann ist es "überwachtes Lernen") oder er lernt nicht. Wenn alle Clustering-Methoden "lernen", ist die Berechnung des Minimums, Maximums und Durchschnitts eines Datensatzes auch "unbeaufsichtigtes Lernen". Dann "lernte" jede Berechnung ihre Ausgabe. So der ‚nicht überwachtes Lernen‘ Begriff ist völlig sinnlos , bedeutet dies alles und nichts.

Einige "unbeaufsichtigte Lern" -Algorithmen fallen jedoch in die Optimierungskategorie . Zum Beispiel k-Mittel ist eine Least-Squares - Optimierung. Solche Methoden sind überall in der Statistik zu finden, daher denke ich nicht, dass wir sie als "unbeaufsichtigtes Lernen" bezeichnen müssen, sondern sie weiterhin als "Optimierungsprobleme" bezeichnen sollten. Es ist präziser und aussagekräftiger. Es gibt viele Clustering-Algorithmen, die keine Optimierung beinhalten und die nicht gut in Paradigmen des maschinellen Lernens passen. Also hör auf, sie dort unter dem Dach "unbeaufsichtigtes Lernen" zusammenzudrücken.

Mit Clustering ist etwas "Lernen" verbunden, aber es ist nicht das Programm, das lernt. Es ist der Benutzer, der neue Dinge über seinen Datensatz lernen soll.


Diese Antwort machte mir klar, dass ich eine Klassifizierungsperson war. Es hat mir wirklich geholfen.
Kta

Jeder Clustering-Algorithmus setzt ein allgemeines Metamodell voraus. Übrigens gilt das Gleiche für überwachtes Lernen, z. B. neuronale Netze (NN). In beiden Fällen (überwacht und unbeaufsichtigt) optimieren wir die Parameter des allgemeinen Metamodells, um sie an die Daten gemäß einer (manchmal versteckten) Kostenfunktion anzupassen. (Dieser Teil wird als "Lernen" bezeichnet.) Dies gilt sowohl für Clustering als auch für Klassifizierung. In beiden Fällen lernen wir ein bestimmtes Modell (basierend auf einem angenommenen allgemeinen Metamodell) über die Optimierung anhand der präsentierten Daten. Mit dem spezifischen optimierten Clustering-Modell können wir die Daten in Gruppen gruppieren.
Make42

TL; DR: Sie haben Recht, dass Clustering keine "unbeaufsichtigte Klassifizierung" ist, aber unbeaufsichtigtes Lernen kein Oxymoron ist - Lernen findet statt !
Make42

Wo ist zum Beispiel das "Lernen" in DBSCAN?
Hat aufgehört - Anony-Mousse

4

Durch Clustering können Sie Daten mit Ihren gewünschten Eigenschaften wie Anzahl, Form und anderen Eigenschaften extrahierter Cluster gruppieren. Während bei der Klassifizierung die Anzahl und die Form der Gruppen festgelegt sind. Die meisten Clustering-Algorithmen geben die Anzahl der Cluster als Parameter an. Es gibt jedoch einige Ansätze, um die geeignete Anzahl von Clustern herauszufinden.


4

Zunächst einmal, wie viele Antworten hier sagen: Klassifizierung wird überwachtes Lernen und Clustering wird nicht überwacht. Das heisst:

  1. Für die Klassifizierung sind beschriftete Daten erforderlich, damit die Klassifizierer auf diese Daten trainiert werden können. Danach können Sie neue unsichtbare Daten basierend auf dem, was er weiß, klassifizieren. Unbeaufsichtigtes Lernen wie Clustering verwendet keine gekennzeichneten Daten, und tatsächlich werden intrinsische Strukturen in den Daten wie Gruppen entdeckt.

  2. Ein weiterer Unterschied zwischen beiden Techniken (im Zusammenhang mit der vorherigen) ist die Tatsache, dass die Klassifizierung eine Form des diskreten Regressionsproblems ist, bei dem die Ausgabe eine kategorial abhängige Variable ist. Während die Ausgabe von Clustering eine Reihe von Teilmengen ergibt, die als Gruppen bezeichnet werden. Die Art und Weise, diese beiden Modelle zu bewerten, ist aus demselben Grund auch unterschiedlich: Bei der Klassifizierung müssen Sie häufig die Präzision und den Rückruf überprüfen, z. B. Über- und Unteranpassung usw. Diese Dinge zeigen Ihnen, wie gut das Modell ist. Beim Clustering benötigen Sie jedoch normalerweise die Vision und den Experten, um zu interpretieren, was Sie finden, da Sie nicht wissen, welche Art von Struktur Sie haben (Art der Gruppe oder des Clusters). Aus diesem Grund gehört Clustering zur explorativen Datenanalyse.

  3. Schließlich würde ich sagen, dass Anwendungen der Hauptunterschied zwischen beiden sind. Die Klassifizierung wird, wie das Wort sagt, verwendet, um Fälle zu unterscheiden, die zu einer oder einer anderen Klasse gehören, z. B. ein Mann oder eine Frau, eine Katze oder ein Hund usw. Clustering wird häufig bei der Diagnose von medizinischen Erkrankungen, der Entdeckung von Mustern usw. verwendet. etc.


3

Klassifizierung : Vorhersage der Ergebnisse in einer diskreten Ausgabe => Zuordnung von Eingabevariablen zu diskreten Kategorien

Geben Sie hier die Bildbeschreibung ein

Beliebte Anwendungsfälle:

  1. E-Mail-Klassifizierung: Spam oder Nicht-Spam

  2. Sanktionsdarlehen an den Kunden: Ja, wenn er in der Lage ist, EMI für den genehmigten Darlehensbetrag zu bezahlen. Nein, wenn er nicht kann

  3. Identifizierung von Krebstumorzellen: Ist es kritisch oder unkritisch?

  4. Stimmungsanalyse von Tweets: Ist der Tweet positiv oder negativ oder neutral?

  5. Klassifizierung von Nachrichten: Klassifizieren Sie die Nachrichten in eine der vordefinierten Klassen - Politik, Sport, Gesundheit usw.

Clustering : ist die Aufgabe, eine Gruppe von Objekten so zu gruppieren, dass Objekte in derselben Gruppe (als Cluster bezeichnet) einander (in gewissem Sinne) ähnlicher sind als Objekte in anderen Gruppen (Cluster).

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Beliebte Anwendungsfälle:

  1. Marketing: Entdecken Sie Kundensegmente für Marketingzwecke

  2. Biologie: Einteilung in verschiedene Pflanzen- und Tierarten

  3. Bibliotheken: Clustering verschiedener Bücher anhand von Themen und Informationen

  4. Versicherung: Bestätigen Sie die Kunden, ihre Richtlinien und identifizieren Sie die Betrugsfälle

  5. Stadtplanung: Bilden Sie Gruppen von Häusern und untersuchen Sie deren Werte anhand ihrer geografischen Lage und anderer Faktoren.

  6. Erdbebenstudien: Identifizieren Sie gefährliche Zonen

  7. Empfehlungssystem :

Verweise:

geeksforgeeks

Datenaspirant

3 Blattknoten


2

Klassifizierung - Prognostiziert kategoriale Klassenbezeichnungen - Klassifiziert Daten (erstellt ein Modell) basierend auf einem Trainingssatz und den Werten (Klassenbezeichnungen) in einem Klassenbezeichnungsattribut. - Verwendet das Modell zum Klassifizieren neuer Daten

Cluster: Eine Sammlung von Datenobjekten - ähnlich wie im selben Cluster - unähnlich zu den Objekten in anderen Clustern


2

Clustering zielt darauf ab, Gruppen in Daten zu finden. "Cluster" ist ein intuitives Konzept und hat keine mathematisch strenge Definition. Die Mitglieder eines Clusters sollten einander ähnlich und den Mitgliedern anderer Cluster unähnlich sein. Ein Clustering-Algorithmus arbeitet mit einem unbeschrifteten Datensatz Z und erzeugt eine Partition darauf.

Bei Klassen und Klassenbeschriftungen enthält die Klasse ähnliche Objekte, während Objekte aus verschiedenen Klassen unterschiedlich sind. Einige Klassen haben eine eindeutige Bedeutung und schließen sich im einfachsten Fall gegenseitig aus. Bei der Signaturüberprüfung ist die Signatur beispielsweise entweder echt oder gefälscht. Die wahre Klasse ist eine der beiden, egal, ob wir aus der Beobachtung einer bestimmten Signatur möglicherweise nicht richtig raten können.


2

Clustering ist eine Methode zum Gruppieren von Objekten, sodass Objekte mit ähnlichen Merkmalen zusammenkommen und Objekte mit unterschiedlichen Merkmalen auseinanderfallen. Es ist eine übliche Technik zur statistischen Datenanalyse, die beim maschinellen Lernen und beim Data Mining verwendet wird.

Die Klassifizierung ist ein Kategorisierungsprozess, bei dem Objekte anhand des Trainingsdatensatzes erkannt, differenziert und verstanden werden. Die Klassifizierung ist eine überwachte Lerntechnik, bei der ein Trainingssatz und korrekt definierte Beobachtungen verfügbar sind.


2

Aus dem Buch Mahout in Action, und ich denke, es erklärt den Unterschied sehr gut:

Klassifizierungsalgorithmen sind mit Clustering-Algorithmen wie dem k-means-Algorithmus verwandt, unterscheiden sich aber immer noch stark von diesen.

Klassifizierungsalgorithmen sind eine Form des überwachten Lernens im Gegensatz zum unbeaufsichtigten Lernen, das bei Clustering-Algorithmen auftritt.

Ein überwachter Lernalgorithmus enthält Beispiele, die den gewünschten Wert einer Zielvariablen enthalten. Unüberwachte Algorithmen erhalten nicht die gewünschte Antwort, sondern müssen selbst etwas Plausibles finden.


2

Ein Liner für die Klassifizierung:

Klassifizierung von Daten in vordefinierte Kategorien

Ein Liner für Clustering:

Gruppieren von Daten in eine Reihe von Kategorien

Hauptunterschied:

Bei der Klassifizierung werden Daten erfasst und in vordefinierte Kategorien eingeteilt. Beim Clustering der Gruppe von Kategorien, in die Sie die Daten gruppieren möchten, ist dies nicht im Voraus bekannt.

Fazit:

  • Durch die Klassifizierung wird die Kategorie einem neuen Element zugewiesen, basierend auf bereits gekennzeichneten Elementen, während beim Clustering eine Reihe nicht gekennzeichneter Elemente in die Kategorien unterteilt werden
  • In der Klassifizierung sind die zu teilenden Kategorien \ Gruppen vorher bekannt, während in Clustering die zu teilenden Kategorien \ Gruppen vorher unbekannt sind
  • In der Klassifizierung gibt es zwei Phasen - die Trainingsphase und dann die Testphase, während es im Clustering nur eine Phase gibt - die Aufteilung der Trainingsdaten in Cluster
  • Klassifizierung ist überwachtes Lernen, während Clustering unbeaufsichtigtes Lernen ist

Ich habe einen langen Beitrag zum gleichen Thema geschrieben, den Sie hier finden:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

Wenn Sie versuchen, eine große Anzahl von Blättern in Ihrem Regal abzulegen (basierend auf dem Datum oder einer anderen Spezifikation der Datei), klassifizieren Sie.

Wenn Sie Cluster aus dem Satz von Blättern erstellen würden, würde dies bedeuten, dass sich unter den Blättern etwas Ähnliches befindet.


1

Im Data Mining gibt es zwei Definitionen: "Überwacht" und "Nicht überwacht". Wenn jemand dem Computer, dem Algorithmus, dem Code usw. mitteilt, dass dieses Ding wie ein Apfel und dieses Ding wie eine Orange ist, wird dies überwacht überwacht und überwachtes Lernen (wie Tags für jede Probe in einem Datensatz) zur Klassifizierung des Daten erhalten Sie Klassifizierung. Wenn Sie jedoch den Computer herausfinden lassen, was was ist, und zwischen Merkmalen des angegebenen Datensatzes unterscheiden, und zwar unbeaufsichtigt lernen, um den Datensatz zu klassifizieren, wird dies als Clustering bezeichnet. In diesem Fall haben Daten, die dem Algorithmus zugeführt werden, keine Tags, und der Algorithmus sollte verschiedene Klassen ermitteln.


1

Maschinelles Lernen oder KI wird weitgehend von der Aufgabe wahrgenommen, die es ausführt / erfüllt.

Meiner Meinung nach kann das Nachdenken über Clustering und Klassifizierung im Begriff der Aufgabe, die sie erreichen, wirklich dazu beitragen, den Unterschied zwischen beiden zu verstehen.

Clustering dient dazu, Dinge zu gruppieren, und Klassifizierung dient dazu, Dinge zu kennzeichnen.

Nehmen wir an, Sie befinden sich in einem Partyraum, in dem alle Männer in Anzügen und Frauen in Kleidern sind.

Jetzt stellst du deinem Freund ein paar Fragen:

Q1: Heyy, kannst du mir helfen, Leute zu gruppieren?

Mögliche Antworten, die Ihr Freund geben kann, sind:

1: Er kann Personen nach Geschlecht, Mann oder Frau gruppieren

2: Er kann Personen anhand ihrer Kleidung gruppieren, 1 trägt Anzüge, andere tragen Kleider

3: Er kann Menschen anhand ihrer Haarfarbe gruppieren

4: Er kann Personen nach ihrer Altersgruppe usw. usw. usw. gruppieren.

Es gibt zahlreiche Möglichkeiten, wie Ihr Freund diese Aufgabe erledigen kann.

Natürlich können Sie seinen Entscheidungsprozess beeinflussen, indem Sie zusätzliche Eingaben wie:

Können Sie mir helfen, diese Personen nach Geschlecht (oder Altersgruppe, Haarfarbe oder Kleid usw.) zu gruppieren?

Q2:

Vor dem zweiten Quartal müssen Sie einige Vorarbeiten durchführen.

Sie müssen Ihren Freund unterrichten oder informieren, damit er eine fundierte Entscheidung treffen kann. Nehmen wir also an, Sie haben Ihrem Freund gesagt:

  • Menschen mit langen Haaren sind Frauen.

  • Menschen mit kurzen Haaren sind Männer.

Q2. Jetzt weisen Sie eine Person mit langen Haaren darauf hin und fragen Ihren Freund: Ist es ein Mann oder eine Frau?

Die einzige Antwort, die Sie erwarten können, ist: Frau.

Natürlich kann es Männer mit langen Haaren und Frauen mit kurzen Haaren auf der Party geben. Die Antwort ist jedoch richtig, basierend auf dem Lernen, das Sie Ihrem Freund gegeben haben. Sie können den Prozess weiter verbessern, indem Sie Ihrem Freund mehr darüber beibringen, wie man zwischen beiden unterscheidet.

Im obigen Beispiel ist

Q1 repräsentiert die Aufgabe, die Clustering erfüllt.

Beim Clustering stellen Sie die Daten (Personen) dem Algorithmus (Ihrem Freund) zur Verfügung und bitten ihn, die Daten zu gruppieren.

Nun liegt es am Algorithmus, zu entscheiden, wie man am besten gruppiert. (Geschlecht, Farbe oder Altersgruppe).

Auch hier können Sie die vom Algorithmus getroffene Entscheidung definitiv beeinflussen, indem Sie zusätzliche Eingaben bereitstellen.

Q2 repräsentiert die Aufgabe, die die Klassifizierung erfüllt.

Dort geben Sie Ihrem Algorithmus (Ihrem Freund) einige Daten (Personen), die als Trainingsdaten bezeichnet werden, und lassen ihn lernen, welche Daten welchem ​​Etikett entsprechen (männlich oder weiblich). Anschließend verweisen Sie Ihren Algorithmus auf bestimmte Daten, die als Testdaten bezeichnet werden, und fragen ihn, ob er männlich oder weiblich ist. Je besser Ihr Unterricht ist, desto besser ist seine Vorhersage.

Und die Vorarbeit in Q2 oder Klassifizierung ist nichts anderes als nur das Training Ihres Modells, damit es lernen kann, wie man differenziert. In Clustering oder Q1 ist diese Vorarbeit Teil der Gruppierung.

Hoffe das hilft jemandem.

Vielen Dank


1

Geben Sie hier die Bildbeschreibung ein

Klassifizierung - Ein Datensatz kann verschiedene Gruppen / Klassen haben. rot, grün und schwarz. Die Klassifizierung versucht, Regeln zu finden, die sie in verschiedene Klassen unterteilen.

Custering - Wenn ein Datensatz keine Klasse enthält und Sie sie einer Klasse / Gruppierung zuordnen möchten, führen Sie Clustering durch. Die lila Kreise oben.

Wenn die Klassifizierungsregeln nicht gut sind, haben Sie beim Testen eine Fehlklassifizierung oder Ihre Regeln sind nicht korrekt genug.
Wenn das Clustering nicht gut ist, haben Sie viele Ausreißer, z. Datenpunkte können nicht in einen Cluster fallen.


1

Die Hauptunterschiede zwischen Klassifizierung und Clustering sind: Bei der Klassifizierung werden die Daten mithilfe von Klassenbezeichnungen klassifiziert. Auf der anderen Seite ähnelt Clustering der Klassifizierung, es gibt jedoch keine vordefinierten Klassenbezeichnungen. Die Klassifizierung ist auf überwachtes Lernen ausgerichtet. Im Gegensatz dazu wird Clustering auch als unbeaufsichtigtes Lernen bezeichnet. Das Trainingsmuster wird in der Klassifizierungsmethode bereitgestellt, während im Fall des Clustering keine Trainingsdaten bereitgestellt werden.

Hoffe das wird helfen!


-1

Ich glaube, Klassifizierung klassifiziert Datensätze in einem Datensatz in vordefinierte Klassen oder definiert sogar Klassen für unterwegs. Ich betrachte es als Voraussetzung für wertvolles Data Mining. Ich denke gerne an unbeaufsichtigtes Lernen, dh man weiß nicht, wonach er sucht, während das Mining der Daten und die Klassifizierung als guter Ausgangspunkt dienen

Clustering am anderen Ende fällt unter überwachtes Lernen, dh man weiß, nach welchen Parametern zu suchen ist, die Korrelation zwischen ihnen und kritischen Ebenen. Ich glaube, es erfordert ein gewisses Verständnis von Statistik und Mathematik


3
Es ist eigentlich umgekehrt. Die Klassifizierung wird normalerweise überwacht und das Clustering wird normalerweise nicht überwacht.
AlexK
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.