Unterscheidung zwischen zwei Gruppen in Statistik und maschinellem Lernen: Hypothesentest vs. Klassifikation vs. Clustering

29

Angenommen, ich habe zwei Datengruppen mit der Bezeichnung A und B (jede enthält z. B. 200 Proben und 1 Merkmal), und ich möchte wissen, ob sie unterschiedlich sind. Ich könnte:

a) Führen Sie einen statistischen Test (z. B. t-Test) durch, um festzustellen, ob sie sich statistisch unterscheiden.
b) Verwenden Sie überwachtes maschinelles Lernen (z. B. Support Vector Classifier oder Random Forest Classifier). Ich kann dies für einen Teil meiner Daten trainieren und es für den Rest überprüfen. Wenn der Algorithmus für maschinelles Lernen den Rest danach korrekt klassifiziert, kann ich sicher sein, dass die Stichproben differenzierbar sind.
c) Verwenden Sie einen unbeaufsichtigten Algorithmus (z. B. K-Means) und lassen Sie ihn alle Daten in zwei Stichproben aufteilen. Ich kann dann überprüfen, ob diese beiden gefundenen Proben mit meinen Etiketten A und B übereinstimmen.

Meine Fragen sind:

Inwiefern überlappen sich diese drei Möglichkeiten?
Sind b) und c) für wissenschaftliche Argumente nützlich?
Wie kann ich aus den Methoden b) und c) eine „Signifikanz“ für den Unterschied zwischen den Stichproben A und B ermitteln?
Was würde sich ändern, wenn die Daten mehrere Funktionen anstelle von einer Funktion hätten?
Was passiert, wenn sie eine andere Anzahl von Proben enthalten, z. B. 100 vs 300?

— MaxG
quelle

3

Ich würde sagen , dass die Differenz zwischen (a) und (b) ist , dass statistische Tests darauf konzentrieren , ob es ist ein Unterschied, während Klassifikationsmethoden auf der Größe dieser Differenz fokussieren. Wenn Sie eine zufällige Gesamtstruktur verwenden, möchten Sie die Kreuzvalidierungsgenauigkeit kennen. vielleicht sind es 78%. Das ist die Zahl, an der Sie interessiert sind, und nicht die Aussage, dass sie nicht gleich 50% ist .

— Amöbe sagt Reinstate Monica

4

IMHO-Situationen, in denen a / b / c sinnvoll sind, unterscheiden sich im typischen Signal-Rausch-Verhältnis und nehmen von (a) nach (b) nach (c) zu. Bei der typischen Anwendung eines T-Tests tritt ein hohes Rauschen auf. wir wollen zeigen, dass gruppen nicht gleich sind. Wenn die Gruppen offensichtlich nicht gleich sind (weniger Lärm), brauchen wir keinen Test mehr. Stattdessen möchten wir quantifizieren, wie unterschiedlich die Gruppen sind, und hier kann die Genauigkeit der Klassifizierung außerhalb der Stichprobe hilfreich sein. Wenn es noch weniger Rauschen gibt und die Klassifizierungsgenauigkeit bei ~ 100% liegt, können wir fragen, ob Gruppen so stark voneinander getrennt sind, dass sie von einem Cluster-Algorithmus erfasst werden können.

— Amöbe sagt Reinstate Monica

1

@amoeba, ich rufe Sie an, weil Sie den Fragentitel usw. bearbeitet haben. Ich möchte Sie bitten, ihn noch einmal zu berücksichtigen. "Klassifikation" und "Clustering": befinden sich nicht im (alleinigen) Besitz des maschinellen Lernens. Diese Aufgaben tauchten auf und wurden routinemäßig in der Statistik / Datenanalyse vor dem ersten m durchgeführt. Der Lernende wurde geboren. Dies gilt nur für wenige neuere Techniken wie SVM, die sich aufgrund und innerhalb von ML entwickelt haben. Es ist unzulässig, Klassifizierung / Clustering / Bäume nur mit ML zu verknüpfen. ML unterscheidet sich jedoch von der statistischen Datenanalyse darin, dass es Train / Test stark einsetzt.

— TTNPHNS

@ttnphns Sicher, das ist alles in Ordnung, aber der ursprüngliche Titel lautete "Unterscheidungsbeispiele: Maschinelles Lernen vs. Statistische Tests (z. B. T-Test)", und ich wollte nur etwas Präzision hinzufügen, da die Frage wirklich nach T-Test fragt vs Klassifikation vs Clustering (für diesen speziellen wissenschaftlichen Zweck). Ich werde über mögliche Verbesserungen des Titels nachdenken.

— Amöbe sagt Reinstate Monica

@ttnphns Ich habe den Titel bearbeitet. Mal sehen, ob er dir besser gefällt.

— Amöbe sagt Reinstate Monica

15

Gute Frage. Alles kann gut oder schlecht sein, nützlich oder nicht, abhängig von Ihren Zielen (und vielleicht von der Art Ihrer Situation). Diese Methoden sind größtenteils darauf ausgelegt, unterschiedliche Ziele zu erreichen.

Mit statistischen Tests wie dem Test können Sie wissenschaftliche Hypothesen testen. Sie werden oft für andere Zwecke verwendet (weil die Leute mit anderen Werkzeugen einfach nicht vertraut sind), sollten es aber im Allgemeinen nicht sein. Wenn Sie eine A-priori-Hypothese haben, dass die beiden Gruppen unterschiedliche Mittelwerte für eine normalverteilte Variable haben, können Sie diese Hypothese mit dem Test testen und Ihre langfristige Typ-I-Fehlerrate kontrollieren (obwohl Sie nicht wissen, ob Sie haben in diesem speziellen Fall eine Fehlerrate vom Typ I angegeben. $t$ $t$
Klassifizierer im maschinellen Lernen sind wie ein SVM so konzipiert, dass sie Muster als zu einer bekannten Gruppe von Klassen gehörig klassifizieren. Die typische Situation ist, dass Sie einige bekannte Instanzen haben und den Klassifizierer anhand dieser trainieren möchten, damit er in Zukunft die genauesten Klassifizierungen liefert, wenn Sie andere Muster haben, deren wahre Klasse unbekannt ist. Der Schwerpunkt liegt hier auf der Genauigkeit außerhalb der Stichprobe . Sie testen keine Hypothese. Sicher hoffen Sie, dass die Verteilung der Prädiktorvariablen / -merkmale zwischen den Klassen unterschiedlich ist, da sonst keine zukünftige Klassifizierungshilfe möglich ist, aber Sie versuchen nicht, Ihre Überzeugung zu beurteilen, dass sich die Mittelwerte von Y durch X unterscheiden. Sie möchten richtig raten X in der Zukunft, wenn Y bekannt ist.
Unüberwachte Lernalgorithmen wie das Clustering dienen zum Erkennen oder Auferlegen von Strukturen für einen Datensatz. Es gibt viele mögliche Gründe, warum Sie dies tun möchten. Manchmal können Sie erwarten, dass ein Dataset echte, latente Gruppierungen enthält, und möchten herausfinden, ob die Ergebnisse der Clusterbildung für Ihre Zwecke sinnvoll und verwendbar erscheinen. In anderen Fällen möchten Sie möglicherweise einer Datenmenge eine Struktur zuweisen, um die Datenreduktion zu ermöglichen. Sie versuchen weder, eine Hypothese zu testen, noch hoffen Sie, in Zukunft etwas genau vorhersagen zu können.

In diesem Sinne können wir Ihre Fragen beantworten:

Die drei Methoden unterscheiden sich grundlegend in den Zielen, denen sie dienen.
b und c könnten für wissenschaftliche Argumente nützlich sein, dies hängt von der Art der fraglichen Argumente ab. Bei weitem die häufigste Art der Forschung in der Wissenschaft konzentriert sich auf das Testen von Hypothesen. Das Bilden von Vorhersagemodellen oder das Erkennen latenter Muster sind jedoch auch mögliche legitime Ziele.
Sie würden normalerweise nicht versuchen, "Signifikanz" von Methoden b oder c zu erhalten.
Angenommen, die Merkmale sind kategorialer Natur (was ich Ihnen vorstelle), können Sie Hypothesen dennoch mit einer faktoriellen ANOVA testen. Beim maschinellen Lernen gibt es ein Unterthema für die Mehrfachetikettenklassifizierung . Es gibt auch Methoden für mehrere Mitgliedschaften / überlappende Cluster, diese sind jedoch weniger verbreitet und stellen ein weitaus weniger handhabbares Problem dar. Eine Übersicht über das Thema finden Sie unter Überlappendes Clustering in Krumpleman, CS (2010). Dissertation, UT Austin, Elektrotechnik und Informationstechnik ( pdf ).
Im Allgemeinen haben alle drei Arten von Methoden größere Schwierigkeiten, da die Anzahl der Fälle in den Kategorien unterschiedlich ist.

— gung - Wiedereinsetzung von Monica
quelle

2

Zu 4: Ich denke, Sie verstehen das Wort "Feature" im OP falsch. Beim maschinellen Lernen bedeutet "Merkmal" einfach eine Variable. "Mehrere Funktionen" bedeutet also, dass eine multivariate Version eines T-Tests (wie Hotellings T) und keine faktorielle ANOVA verwendet wird.

— Amöbe sagt Reinstate Monica

11

Ich werde das Clustering nicht ansprechen, da es in anderen Antworten angesprochen wurde, aber:

Im Allgemeinen wird das Problem des Testens, ob zwei Stichproben signifikant unterschiedlich sind, als Zwei-Stichproben-Test bezeichnet .

$t$ $p$

Es könnte einfacher sein, über einige dieser Probleme nachzudenken, wenn Sie einen Test mit zwei Stichproben aus einem Klassifikator konstruieren, z. B. wie kürzlich von Lopez-Paz und Oquab (2017) vorgeschlagen . Die Vorgehensweise ist wie folgt:

$X$ $Y$ $X_\text{train}$ $X_\text{test}$ $Y_\text{train}$ $Y_\text{test}$
$X_\text{train}$ $Y_\text{train}$
$X_\text{test}$ $Y_\text{test}$
$\hat p$ $p = \tfrac12$ $p \ne \tfrac12$ $p \ne \tfrac12$

Indem Sie den erlernten Klassifikator untersuchen, können Sie die Unterschiede zwischen den Verteilungen möglicherweise auch nur halbwegs aussagekräftig interpretieren. Indem Sie die Familie der von Ihnen in Betracht gezogenen Klassifikatoren ändern, können Sie den Test auch dahingehend leiten, nach bestimmten Arten von Unterschieden zu suchen.

Beachten Sie, dass es wichtig ist, den Zugtest-Split durchzuführen. Andernfalls wäre ein Klassifikator, der seine Eingaben gespeichert hat, immer perfekt unterscheidbar. Durch Erhöhen des Punkteanteils im Trainingssatz erhalten Sie mehr Daten, um einen guten Klassifikator zu erlernen, aber weniger Möglichkeiten, um sicherzugehen, dass sich die Klassifikationsgenauigkeit wirklich vom Zufall unterscheidet. Dieser Kompromiss wird je nach Problem und Klassifikatorfamilie variieren und ist noch nicht gut verstanden.

Lopez-Paz und Oquab zeigten bei einigen Problemen eine gute empirische Leistung dieses Ansatzes. Ramdas et al. (2016) haben außerdem gezeigt, dass theoretisch ein eng verwandter Ansatz für ein bestimmtes einfaches Problem ratenoptimal ist. Das "Richtige" in dieser Umgebung ist ein Bereich aktiver Forschung, aber dieser Ansatz ist zumindest in vielen Umgebungen sinnvoll, wenn Sie ein wenig mehr Flexibilität und Interpretierbarkeit wünschen, als nur einen Standardtest von der Stange anzuwenden.

— Dougal
quelle

(+1) Verschachtelte Kreuzvalidierung ist der richtige Weg, imo. Testen Sie dann die Leistungsschätzung, die Sie in der äußeren Resampling-Schleife erhalten, mit einer No-Information-Model-Leistung. Wenn sie zufällig signifikant höher sind als erwartet, werden Ihre Daten etwas diskriminiert.

— Firebug

@Firebug Was meinen Sie mit einer "No-Information-Model-Performance"? Ich verstehe Ihr vorgeschlagenes Verfahren nicht ganz.

— Dougal

2

@Firebug Eine wichtige, aber subtile Einschränkung ist, dass man keinen Binomialtest verwenden kann, wenn die Klassifizierungsgenauigkeit über den Lebenslauf geschätzt wird.

— Amöbe sagt Reinstate Monica

2

@Firebug Mein Punkt bleibt: Sie können AUCs aus verschiedenen Faltungen und insbesondere aus dem wiederholten Lebenslauf nicht mit einer Stichprobe testen, da diese Schätzungen nicht unabhängig voneinander sind. Dies ist ein bekanntes Problem.

— Amöbe sagt Reinstate Monica

2

Zu Permutationstests: Ich habe es selbst gemacht. Sie führen CV aus, um eine Schätzung der Leistung zu erhalten, mischen dann die Beschriftungen und führen die gesamte CV-Pipeline erneut aus (und mischen dies 100- oder 1000-mal, um die Nullverteilung zu erhalten). Dies nimmt jedoch in der Regel sehr viel Zeit in Anspruch. Cc to @Firebug.

— Amöbe sagt Reinstate Monica

3

Nur Ansatz (a) dient zum Testen der Hypothese.

Im Falle der Verwendung von überwachten Algorithmen für maschinelles Lernen (b) können sie die Hypothese über die Unterscheidung von Gruppen weder beweisen noch widerlegen. Wenn der Algorithmus für maschinelles Lernen die Gruppen nicht richtig klassifiziert, kann dies passieren, weil Sie für Ihr Problem einen "falschen" Algorithmus verwendet haben oder ihn nicht ausreichend optimiert haben. Andererseits können Sie die völlig "zufälligen" Daten lange "quälen" genug, um ein überpassendes Modell zu produzieren, das gute Vorhersagen macht. Ein weiteres Problem ist, wann und woher Sie wissen, dass der Algorithmus "gute" Vorhersagen macht? Fast nie würden Sie eine 100% ige Klassifikationsgenauigkeit anstreben. Wann würden Sie also wissen, dass die Klassifikationsergebnisse etwas beweisen?

Clustering-Algorithmen (c) sind nicht für überwachtes Lernen ausgelegt. Sie zielen nicht darauf ab, die Beschriftungen neu zu erstellen, sondern Ihre Daten nach Ähnlichkeiten zu gruppieren. Die Ergebnisse hängen nun davon ab, welchen Algorithmus Sie verwenden und nach welchen Ähnlichkeiten Sie suchen. Ihre Daten können unterschiedliche Ähnlichkeiten aufweisen. Möglicherweise möchten Sie nach Unterschieden zwischen Jungen und Mädchen suchen. Der Algorithmus kann jedoch auch Gruppen armer und reicher Kinder oder intelligente und weniger intelligente Kinder, Rechts- und Linkshänder usw. finden Die von Ihnen beabsichtigte Gruppierung beweist nicht, dass die Gruppierung keinen Sinn ergibt, sondern nur, dass sie eine andere "sinnvolle" Gruppierung gefunden hat. Wie im vorherigen Fall können die Ergebnisse vom verwendeten Algorithmus und den Parametern abhängen. Würde es Ihnen passen, wenn einer von zehn Algorithmen / Einstellungen "Ihren" findet? Etiketten? Was wäre, wenn es eins zu hundert wäre? Wie lange würden Sie suchen, bevor Sie anhalten? Beachten Sie, dass Sie beim maschinellen Lernen in den allermeisten Fällen nicht aufhören, nachdem Sie einen Algorithmus mit Standardeinstellungen verwendet haben. Das Ergebnis kann von der von Ihnen verwendeten Vorgehensweise abhängen.

— Tim
quelle

2

Für Ansatz (b): Sie können einen Hypothesentest wie in meiner Antwort angegeben erstellen , um das Problem zu lösen, zu wissen, ob Ihr Ergebnis aussagekräftig ist (obwohl dies sicherlich in einer naiven Verwendung von Klassifikatoren für dieses Problem liegt). Beachten Sie, dass jeder gegebene Hypothesentest die Null ebenfalls möglicherweise nicht ablehnen kann, da es sich um den "falschen" Test für Ihr Problem handelt, und zwar genauso, wie dies bei einem Klassifikator der Fall wäre. Das Problem der Überanpassung wird durch die Datenaufteilung vollständig gelöst.

— Dougal,

@Dougal gute Punkte (+1), aber mein Hauptargument ist, dass das Ergebnis beim maschinellen Lernen davon abhängt, wie Sie den Algorithmus auswählen, verwenden, testen und die Ergebnisse bewerten. Das Ergebnis eines solchen Tests hängt also in hohem Maße von Ihren Handlungen ab. Dies bedeutet, dass möglicherweise zwei verschiedene Statistiker bei Verwendung dieser Methode unterschiedliche Ergebnisse erzielen können. Andererseits hängt es bei herkömmlichen Hypothesentests nur von der Wahl des Tests ab.

— Tim

Darüber hinaus gibt es keine einzige "richtige" Möglichkeit, es anzuwenden, und Sie können es leicht manipulieren (mit oder ohne Absicht), um die erwarteten Ergebnisse zu erzielen.

— Tim

Wenn Sie nur eine Million Dinge ausprobieren, bis Sie das gewünschte Ergebnis erzielen, ja. Wenn Sie eine ordnungsgemäße Aufteilung der Daten vornehmen, auch aus Ihrer eigenen Analyse, ist das Testverfahren vollkommen gültig. Wenn Sie mehr Optionen haben, können Sie in Situationen, in denen Sie wissen, wie man sie ausnutzt, mehr Möglichkeiten zum Betrügen (versehentlich oder auf andere Weise) nutzen, wenn Sie nicht vorsichtig sind.

— Dougal

@Dougal ja, aber das Ergebnis hängt auch von der für die Kreuzvalidierung verwendeten Vorgehensweise und der Aufteilung selbst ab (z. B. Größe der Testgruppe). Das Ergebnis hängt also bei jedem Schritt von Ihrem Verfahren ab. Darüber hinaus ist es Ihre Entscheidung, wenn Sie aufhören zu lernen und versuchen, bessere Ergebnisse zu erzielen (einzelner Algorithmus mit Standardeinstellungen im Vergleich zu einzelnen Algorithmen und Optimierung der Parameter im Vergleich zu mehreren Algorithmen - wie viele?). Dieses Verfahren könnte möglicherweise einige Korrekturen für mehrere Tests müssen (aber was genau?) Zu Konto für den verwendeten Verfahren - gute Ergebnisse auf einzelnen Algorithmus mit den Standardeinstellungen scheinen

— Tim

2

a) Beantwortet nur die Frage, ob die Verteilung unterschiedlich ist, aber nicht, wie man sie unterscheidet. b) wird auch den besten Wert finden, um zwischen den beiden Verteilungen zu unterscheiden. c) funktioniert, wenn die beiden Distributionen bestimmte Eigenschaften haben. Beispielsweise wird es mit normaler Verteilung aber nicht mit einigen zwei Modalverteilungen funktionieren, da die Methode zwei Modi derselben Gruppe anstelle von zwei verschiedenen Gruppen unterscheiden kann.
c) ist wegen zweier Modalverteilungen für wissenschaftliche Argumente nicht sinnvoll. b) könnte zur Unterscheidung von zwei Verteilungen verwendet werden, da Sie die Signifikanz berechnen können (siehe 3.), obwohl ich sie nie getroffen habe.
Durch Bootstrapping. Sie berechnen das Modell 1000-mal basierend auf zufälligen Teilproben. Sie erhalten eine Punktzahl, zum Beispiel die minimale Summe von Alpha- und Betafehlern. Sie sortieren die Punktzahl aufsteigend. Für 5% Vertrauen wählen Sie den 950. Wert. Wenn dieser Wert niedriger als 50% ist (bei gleicher Punktzahl für Gruppe A und B), können Sie mit 95% iger Sicherheit die Nullhypothese, dass die Verteilungen gleich sind, ignorieren. Das Problem ist, dass, wenn beide Verteilungen normal sind, den gleichen Mittelwert haben, aber eine andere Variation aufweisen, Sie nicht verstehen können, dass sie sich durch ML-Techniken unterscheiden. Auf der anderen Seite finden Sie einen Variationstest, der die beiden Verteilungen unterscheiden kann. Und es könnte umgekehrt sein, dass ML stärker ist als ein statistischer Test und in der Lage ist, die Verteilungen zu unterscheiden.
Wenn Sie nur ein Merkmal in ML haben, müssen Sie nur einen Wert finden, um die Verteilungen zu unterscheiden. Mit zwei Merkmalen kann die Grenze ein Sinus sein und im mehrdimensionalen Raum kann es wirklich seltsam sein. Es wird also viel schwieriger sein, die richtige Grenze zu finden. Andererseits bringen zusätzliche Funktionen zusätzliche Informationen. Dies erleichtert im Allgemeinen die Unterscheidung der beiden Verteilungen. Wenn beide Variablen normal verteilt sind, ist der Rand eine Linie.
Kleinere Samples können sich nicht normal verhalten, da der zentrale Grenzwertsatz nicht angewendet werden kann. Größere Stichproben beginnen sich normaler zu verhalten, da der zentrale Grenzwertsatz zu funktionieren beginnt. Beispielsweise wird der Mittelwert beider Gruppen fast normal verteilt, wenn die Stichprobe groß genug ist. Normalerweise sind es aber nicht 100 vs 300, sondern 10 Beobachtungen gegen 1000 Beobachtungen. Nach dieser Seite funktioniert der t-Test für die Differenz der Mittelwerte unabhängig von der Verteilung, wenn die Anzahl der Beobachtungen größer als 40 ist und keine Ausreißer vorliegen.

— keiv.fly
quelle

0

Statistische Tests dienen dazu, Rückschlüsse auf Daten zu ziehen. Sie zeigen Ihnen, wie die Dinge zusammenhängen. Das Ergebnis hat eine reale Bedeutung. ZB wie Rauchen mit Lungenkrebs in Bezug auf Richtung und Ausmaß verbunden ist. Es sagt dir immer noch nicht, warum Dinge passiert sind. Um zu beantworten, warum Dinge passiert sind, müssen wir auch die Wechselbeziehung mit anderen Variablen berücksichtigen und entsprechende Anpassungen vornehmen (siehe Pearl, J. (2003) CAUSALITY: MODELS, REASONING AND INFERENCE).

Überwachtes Lernen dient dazu, Vorhersagen zu treffen. Es sagt Ihnen, was passieren wird. ZB In Anbetracht des Raucherstatus einer Person können wir vorhersagen, ob sie an Lungenkrebs erkrankt ist. In einfachen Fällen sagt es Ihnen immer noch „wie“, indem Sie beispielsweise den vom Algorithmus ermittelten Rauchstillstand ablesen. Komplexere Modelle sind jedoch schwieriger oder unmöglich zu interpretieren (Deep Learning / Boosten mit vielen Funktionen).

Unbeaufsichtigtes Lernen wird häufig zur Erleichterung der beiden oben genannten eingesetzt.

Bei statistischen Tests können wir durch Auffinden einiger unbekannter zugrunde liegender Untergruppen der Daten (Clustering) auf die Heterogenität der Assoziationen zwischen Variablen schließen. ZB Rauchen erhöht die Wahrscheinlichkeit, an Lungenkrebs zu erkranken, für die Untergruppe A, jedoch nicht für die Untergruppe B.
Für betreutes Lernen können wir neue Funktionen erstellen, um die Vorhersagegenauigkeit und Robustheit zu verbessern. ZB durch die Identifizierung von Untergruppen (Clustering) oder Merkmalskombinationen (Dimensionsreduktion), die mit der Wahrscheinlichkeit von Lungenkrebs in Zusammenhang stehen.

Wenn die Anzahl der Merkmale / Variablen größer wird, wird der Unterschied zwischen statistischen Tests und überwachtem Lernen größer. Statistische Tests müssen nicht unbedingt davon profitieren, es hängt zum Beispiel davon ab, ob Sie kausale Schlussfolgerungen ziehen möchten, indem Sie andere Faktoren berücksichtigen oder Heterogenität in den Assoziationen identifizieren, wie oben erwähnt. Betreutes Lernen funktioniert besser, wenn die Funktionen relevant sind und es sich eher um eine Blackbox handelt.

Wenn die Anzahl der Stichproben zunimmt, erhalten wir genauere Ergebnisse für statistische Tests, genauere Ergebnisse für überwachtes Lernen und robustere Ergebnisse für unbeaufsichtigtes Lernen. Dies hängt jedoch von der Qualität der Daten ab. Daten mit schlechter Qualität können die Ergebnisse verzerren oder verrauschen.

Manchmal möchten wir wissen, „wie“ und „warum“, um Interventionsmaßnahmen zu informieren, z. B. indem festgestellt wird, dass Rauchen Lungenkrebs verursacht. Manchmal möchten wir wissen, „was“, um Entscheidungen zu treffen, z. B. herauszufinden, wer wahrscheinlich an Lungenkrebs erkrankt ist, und sie frühzeitig zu behandeln. Auf Science wird eine Sonderausgabe über Vorhersage und ihre Grenzen veröffentlicht ( http://science.sciencemag.org/content/355/6324/468)). „Der Erfolg scheint am beständigsten zu sein, wenn Fragen in multidisziplinären Bemühungen angegangen werden, die das menschliche Verständnis des Kontextes mit der algorithmischen Fähigkeit zum Umgang mit Terabytes an Daten verbinden.“ Meiner Meinung nach kann beispielsweise mithilfe von Hypothesentests ermitteltes Wissen dazu beitragen, das Lernen zu überwachen, indem es uns informiert Welche Daten / Features sollten wir in erster Linie sammeln. Auf der anderen Seite kann überwachtes Lernen dabei helfen, Hypothesen zu erstellen, indem Sie angeben, welche Variablen verwendet werden

— Tom KL
quelle