Anwendung maschineller Lerntechniken in klinischen Studien mit kleinen Stichproben

15

Was halten Sie von der Anwendung maschineller Lerntechniken wie Random Forests oder bestrafter Regression (mit L1- oder L2-Strafe oder einer Kombination davon) in klinischen Studien mit kleinen Stichproben, wenn das Ziel darin besteht, interessante Prädiktoren in einem Klassifizierungskontext zu isolieren? Es ist keine Frage der Modellauswahl, und ich frage auch nicht, wie optimale Schätzungen der variablen Wirkung / Wichtigkeit zu finden sind. Ich habe nicht vor, starke Schlussfolgerungen zu ziehen, sondern nur multivariate Modelle zu verwenden, um zu vermeiden, dass jeder Prädiktor einzeln mit dem Ergebnis von Interesse verglichen und die Wechselbeziehungen berücksichtigt werden.

Ich habe mich nur gefragt, ob ein solcher Ansatz in diesem speziellen Extremfall bereits angewendet wurde, sagen wir 20 bis 30 Probanden mit Daten zu 10 bis 15 kategorialen oder kontinuierlichen Variablen. Es ist nicht gerade die Fall und ich denke , das hier Problem der Anzahl der Klassen in Beziehung steht es zu erklären versuchen, (die oft nicht gut ausgewogen) und die (sehr) kleine n. Mir ist die umfangreiche Literatur zu diesem Thema im Kontext der Bioinformatik bekannt, aber ich habe keinen Hinweis auf biomedizinische Studien mit psychometrisch gemessenen Phänotypen gefunden (z. B. in neuropsychologischen Fragebögen). $n\ll p$

Irgendwelche Hinweise oder Hinweise auf relevante Papiere?

Aktualisieren

Ich bin offen für andere Lösungen zur Analyse dieser Art von Daten, z. B. C4.5-Algorithmus oder dessen Derivate, Assoziationsregelmethoden und Data-Mining-Techniken für überwachte oder halbüberwachte Klassifizierung.

machine-learning feature-selection

— chl
quelle

Nur um klar zu sein: Ihre Frage ist nach der Größe der Daten, nicht nach der Einstellung, richtig?

— Shane

Genau, ich frage mich, ob es irgendwelche Verweise auf das "kleinste" n (bezogen auf eine große Anzahl von Variablen) gibt, oder genauer, ob irgendwelche Kreuzvalidierungstechniken (oder Resampling-Strategien wie in RFs) in solch einem extremen Fall gültig bleiben .

— chl

7

Ich habe dies nicht außerhalb der Bioinformatik / des maschinellen Lernens gesehen, aber vielleicht können Sie der erste sein :)

Als gutes Beispiel für eine Methode mit kleinen Stichproben aus der Bioinformatik kann eine logistische Regression mit L1-Regularisierung eine gute Anpassung ergeben, wenn die Anzahl der Parameter exponentiell zur Anzahl der Beobachtungen ist. Nicht-asymptotische Konfidenzintervalle können unter Verwendung von Ungleichungen vom Chernoff-Typ erstellt werden (dh Dudik (2004) zum Beispiel. Trevor Hastie hat einige Arbeiten mit diesen Methoden durchgeführt, um Geninteraktionen zu identifizieren. In der folgenden Arbeit verwendet er es, um signifikante Effekte aus einem Modell mit 310.637 einstellbaren Parametern zu identifizieren, die zu einer Stichprobe von 2200 Beobachtungen passen

"Genomweite Assoziationsanalyse durch Lasso bestrafte die logistische Regression." Autoren: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Issue: 6 ISSN: 1367-4803 Date: 03/2009 Pages: 714 - 721

Verwandte Präsentation von Victoria Stodden ( Modellauswahl mit viel mehr Variablen als Beobachtungen )

— Jaroslaw Bulatow
quelle

Ja, das Wu et al. 2009 ist ein schönes Papier. Übrigens habe ich in den letzten zwei Jahren an GWAS und ML gearbeitet; Jetzt versuche ich, auf klinische Studien zurückzukommen, in denen wir uns die meiste Zeit mit unvollständigen Messungen, fehlenden Daten und natürlich ... vielen interessanten Variablen aus Sicht des Physikers befassen müssen!

— Chl

Übrigens, ich kam gerade über einem Papier , das mich an dieser Frage gemacht ... es ist sehr selten für Machine Learning Papiere sprechen über Konfidenzintervall, aber hier ist eine bemerkenswerte Ausnahme ncbi.nlm.nih.gov/pubmed/19519325

— Yaroslav Bulatov

n

$n$

n ≪ p

$n\ll p$

n

$n$

p

$p$

Das ist eine sehr interessante Frage. Ich habe einige dieser und einige andere Artikel, die ich in einem Blogbeitrag habe, gesammelt (hoffe, es macht Ihnen nichts aus). Ich bin sicher, dass es da draußen noch andere gibt.

— Andrew

5

Ich hätte sehr wenig Vertrauen in die Verallgemeinerbarkeit der Ergebnisse einer explorativen Analyse mit 15 Prädiktoren und einer Stichprobengröße von 20.

Die Konfidenzintervalle von Parameterschätzungen wären groß. Beispielsweise beträgt das 95% -Konfidenzintervall für r = 0,30 mit n = 20 -0,17 bis 0,66.
Probleme verschärfen sich in der Regel, wenn mehrere Prädiktoren explorativ und datengesteuert verwendet werden.

Unter solchen Umständen würde ich generell raten, Analysen auf bivariate Beziehungen zu beschränken. Wenn Sie eine bayesianische Perspektive einnehmen, dann würde ich sagen, dass Ihre vorherigen Erwartungen genauso wichtig sind, wenn nicht wichtiger als die Daten.

— Jeromy Anglim
quelle

4

Eine gängige Faustregel ist, dass mindestens die 10-fache Anzahl von Trainingsdateninstanzen vorhanden ist (ganz zu schweigen von Test- / Validierungsdaten usw.), da der Klassifikator einstellbare Parameter enthält. Denken Sie daran, dass Sie ein Problem haben, bei dem Sie nicht nur ausreichende Daten, sondern auch repräsentative Daten benötigen . Letztendlich gibt es keine systematische Regel, weil es bei dieser Entscheidung so viele Variablen gibt. Wie Hastie, Tibshirani und Friedman in den Elementen des statistischen Lernens sagen (siehe Kapitel 7):

Es ist zu schwierig, eine allgemeine Regel darüber zu geben, wie viele Trainingsdaten ausreichen. Dies hängt unter anderem vom Signal-Rausch-Verhältnis der zugrunde liegenden Funktion und der Komplexität der an die Daten angepassten Modelle ab.

Wenn Sie sich in diesem Bereich noch nicht auskennen, empfehle ich Ihnen, dieses kurze Papier zur "Mustererkennung" aus der Encyclopedia of Biomedical Engineering zu lesen, das eine kurze Zusammenfassung einiger Datenprobleme enthält.

— Shane
quelle

Vielen Dank! Ich habe Hasties Buch und das von C. Bishop (Mustererkennung und maschinelles Lernen). Ich weiß, dass ein so kleines n zu einer falschen oder unzuverlässigen Assoziation führen würde (siehe Jeromy Anglims Kommentar). Der von Breiman implementierte RF-Algorithmus ermöglicht es jedoch, mit einer begrenzten Anzahl von Merkmalen jedes Mal fertig zu werden, wenn ein Baum wächst (in meinem Fall 3 oder 4), und obwohl die OOB-Fehlerrate ziemlich hoch ist (aber dies sollte erwartet werden), zu analysieren Aufgrund der unterschiedlichen Wichtigkeit bin ich zu dem Schluss gekommen, dass ich eine ähnliche Schlussfolgerung mithilfe von bivariaten Tests (mit Permutationstest) ziehen würde.

— chl

1

Diese Faustregel gilt hauptsächlich für klassische Methoden wie l2-regularisierte Maximalwahrscheinlichkeit, L1-regularisierte Methoden können effektiv lernen, wenn die Anzahl der einstellbaren Parameter in der Anzahl der Beobachtungen exponentiell ist (dh Miroslav Dudik, COLT-Papier 2004)

— Yaroslav Bulatov,

3

Ich kann Ihnen versichern, dass RF in diesem Fall funktionieren würde und sein Wichtigkeitsmaß ziemlich aufschlussreich wäre (da es keinen großen Schwanz irreführender unwichtiger Attribute wie in standard (n << p) s geben wird). Ich kann mich jetzt an kein Papier erinnern, das sich mit einem ähnlichen Problem befasst, aber ich werde danach suchen.

1

Vielen Dank! Ich nahm letzten Monat an der IV. EAM-SMABS-Konferenz teil, und einer der Redner stellte eine Anwendung von ML in einer biomedizinischen Studie vor. Leider war dies eine etwas "Standard" -Studie mit N ~ 300 Probanden und p = 10 Prädiktoren. Er ist im Begriff, eine Arbeit bei Statistics in Medicine einzureichen . Was ich suche, sind nur Artikel / Referenzen. klinische Standardstudie mit z. B. ambulanten Patienten, bei der die Verallgemeinerbarkeit der Ergebnisse nicht so sehr eine Rolle spielt.

— chl

Hast du endlich Papier gefunden?

— Chl

@chl noch nicht; aber danke für die erinnerung.

Es gibt keine Eile :) Ich habe selbst nichts Interessantes gefunden. Vielleicht ist Pubmed nicht die richtige Suchmaschine für diesen speziellen Fall ...

— chl

@chl Das ist auch mein Problem hier. Es scheint wirklich, dass n << p ein Synonym für biomedizinische Daten geworden ist.

0

Wenn Sie diskrete Eingaben haben, schreibe ich ein Programm, um fehlende Werte einer Binäreingabe unter Berücksichtigung vorheriger Eingaben vorherzusagen. Beliebige Kategorien, z. B. "1 von 6", können in Binärbits konvertiert werden und funktionieren einwandfrei. es wird es nicht bewirken.

Der Zweck des Algorithmus, den ich schreibe, ist es, so schnell wie möglich mathematisch zu lernen. Folglich hat es eine sehr schlechte zeitliche und räumliche Komplexität (räumliche Komplexität um O (4 ^ N)!).

Dafür erhalten Sie jedoch im Wesentlichen ein einmaliges Lernen für jedes System, dessen Zustand als Bitvektor ausgedrückt werden kann. Zum Beispiel hat ein Volladdierer 8 verschiedene Eingangszustände. Der Algorithmus lernt nach nur 8 verschiedenen Trainingsmustern einen Volladdierer perfekt. Nicht nur das, sondern Sie können ihm auch die Antwort geben und die Frage vorhersagen lassen oder ihm einen Teil der Antwort und einen Teil der Frage geben und den Rest ausfüllen lassen.

Wenn die Eingabedaten viele Bits enthalten, ist dies recht rechen- und speicherintensiv. Aber wenn Sie nur sehr wenige Beispiele haben - oder das Designziel lautet -, erhalten Sie nahezu die bestmöglichen Vorhersagen.

Sie trainieren es einfach mit Bitvektoren, einschließlich eines Bitvektors, dessen Bits unbekannt sind. Um eine Vorhersage zu erhalten, geben Sie ebenfalls nur einen Bitvektor ein, welche Bits unbekannt sind und welche Bits vorhergesagt werden sollen.

Der Quellcode ist hier verfügbar: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

— Kevin Baas
quelle