Die Formulierung eines mathematischen Modells für ein Problem ist einer der subjektivsten Aspekte der Statistik, aber auch einer der wichtigsten. Was sind die besten Referenzen, die sich mit diesem entscheidenden, aber oft übersehenen Thema befassen? Und welcher berühmte Statistiker sagte etwas in der Art: "Lassen Sie die Daten das Modell …
Regression und maschinelles Lernen werden in den Naturwissenschaften verwendet, um Hypothesen zu testen, Parameter zu schätzen und Vorhersagen zu treffen, indem Modelle an Daten angepasst werden. Wenn ich jedoch ein A-priori- Modell habe, möchte ich keine Anpassung vornehmen - zum Beispiel ein Modell eines deterministischen physikalischen Systems, das aus ersten …
In "A Practioner's Guide to Generalized Linear Models" in Absatz 1.83 heißt es: "Im speziellen Fall eines multiplikativen Poisson-GLM kann gezeigt werden, dass die Modellierungsanspruchszahlen mit einem Versatzterm gleich dem Logarithmus der Exposition zu identischen Ergebnissen führen wie die Modellierungsanspruchshäufigkeiten mit vorherigen Gewichten, die gleich der Exposition jeder Beobachtung eingestellt …
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
Ich habe den folgenden Artikel über statistische Unabhängigkeit gelesen . Zusammenfassend argumentiert der Artikel, dass "es Zeit für die Wissenschaft ist, die Fiktion der statistischen Unabhängigkeit zurückzuziehen", und erklärt anschließend verschiedene Gründe dafür. Nachdem ich den Artikel gelesen habe, stimme ich eher zu. Ich wollte folgendes wissen: Was denken andere …
Ich habe zwei Zeitreihen (Parameter eines Modells für Männer und Frauen) und möchte ein geeignetes ARIMA-Modell identifizieren, um Prognosen zu erstellen. Meine Zeitreihe sieht aus wie: Die Darstellung und der ACF sind instationär (die Spitzen des ACF schneiden sehr langsam ab). Daher verwende ich Differenzierung und erhalte: Dieses Diagramm zeigt, …
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
Eine Person erhält drei Gegenstände, beispielsweise Bilder von Gesichtern, und wird gebeten, herauszufinden, welche der drei Gesichter am ähnlichsten sind. Dies wird sehr oft mit verschiedenen Kombinationen von Gesichtern wiederholt, wobei jedes Gesicht in vielen Kombinationen auftreten kann. Angesichts dieser Art von Daten möchte ich den Unterschied / die Ähnlichkeit …
Dies ist eine recht allgemeine Frage: Angenommen, ich möchte ein Modell erstellen, um die nächste Beobachtung basierend auf den vorherigen Beobachtungen vorherzusagen ( kann ein Parameter zur experimentellen Optimierung sein). Wir haben also im Grunde ein Schiebefenster mit Eingabemerkmalen, um die nächste Beobachtung vorherzusagen.N.NNNNNN Ich kann einen Hidden-Markov-Modell-Ansatz verwenden, dh …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …
Daher versuche ich, die Lift and Gain-Diagramme für mein Mitarbeiterfluktuationsmodell (dh CHAID in SPSS Modeler) besser zu verstehen. Für meine Daten bedeutet dies, die Anzahl der Personen vorherzusagen, die das Unternehmen freiwillig verlassen. Ich habe die folgenden Referenzen überprüft und die Grundlagen bezüglich der Interpretation festgelegt: Was ist auf der …
In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden …
Ich versuche, eine logistische Regression anzupassen, bei der es einen großen Unterschied in der Anzahl der Datenpunkte in beiden Gruppen gibt (70 gegenüber 10.000). Ein statistischer Freund von mir hat mir gesagt, dass dies ein bekanntes Problem mit der logistischen Regression ist und dass es für diese Art von Zahlen …
Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.