Wie wichtig ist ein Wert im Vergleich zu einer Werteliste? In den meisten Fällen wird bei statistischen Tests ein Probensatz mit einer Population verglichen. In meinem Fall wird die Stichprobe mit einem Wert erstellt und mit der Grundgesamtheit verglichen.
Ich bin ein Dilettant im Testen statistischer Hypothesen, der mit dem vielleicht grundlegendsten Problem konfrontiert ist. Es ist nicht nur ein Test, sondern Hunderte von ihnen. Ich habe einen Parameterraum und muss für jeden Punkt einen Signifikanztest durchführen. Für jede Parameterkombination werden sowohl Wert- als auch Hintergrundliste (Grundgesamtheit) generiert. Dann bestelle ich dies nach p-Wert und finde interessante Parameterkombinationen. Tatsächlich ist es auch wichtig, Parameterkombinationen zu finden, bei denen dieser p-Wert hoch ist (Nicht-Signifikanz).
Nehmen wir also einen einzigen Test: Ich habe einen berechneten Wert aus einem ausgewählten Satz und einen Hintergrundsatz von Werten, die durch Auswahl eines zufälligen Trainingssatzes berechnet wurden. Der berechnete Wert ist 0,35 und der Hintergrundsatz ist (wahrscheinlich?) Normalverteilt mit einem Mittelwert von 0,25 und einem sehr engen Standardwert (e-7). Ich habe eigentlich keine Kenntnisse über die Verteilung, da die Samples von etwas anderem berechnet werden, es sich nicht um Zufallszahlen-Samples von irgendeiner Verteilung handelt, also ist Hintergrund das richtige Wort dafür.
Die Nullhypothese würde lauten: "Der Mittelwert des Stichprobentests entspricht meinem berechneten Wert von 0,35". Wann sollte ich dies als Z-Test oder T-Test betrachten? Ich möchte, dass der Wert deutlich über dem Bevölkerungsdurchschnitt liegt, daher handelt es sich um einen einseitigen Test.
Ich bin etwas verwirrt, was als Stichprobe zu betrachten ist: Ich habe entweder eine Stichprobe (die Beobachtung) und die Hintergrundliste als Grundgesamtheit ODER meine Stichprobe ist die Hintergrundliste und ich vergleiche diese mit der Gesamtheit (ohne Stichprobe). Grundgesamtheit, die nach der Nullhypothese den gleichen Mittelwert haben soll. Sobald dies entschieden ist, geht der Test in verschiedene Richtungen, denke ich.
Wie berechne ich den p-Wert eines T-Tests? Ich würde es gerne selbst berechnen, anstatt eine R / Python / Excel-Funktion zu verwenden (ich weiß bereits, wie man das macht), daher muss ich zuerst die richtige Formel festlegen.
Zunächst vermute ich, dass ein T-Test etwas zu allgemein ist, da in meinem Fall der T-Test mit der Stichprobengröße verknüpft wäre und die Form hätte: wobei und s ist , die Stichprobe im Vergleich zur Grundgesamtheit. Ich habe also zwei Fälle: Entweder ist meine Stichprobengröße die Größe der Population, was "ich schätze", dass ich es mit einem Z-Test zu tun habe, oder die Populationsstatistik (n und std) ist unbekannt, aber die Verteilung kann in sein Irgendwie angenähert und ich habe es wirklich mit einem T-Test zu tun. In jedem Fall sind meine folgenden Fragen:
- Wie berechne ich einen p-Wert? (dh ohne eine R / Python / Excel-Funktion oder eine p-Wert-Tabellensuche zu verwenden, sondern sie tatsächlich basierend auf einer Formel zu berechnen, weil ich wissen möchte, was ich tue)
- Wie entscheide ich einen Signifikanzschwellenwert basierend auf meiner Stichprobengröße? (Eine Formel wäre schön)