Schätzen Sie die Masse der Früchte in einem Beutel nur aus verwandten Summen?

Ein Lehrer an meiner Universität stellte eine solche Frage (nicht für Hausaufgaben, da der Unterricht beendet ist und ich nicht dabei war). Ich kann nicht herausfinden, wie ich es angehen soll.

Die Frage betrifft 2 Beutel mit jeweils verschiedenen Obstsorten:

Der erste Beutel enthält die folgenden zufällig ausgewählten Früchte:

+ ------------- + -------- + --------- +
| Durchmesser cm | Masse g | verfault? |
+ ------------- + -------- + --------- +
| 17,28 | 139,08 | 0 |
| 6,57 | 91,48 | 1 |
| 7.12 | 74,23 | 1 |
| 16,52 | 129,8 | 0 |
| 14,58 | 169,22 | 0 |
| 6,99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15.38 | 169,01 | 1 |
| 7,45 | 83,29 | 1 |
| 13.06 | 157,57 | 0 |
| 6.61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Der zweite Beutel enthält 6 zufällig ausgewählte Früchte aus demselben Geschäft wie der erste Beutel. Die Summe ihrer Durchmesser beträgt 64,2 cm und 4 sind faul.

Geben Sie eine Schätzung für die Masse des zweiten Beutels.

Ich kann sehen, dass es zwei verschiedene Arten von Früchten mit normalverteilten Durchmessern und Massen zu geben scheint, aber ich bin nicht sicher, wie ich vorgehen soll.

regression estimation

— Rutilusk
quelle

Interessante Frage - aber seltsame Daten: Die spezifischen Gewichte reichen von 0,78 bis 0,05. Vielleicht hat jemand die Styropordekorationen mit echten Früchten verwechselt? :-)

— whuber

Die Frage sagt nicht, woraus die Frucht gemacht wurde. Ich denke, Sie können davon ausgehen, dass die eigentlichen Taschen auch schwerelos sind. Wie löse ich das Problem?

— Rutilusk

Der Kern meines Kommentars war, dass wir uns bei der Analyse so kleiner Mengen unordentlicher Daten auf das Wissen verlassen, was die Daten bedeuten. Da diese Zahlen offensichtlich keine bekannte Art von "Frucht" beschreiben, können wir uns nicht auf ein solches Domänenwissen berufen. (Zum Beispiel haben wir keinerlei Grundlage anzunehmen, dass ein Teil dieser Daten "normal verteilt" sein sollte.) Dies macht es schwierig oder unmöglich, vernünftige Antworten zu entwickeln, und kann zu Kontroversen führen, da dies die Art und Weise einschränkt, in der die Die Leistung eines jeden Ansatzes kann bewertet werden.

— whuber

Aber Styroporfrüchte können nicht verrotten. Vielleicht sind die Früchte prolate Sphäroide, deren "Durchmesser" entlang der Längsachse gemessen wird. Es scheint mindestens zwei Arten von Früchten zu geben: Unter der Annahme eines spezifischen Gewichts nahe einem würde das kleinere etwa die Größe und Form einer Zitrone haben; der größere etwa einen halben Fuß lang und unter 2 Zoll breit. Die Schwierigkeit bei dieser Idee besteht darin, dass es natürlicher erscheint, die kürzere Achse als "Durchmesser" zu beschreiben.

— Scortchi - Monica wieder einsetzen

Antworten:

Beginnen wir mit dem Zeichnen der Daten und werfen einen Blick darauf. Dies ist eine sehr begrenzte Datenmenge, daher wird dies mit vielen Annahmen etwas ad hoc sein .

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Das sind also die Daten, rote Punkte stehen für faule Früchte:

Früchte geplottet

Sie gehen zu Recht davon aus, dass es zwei Arten von Früchten zu geben scheint. Die Annahmen, die ich mache, sind die folgenden:

Der Durchmesser teilt die Früchte in zwei Gruppen
Früchte mit einem Durchmesser von mehr als 10 gehören zu einer Gruppe, andere zur kleineren Gruppe.
Es gibt nur eine faule Frucht in der großen Fruchtgruppe. Nehmen wir an, wenn eine Frucht in der großen Gruppe ist, hat das Fäulnis keinen Einfluss auf das Gewicht. Dies ist wichtig, da wir nur einen Datenpunkt in dieser Gruppe haben.
Wenn die Frucht eine kleine Frucht ist, wirkt sich Fäulnis auf die Masse aus.
Nehmen wir an, dass die Variablen diam und mass normal verteilt sind.

Da die Summe des Durchmessers 64,2 cm beträgt, sind höchstwahrscheinlich zwei Früchte groß und vier klein. Jetzt gibt es 3 Fälle für das Gewicht. Es gibt 2, 3 oder 4 kleine Früchte, die faul sind ( eine große Frucht, die faul ist, beeinflusst die Masse nicht durch Annahme ). Jetzt können Sie Grenzen für Ihre Masse ermitteln, indem Sie diese Werte berechnen.

Wir können empirisch die Wahrscheinlichkeit abschätzen, dass die Anzahl der kleinen Früchte verfault ist. Wir verwenden die Wahrscheinlichkeiten, um unsere Schätzungen der Masse in Abhängigkeit von der Anzahl der faulen Früchte zu gewichten:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights)

Geben Sie uns eine endgültige Schätzung von 691,5183 g . Ich denke, Sie müssen die meisten Annahmen treffen, die ich getroffen habe, um zu einer Schlussfolgerung zu gelangen, aber ich denke, es könnte möglich sein, dies auf intelligentere Weise zu tun. Außerdem probiere ich empirisch, um die Wahrscheinlichkeit der Anzahl fauler kleiner Früchte zu ermitteln, das ist nur Faulheit und kann "analytisch" durchgeführt werden.

— Gumeo
quelle

Danke für Ihren Beitrag. Es scheint mir, dass die meisten Behauptungen, die Sie "Annahmen" nennen, wirklich Schlussfolgerungen sind, die auf Ihrer explorativen Analyse beruhen. Es wäre wertvoll zu analysieren, wie Ihre Ergebnisse von der Genauigkeit dieser Schlussfolgerungen abhängen. Unabhängig davon ist klar, dass ein so kleiner Datensatz unmöglich ein Ergebnis mit sieben signifikanten Zahlen unterstützen kann! Es wäre besonders nützlich, eine Einschätzung des wahrscheinlichen Fehlers abzugeben. Es wird relativ groß sein, was wichtig zu wissen wäre.

— whuber

@whuber danke für den Kommentar, ich könnte etwas mehr hinzufügen, um die Variation später am Abend abzuschätzen. Am einfachsten wäre es, Fehlerschätzungen für die Masse der drei Gruppen zu erhalten, die ich für die endgültige Berechnung verwende, und darauf basierend Vorhersageintervalle zu berechnen. Ich sehe jedoch, dass OP seit einem Jahr inaktiv ist, daher erwarte ich nicht, dass diese Antwort akzeptiert wird. Ich denke immer noch, dass dieses Beispiel ein schönes "Spielzeug" -Problem ist, um zu sehen, wie man mit so wenig Daten zurechtkommt.

— Gumeo

Ich versuche vorzuschlagen, dass Sie tatsächlich viel weniger Informationen erhalten als in Ihrer Antwort vorgeschlagen, da dies von vielen datenbasierten Schlussfolgerungen abhängt, die selbst höchst unsicher sind.

— whuber

@whuber Ja das ist völlig richtig. Es ist jedoch nicht sehr einfach, den Fehler abzuschätzen, der durch alle Annahmen / Schlussfolgerungen, die ich mache, verbreitet wird. Ich war auch stark von der Tatsache beeinflusst, dass die Summe der Durchmesser der Früchte im zweiten Beutel 64,2 cm beträgt und dass OP erwähnt, dass es zwei Gruppen von Früchten geben könnte.

— Gumeo

@whuber Ich werde darüber nachdenken und dies als Herausforderung annehmen. Ich werde diese Frage später noch einmal beantworten!

— Gumeo

Ich würde den folgenden Ansatz vorschlagen:

Generieren Sie alle 6-Tupel, die die Bedingungen für 4 faul erfüllen. Sie sind . ${6\choose 4}{7\choose 2}$
Wählen Sie aus den generierten Tupeln nur diejenigen aus, die die Bedingung für den Durchmesser erfüllen.
Berechnen Sie das Durchschnittsgewicht der ausgewählten Tupel (üblicher arithmetischer Durchschnitt).

All dies ist mit einem einfachen Skript zu handhaben.

— Karel Macek
quelle

Warum sollte dieser Ansatz funktionieren? Welche Annahmen macht es? Haben Sie es versucht, um zu sehen, ob es überhaupt eine Antwort liefern kann?

— whuber

Mehrere Ansätze umfassen, vom einfachsten bis zum komplexen,

6 (mittlere Masse)
6 (mittleres Volumen) (mittlere Dichte)
4 (mittlere faule Masse) + 2 (mittlere nicht faule Masse)
4 ((mittleres faules Volumen) + 2 (mittleres nicht faules Volumen)) (mittlere Dichte)
4 (mittleres faules Volumen) (mittlere faule Dichte) + 2 (mittleres nicht faules Volumen) (mittlere nicht faule Dichte)

. . .

kombinatorische Methoden

Die Ansätze sind in der Reihenfolge der Einfachheit der Berechnung angeordnet, nicht in der Reihenfolge, in der ein Ansatz besser oder überhaupt gut ist. Die Auswahl des zu verwendenden Ansatzes hängt davon ab, welche Merkmale der Bevölkerung bekannt sind oder angenommen werden. Wenn zum Beispiel die Massen von Früchten in der Ladenpopulation normal verteilt und unabhängig von Durchmesser und Fäulnisstatus sind, könnte man den ersten, einfachsten Ansatz ohne Vor- (oder sogar Nachteile des Stichprobenfehlers mehrerer Variablen) der Verwendung komplexerer Ansätze verwenden . Wenn nicht unabhängige, identisch verteilte Zufallsvariablen vorhanden sind, ist eine komplexere Auswahl in Abhängigkeit von bekannten oder angenommenen Informationen über die Population möglicherweise besser.

— Hax
quelle

Warum sind diese gut? Welche Annahmen treffen sie? Wie würde man einen über den anderen auswählen? (Sind sie auch in gewisser Weise in der Reihenfolge aufsteigender Güte?)

— whuber