Gegeben sind Zahlen, bei denen der Wert jeder Zahl unterschiedlich ist, bezeichnet als , und die Wahrscheinlichkeit, jede Zahl auszuwählen, ist .
Wenn ich nun Zahlen basierend auf den gegebenen Wahrscheinlichkeiten auswähle , wobei , wie hoch ist die Erwartung der Summe dieser Zahlen? Beachten Sie, dass die Auswahl ersatzlos ist, sodass die Nummern keine doppelten Nummern enthalten dürfen. Ich verstehe, dass, wenn die Auswahl ersetzt wird, die Erwartung der Summe der Zahlen gleich , wobei
Was ist außerdem mit der Erwartung der Varianz dieser Zahlen?
Ich bin ein CS-Doktorand, der an einem Big-Data-Problem arbeitet, und ich habe keinen statistischen Hintergrund. Ich erwarte, dass mir jemand eine Formel als Antwort geben kann. Wenn die Antwort jedoch zu kompliziert ist, um durch eine Formel beschrieben zu werden, oder eine intensive Berechnung erforderlich ist, ist eine ungefähre Antwort völlig akzeptabel.
Sie können davon ausgehen, dass hier ziemlich groß ist und die Wahrscheinlichkeit sehr unterschiedlich sein kann. In der Praxis stammen die Werte dieser Wahrscheinlichkeiten aus einem Abfrageprotokoll, das eine Reihe von Aggregationsabfragen aufzeichnet. Der Punkt ist, dass die Häufigkeit jeder an den Abfragen beteiligten Nummer ziemlich schief sein kann, dh einige werden selten abgefragt, während andere sehr häufig abgefragt werden. Sie können davon ausgehen, dass es sich bei der Wahrscheinlichkeitsverteilung um Normalverteilung, Zipf-Verteilung oder andere sinnvolle Alternativen handelt.
Die Werteverteilung ist nur eine zusammenhängende Teilmenge einer möglichen Verteilung. Mit anderen Worten, wenn Sie ein Histogramm haben, das eine bestimmte Verteilung darstellt, sind alle an diesem Problem beteiligten Zahlen die Zahlen in einem einzigen Bucket.
In Bezug auf den Wert von K können Sie annehmen, dass er immer kleiner ist als die Anzahl der häufig abgefragten Elemente.