Fragen zum Statistik-Interview


65

Ich suche nach statistischen Fragen (und wahrscheinlich auch nach Interviewfragen), von den grundlegendsten bis zu den fortgeschritteneren. Antworten sind nicht erforderlich (obwohl Links zu bestimmten Fragen auf dieser Website gut tun würden).



Es wäre sehr interessant, wenn jemand Beispiele nennen könnte, die er selbst bei einem Interview gegeben hat ...
kjetil b halvorsen

Antworten:


40

Ich bin mir nicht sicher, was der Job ist, aber ich denke, "X einem Neuling erklären" wäre wahrscheinlich gut.

a) weil sie dies wahrscheinlich in der Arbeit tun müssen

b) Es ist ein guter Test für das Verständnis, denke ich.


8
(+1): Ich kann nicht zählen, wie oft ich geglaubt habe, etwas verstanden zu haben, aber ich habe es dann nicht in einfachen Worten jemand anderem erklärt. Beispiel: p-Wert;)
steffen

6
"Wenn Sie es einem Sechsjährigen nicht erklären können, dann verstehen Sie es wahrscheinlich selbst nicht" - Albert Einstein. Vielleicht nicht so extrem, aber du verstehst schon ... :)
JM ist kein Statistiker

1
Ich mag "Erkläre einen p-Wert", mit oder ohne den Teil "einem Anfänger".
Shabbychef

Das ist der Grund, warum eine Kreuzvalidierung großartig ist. viele "Laien" Fragen und Antworten.
Neil McGuigan

Wirklich gute Ratschläge, ob Sie interviewen oder nicht!
JMS

21

Standard Q, in dem ich arbeite, ist wie folgt:

Sehen Sie sich diese Ausgabe einer multiplen logistischen Regression aus einem statistischen Paket an, das Sie angeblich verwendet haben (vorzugsweise auch eines, das wir verwenden). XXX ist die unabhängige Variable von Hauptinteresse. Wie würden Sie die Ergebnisse für einen Kollegen interpretieren, der über Fachkenntnisse verfügt, aber keine formelle statistische Ausbildung hat? (Falls erforderlich, separate Interpretation von Punktschätzung, CI, p-Wert anfordern).


15
In akademischeren Kontexten kann man auch fragen: „Schauen Sie sich diese Modellausgabe in diesem Artikel an , den Sie (mit-) verfasst haben . Sag mir, was es bedeutet. ' Unterwürfige Antworten sind dann fatal, weil es keine unbekannten Ausreden gibt, die dennoch erschreckend häufig sind.
Conjugateprior

4
@conjugateprior Nicht wahr. Solange mindestens ein Mitautor nicht anwesend ist, war dies der Bereich des nicht anwesenden Mitautors. Die Hauptanwendung dieser Technik liegt bei Konferenzpräsentationen.
Mark L. Stone

18

Vielleicht möchten Sie auch darüber nachdenken, ob das Interview das beste Medium zur Messung des Konstrukts von Interesse ist. Wenn Sie Vorkenntnisse zu Wahrscheinlichkeiten oder Statistiken messen möchten, sollten Sie sich eher auf einen schriftlichen Test verlassen. Sie können mehr Fragen stellen und so die Zuverlässigkeit der Messung erhöhen. Sowohl in der Administration als auch beim Scoring ist es standardisierter. Sobald das Instrument entwickelt ist, werden wahrscheinlich weniger Ressourcen für die Verwaltung benötigt.

Sie können das Interview dann als zielgerichteteres Instrument verwenden, um Faktoren wie verbale und zwischenmenschliche Fähigkeiten zu untersuchen.


1
Das ist ein guter Punkt. Ich habe in der Vergangenheit festgestellt, dass es sehr schwierig ist zu sagen, ob ein bestimmter Kandidat erfolgreich sein wird, es sei denn, Sie haben in der Vergangenheit mit ihm zusammengearbeitet.
Shabbychef

15

Zwei Fragen, die mir gestellt wurden:

1) Sie passen eine multiple Regression an, um die Auswirkung einer bestimmten Variablen zu untersuchen, an der ein Mitarbeiter in einer anderen Abteilung interessiert ist. Die Variable wird unwesentlich zurückgegeben. Was würdest du sagen / tun?

2) Sie haben 1000 Variablen und 100 Beobachtungen. Sie möchten die signifikanten Variablen für eine bestimmte Antwort finden. Was würdest du tun?


Könnten Sie auch die Antworten posten? 1) Ich gehe davon aus, dass es einige abhängige Variablen gibt, die das Problem verursachen. Für 2) Ich würde wahrscheinlich für ² (Chi-Quadrat) Statistik-Test gehen
Rishi Dua

2
Es gibt viele vernünftige Antworten auf beide, hier sind meine kurzen Gedanken: 1) Das Regressionsmodell stammt aus einer Stichprobe, diese Stichprobe weist zufällige Abweichungen auf und daher ist das Modell nur eine Schätzung und kann zu Fehlern vom Typ 1 oder Typ 2 führen. Es könnte auch eine starke Kollinearität unter den Prädiktoren geben. Für 2) ist es das große P gegen kleines N-Problem. Es gibt viele Techniken, um mit dieser Situation umzugehen, wie z. B. das Reduzieren der Abmessungen und Lasso.
Glen

2) Führe univariate Anpassungen von Variablen durch und identifiziere diejenigen, die für die Reduzierung des Variablensatzes am bedeutendsten sind
adam

11

Hier ist ein großer Datensatz. Was ist Ihr Plan für den Umgang mit Ausreißern? Wie wäre es mit fehlenden Werten? Wie wäre es mit Transformationen?

Können sie mit realen Daten umgehen?


Lieber anonymer Benutzer, bitte benutze nicht edit für Kommentare (es ist nichts für dich, Neil).

10

Viele Fragen / Antworten auf dieser Seite könnten Anregungen für gute Fragen geben. Ich werde eine Liste mit solchen Links geben, die ich für gut halte. Posts, auf die ich geantwortet habe, sind überrepräsentiert, weil ich diese Posts besser kenne, nicht weil sie unbedingt die besten sind! Ich gebe zu jedem Link kurze Kommentare, damit Sie entscheiden können, ob Sie dem Link folgen möchten.

Was ist die Intuition hinter SVD? "Können Sie einem unserer Kunden erklären, wie die SVD funktioniert?"

Maximum Likelihood Estimation (MLE) in Laienbegriffen "Können Sie die Idee der Maximum Likelihood Estimation in einer nichttechnischen Sprache erklären?"

Taleb und der schwarze Schwan "Sag mir, was ist ein schwarzer Schwan und warum ist das relevant? Wann ist es relevant?"

Statistische Inferenz, wenn die Stichprobe "die Bevölkerung ist " Was können Sie über statistische Inferenz sagen, wenn die Stichprobe die gesamte Bevölkerung ist? "

Anpassungsgüte und welches Modell für lineare Regression oder Poisson ? "Wir haben ein Regressionsproblem, bei dem die Antwort eine Zählvariable ist. Welche würden Sie in diesem Kontext wählen, gewöhnliche kleinste Quadrate oder Poisson-Regression (oder eine andere)? Erklären Sie Ihre Wahl , was sind die Hauptunterschiede zwischen diesen Modellen? "

Was ist der Unterschied zwischen endlicher und unendlicher Varianz ? "Können Sie in einer möglichst einfachen Sprache erklären, was es für eine Zufallsvariable bedeutet, unendliche Erwartung oder unendliche Varianz zu haben? Welche praktische Bedeutung hat diese Unterscheidung? Erklären Sie mit Beispiel."

Was sind moderne, leicht zu verwendende Alternativen zur schrittweisen Regression? "Wie würden Sie ein komplexes Regressionsmodell aufbauen, wenn es viele mögliche Prädiktorvariablen gibt? Beschreiben Sie verschiedene mögliche Strategien und beschreiben Sie die Probleme mit jeder von ihnen."

Wie gehe ich mit perfekter Trennung in der logistischen Regression um? "Was ist das Problem der Trennung in der logistischen Regression, ihre Ursachen, Symptome? Was können Sie tun, um es zu lösen, wenn es wirklich ein Problem ist?"

Warum muss die Korrelationsmatrix positiv semidefinit sein und was bedeutet es, positiv semidefinit zu sein oder nicht? und
Was sagt mir eine nicht positiv definierte Kovarianzmatrix über meine Daten? "Erklären Sie, warum eine Kovarianzmatrix positiv (semidefinit) sein muss und was das bedeutet. Wie kann diese Tatsache genutzt werden?"

Was sind die mehrdimensionalen Versionen des Medians ? "Können Sie eine Möglichkeit vorschlagen, den Median auf multivariate Daten zu verallgemeinern?"

Interpretieren von Interaktionsbegriffen in der Logit-Regression mit kategorialen Variablen und Was sind bewährte Methoden zum Ermitteln von Interaktionseffekten? und zwei negative Haupteffekte noch positive Interaktionseffekte? und Einbeziehen der Interaktion, aber nicht der Haupteffekte in ein Modell und Interpretieren der Haupteffekte, wenn der Interaktionseffekt nicht signifikant ist. "Erklären Sie, was mit Interaktion in Regressionsmodellen gemeint ist. Was bedeutet es konkret, wenn Interaktion signifikant ist, die Haupteffekte jedoch nicht? Gibt es einen Unterschied in der Interpretation der Interaktion zwischen gewöhnlicher linearer Regression und logistischer Regression?"

Was könnte der Grund für die Verwendung der Quadratwurzel-Transformation für Daten sein? und Angemessene Datentransformation "Wann, wie und warum transformieren Sie die Antwortvariable in ein Regressions- (oder ANOVA-) Modell? Gibt es Alternativen?

Kann ich ANOVA-Ergebnissen für ein nicht normal verteiltes DV vertrauen? "Wie würden Sie eine ANOVA mit nicht normalen Residuen behandeln?

Warum ist Statistik nützlich, wenn es sich bei vielen wichtigen Dingen um One-Shot-Dinge handelt?

Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren?

Wann werden verallgemeinerte Schätzungsgleichungen im Vergleich zu Modellen mit gemischten Effekten verwendet?

Was passiert hier, wenn ich bei der Einstellung der logistischen Regression den quadratischen Verlust verwende? "Warum verwenden wir maximale Wahrscheinlichkeit für logistische Regression? Warum nicht auch Quadrate?"


9

Ich wurde einmal gefragt, wie ich die Relevanz des zentralen Grenzwertsatzes für eine Klasse von Studienanfängern in den Sozialwissenschaften erklären würde, die kaum über statistische Kenntnisse verfügen.


4
Die Relevanz des zentralen Grenzwertsatzes besteht darin, die Menschen glauben zu lassen, dass alles normal ist, obwohl nichts normal ist. Und führt daher zu vielen fehlerhaften Schlussfolgerungen.
Mark L. Stone


8

Wie können Sie eine Überanpassung verhindern, wenn Sie ein statistisches Modell erstellen?

Gute Antwort: Kreuzvalidierung


6

Ich frage oft: "Wie würden Sie definieren / erklären, was Prognose ist?"

Die Beantwortung dieser Art von sehr allgemeinen Fragen hilft mir zu sehen, ob Menschen mit einem bestimmten Fall von Prognose in Verbindung stehen. Es gibt keine richtige Antwort, aber eine synthetische Beantwortung während eines Interviews ist nicht immer einfach :)


5

Für einen Beobachtungsdatenkontext:

Betrachten Sie dieses auf dieses inhaltliche Problem angewendete Regressionsmodell. Was, wenn überhaupt, kann darin kausal interpretiert werden? [Weitere Untersuchung] Was müssten Sie lernen, um Ihre Meinung zu ändern?


4

Wie wird die Anzahl der Sandelholzbäume in Bangalore gezählt?


1
Ist das eine Art Fermi-Frage ?
Thies Heidecke

2
Gute Frage. Ich habe eine Version davon in der Klasse verwendet (Bäume in einem Park). Sie kommen auf die Idee einer Stichprobe, verpassen jedoch häufig die Notwendigkeit einer operativen Definition: Wann nennen Sie sie einen Baum?
Radfahrer

4

Unter der Überschrift Ursache vs. Korrelation :

Es ist üblich, Kunden- / Benutzerbindung als Funktionen für ein Vorhersagemodell zu verwenden. Zum Beispiel Personen, die mit größerer Wahrscheinlichkeit auf diese Schaltfläche klicken, als Personen, die dies nicht tun. Menschen, die montags einkaufen, kaufen mit größerer Wahrscheinlichkeit wieder ein als diejenigen, die dienstags einkaufen.

Wenn wir das extrem nehmen: Benutzer, die auf "Kaufen" klicken, kaufen mit größerer Wahrscheinlichkeit ein Produkt als Benutzer, die nicht auf "Kaufen" klicken.

Aber offensichtlich ist das nicht sehr hilfreich, um zu erklären, warum einige Benutzer abonnieren und andere nicht.

Wie würden Sie mit Kundenfunktionen balancieren, die erklären, warum sie abonniert werden, im Vergleich zu Kundenfunktionen, die in hohem Maße mit dem Abonnement korrelieren, aber für die Erledigung der Aufgabe erforderlich sind?


3

Hier ist ein TinkerToy Set. Zeigen Sie mir, wie die euklidische Distanz in drei Dimensionen funktioniert. Zeigen Sie mir jetzt, wie multiple Regression funktioniert.

Können sie erklären, wie Statistiken in der physischen Welt funktionieren?


1
NN

1
Wenn Sie zwei Variablen mit 100 Beobachtungen streuen möchten, benötigen Sie nur zwei Dimensionen, nicht 100 :) und so weiter
Neil McGuigan,

3

Wir betreiben ein Kundendienstzentrum. Wir bekommen 1 Million Anrufe pro Monat. Wie reduzieren wir es auf zehntausend?


5
entferne 99% deiner Handys!
Shabbychef

5
Hör auf, die Telefonrechnung zu bezahlen.
Glen

3
Für den Anruf fallen Gebühren an. (eine 900-Nummer in den USA ...)
gWaldo

7
Diese Frage ist etwa 80-20 Regel. Im Geschäftsleben ist dies eine gängige Faustregel. zB "80% Ihres Umsatzes kommen von 20% Ihrer Kunden". Microsoft stellte fest, dass durch das Beheben der 20% der am häufigsten gemeldeten Fehler 80% der Fehler und Abstürze beseitigt würden. Es würde also bedeuten, eine FAQ einzurichten, um diese 20% der Probleme zu lösen
Rishi Dua

3

Viele der Fragen, die wir stellen, ähneln denen, die bereits beschrieben wurden. Aber einige, die ich noch nicht gelesen habe und die verwendet werden: Sie werden möglicherweise gebeten, ein Programm auf einem Whiteboard zu skizzieren, um etwas zu tun wie: ein Würfeln oder ein anderes Wahrscheinlichkeitsproblem zu simulieren oder eine Reihe von Primzahlen (z. B. alle) zu berechnen die Primzahlen, die kleiner als 1.000.000 sind) - Sie könnten dies in jeder gewünschten Sprache tun, aber die meisten Leute wählen R und einige wählen Python (glaube ich), aber ich denke, Sie könnten Stata, SAS, SPSS wählen , Matlab usw. Wahrscheinlich werden Ihnen Fragen gestellt, um Ihre Kenntnisse der Programmiersprache Ihrer Wahl zu vertiefen. Warum sollten Sie beispielsweise in R anstelle einer for-Schleife anwenden?

Möglicherweise werden Sie auch gebeten, ein Experiment oder eine andere Studie zu entwerfen, um etwas zu untersuchen - normalerweise etwas Praktisches. Manchmal hängt dies mit der Arbeit zusammen, die wir leisten, aber oft nicht. (Sie sollten keine Kenntnisse über die von uns geleistete Arbeit haben, aber Sie sollten in der Lage sein, den Kern eines Problems, von dem Sie noch nichts gehört haben, zu erfassen und auf intelligente Weise darüber zu spekulieren, selbst wenn Sie bestimmte Fachkenntnisse haben, die Sie kennen das war falsch - das ist in Ordnung, es wird nicht erwartet, dass Sie Domain-Kenntnisse haben). Möglicherweise werden Sie gebeten, Dinge wie die Leistung zu berücksichtigen.


2

Bei der Varianzanalyse der quantitativen Variablen wurde manchmal festgestellt, dass die Häufigkeit der Variablen sehr hoch ist (> 5). Dann verwenden wir den genauen Fisher-Test, um die Unabhängigkeit der Variablen zu ermitteln.


Dies würde wahrscheinlich unter Chris 'Antwort zusammengefasst werden.
JM ist kein Statistiker

4
Umfasst die richtige Antwort auf diese Frage das Wissen, dass es eine Kontroverse darüber gibt, ob feste Margen sinnvoll sind und ob es eine fundierte Meinung zu diesem Thema gibt?
Ben Bolker

1

Die durchschnittliche Teilnahme an Yankees-Spielen im vergangenen Jahr betrug 55.000. Sie befragen eine Gruppe von Leuten in New York nach dem Zufallsprinzip, ob sie in der letzten Saison zu einem Yankees-Spiel gegangen sind, und wenn ja, zeichnen Sie die bezahlte Teilnahme auf. Was ist die durchschnittliche Teilnahmequote für die Spiele, an denen die von Ihnen befragten Personen, die ein Spiel besucht haben, teilgenommen haben?

Ich gebe Ihnen einen Hinweis für meine Antwort (Hinweis wurde nicht bereitgestellt): längenbezogene Abtastung. Ich habe einen Homerun erzielt, aber es hat nicht gereicht, um das Spiel zu gewinnen, ha ha. Hinweis: Ich erwähnte viele Vorbehalte in Bezug auf die Art und Weise, wie die Probenahme durchgeführt wurde, und der Interviewer sagte mir, ich solle alle ignorieren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.