Ich suche nach statistischen Fragen (und wahrscheinlich auch nach Interviewfragen), von den grundlegendsten bis zu den fortgeschritteneren. Antworten sind nicht erforderlich (obwohl Links zu bestimmten Fragen auf dieser Website gut tun würden).
Ich suche nach statistischen Fragen (und wahrscheinlich auch nach Interviewfragen), von den grundlegendsten bis zu den fortgeschritteneren. Antworten sind nicht erforderlich (obwohl Links zu bestimmten Fragen auf dieser Website gut tun würden).
Antworten:
Ich bin mir nicht sicher, was der Job ist, aber ich denke, "X einem Neuling erklären" wäre wahrscheinlich gut.
a) weil sie dies wahrscheinlich in der Arbeit tun müssen
b) Es ist ein guter Test für das Verständnis, denke ich.
Standard Q, in dem ich arbeite, ist wie folgt:
Sehen Sie sich diese Ausgabe einer multiplen logistischen Regression aus einem statistischen Paket an, das Sie angeblich verwendet haben (vorzugsweise auch eines, das wir verwenden). XXX ist die unabhängige Variable von Hauptinteresse. Wie würden Sie die Ergebnisse für einen Kollegen interpretieren, der über Fachkenntnisse verfügt, aber keine formelle statistische Ausbildung hat? (Falls erforderlich, separate Interpretation von Punktschätzung, CI, p-Wert anfordern).
Vielleicht möchten Sie auch darüber nachdenken, ob das Interview das beste Medium zur Messung des Konstrukts von Interesse ist. Wenn Sie Vorkenntnisse zu Wahrscheinlichkeiten oder Statistiken messen möchten, sollten Sie sich eher auf einen schriftlichen Test verlassen. Sie können mehr Fragen stellen und so die Zuverlässigkeit der Messung erhöhen. Sowohl in der Administration als auch beim Scoring ist es standardisierter. Sobald das Instrument entwickelt ist, werden wahrscheinlich weniger Ressourcen für die Verwaltung benötigt.
Sie können das Interview dann als zielgerichteteres Instrument verwenden, um Faktoren wie verbale und zwischenmenschliche Fähigkeiten zu untersuchen.
Zwei Fragen, die mir gestellt wurden:
1) Sie passen eine multiple Regression an, um die Auswirkung einer bestimmten Variablen zu untersuchen, an der ein Mitarbeiter in einer anderen Abteilung interessiert ist. Die Variable wird unwesentlich zurückgegeben. Was würdest du sagen / tun?
2) Sie haben 1000 Variablen und 100 Beobachtungen. Sie möchten die signifikanten Variablen für eine bestimmte Antwort finden. Was würdest du tun?
Hier ist ein großer Datensatz. Was ist Ihr Plan für den Umgang mit Ausreißern? Wie wäre es mit fehlenden Werten? Wie wäre es mit Transformationen?
Können sie mit realen Daten umgehen?
Viele Fragen / Antworten auf dieser Seite könnten Anregungen für gute Fragen geben. Ich werde eine Liste mit solchen Links geben, die ich für gut halte. Posts, auf die ich geantwortet habe, sind überrepräsentiert, weil ich diese Posts besser kenne, nicht weil sie unbedingt die besten sind! Ich gebe zu jedem Link kurze Kommentare, damit Sie entscheiden können, ob Sie dem Link folgen möchten.
Was ist die Intuition hinter SVD? "Können Sie einem unserer Kunden erklären, wie die SVD funktioniert?"
Maximum Likelihood Estimation (MLE) in Laienbegriffen "Können Sie die Idee der Maximum Likelihood Estimation in einer nichttechnischen Sprache erklären?"
Taleb und der schwarze Schwan "Sag mir, was ist ein schwarzer Schwan und warum ist das relevant? Wann ist es relevant?"
Statistische Inferenz, wenn die Stichprobe "die Bevölkerung ist " Was können Sie über statistische Inferenz sagen, wenn die Stichprobe die gesamte Bevölkerung ist? "
Anpassungsgüte und welches Modell für lineare Regression oder Poisson ? "Wir haben ein Regressionsproblem, bei dem die Antwort eine Zählvariable ist. Welche würden Sie in diesem Kontext wählen, gewöhnliche kleinste Quadrate oder Poisson-Regression (oder eine andere)? Erklären Sie Ihre Wahl , was sind die Hauptunterschiede zwischen diesen Modellen? "
Was ist der Unterschied zwischen endlicher und unendlicher Varianz ? "Können Sie in einer möglichst einfachen Sprache erklären, was es für eine Zufallsvariable bedeutet, unendliche Erwartung oder unendliche Varianz zu haben? Welche praktische Bedeutung hat diese Unterscheidung? Erklären Sie mit Beispiel."
Was sind moderne, leicht zu verwendende Alternativen zur schrittweisen Regression? "Wie würden Sie ein komplexes Regressionsmodell aufbauen, wenn es viele mögliche Prädiktorvariablen gibt? Beschreiben Sie verschiedene mögliche Strategien und beschreiben Sie die Probleme mit jeder von ihnen."
Wie gehe ich mit perfekter Trennung in der logistischen Regression um? "Was ist das Problem der Trennung in der logistischen Regression, ihre Ursachen, Symptome? Was können Sie tun, um es zu lösen, wenn es wirklich ein Problem ist?"
Warum muss die Korrelationsmatrix positiv semidefinit sein und was bedeutet es, positiv semidefinit zu sein oder nicht? und
Was sagt mir eine nicht positiv definierte Kovarianzmatrix über meine Daten? "Erklären Sie, warum eine Kovarianzmatrix positiv (semidefinit) sein muss und was das bedeutet. Wie kann diese Tatsache genutzt werden?"
Was sind die mehrdimensionalen Versionen des Medians ? "Können Sie eine Möglichkeit vorschlagen, den Median auf multivariate Daten zu verallgemeinern?"
Interpretieren von Interaktionsbegriffen in der Logit-Regression mit kategorialen Variablen und Was sind bewährte Methoden zum Ermitteln von Interaktionseffekten? und zwei negative Haupteffekte noch positive Interaktionseffekte? und Einbeziehen der Interaktion, aber nicht der Haupteffekte in ein Modell und Interpretieren der Haupteffekte, wenn der Interaktionseffekt nicht signifikant ist. "Erklären Sie, was mit Interaktion in Regressionsmodellen gemeint ist. Was bedeutet es konkret, wenn Interaktion signifikant ist, die Haupteffekte jedoch nicht? Gibt es einen Unterschied in der Interpretation der Interaktion zwischen gewöhnlicher linearer Regression und logistischer Regression?"
Was könnte der Grund für die Verwendung der Quadratwurzel-Transformation für Daten sein? und Angemessene Datentransformation "Wann, wie und warum transformieren Sie die Antwortvariable in ein Regressions- (oder ANOVA-) Modell? Gibt es Alternativen?
Kann ich ANOVA-Ergebnissen für ein nicht normal verteiltes DV vertrauen? "Wie würden Sie eine ANOVA mit nicht normalen Residuen behandeln?
Warum ist Statistik nützlich, wenn es sich bei vielen wichtigen Dingen um One-Shot-Dinge handelt?
Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren?
Was passiert hier, wenn ich bei der Einstellung der logistischen Regression den quadratischen Verlust verwende? "Warum verwenden wir maximale Wahrscheinlichkeit für logistische Regression? Warum nicht auch Quadrate?"
Ich wurde einmal gefragt, wie ich die Relevanz des zentralen Grenzwertsatzes für eine Klasse von Studienanfängern in den Sozialwissenschaften erklären würde, die kaum über statistische Kenntnisse verfügen.
Wie numeriert man etwas, das nicht numerisch ist?
Beispiel "Automatische Feature-Extraktion zum Klassifizieren von Audiodaten"
Begründung: Können sie herausfinden, wie etwas statistisch analysiert werden kann, das noch nicht in einer großen Tabelle enthalten ist?
Wie können Sie eine Überanpassung verhindern, wenn Sie ein statistisches Modell erstellen?
Gute Antwort: Kreuzvalidierung
Ich frage oft: "Wie würden Sie definieren / erklären, was Prognose ist?"
Die Beantwortung dieser Art von sehr allgemeinen Fragen hilft mir zu sehen, ob Menschen mit einem bestimmten Fall von Prognose in Verbindung stehen. Es gibt keine richtige Antwort, aber eine synthetische Beantwortung während eines Interviews ist nicht immer einfach :)
Für einen Beobachtungsdatenkontext:
Betrachten Sie dieses auf dieses inhaltliche Problem angewendete Regressionsmodell. Was, wenn überhaupt, kann darin kausal interpretiert werden? [Weitere Untersuchung] Was müssten Sie lernen, um Ihre Meinung zu ändern?
Wie wird die Anzahl der Sandelholzbäume in Bangalore gezählt?
Unter der Überschrift Ursache vs. Korrelation :
Es ist üblich, Kunden- / Benutzerbindung als Funktionen für ein Vorhersagemodell zu verwenden. Zum Beispiel Personen, die mit größerer Wahrscheinlichkeit auf diese Schaltfläche klicken, als Personen, die dies nicht tun. Menschen, die montags einkaufen, kaufen mit größerer Wahrscheinlichkeit wieder ein als diejenigen, die dienstags einkaufen.
Wenn wir das extrem nehmen: Benutzer, die auf "Kaufen" klicken, kaufen mit größerer Wahrscheinlichkeit ein Produkt als Benutzer, die nicht auf "Kaufen" klicken.
Aber offensichtlich ist das nicht sehr hilfreich, um zu erklären, warum einige Benutzer abonnieren und andere nicht.
Wie würden Sie mit Kundenfunktionen balancieren, die erklären, warum sie abonniert werden, im Vergleich zu Kundenfunktionen, die in hohem Maße mit dem Abonnement korrelieren, aber für die Erledigung der Aufgabe erforderlich sind?
Hier ist ein TinkerToy Set. Zeigen Sie mir, wie die euklidische Distanz in drei Dimensionen funktioniert. Zeigen Sie mir jetzt, wie multiple Regression funktioniert.
Können sie erklären, wie Statistiken in der physischen Welt funktionieren?
Wir betreiben ein Kundendienstzentrum. Wir bekommen 1 Million Anrufe pro Monat. Wie reduzieren wir es auf zehntausend?
Viele der Fragen, die wir stellen, ähneln denen, die bereits beschrieben wurden. Aber einige, die ich noch nicht gelesen habe und die verwendet werden: Sie werden möglicherweise gebeten, ein Programm auf einem Whiteboard zu skizzieren, um etwas zu tun wie: ein Würfeln oder ein anderes Wahrscheinlichkeitsproblem zu simulieren oder eine Reihe von Primzahlen (z. B. alle) zu berechnen die Primzahlen, die kleiner als 1.000.000 sind) - Sie könnten dies in jeder gewünschten Sprache tun, aber die meisten Leute wählen R und einige wählen Python (glaube ich), aber ich denke, Sie könnten Stata, SAS, SPSS wählen , Matlab usw. Wahrscheinlich werden Ihnen Fragen gestellt, um Ihre Kenntnisse der Programmiersprache Ihrer Wahl zu vertiefen. Warum sollten Sie beispielsweise in R anstelle einer for-Schleife anwenden?
Möglicherweise werden Sie auch gebeten, ein Experiment oder eine andere Studie zu entwerfen, um etwas zu untersuchen - normalerweise etwas Praktisches. Manchmal hängt dies mit der Arbeit zusammen, die wir leisten, aber oft nicht. (Sie sollten keine Kenntnisse über die von uns geleistete Arbeit haben, aber Sie sollten in der Lage sein, den Kern eines Problems, von dem Sie noch nichts gehört haben, zu erfassen und auf intelligente Weise darüber zu spekulieren, selbst wenn Sie bestimmte Fachkenntnisse haben, die Sie kennen das war falsch - das ist in Ordnung, es wird nicht erwartet, dass Sie Domain-Kenntnisse haben). Möglicherweise werden Sie gebeten, Dinge wie die Leistung zu berücksichtigen.
Bei der Varianzanalyse der quantitativen Variablen wurde manchmal festgestellt, dass die Häufigkeit der Variablen sehr hoch ist (> 5). Dann verwenden wir den genauen Fisher-Test, um die Unabhängigkeit der Variablen zu ermitteln.
Die durchschnittliche Teilnahme an Yankees-Spielen im vergangenen Jahr betrug 55.000. Sie befragen eine Gruppe von Leuten in New York nach dem Zufallsprinzip, ob sie in der letzten Saison zu einem Yankees-Spiel gegangen sind, und wenn ja, zeichnen Sie die bezahlte Teilnahme auf. Was ist die durchschnittliche Teilnahmequote für die Spiele, an denen die von Ihnen befragten Personen, die ein Spiel besucht haben, teilgenommen haben?
Ich gebe Ihnen einen Hinweis für meine Antwort (Hinweis wurde nicht bereitgestellt): längenbezogene Abtastung. Ich habe einen Homerun erzielt, aber es hat nicht gereicht, um das Spiel zu gewinnen, ha ha. Hinweis: Ich erwähnte viele Vorbehalte in Bezug auf die Art und Weise, wie die Probenahme durchgeführt wurde, und der Interviewer sagte mir, ich solle alle ignorieren.