Datenreduktionstechnik zur Identifizierung von Ländertypen


11

Ich unterrichte einen Einführungskurs in Wirtschaftsgeographie. Um meinen Schülern zu helfen, ein besseres Verständnis für die Arten von Ländern in der heutigen Weltwirtschaft und ein Verständnis für Datenreduktionstechniken zu entwickeln, möchte ich eine Aufgabe erstellen, die eine Typologie verschiedener Arten von Ländern erstellt (z. B. einkommensstarke Länder mit hohem Einkommen) Wertschöpfung mfg lange Lebenserwartung; Exporteur von Rohstoffen mit hohem Einkommen mittelhohe Lebenserwartung; Deutschland ist ein Element des ersten Typs und Jemen ein Beispiel des zweiten Typs). Dies würde öffentlich verfügbare UNDP-Daten verwenden (die, wenn ich mich richtig erinnere, sozioökonomische Daten zu etwas weniger als 200 Ländern enthalten; leider sind keine regionalen Daten verfügbar).

Vor dieser Zuweisung wäre eine andere, die sie auffordert (unter Verwendung derselben --- weitgehend Intervall- oder Verhältnisstufe --- Daten), Korrelationen zwischen denselben Variablen zu untersuchen.

Ich hoffe, dass sie zunächst eine Intuition für die Art der Beziehungen zwischen verschiedenen Variablen entwickeln (z. B. eine positive Beziehung zwischen Lebenserwartung und [verschiedenen Indikatoren für] Wohlstand; eine positive Beziehung zwischen Wohlstand und Exportvielfalt). Bei Verwendung der Datenreduktionstechnik wären die Komponenten oder Faktoren dann intuitiv sinnvoll (z. B. erfasst Faktor / Komponente 1 die Bedeutung von Wohlstand; Faktor / Komponente 2 erfasst die Bedeutung von Bildung).

Angesichts der Tatsache, dass es sich um Studenten des zweiten bis vierten Studienjahres handelt, die häufig nur begrenzt allgemein mit analytischem Denken vertraut sind, welche Technik zur Reduzierung einzelner Daten würden Sie als am besten geeignet für die zweite Aufgabe vorschlagen? Da es sich um Bevölkerungsdaten handelt, sind Inferenzstatistiken (p-Werte usw.) nicht unbedingt erforderlich.

Antworten:


10

Als Erkundungsmethode ist PCA eine gute erste Wahl für einen Auftrag wie diesen IMO. Es wäre auch schön für sie, sich dem auszusetzen; Es hört sich so an, als hätten viele von ihnen vorher keine Hauptkomponenten gesehen.

In Bezug auf Daten möchte ich Sie auch auf die Weltbankindikatoren verweisen, die bemerkenswert vollständig sind: http://data.worldbank.org/indicator .


5

Ich stimme JMS zu, und PCA scheint eine gute Idee zu sein, nachdem die anfänglichen Korrelationen und Streudiagramme zwischen den Variablen für jeden Landkreis untersucht wurden. Dieser Thread enthält einige nützliche Vorschläge zur Einführung von PCA in nicht mathematischen Begriffen.

Ich würde auch vorschlagen, kleine Mehrfachkarten zu verwenden, um die räumlichen Verteilungen jeder der Variablen zu visualisieren (und es gibt einige gute Beispiele in dieser Frage auf der Website gis.se). Ich denke, diese funktionieren besonders gut, wenn Sie eine begrenzte Anzahl von Flächeneinheiten zum Vergleichen haben und ein gutes Farbschema verwenden (wie in diesem Beispiel) in Andrew Gelmans Blog).

Leider würde die Art eines Datensatzes "Weltländer", von dem ich vermute, häufig zu spärlichen Daten führen (dh zu vielen fehlenden Ländern), was die geografische Visualisierung schwierig macht. Solche Visualisierungstechniken sollten jedoch auch in anderen Situationen für Ihren Kurs nützlich sein.


+1, nette Referenzen. Interessant könnte auch der Vergleich von Karten der Variablen mit Karten der PCA-Scores sein.
JMS

Der nicht mathematische Link zur PCA-Einführung war nützlich, da er mir half, ein Gefühl für den subtilen Unterschied zwischen PCA- und Faktoranalyse zu bekommen. Die GIS / Mapping-Vorschläge sind auch sehr nützlich, da ich nicht daran gedacht hatte, die räumliche Verteilung der Variablen zu visualisieren. Für diese Studentenpopulation würde es ihnen helfen, die der Weltwirtschaft zugrunde liegenden Strukturen auf eine Weise zu erfassen, die mein ganzes bla bla bla nicht würde.
Rabidotter

1
Schöne Handlungen schlagen oft bla bla :)
JMS

4

Ein kurzer Hinweis: Unabhängig davon, welche der oben genannten Techniken Sie verwenden, sollten Sie zuerst die Verteilungen Ihrer Variablen überprüfen, da viele von ihnen "erfordern", dass Sie sie zuerst mithilfe eines Logarithmus transformieren. Wenn Sie dies tun, werden einige der Beziehungen viel besser sichtbar als bei Verwendung der ursprünglichen Variablen.


3
+1 Normalerweise sollte eine Antwort wie diese nur als Kommentar gepostet werden, aber der Rat ist hier so wichtig, dass er von jeder möglichen Betonung profitiert. Insbesondere PCA-Ergebnisse werden wahrscheinlich nicht aussagekräftig sein, bis die Variablen angemessen neu ausgedrückt werden.
whuber

2

Sie können die CUR-Zerlegung als Alternative zu PCA verwenden. Für die CUR-Zerlegung können Sie auf [1] oder [2] verweisen. Bei der CUR-Zerlegung steht C für die ausgewählten Spalten, R für die ausgewählten Zeilen und U für die Verknüpfungsmatrix. Lassen Sie mich die Intuition hinter der CUR-Zerlegung wie in [1] umschreiben;

Obwohl die abgeschnittene SVD weit verbreitet ist, sind die Vektoren uich und vichselbst kann in Bezug auf das Feld, aus dem die Daten stammen, keine Bedeutung haben. Zum Beispiel der Eigenvektor

[(1/2)age − (1/ √2)height + (1/2)income]

Es ist nicht besonders informativ oder aussagekräftig, einer der signifikanten unkorrelierten „Faktoren“ oder „Merkmale“ aus einem Datensatz mit Merkmalen von Personen zu sein.

Das Schöne an CUR ist, dass Basisspalten tatsächliche Spalten (oder Zeilen) sind und besser zu interpretieren sind als PCA (das trancierte SVD verwendet).

Der in [1] angegebene Algorithmus ist einfach zu implementieren und Sie können damit spielen, indem Sie die Fehlerschwelle ändern und eine unterschiedliche Anzahl von Basen erhalten.

[1] MW Mahoney und P. Drineas, "CUR-Matrixzerlegungen für eine verbesserte Datenanalyse", Proceedings of the National Academy of Sciences der Vereinigten Staaten von Amerika, vol. 106, Jan. 2009, S. 697-702.

[2] J. Sun, Y. Xie, H. Zhang und C. Faloutsos, „Weniger ist mehr: Kompakte Matrixzerlegung für große, spärliche Graphen“, Proceedings of the Seventh SIAM International Conference on Data Mining, Citeseer, 2007, p . 366.


2

Abhängig von Ihren Zielen kann die Klassifizierung von Registern in Gruppen am besten durch eine Clustering-Methode erreicht werden. Für eine relativ kleine Anzahl von Fällen ist hierarchisches Clustering normalerweise am besten geeignet, zumindest in der Explorationsphase, während Sie für eine ausgefeiltere Lösung möglicherweise auf einen iterativen Prozess wie K-means zurückgreifen. Je nachdem, welche Software Sie verwenden, ist es auch möglich, einen Prozess zu verwenden, der sich in SPSS befindet, aber ich weiß nicht, wo sonst, genannt zweistufiges Clustering, das schnell, aber undurchsichtig ist und gute Ergebnisse zu liefern scheint.

Die Clusteranalyse liefert eine Klassifizierungslösung, die die Varianz zwischen Gruppen maximiert und gleichzeitig die Varianz innerhalb dieser Gruppen minimiert. Es wird wahrscheinlich auch Ergebnisse liefern, die leichter zu interpretieren sind.


2

Ich schlage vor, Variablen und Beobachtungen (separat) zu gruppieren, um den Datensatz zu beleuchten. Variables Clustering (z. B. mit Spearmean)ρ2als Ähnlichkeitsmaß wie in der Funktion des R- HmiscPakets varclus) hilft man zu sehen, welche Variablen "zusammen laufen".


1

Eine andere Möglichkeit wäre die Verwendung von selbstorganisierenden Karten (SOMs). Haben Sie eine Vorstellung davon, welche Software die Schüler verwenden werden? Ich weiß, dass R zum Beispiel einige SOM-Implementierungen hat. SOMs können jedoch Ihren Test "Komponentenfaktoren sind intuitiv sinnvoll" nicht bestehen. (Nicht unbedingt auch bei PCA ...)


Entschuldigen Sie die Verzögerung der Antwort. Die Schüler würden Minitab 16 verwenden, das einige der oben erwähnten traditionelleren Datenreduktionstechniken aufweist. Ich werde mich mit selbstorganisierenden Karten befassen, aber ich bezweifle, dass dies für die Art von Studenten geeignet ist, die ich in einem Grundstudiengang im zweiten Jahr bekomme.
Rabidotter
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.