LinkedIn Web Scraping


11

Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell auf der Website tun können, aber über die API nicht möglich sind.

import.io wäre perfekt, wenn es die LinkedIn-Paginierung erkennen würde (siehe Ende der Seite).

Kennt jemand Web-Scraping-Tools oder -Techniken, die auf das aktuelle Format der LinkedIn-Website anwendbar sind, oder Möglichkeiten, die API zu biegen, um flexiblere Analysen durchzuführen? Vorzugsweise in R oder webbasiert, aber sicherlich offen für andere Ansätze.


2
Web Scraping LinkedIn verstößt gegen die Nutzungsbedingungen. Sehen LinkedIn "DOs" und "DON'Ts" - NICHT: "Verwenden Sie manuelle oder automatisierte Software, Geräte, Skriptroboter , andere Mittel oder Prozesse, um auf die Dienste oder andere zuzugreifen, sie zu" kratzen "," zu crawlen "oder" zu spinnen " verwandte Daten oder Informationen; "
Brian Spiering

Antworten:



3

Scrapy ist eine großartige Python-Bibliothek, mit der Sie verschiedene Websites schneller durchsuchen und Ihre Codestruktur verbessern können. Nicht alle Websites können mit klassischen Tools analysiert werden, da sie die dynamische Erstellung von JS-Inhalten verwenden können. Für diese Aufgabe ist es besser, Selen zu verwenden (dies ist ein Testframework für Websites, aber auch ein großartiges Web-Scraping-Tool). Es gibt auch einen Python-WrapperFür diese Bibliothek steht zur Verfügung. In Google finden Sie einige Tricks, mit denen Sie Selenium in Scrapy verwenden und Ihren Code klar und übersichtlich gestalten können. Außerdem können Sie einige großartige Tools für die Scrapy- Bibliothek verwenden.

Ich denke, dass Selen für Linkedin ein besserer Schaber wäre als klassische Werkzeuge. Es gibt viel Javascript und dynamischen Inhalt. Wenn Sie eine Authentifizierung in Ihrem Konto vornehmen und alle verfügbaren Inhalte entfernen möchten, treten bei der klassischen Authentifizierung mit einfachen Bibliotheken wie Anfragen oder Urllib viele Probleme auf .


1

Ich mag rvest in Kombination mit dem SelectorGadget-Chrome-Plug-In zur Auswahl relevanter Abschnitte.

Ich habe rvest verwendet und kleine Skripte erstellt, um durch Foren zu paginieren:

  1. Suchen Sie nach dem Objekt "Seite n von m"
  2. Auszug m
  3. Erstellen Sie basierend auf der Seitenstruktur eine Liste mit Links von 1 bis m (z. B. www.sample.com/page1).
  4. Iterieren Sie den Schaber durch die vollständige Liste der Links

0

Ich würde auch mit schöne Suppe gehen, wenn Sie Python kennen. Wenn Sie lieber Javascript / JQuery codieren (und mit node.js vertraut sind), möchten Sie möglicherweise CoffeeScript auschecken (siehe Tutorial ). Ich habe es bereits mehrmals erfolgreich zum Scraping von Webseiten verwendet.


0

lxml ist eine nette Web-Scrapping-Bibliothek in Python. Schöne Suppe ist eine Hülle über lxml. Lxml ist also schneller als kratzige und schöne Suppe und hat eine viel einfachere Lernkurve.

Dies ist ein Beispiel für einen Scraper, den ich damit für ein persönliches Projekt erstellt habe, das über Webseiten iterieren kann.


0

BeautifulSoup funktioniert nicht auf LinkedIn. Scrappy verstößt gegen Richtlinien. Octoparse ist nur für Windows. Gibt es eine andere Art und Weise? Ich möchte ähnliche Personendaten für das Konto einer Person extrahieren. Bitte helfen Sie!


1
Bitte posten Sie dies als Kommentar oder stellen Sie eine neue Frage
christopherlovell

Dies sind wichtige Informationen, aber bitte entfernen Sie die darin enthaltene Frage, wenn dies eine Antwort sein soll.
Pithikos

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.