Gibt es APIs zum Crawlen von Abstracts auf Papier?


13

Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten?

Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit".

Kennt jemand eine API, die mir eine Lösung geben kann? Ich habe versucht, google scholar zu crawlen, aber google hat meinen Crawler blockiert.


2
Ich bezweifle, dass es dafür eine allgemeine API gibt. Sie können versuchen, verschiedene Dienste wie Academia.edu, Websites von Herausgebern usw. zu crawlen. Es ist jedoch einfacher, zuerst eine lokale Datenbank mit Dokumenten zu erstellen und dann mit dem Extrahieren der Zusammenfassungen zu experimentieren.
Wojciech Walczak

Danke für deine Antwort! Ich habe dafür bereits eine lokale Datenbank aufgebaut. Das Problem beim Crawlen von verschiedenen Diensten ist, dass ich für jede Website Analyseregeln erstellen muss.
Alex Gao

Wie wäre es also mit der Konvertierung von PDFs in TXTs und dem anschließenden Extrahieren der Abstracts mit regulären Ausdrücken?
Wojciech Walczak

Danke! Der Vertrag sieht jedoch vor, dass das massive Herunterladen von Dokumenten nicht gestattet ist. Dies verursacht Kopfschmerzen.
Alex Gao

2
Ich denke , die Stack-Überlauf Antwort Link die beste Antwort gibt die ich bekommen kann. Vielleicht können sich auch Leute, die auf dieses Problem stoßen, diese Seite ansehen.
Alex Gao

Antworten:


8

Schau es dir an:

Wenn Sie eine einzelne exakte Titelübereinstimmung erhalten, haben Sie wahrscheinlich den richtigen Artikel gefunden und können den Rest der Informationen von dort aus eingeben. In beiden Fällen erhalten Sie Download-Links und eine Ausgabe im Bibtex-Stil. Was Sie wahrscheinlich tun möchten, um perfekte Metadaten zu erhalten, ist das Herunterladen und Parsen der PDF-Datei (falls vorhanden) und die Suche nach einer DOI-ähnlichen Kennung.

Bitte seien Sie nett und begrenzen Sie Ihre Anfragen, wenn Sie dies tun.


5

arXiv hat eine API und einen Bulk-Download, aber wenn Sie etwas für bezahlte Journale haben möchten, ist es schwierig, es zu bekommen, ohne einen Indexer wie pubmed oder elsevier oder dergleichen zu bezahlen.


1
Vielen Dank. Allerdings stellt arXiv die Papiere zur Verfügung, die ich benötige.
Alex Gao
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.