Wie findet Github die Sprache eines Projekts heraus?

Question 1

Ich habe kürzlich an einem Github-Projekt in JavaScript und C ++ gearbeitet und festgestellt, dass Github das Projekt als C ++ markiert hat. Wenn Sie eine einzelne Sprache auswählen müssen, ist dies wahrscheinlich die richtige Bezeichnung, da der C ++ - Code als JavaScript-Bibliothek kompiliert ist. Ich habe mich jedoch gefragt, wie Github herausfindet, in welcher Sprache jedes Projekt markiert werden soll.

Question 2

Update April 2013 von nuclearsandwich (GitHub-Supportteam oder "supportocat"):

die Hilfeseite „ ist mein Repository als die falsche Sprache markiert nun die erwähnt mit“ Linguist - Bibliothek , um Datei Sprache für Syntax zu bestimmen markieren und Repo - Statistiken. Linguist schließt bestimmte Dateinamen und Pfade von der Statistik aus, ausgenommen bestimmte Herstellerdateien und -verzeichnisse .
Die Hilfeseite " Warum wird meine Lieblingssprache nicht erkannt? " fügt hinzu:

Wenn Ihre gewünschte Sprache keine Syntaxhervorhebung erhält, können Sie einen Beitrag zur Linguist-Bibliothek leisten, um sie hinzuzufügen.

(Ursprüngliche Antwort, Oktober 2012)

Dieser Thread zur GitHub-Unterstützung erklärt es:

Es werden nur die Dateigrößen für jede Erweiterung zusammengefasst. Größter "gewinnt".

Wir möchten vermeiden, Dateien zu öffnen und ihren Inhalt zu analysieren, da dies den Prozess verlangsamen würde. Dies ist jedoch möglicherweise die einzige Methode zur Lösung von Konflikten wie diesem.

Da dies nicht 100% genau ist, hatte dies einige dazu veranlasst, Folgendes hinzuzufügen:

Auch ich würde für die Fälle, in denen die Vermutung falsch ist, für einen einfachen manuellen Übersteuerungsschalter stimmen.

Hinweis: Wie Mark Rushakoff in seiner Antwort erwähnt (positiv bewertet), wurde die Vermutung seitdem mit dem Linguist-Projekt (Open-Source ab Juni 2011) besser .
Sie können jedoch sehen, dass es immer noch Probleme gibt: Probleme mit GitHub Linguist .
Sehen Sie hier für weitere Details :

Sobald die Sprache erkannt wurde, wird sie an Albino übergeben , einen Pylements- Wrapper, der die eigentliche Syntaxhervorhebung vornimmt .

Außerdem können Sie einer .gitattributes-Datei Sprachanweisungen hinzufügen .

Question 3

Derzeit Github des Linguist Projekt ist , was verwendet wird Sprache Statistiken , um zu bestimmen, wie beschrieben in dieser Github Blog - Post (die kam ein paar Monate, nachdem diese Frage ursprünglich gefragt wurde).

Question 4

Stellen Sie zunächst fest, dass Sie die für Dateien in Ihrem Repository erkannte Sprache mithilfe von Linguist-Überschreibungen überschreiben können .

Nun, kurz gesagt,

Jedes Repository ist mit der ersten Sprache aus der Sprachstatistik versehen .
Sprachstatistiken zählen die Gesamtgröße der Dateien für jede erkannte Programmier- oder Auszeichnungssprache. Liefer-, Dokumentations- und generierte Dateien werden nicht gezählt.
Die Sprache jeder Datei wird vom Open Source-Projekt Linguist erkannt .

Wie erkennt der Linguist Sprachen?

Der Linguist verlässt sich der Reihe nach auf die folgenden Strategien und gibt die Sprache zurück, sobald eine perfekte Übereinstimmung gefunden wurde (Strategie mit einer einzigen zurückgegebenen Sprache).

Suchen Sie nach Emacs- und Vim-Modellen .
Bekannter Dateiname. Einige Dateinamen sind bestimmten Sprachen zugeordnet (denken Sie daranMakefile ).
Suchen Sie nach einem Schebang. Eine Akte mit einem #!/bin/bashSchebang wird als Shell klassifiziert.
Bekannte Dateierweiterung. Sprachen sind eine Reihe von Erweiterungen zugeordnet. Es gibt jedoch viele Konflikte mit dieser Strategie. Die widersprüchlichen Ergebnisse (denken Sie an C ++, C und Objective-C für .h) werden durch die nachfolgenden Strategien verfeinert.
Eine Reihe heuristischer Regeln . Sie verlassen sich normalerweise auf reguläre Ausdrücke über den Inhalt von Dateien, um die Sprache zu identifizieren (z. B. ^[^#]+:-für Prolog ).
Ein naiver Bayes'scher Klassifikator, der auf Beispieldateien trainiert wurde . Letzte Strategie, niedrigste Genauigkeit. Der Bayes'sche Klassifikator verwendet immer eine Teilmenge von Sprachen als Eingabe. Es ist nicht dazu gedacht, unter allen Sprachen zu klassifizieren. Die beste vom Klassifizierer gefundene Übereinstimmung wird zurückgegeben.

Was sind nicht verkaufte und Dokumentationsdateien?

Der Linguist betrachtet einige Dateien als verkauft , was bedeutet , dass sie nicht in der Sprachstatistik enthalten sind. Dazu gehören Bibliotheken von Drittanbietern wie jQuery, die in der vendor.ymlKonfigurationsdatei definiert sind . Sie können auch Lieferanten- oder Lieferantendateien in Ihrem Repository mithilfe von Linguist-Überschreibungen erstellen .

Ebenso werden Dokumentationsdateien in definiert documentation.ymlund können mithilfe von Linguist-Überschreibungen geändert werden .

Wie werden generierte Dateien erkannt?

Linguist verwendet einfache Regeln , um generierte Dateien zu erkennen, wobei sowohl die Pfade als auch der Inhalt der Dateien verwendet werden. Generierte Dateien werden in der Sprachstatistik nicht gezählt und nicht in diffs auf github.com angezeigt.

Was ist mit Programmier- und Auszeichnungssprachen?

In Linguist erhält jede Sprache einen Typ. Diese Typen finden Sie in der Hauptkonfigurationsdatei languages.yml. In der Statistik werden nur die Programmier- und Auszeichnungssprachen gezählt.

Question 5

Nach einigem Basteln mit dem Linguisten habe ich das bemerkt.

Bei Dateien mit einem Shebang wird der Shebang bei der Bestimmung der Sprache berücksichtigt, scheint jedoch gegenüber anderen Token gleichmäßig gewichtet zu sein . Dies scheint ein großer Fehler zu sein, da der Shebang die Sprache der Datei definitiv definieren sollte.

Dies kann Probleme beim Hervorheben verursachen.

Question 6

Dateierweiterungen sind das erste, was mir in den Sinn kommt.