Ich habe einen pandas
Datenrahmen und möchte die Werte von Spalte A aus den Werten in den Spalten B und C vorhersagen können. Hier ein Spielzeugbeispiel:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Im Idealfall hätte ich so etwas wie, ols(A ~ B + C, data = df)
aber wenn ich mir die Beispiele aus Algorithmusbibliotheken ansehe scikit-learn
, scheinen die Daten dem Modell mit einer Liste von Zeilen anstelle von Spalten zuzuführen. Dies würde erfordern, dass ich die Daten in Listen innerhalb von Listen umformatiere, was den Zweck der Verwendung von Pandas in erster Linie zu vereiteln scheint. Was ist die pythonischste Methode, um eine OLS-Regression (oder einen Algorithmus für maschinelles Lernen im Allgemeinen) für Daten in einem Pandas-Datenrahmen auszuführen?
formula
: Ich habeformulas
stattdessen versehentlich getippt und einen seltsamen Fehler erhalten:TypeError: from_formula() takes at least 3 arguments (2 given)