Scikit-learn (o sklearn) es una librería de Python utilizada para implementar modelos de ciencia de datos. Con esta librería podrás realizar:
En las siguientes secciones podrás conocer más detalles sobre qué es Scikit-learn y cómo podemos utilizarla.
Puedes seguir el sitio web oficial para la instalación. En resumen, puedes utilizar herramientas como pip o conda para instalar la librería, utilizando los siguientes comandos en una consola:
Usando pip:
pip install -U scikit-learn
Usando conda:
conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env
Durante el proceso de machine learning utilizarás objetos de diferentes tipos, que comparten estructuras similares:
LinearRegression()
para regresión lineal). Usualmente los hiperparámetros se definen como parámetros de este método.fit()
: método para estimar los parámetros del modelo con base en un conjunto de datos. Usualmente este método recibe un conjunto de variables descriptoras X
y un conjunto de etiquetas y
.transform()
: recibe como entrada el conjunto a transformar y retorna el conjunto de datos transformado.fit_transform()
: combina e implementa los métodos fit()
y transform()
de una forma mucho más eficiente.LogisticRegression()
). Para esto, Scikit-learn tiene los siguientes métodos:predict()
: utilizado para predecir etiquetas o valores sobre datos nuevos. Al utilizar este método no es necesario reentrenar el modelo.score()
: retorna el valor de una métrica de rendimiento al comparar la predicción del modelo con los valores reales. Por lo tanto, este método recibe un conjunto de pruebas X
y sus correspondientes etiquetas y
.Generalmente importarás herramientas específicas para cada una de las etapas del proceso de machine learning. En ese sentido, Scikit-learn está estructurada para que puedas importar bloques particulares de acuerdo a la etapa en la que te encuentres. Veremos algunas importaciones básicas:
sklearn.preprocessing
. Por ejemplo, para realizar una estandarización con la clase StandardScaler
utilizarías la siguiente línea de código:from
sklearn.preprocessing
import
StandardScaler
LinearRegression
, puedes importarla mediante la siguiente línea de código:from
sklearn.linear_model
import
LinearRegression
sklearn.metrics
. Por ejemplo, si quieres saber la exactitud de un modelo de clasificación, puedes importar la métrica correspondiente con la siguiente línea de código:from
sklearn.metrics
import
accuracy_score
Como puedes ver, existen diferentes módulos para diferenciar clases y métodos en todas las etapas de un proceso de machine learning. Sin embargo, siempre se mantendrá la estructura from
sklearn.<
import
<
Scikit-learn mantiene su consistencia en los atributos de los estimadores, en la representación de los datos y en la reutilización de componentes. Específicamente, esta librería tiene las siguientes características:
lasso.alpha
). Los parámetros estimados son accesibles mediante atributos que incluyen un guión al piso (por ejemplo, regresion.coef_
).Pipeline
para generar una secuencia de transformación, estimación y predicción.