¿Qué es la librería Scikit-learn?

Scikit-learn (o sklearn) es una librería de Python utilizada para implementar modelos de ciencia de datos. Con esta librería podrás realizar:

El preprocesamiento y separación de conjuntos de datos.
El entrenamiento y evaluación de modelos de clasificación, regresión y segmentación.
La selección de modelos mediante la búsqueda de hiperparámetros.
La evaluación de modelos mediante métricas de desempeño.

En las siguientes secciones podrás conocer más detalles sobre qué es Scikit-learn y cómo podemos utilizarla.

Puedes seguir el sitio web oficial para la instalación. En resumen, puedes utilizar herramientas como pip o conda para instalar la librería, utilizando los siguientes comandos en una consola:

Usando pip:

pip install -U scikit-learn

Usando conda:

Crea un entorno e instala la librería:

conda create -n sklearn-env -c conda-forge scikit-learn

Activa el entorno para utilizar la librería:

conda activate sklearn-env

Durante el proceso de machine learning utilizarás objetos de diferentes tipos, que comparten estructuras similares:

Estimadores: todos los modelos y algoritmos de machine learning son llamados estimadores, pues estiman parámetros basados en un conjunto de datos. Todos los estimadores comparten algunos métodos útiles:
Constructor: método con el nombre de la clase para inicializar el algoritmo o modelo (por ejemplo LinearRegression() para regresión lineal). Usualmente los hiperparámetros se definen como parámetros de este método.
fit(): método para estimar los parámetros del modelo con base en un conjunto de datos. Usualmente este método recibe un conjunto de variables descriptoras X y un conjunto de etiquetas y.
Transformadores: algunos estimadores pueden transformar un conjunto de datos. Para realizar la transformación, se tienen los siguientes métodos:
transform(): recibe como entrada el conjunto a transformar y retorna el conjunto de datos transformado.
fit_transform(): combina e implementa los métodos fit() y transform() de una forma mucho más eficiente.
Predictores: otros estimadores son capaces de realizar predicciones utilizando los parámetros aprendidos (por ejemplo LogisticRegression()). Para esto, Scikit-learn tiene los siguientes métodos:
predict(): utilizado para predecir etiquetas o valores sobre datos nuevos. Al utilizar este método no es necesario reentrenar el modelo.
score(): retorna el valor de una métrica de rendimiento al comparar la predicción del modelo con los valores reales. Por lo tanto, este método recibe un conjunto de pruebas X y sus correspondientes etiquetas y.

Generalmente importarás herramientas específicas para cada una de las etapas del proceso de machine learning. En ese sentido, Scikit-learn está estructurada para que puedas importar bloques particulares de acuerdo a la etapa en la que te encuentres. Veremos algunas importaciones básicas:

Preprocesamiento: en este paso usualmente utilizarás transformadores para modificar tu conjunto de datos. Entonces, harás uso del módulo sklearn.preprocessing. Por ejemplo, para realizar una estandarización con la clase StandardScaler utilizarías la siguiente línea de código:

from sklearn.preprocessing import StandardScaler

Entrenamiento: dependiendo de la tarea, puedes importar clasificadores, regresores o segmentadores. Por ejemplo, si quieres realizar una regresión lineal con la clase LinearRegression, puedes importarla mediante la siguiente línea de código:

from sklearn.linear_model import LinearRegression

Evaluación: finalmente, si quieres evaluar tu modelo con métricas particulares, puedes importarlas desde el módulo sklearn.metrics. Por ejemplo, si quieres saber la exactitud de un modelo de clasificación, puedes importar la métrica correspondiente con la siguiente línea de código:

from sklearn.metrics import accuracy_score

Como puedes ver, existen diferentes módulos para diferenciar clases y métodos en todas las etapas de un proceso de machine learning. Sin embargo, siempre se mantendrá la estructura from sklearn.<> import <>

Scikit-learn mantiene su consistencia en los atributos de los estimadores, en la representación de los datos y en la reutilización de componentes. Específicamente, esta librería tiene las siguientes características:

Inspección: los hiperparámetros son accesibles mediante llamados a atributos del estimador (por ejemplo, lasso.alpha). Los parámetros estimados son accesibles mediante atributos que incluyen un guión al piso (por ejemplo, regresion.coef_).
Generalización: todos los conjuntos de datos son representados con arreglos de Numpy o matrices dispersas de Scipy. Todos los hiperparámetros son números o strings de Python.
Composición: todos los bloques (estimadores, transformadores, predictores) son reutilizables. Por ejemplo, puedes crear una secuencia o Pipeline para generar una secuencia de transformación, estimación y predicción.
Valores razonables por defecto: todos los modelos tienen valores razonables por defecto para sus hiperparámetros, permitiendo generar estimadores que permitan establecer un sistema base rápidamente.