Scikit-learn (o sklearn) es una librería de Python utilizada para implementar modelos de ciencia de datos. Con esta librería podrás realizar:
En las siguientes secciones podrás conocer más detalles sobre qué es Scikit-learn y cómo podemos utilizarla.
Puedes seguir el sitio web oficial para la instalación. En resumen, puedes utilizar herramientas como pip o conda para instalar la librería, utilizando los siguientes comandos en una consola:
Usando pip:
pip install -U scikit-learn
Usando conda:
conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env
Durante el proceso de machine learning utilizarás objetos de diferentes tipos, que comparten estructuras similares:
LinearRegression() para regresión lineal). Usualmente los hiperparámetros se definen como parámetros de este método.fit(): método para estimar los parámetros del modelo con base en un conjunto de datos. Usualmente este método recibe un conjunto de variables descriptoras X y un conjunto de etiquetas y.transform(): recibe como entrada el conjunto a transformar y retorna el conjunto de datos transformado.fit_transform(): combina e implementa los métodos fit() y transform() de una forma mucho más eficiente.LogisticRegression()). Para esto, Scikit-learn tiene los siguientes métodos:predict(): utilizado para predecir etiquetas o valores sobre datos nuevos. Al utilizar este método no es necesario reentrenar el modelo.score(): retorna el valor de una métrica de rendimiento al comparar la predicción del modelo con los valores reales. Por lo tanto, este método recibe un conjunto de pruebas X y sus correspondientes etiquetas y.Generalmente importarás herramientas específicas para cada una de las etapas del proceso de machine learning. En ese sentido, Scikit-learn está estructurada para que puedas importar bloques particulares de acuerdo a la etapa en la que te encuentres. Veremos algunas importaciones básicas:
sklearn.preprocessing. Por ejemplo, para realizar una estandarización con la clase StandardScaler utilizarías la siguiente línea de código:from sklearn.preprocessing import StandardScaler
LinearRegression, puedes importarla mediante la siguiente línea de código:from sklearn.linear_model import LinearRegression
sklearn.metrics. Por ejemplo, si quieres saber la exactitud de un modelo de clasificación, puedes importar la métrica correspondiente con la siguiente línea de código:from sklearn.metrics import accuracy_score
Como puedes ver, existen diferentes módulos para diferenciar clases y métodos en todas las etapas de un proceso de machine learning. Sin embargo, siempre se mantendrá la estructura from sklearn.< import <
Scikit-learn mantiene su consistencia en los atributos de los estimadores, en la representación de los datos y en la reutilización de componentes. Específicamente, esta librería tiene las siguientes características:
lasso.alpha). Los parámetros estimados son accesibles mediante atributos que incluyen un guión al piso (por ejemplo, regresion.coef_).Pipeline para generar una secuencia de transformación, estimación y predicción.