Kaggle es una plataforma web creada con el objetivo de mantener una comunidad de científicos de datos y machine learning, proporcionando cursos, notebooks tipo tutorial, competencias, modelos, entre otros.

Objetivos del tutorial

Lo que necesitas

Dirigirse a la página principal de Kaggle.

Allí encontrará una versión similar a la siguiente imagen:

Hacer click en el botón "Register" ubicado en la parte superior derecha de la página.

En la siguiente página, registrese con el correo electrónico de la Universidad de Los Andes.

Tras completar el formulario de registro, aceptar los términos y condiciones, y verificar el correo de su cuenta, usted será direccionado al "home" de su cuenta. La vista debe ser similar a la siguiente imágen:

Luego de completar el registro en Kaggle, usted tendrá la posibilidad de unirse a cualquier competencia de Kaggle, y acceder a los demás recursos de la plataforma.

A continuación, nos registraremos a una competencia de prueba y realizaremos dos envíos para entender la dinámica de las competencias. Esta competencia es individual y tiene como único objetivo que usted se familiarice con Kaggle como preparación para la competencia final del curso que se llevará a cabo en la semana 8.

Para registrarse a la competencia, ingrese al siguiente enlace:

https://www.kaggle.com/t/6d78d1d4c29e4c87b1bda8ccfafadb70

Cuando cargue el enlace, inscríbase en la competencia haciendo click en el botón "Join Competition" ubicado en la parte superior derecha:

Posteriormente, acepte las reglas de la competencia, y vaya a la pestaña de Overview de la competencia para revisar detenidamente toda la información disponible. Aquí, obtendrá información del objetivo de la competencia, de su evaluación, y del formato en el que debe realizarse el envío de su solución.

Normalmente, en la pestaña "Data" usted podrá encontrar el dataset de entrenamiento para entrenar su modelo, y adicionalmente un dataset de evaluación sin etiquetas que será sobre el cual usted realizará las predicciones de clase.

Estas predicciones serán evaluadas por la plataforma, y usted recibirá unos resultados con el desempeño de su modelo.

En esta competencia de prueba nosotros le facilitamos dos archivos de solución, por lo que no tendrá que entrenar ningún modelo, ya que ell propósito de este tutorial es que se familiarice con la plataforma de Kaggle.

Sobre la pestaña de "Data", deslícese hacia abajo y busque el botón que le permite descargar todos los archivos de la competencia.

Tras descargar todos los archivos de la competencia, usted tendrá disponible los archivos submission1.csv y submission2.csv, los cuales son dos archivos de solución diferentes con los cuales podrá realizar envíos de prueba.

Ahora haga click en el botón "Submit Prediction" en la parte superior derecha de la pantalla para realizar un envío:

Cargue el archivo submission1.csv, y haga click en "Submit" para realizar el envío.

Tras realizar el envío usted será automáticamente redirigido a la pestaña de "Submissions" en donde usted verá el desempeño de su modelo con la métrica de evaluación definida para la competencia, en este caso el f1 score macro.

Tenga en cuenta, que antes de finalizar la competencia usted solo podrá ver el "Public Score", el cual es un subset del set de evaluación diseñado para que usted tenga una idea del desempeño de su modelo. Sin embargo, el ranking final será determinado por el "Private Score", que estará disponible cuando finalice la competencia.

Note como con el archivo submission1.csv usted obtiene un desempeño de 1, el cual es el desempeño máximo posible para la métrica f1 macro score. Esto se debe, a que el archivo enviado corresponde a la predicción perfecta para todos los datos del set de evaluación.

Ahora realice un nuevo envío con el archivo submission2.csv, y revise los resultados obtenidos para este modelo.

Con este nuevo envío usted debería obtener un f1 macro score de 0.333, debido a que en este envío se predijo la misma clase (0) para todos los datos del set de evaluación, y teniendo en cuenta que el dataset tiene 1000 datos de una clase, y 1000 de la otra, usted estaría acertando solo en un 50% de los casos.

El f1 macro score corresponde al promedio de los f1 score obtenidos para cada una de las clases, en este caso tendríamos que para la clase 0:

,

Y para la clase 1 tendríamos que,

, por lo que finalmente:

Sin embargo, el desempeño que usted obtuvo no es completamente igual al resultado anterior porque el set de evaluación se dividió de manera aleatoria en dos subsets. En donde el primer subset (público) es sobre el cual se evalúa su modelo mientras la competencia está aún abierta, mientras que el segundo subset (privado) solo estará disponible cuando se haya cerrado la competencia.

El objetivo del subset público es que usted pueda evaluar de manera preliminar el desempeño de su modelo, y conocer provisionalmente su posición en la tabla de líderes. Por otro lado, el subset de evaluación privado será sobre el cual se evalúe el desempeño y el ranking final de la competencia.

Tras realizar al menos un envío. Usted podrá ir a la pestaña "Leaderboard" y revisar su posición en la tabla de líderes de la competencia. Tenga en cuenta que esta posición es provisional, y se irá moviendo a medida que sus compañeros realicen envíos a la competencia.

Dentro de esta pestaña usted encontrará dos tableros de líderes, el público y el privado. Mientras la competencia esté activa usted solo podrá ver su posición en la tabla de líderes pública, si intenta ir al tablero privado verá algo similar a lo siguiente:

Las competencias pueden tener un número limitado de envíos que serán evaluados con el subset de evaluación privado. Usted puede elegir de manera manual los envíos que se le permita para que se tengan en cuenta en la evaluación final (con el subset privado). Sin embargo, si no lo hace sus envíos con mejor desempeño en el subset público serán los que automáticamente sean evaluados en el set de evaluación privado.

Tras finalizar la competencia, usted podrá conocer el resultado de sus mejores envíos en el set de evaluación privado. Para hacerlo, vaya a la pestaña "Leaderboard", y en la sección inferior seleccione la pestaña "Private".

En el tablero de líderes privado, usted podrá conocer la posición final de usted y su equipo en la competencia. También podrá ver el máximo puntaje obtenido en la métrica evaluada, y otra información relevante.

Felicitaciones! tras realizar exitosamente este tutorial, usted está listo para comenzar a competir en Kaggle.