Conocer repositorios de datos útiles para identificar fuentes de datos valiosas para los análisis de la organización.
Integrar varias fuentes de datos y usarlas para hacer cargas incrementales y responder a nuevos requerimientos.
Proponer nuevos análisis utilizando las fuentes a integrar y transformar las fuentes de datos, de acuerdo con las reglas de negocio.
Cargar las nuevas fuentes de datos en la BD que está almacenando los datos a utilizar en los análisis.
En esta fase del proyecto, a partir de la entrevista realizada a Mauricio Sanchéz coordinador de la iniciativa de infraestructura visible, la organización quiere que el grupo incorpore nuevas fuentes de datos al trabajo realizado previamente, para realizar nuevos análisis y proponer otros que pueden ser de interés para la empresa, todo esto al final debe generar los productos descritos en la sección de entregables.
Formato para documentar los temas analíticos y análisis requeridos. Este formato está disponible en el siguiente repositorio:
Recuerden que tienen a su disposición el tutorial de "Búsqueda y selección de fuentes", que será de utilidad para el desarrollo de esta tarea.
Adicionalmente, se les sugiere utilizar una herramienta como GenMyModel para dibujar la actualización del modelo propuesto, y generar las sentencias de creación de la base de datos, si lo requieren.
El grupo debe crear una sección en cualquiera de las wiki, en la cual incluya:
Entregable1. Nuevas fuentes de datos. Revisar los repositorios propuestos y otros similares para identificar tres nuevas fuentes de datos que pueden aportar a nuevos análisis e incluirlas al proyecto.
Parte1. Las fuentes candidatas analizadas con una descripción corta de las mismas que incluye el proveedor de la fuente, el potencial que ven para la organización al utilizarla y las características generales de la fuente: volumen de datos -filas y columnas-, frecuencia de generación, confiabilidad de la información suministrada.
Parte2. El perfilamiento de datos de la fuente seleccionada, para integrar en esta entrega, dentro de las fuentes candidatas. A nivel del perfilamiento de datos recuerde incluir el número de registros del archivo o tabla a integrar y el periodo de tiempo que reportan los datos. Para cada campo de la fuente, incluir una descripción en texto y estadísticas del mismo. En el caso de columnas numéricas, debe incluir el valor mínimo, máximo, media, mediana, desviación estándar y valores faltantes. En el caso de las columnas categóricas, debe indicar el número de categorías y de valores faltantes y, por cada categoría, el número de registros. Se recomienda incluir histogramas para describir mejor las variables entregadas. Adicionalmente, a nivel de calidad de datos, debe incluir análisis de datos faltantes, datos duplicados, datos inconsistentes. Recuerde acompañar las imágenes de texto explicativo sobre las mismas.
Entregable2. Modelo dimensional y proceso ETL. Realizar los ajustes que considere necesarios para incluir la nueva fuente de datos, al modelo multidimensional propuesto originalmente y justificar sus decisiones.
Parte1. La imagen de la nueva versión del modelo dimensional propuesto, la descripción de los elementos nuevos del mismo, los scripts de creación de las tablas si cambiaron.
Parte2. El código asociado al proceso ETL que toma los datos de la nueva fuente a incorporar.
Parte3. El resultado del estado final de la base de datos, con estadísticas sobre filas y columnas de las dimensiones y tablas de hecho y, con ejemplos de los registros insertados en las dimensiones y tablas de hecho que cambiaron por la incorporación de la nueva fuente de datos.
Entregable3. Documentación de nuevos análisis. Proponer y publicar la documentación de dos nuevos análisis centrados en la nueva fuente de datos externa a integrar, usando análisis OLAP o tableros de control. Revisar los análisis propuestos por los otros grupos con el fin de ajustar la propuesta realizada.
Parte1. Documentar los análisis utilizando el siguiente formato. En la sección de recursos requeridos, de este documento, encuentran el enlace para tener acceso a este formato.
Adicionalmente, para cada uno de los dos análisis propuestos incluya un rol o cargo dentro de una organización que se beneficia del resultado del análisis, dos acciones o decisiones que puede tomar el rol/cargo definido, usando el resultado del análisis propuesto y los posibles beneficios para la organización.
Parte2. La publicación de la documentación correspondiente al análisis, se debe realizar en el padlet "Propuestas de proyecto Grupo X": (recuerde que debe utilizar el padlet del grupo asignado al estudiante que publica, al principio del curso como valor X). Imagen que evidencie la publicación en el padlet.
Criterios de evaluación
Entregable1. Nuevas fuentes de datos
Parte1. Con respecto a la búsqueda y selección de fuentes de datos, se revisará:
La coherencia con los análisis propuestos por el cliente.
Aporte a los análisis existentes.
Parte2. Con respecto al perfilamiento de datos, se revisa la completitud del mismo.
Entregable2. Modelo dimensional y proceso ETL
Parte1. Con respecto al modelo multidimensional, se revisará que:
Los elementos claves de la nueva fuente de datos han sido identificados en las dimensiones, tablas de hecho, atributos de dimensiones, dimensiones asociadas a las tablas de hecho y medidas.
Las dimensiones sean dimensiones y las tablas de hecho sean tablas de hecho.
Los atributos de la dimensión sean atributos de la dimensión y no medidas de una tabla de hechos.
Las medidas sean consistentes con el nivel de granularidad de la tabla de hechos y sean medidas.
Parte2. A nivel de scripts y código del proceso ETL se revisará la completitud, correctitud y coherencia con el modelo multidimensional propuesto.
Parte3. El resultado de la ejecución del proceso ETL será revisado en términos de la completitud y coherencia con el modelo propuesto.
Entregable3. Documentación de nuevos análisis.
Parte 1. En la documentación de los análisis propuestos, la coherencia con lo requerido por el coordinador de infraestructura Visible en el video y la completitud en lo solicitado en la descripción.
Parte 2. Evidencia de la existencia de la documentación.
Las preguntas que surjan en el desarrollo de esta tarea pueden registrarlas en el slack del curso