Skip to content

hanerjh/mining-data-platform

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

💡 Data Engineering: Proyecto de Producción Minera (Fabric & PySpark)

Este proyecto de párctica implementa una arquitectura de datos en Microsoft Fabric para el sector minero. El sistema simula la operación de carga y transporte de minerales, procesa la información a través de una arquitectura Medallion y genera tablas analíticas listas para la toma de decisiones estratégicas.

🏗️ Arquitectura del Proyecto (Medallion)

El flujo de datos garantiza la trazabilidad, calidad y escalabilidad de la información mediante tres niveles de procesamiento:

Workspace DE_Area_Mineria Figura 1: Vista general del Workspace en Fabric con la organización de Notebooks y Lakehouse.

Workspace DE_Area_Mineria Figura 1: Vista general del Workspace en Fabric con la organización de Notebooks y Lakehouse.

  • Fuentes de Datos: Generación de datos sintéticos con la librería Faker, simulando activos (camiones), locaciones (minas) y eventos (logs de producción).
  • Capa Bronze (Raw): Ingesta de archivos CSV a tablas Delta, preservando el estado original y añadiendo auditoría (Fecha_Ingesta, origen).
  • Capa Silver (Cleaned): Limpieza, normalización de nombres, tipado de datos y consolidación mediante Joins técnicos.
  • Capa Gold (Curated): Tablas de agregación orientadas a negocio para análisis de eficiencia y producción.

🛠️ Tecnologías y Herramientas

  • Plataforma: Microsoft Fabric (Lakehouse).
  • Motor de Procesamiento: PySpark (Spark 3.4+).
  • Almacenamiento: Delta Lake (Formato abierto con transacciones ACID).
  • Generación de Datos: Python Faker (Especializado en datos de minería: modelos de camiones, nombres de yacimientos chilenos).

📂 Estructura del Lakehouse (lk_minera)

1. Ingesta de Archivos (Landing Zone)

Los datos crudos aterrizan en la sección Files del Lakehouse antes de ser procesados por los Jobs de Spark.

Landing Zone - Files Figura 2: Archivos fuente almacenados en la carpeta raw_data.

2. Catálogo de Tablas Delta

Las tablas están registradas en el metastore, permitiendo consultas SQL de alto rendimiento.

Catalog de Tablas

Figura 3: Estructura de tablas particionadas por capas (brz, slv, gold) y previsualización de datos enriquecidos.

Tabla Capa Descripción
brz_equipment Bronze Datos maestros de camiones (CAT, Komatsu).
brz_mines Bronze Directorio de minas y ubicaciones operativas.
brz_production_logs Bronze Historial de transacciones de carga en bruto.
slv_logmineria Silver Tabla unificada con tipos de datos corregidos y nombres estandarizados.
gold_production_by_mine Gold Resumen de toneladas producidas por cada yacimiento.
gold_production_by_camiones Gold KPI de eficiencia por flota de transporte.

🚀 Pipeline de Transformación

El procesamiento se divide en Notebooks modulares:

  1. Generador de Datos: Creación de 1,000+ registros de prueba con lógica de negocio minera.
  2. Ingesta Bronze: Lectura dinámica de múltiples formatos (.csv, .parquet) con evolución de esquema habilitada (mergeSchema).
  3. Refinería Silver/Gold: Ejecución de lógica de negocio:
    • Cálculo de toneladas netas.
    • Join entre registros de producción y tablas de minas/equipos.
    • Filtrado de valores nulos y deduplicación.

📈 Métricas Generadas

  • Producción total por mina
  • Eficiencia por equipo (toneladas por camión)
  • Distribución por tipo de mineral

🔮 Roadmap y Futuras Mejoras

1. Integración CI/CD

  • Conexión del Workspace con Git Integration (Azure DevOps/GitHub) para control de versiones.
  • Creación de Deployment Pipelines para separar entornos de Dev y Prod.

2. Calidad de Datos (Data Quality)

  • Implementación de validaciones automáticas (ej. que la capacidad de carga nunca sea negativa).
  • Configuración de alertas por correo mediante Data Factory Pipelines en caso de fallo de ingesta.

3. Inteligencia de Negocio

  • Desarrollo de un Dashboard en Power BI utilizando el modo DirectLake para visualización en tiempo real.
  • Análisis predictivo de mantenimiento de flota utilizando.

📂 Estructura del Repositorio

mining-data-platform/
│
├── data_generator/
│   ├── Generador de datos
├── notebooks/
│   ├── bronze_ingesta
│   ├── silver_transformation
│   ├── gold_analytics
├── imagenes/
│   ├── architecture.png
│
└── README.md

Ingeniero de Datos: Haner Johan Riascos Mosquera Ubicación del Proyecto: Los Andes, Valparaíso, Chile
Plataforma: Microsoft Fabric

About

Data Engineering Pipeline en Microsoft Fabric: Arquitectura Medallion para el sector minero utilizando PySpark, Delta Lake y datos sintéticos (Faker).

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors