💡 Data Engineering: Proyecto de Producción Minera (Fabric & PySpark)

Este proyecto de párctica implementa una arquitectura de datos en Microsoft Fabric para el sector minero. El sistema simula la operación de carga y transporte de minerales, procesa la información a través de una arquitectura Medallion y genera tablas analíticas listas para la toma de decisiones estratégicas.

🏗️ Arquitectura del Proyecto (Medallion)

El flujo de datos garantiza la trazabilidad, calidad y escalabilidad de la información mediante tres niveles de procesamiento:

Figura 1: Vista general del Workspace en Fabric con la organización de Notebooks y Lakehouse.

Fuentes de Datos: Generación de datos sintéticos con la librería Faker, simulando activos (camiones), locaciones (minas) y eventos (logs de producción).
Capa Bronze (Raw): Ingesta de archivos CSV a tablas Delta, preservando el estado original y añadiendo auditoría (Fecha_Ingesta, origen).
Capa Silver (Cleaned): Limpieza, normalización de nombres, tipado de datos y consolidación mediante Joins técnicos.
Capa Gold (Curated): Tablas de agregación orientadas a negocio para análisis de eficiencia y producción.

🛠️ Tecnologías y Herramientas

Plataforma: Microsoft Fabric (Lakehouse).
Motor de Procesamiento: PySpark (Spark 3.4+).
Almacenamiento: Delta Lake (Formato abierto con transacciones ACID).
Generación de Datos: Python Faker (Especializado en datos de minería: modelos de camiones, nombres de yacimientos chilenos).

📂 Estructura del Lakehouse (`lk_minera`)

1. Ingesta de Archivos (Landing Zone)

Los datos crudos aterrizan en la sección Files del Lakehouse antes de ser procesados por los Jobs de Spark.

Figura 2: Archivos fuente almacenados en la carpeta raw_data.

2. Catálogo de Tablas Delta

Las tablas están registradas en el metastore, permitiendo consultas SQL de alto rendimiento.

Figura 3: Estructura de tablas particionadas por capas (brz, slv, gold) y previsualización de datos enriquecidos.

Tabla	Capa	Descripción
`brz_equipment`	Bronze	Datos maestros de camiones (CAT, Komatsu).
`brz_mines`	Bronze	Directorio de minas y ubicaciones operativas.
`brz_production_logs`	Bronze	Historial de transacciones de carga en bruto.
`slv_logmineria`	Silver	Tabla unificada con tipos de datos corregidos y nombres estandarizados.
`gold_production_by_mine`	Gold	Resumen de toneladas producidas por cada yacimiento.
`gold_production_by_camiones`	Gold	KPI de eficiencia por flota de transporte.

🚀 Pipeline de Transformación

El procesamiento se divide en Notebooks modulares:

Generador de Datos: Creación de 1,000+ registros de prueba con lógica de negocio minera.
Ingesta Bronze: Lectura dinámica de múltiples formatos (.csv, .parquet) con evolución de esquema habilitada (mergeSchema).
Refinería Silver/Gold: Ejecución de lógica de negocio:
- Cálculo de toneladas netas.
- Join entre registros de producción y tablas de minas/equipos.
- Filtrado de valores nulos y deduplicación.

📈 Métricas Generadas

Producción total por mina
Eficiencia por equipo (toneladas por camión)
Distribución por tipo de mineral

🔮 Roadmap y Futuras Mejoras

1. Integración CI/CD

Conexión del Workspace con Git Integration (Azure DevOps/GitHub) para control de versiones.
Creación de Deployment Pipelines para separar entornos de Dev y Prod.

2. Calidad de Datos (Data Quality)

Implementación de validaciones automáticas (ej. que la capacidad de carga nunca sea negativa).
Configuración de alertas por correo mediante Data Factory Pipelines en caso de fallo de ingesta.

3. Inteligencia de Negocio

Desarrollo de un Dashboard en Power BI utilizando el modo DirectLake para visualización en tiempo real.
Análisis predictivo de mantenimiento de flota utilizando.

📂 Estructura del Repositorio

mining-data-platform/
│
├── data_generator/
│   ├── Generador de datos
├── notebooks/
│   ├── bronze_ingesta
│   ├── silver_transformation
│   ├── gold_analytics
├── imagenes/
│   ├── architecture.png
│
└── README.md

Ingeniero de Datos: Haner Johan Riascos Mosquera Ubicación del Proyecto: Los Andes, Valparaíso, Chile
Plataforma: Microsoft Fabric

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

💡 Data Engineering: Proyecto de Producción Minera (Fabric & PySpark)

🏗️ Arquitectura del Proyecto (Medallion)

🛠️ Tecnologías y Herramientas

📂 Estructura del Lakehouse (`lk_minera`)

1. Ingesta de Archivos (Landing Zone)

2. Catálogo de Tablas Delta

🚀 Pipeline de Transformación

📈 Métricas Generadas

🔮 Roadmap y Futuras Mejoras

1. Integración CI/CD

2. Calidad de Datos (Data Quality)

3. Inteligencia de Negocio

📂 Estructura del Repositorio

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Notebooks		Notebooks
data_generator		data_generator
imagenes		imagenes
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

💡 Data Engineering: Proyecto de Producción Minera (Fabric & PySpark)

🏗️ Arquitectura del Proyecto (Medallion)

🛠️ Tecnologías y Herramientas

📂 Estructura del Lakehouse (lk_minera)

1. Ingesta de Archivos (Landing Zone)

2. Catálogo de Tablas Delta

🚀 Pipeline de Transformación

📈 Métricas Generadas

🔮 Roadmap y Futuras Mejoras

1. Integración CI/CD

2. Calidad de Datos (Data Quality)

3. Inteligencia de Negocio

📂 Estructura del Repositorio

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

📂 Estructura del Lakehouse (`lk_minera`)

Packages