Avance P2 · Reunión Profesor Guía · 3 de julio 2026

Predicción binaria pre-despacho de reclamo comercial en exportación de Palta Hass

Formulación: modelar P(reclamo_comercial = 1 | X) a nivel lote / contenedor con información disponible antes del zarpe. Diseño experimental en tres versiones — V4.0 (auditoría causal), V6.0 (Regresión Logística regularizada, benchmark interpretable) y V8.0 (laboratorio de modelos challenger). Validación temporal estricta, calibración post-hoc y selección de umbral por función de costo. Documento estructurado según los seis criterios de la rúbrica P2.

Equipo: A. Cofré · F. Cortés · A. Santiago Profs: R. De la Cruz PhD · E. Méndez PhD Target: reclamo_comercial · base rate 1,05% V4 §3 Validación: split temporal por temporada · métrica primaria: PR-AUC + beneficio neto P2: 27–28 julio 2026 · 15 min
0
Recall test — campeón XGBoost V8.0
11 / 29 reclamos capturados · threshold 0,015 V8 §16
0
PR-AUC test — campeón
Base rate 0,0137 → lift ≈ 2,5× V8 §22
0
Beneficio neto test — campeón
Umbral económico · función de costo B/C V8 §11
0
Mejora económica vs benchmark V6.0
USD 52.500 V6 §13 → USD 225.000 V8 §22 (test 2024-25)
00 — Mapa de la rúbrica · cómo leer este avance

Estructura del documento y correspondencia con los seis criterios de evaluación P2

La rúbrica evalúa seis criterios en escala 0 / 0,5 / 1,0. Cada sección incluye un acordeón Rúbrica · descriptor 1,0 que explicita qué exige la nota máxima y qué evidencia lo cubre: ● verde (cubierto), ● ámbar (en curso), ● rojo (pendiente).

CriterioPesoDescriptor 1,0 (resumen)EstadoSección
Descripción del problema10%Correcta + justificación + evaluación económica + innovación explícitaCubierto01
Objetivos10%Bien planteados, con entregables y KPI mediblesCubierto02
Metodología20%Modelos, variables, KPI a pronosticar y formas de evaluación especificadosCubierto03
Descripción y visualización de datos20%EDA que funda la capacidad de predecir con los datosCubierto04
Pre-procesamiento20%Limpieza, outliers, atributos con sentido de negocioCubierto05
Evaluación primera solución20%Sobreajuste, significancia, parámetros + comparación contra reglas simples1 pendiente06
Gap pendiente para el 1,0 en Evaluación primera solución

La rúbrica exige comparar el modelo contra las reglas simples que la empresa aplica actualmente. Se dispone de benchmark interno entre versiones (V6.0 vs V8.0) pero falta la regla operativa de la contraparte. Candidata: "historial de cliente + materia seca > 30%", a validar con el profesor patrocinante. → Consulta 06

01 — Descripción del problema · 10% rúbrica

Predicción binaria de reclamo comercial a nivel lote / contenedor con información pre-despacho

Contexto de industria: Chile es el 7° exportador mundial de palta (USD 292M FOB en 2024) y la empresa patrocinante despacha ~3.200 contenedores por temporada a 32 destinos. Un lote heterogéneo en madurez fisiológica (materia seca dispersa, firmeza baja, tránsito largo) madura de forma asincrónica en atmósfera controlada y el defecto se detecta recién en inspección de arribo. La detección es entonces reactiva y los costos de reclamo se acumulan sin señal previa.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Descripción correcta, justificación, evaluación económica del potencial del proyecto, está explícita la innovación del proyecto."
  • Justificación cuantitativa con datos reales (ya no estimaciones P1): 154 reclamos, USD 195.259 auditados
  • Evaluación económica del potencial: beneficio neto verificado USD 225.000 en test 2024-25 (campeón V8.0)
  • Innovación explícita declarada (3 componentes, abajo)

i1Score de riesgo pre-despacho

Estimación de P(reclamo) a nivel lote de exportación, integrando variables agronómicas, poscosecha y logísticas disponibles antes del zarpe. Sustituye la inspección reactiva en destino por una señal ex-ante. V4 §3

i2Auditoría causal previa al modelado

V4.0 clasifica las variables candidatas en cinco niveles de defensa causal, con respaldo en literatura postcosecha de Persea americana, antes de entrenar. Incorpora interacciones con mecanismo biológico como features. V4 §5 V4 §6

i3Umbral por función de costo

El punto de corte se selecciona resolviendo argmaxt [TP(t)·B − FP(t)·C] con B = USD 16.268 (costo evitado por FN) y C = USD 1.500 (costo de revisión). No se optimiza accuracy ni F1 puro. V8 §11 V4 §8

Magnitud del problemaValor auditado (V4.0)
Lotes de exportación analizados14.736 · 7 temporadas (2018-19 → 2024-25)
Reclamos comerciales (target)154 · tasa base ≈ 1,05% · evento raro / clase minoritaria
Impacto económico documentadoUSD 195.259 · promedio USD 1.268 por reclamo
Costo total por reclamo no detectado (FN)USD 16.268 = 1.268 auditado + 15.000 logístico estimado (supuesto explícito)
Beneficio neto test (campeón V8.0)USD 225.000 · temporada 2024-25 · +328% vs benchmark V6.0
02 — Objetivos · 10% rúbrica

Objetivos específicos con KPI declarados en P1 y estado medido contra resultados reales

Objetivo general: desarrollar un modelo predictivo del riesgo de reclamo comercial integrando variables agronómicas, poscosecha y logísticas, de modo de anticipar la calidad de arribo antes del despacho. Los KPI comprometidos en P1 se auditan aquí contra las métricas obtenidas — incluida la brecha entre lo comprometido y lo alcanzado.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Objetivos bien planteados, asociados a entregables, con KPI claros y medibles."
  • 4 OE en infinitivo, cada uno con entregable y KPI numérico
  • Estado medido contra datos reales (no autoevaluación)
  • KPI AUC ≥ 0,80 aún no alcanzado → plan de cierre declarado
Objetivo específicoKPI comprometido (P1)Estado hoyEvidencia
OE1 · Construir base analítica trazableTrazabilidad ≥ 80% · completitud ≥ 75%Logrado14.736 lotes · 16 tablas · 37 variables retenidas post-auditoría NaN
OE2 · Desarrollar y comparar modelos con validación temporalAUC-ROC ≥ 0,80 · F1 ≥ 0,70 · +10 pts vs baselineEn cursoROC-AUC test: 0,6473 (V6.0) · 0,6819 (V8.0). Brecha vs 0,80: plan = variable de frío (logger IoT sub-diario) + interacciones V9. Techo realista sin nuevos datos: 0,70–0,74
OE3 · Identificar y cuantificar variables predictoras≥ 5 variables significativas · ≥ 80% validadas por expertoEn cursoOdds Ratios V6.0 + importancia por permutación V8.0 listos V6 §09 V8 §18 · SHAP excluido por diseño en V6.0 / V8.0 · validación con agrónomo pendiente
OE4 · Proponer semáforo de riesgo calibradoReducción reclamos ≥ 20% · ROI positivoEn cursoUmbral económico y beneficio USD listos · diseño del semáforo es alcance P3
03 — Metodología · 20% rúbrica

Diseño experimental en tres versiones: auditoría causal, benchmark interpretable, laboratorio challenger

La auditoría causal (V4.0) precede al entrenamiento: define qué variables pueden entrar y por qué. La Regresión Logística regularizada (V6.0) constituye la primera solución exigida por P2, interpretable en términos de Odds Ratios y calibrada. El laboratorio V8.0 compara familias no lineales bajo protocolo temporal idéntico. La selección de campeón se realiza sobre validación; test se evalúa una única vez.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Se especifican modelos, variables, kpi a pronosticar, formas de evaluar el modelo."
  • Target: reclamo_comercial binario a nivel lote_exportacion_id
  • Modelos: logística L1/L2 · RF · XGBoost · LightGBM · HistGB
  • Evaluación: split temporal por temporada + ROC/PR-AUC + beneficio USD + calibración + bootstrap
  • Desbalance: class_weight + umbral económico (SMOTE descartado y justificado)

V4.0Auditoría causal y económica

Sin modelo. Construcción del target, clasificación de 37 variables candidatas en cinco niveles de defensa causal, cuantificación económica (USD 195K auditados) y matrices ejecutivas de asociación. Define el universo de variables admisibles y su justificación. V4 §5 V4 §8 V4 §9

V6.0Regresión Logística regularizada — primera solución P2

Selección de variables por LASSO (L1) y control de multicolinealidad por VIF, con interacciones de mecanismo biológico. 129 configuraciones (L1 / L2 / ElasticNet × C × class_weight); calibración sigmoide (Platt) sobre validación; selección de umbral por función de costo. 33 → 18 variables finales. V6 §06V6 §13

V8.0Laboratorio de modelos challenger

Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost con búsqueda de hiperparámetros. Ranking por F1 y beneficio en validación temporal, bootstrap del beneficio del campeón y análisis causal complementario (RF Causal, AIPW / Double-Robust). V8 §15V8 §20

Decisión metodológicaElecciónJustificación estadística
ValidaciónSplit temporal por temporada — train 2018/19–2022/23 · validación 2023/24 · test 2024/25Respeta la estacionalidad e impide filtración del futuro. Tasa base por partición verificada (train 0,96% · val 1,15% · test 1,37%). V6 §05
Desbalance de clases (~1%)class_weight / scale_pos_weight + umbral por función de costoCon ~100 positivos en train, SMOTE genera sintéticos poco plausibles y undersampling descarta información. La reponderación mantiene la estructura de la muestra.
Métrica primariaPR-AUC + beneficio neto en USD — no accuracyCon base ≈ 1% la accuracy es trivialmente ≥ 99% para el clasificador nulo. PR-AUC es sensible al comportamiento en la clase positiva; el beneficio operacionaliza el trade-off FN/FP asimétrico.
Calibración de probabilidadesSigmoide (Platt) sobre validación — isotónica evaluada como alternativa V6 §07El umbral económico exige que el score se lea como probabilidad. Sin calibración, la logística regularizada tiende a subestimar en clases raras.
Selección de campeónSobre validación, jamás sobre testTest se evalúa una única vez para acotar el sesgo de selección (data snooping).
04 — Descripción y visualización de datos · 20% rúbrica

Análisis exploratorio: evidencia asociativa y verificación de supuestos previos al modelado

El datamart consta de 15 tablas BigQuery organizadas en tres capas (hechos operacionales, hechos documentales de reclamo, dimensiones HAB de calidad). La tabla de inspección en destino contiene el target y se excluye de las features (primera decisión anti-leakage). El EDA bivariado documenta la relación entre cada variable candidata y la tasa de reclamo condicional, como sustento del universo de features admitidas al modelado.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Muestran gráficos y análisis que fundan la capacidad de usar la data para predecir y resolver el problema planteado (EDA)."
  • Modelo de datos documentado con claves y cardinalidades
  • Desbalance y estabilidad temporal del target (CV inter-temporada 0,19)
  • Relaciones monótonas variable → tasa de reclamo (evidencia predictiva)
  • Distribuciones condicionales por clase (boxplots)
04.a — Origen de los datos: 15 tablas del datamart BigQuery — abrir tabla completa
Inventario oficial cargado en el notebook V6.0 (paso 01_Carga). Los hechos operacionales aportan las features; los hechos documentales soportan la construcción del target; las dimensiones HAB soportan la interpretación causal.
CapaAliasTabla BigQueryFilasColumnas
Hechos operacionalescosechafact_cosecha60.48077
Hechos operacionalesexpofact_exportacion58.94490
Hechos operacionalesclimafact_clima14.79626
Hechos operacionalesinspfact_inspeccion_destino target14.73624
Hechos reclamoreclamo_documento_cabecerafact_reclamo_documento_cabecera921
Hechos reclamoreclamo_factura_detallefact_reclamo_factura_detalle912
Hechos reclamoreclamo_nota_credito_detallefact_reclamo_nota_credito_detalle315
Hechos reclamoreclamo_ff_detallefact_reclamo_ff_detalle11428
Dimensióndimdim_cuarteles14446
Dimensión HABhab_parametrodim_hab_parametro_calidad1812
Dimensión HABhab_defectodim_hab_defecto_calidad128
Dimensión HABhab_causa_defectobridge_hab_causa_defecto228
Dimensión HABhab_protocolodim_hab_protocolo_operacional189
Dimensión HABhab_etapadim_hab_etapa_cadena98
Dimensión HABhab_principiodim_hab_principio_gestion_calidad86
Nota anti-leakage: fact_inspeccion_destino contiene el evento y sus atributos post-arribo — se usa para construir el target y queda excluida del set de features.
Modelo de datos BigQuery — 16 tablas en 3 capas
Modelo de datos BigQuery — 16 tablas, 3 capas. fact_exportacion (58.944×90) es el núcleo; fact_inspeccion_destino aporta el target y se excluye del set predictivo. modelo_datos_bigquery_capstone.svg
Distribución del target
El problema es un evento raro: 154 reclamos en 14.736 lotes (1,05%). Toda la estrategia de desbalance y métricas se deriva de este gráfico. Colab V4.0 · auditoría del target
Tasa de reclamo por temporada
Estabilidad temporal del target: tasa por temporada oscila 0,7–1,4% con CV 0,19 — sin drift evidente, pero test 2024-25 (1,44%) sobre el promedio histórico. Colab V4.0 · auditoría causal
Tasa por segmento de materia seca
Materia seca > 28% casi duplica la tasa de reclamo (0,8% → 1,7%). Relación monótona en el tramo alto — consistente con senescencia acelerada. Colab V4.0 · bivariado
Tasa por segmento de desviación de materia seca
La heterogeneidad del lote (desviación de MS) duplica el riesgo: 1,0% → 2,0% entre segmento bajo y alto. Es la variable causal central de la tesis. Colab V4.0 · bivariado
Tasa por segmento de firmeza
Firmeza baja (<34 lb) concentra el riesgo: 1,8% vs ~0,8% en el resto. Variable protectora — coherente con daño mecánico y avance madurativo. Colab V4.0 · bivariado
Boxplot materia seca por reclamo
Distribución condicional: los lotes con reclamo muestran MS mediana superior (~26,5 vs ~25). Separación modesta pero consistente con el mecanismo. Colab V4.0 · distribuciones por clase
Tasa por macro mercado
Europa concentra la tasa de reclamo (~1,5%) — proxy de tránsito largo y estándar de calidad exigente. Variable asociativa, no causal. Colab V4.0 · bivariado categórico
Impacto económico por temporada
El impacto económico es recurrente, no puntual: USD 20–35K por temporada, todas las temporadas. Justifica un sistema permanente, no una campaña. Colab V4.0 · auditoría económica
05.a — Definiciones técnicas: LASSO, VIF, ElasticNet, calibración y métricas — abrir glosario
Definiciones estadísticas empleadas en V6.0 / V8.0. Se incluyen para referencia durante la lectura de resultados.

L1LASSO — Least Absolute Shrinkage and Selection Operator

Regresión penalizada con término λ Σ|βj|. Fuerza coeficientes exactamente a cero → selección automática de variables. Elegida en V6.0 para reducir 33 → 18 predictores conservando interpretabilidad. V6 §06

L2Ridge (L2)

Penalización λ Σ βj². Reduce la magnitud de los coeficientes pero no los anula. Estabiliza en presencia de multicolinealidad; no realiza selección.

ENElasticNet

Combinación convexa L1 + L2 controlada por l1_ratio ∈ [0,1]. Compromiso entre la selección de LASSO y la estabilidad de Ridge cuando las variables candidatas están correlacionadas.

VIFVariance Inflation Factor

VIFj = 1 / (1 − R²j) donde j es el de regresar la variable j sobre el resto. Umbral clásico: VIF > 5–10 indica multicolinealidad problemática. En V6.0 se descartan variables con VIF alto tras LASSO.

C1Calibración sigmoide (Platt)

Ajuste post-hoc P̂(y=1|s) = σ(a·s + b) con a, b estimados por MLE sobre validación. Corrige la subestimación típica de la logística regularizada en clases raras. Requisito para leer el score como probabilidad y aplicar umbral económico.

C2Calibración isotónica

Alternativa no paramétrica (regresión monotónica no decreciente). Más flexible que Platt pero exige más datos en la clase positiva. Evaluada como alternativa; V6.0 opta por sigmoide dado npos, val = 24.

M1PR-AUC vs ROC-AUC en eventos raros

Con base rate ≈ 1%, un clasificador nulo obtiene accuracy ≥ 99% y ROC-AUC puede parecer razonable por dominar el eje TN. PR-AUC es sensible al comportamiento en la clase positiva y por eso se adopta como métrica primaria.

M2F1, F2, MCC, Brier Score

F1 = media armónica de Precision y Recall. F2 pondera Recall (crítico si el FN es caro). MCC ∈ [−1,1] es robusto al desbalance. Brier = E[(p̂−y)²], mide calibración probabilística. Reportamos las cuatro.

THUmbral por función de costo

t* = argmaxt [ TP(t)·B − FP(t)·C ] con B = USD 16.268 y C = USD 1.500. Se estima sobre validación y se aplica sin re-ajuste sobre test.

TKPolítica Top-K

Regla operativa alternativa al umbral: revisar los K lotes con mayor score. Acopla el modelo a la capacidad real de inspección de la planta. Se reporta la curva Beneficio(K) y el K* óptimo.

05 — Pre-procesamiento · 20% rúbrica

Control de fuga temporal e indirecta, ingeniería de interacciones con mecanismo biológico y selección regularizada de variables

La etapa combina tres correcciones metodológicas: (i) exclusión de variables no disponibles al momento del despacho, (ii) cálculo de tasas históricas sobre train únicamente para prevenir data leakage indirecto, y (iii) construcción de interacciones con mecanismo biológico documentado. La selección final se obtiene por LASSO (L1) con control de multicolinealidad por VIF.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Se describen procesamiento de datos, limpieza, detección de outliers, creación de atributos con sentido de negocio y/o uso de aprendizaje no supervisado."
  • Auditoría NaN sistemática: >70% NaN → exclusión automática (18 excluidas / 37 retenidas)
  • Corrección leakage temporal + leakage indirecto en tasas históricas
  • Interacciones causales de negocio propuestas (V9): ms_x_desv · desv_x_transito · ms_x_firmeza; V6.0 / V8.0 actuales entrenan sobre 18 variables base sin interacciones (LASSO no las retuvo)
  • Selección LASSO + VIF → ≤18 variables finales por nivel causal

L1Leakage temporal — corregido

transito_real_dias no existe al momento del despacho: V4.3 lo usaba si estaba disponible. Corrección: solo transito_plan_dias como feature pre-despacho; el real queda para análisis retrospectivo. V6 §04

L2Leakage indirecto en tasas históricas — corregido

tasa_hist_cliente/naviera/mercado ahora se calculan solo con train y se mapean a validación y test. Si esto no se corrige, las métricas están infladas. V6 §04 V6 §05

F1Interacciones con mecanismo biológico V9 planificada

ms_x_desv (madurez × heterogeneidad) y desv_x_transito (heterogeneidad × exposición): riesgo multiplicativo que la logística lineal no captura con términos separados. En V6.0 el LASSO no retuvo estas interacciones sobre la grilla actual; se re-evaluarán en V9 con la variable de frío ampliada. V6 §04 V6 §06

F2Limitaciones documentadas, no silenciosas

quiebre_cadena_frio_h entra al modelo (retenida, imputada) y aparece #4 en importancia por permutación del campeón V8.0. Sin embargo su granularidad actual (agregado por lote) subestima el efecto real: un logger IoT sub-diario en contenedor debería aportar +0,05 a +0,10 ROC-AUC adicional. Limitación ≠ fallo metodológico. V8 §18

Matriz nivel x área de variables
Clasificación causal de variables — 5 niveles × 13 áreas. Mapa de qué variables pueden entrar al modelo y con qué jerarquía de defensa causal. Colab V4.0 · auditoría estratégica
Tasa de reclamo por split
Verificación del split temporal: tasas 0,96% / 1,15% / 1,44% en train/val/test. El test es más difícil que el histórico — se declara, no se esconde. Colab V6.0 · 05_Split_Temporal
Variables finales por nivel
Set final V6.0 tras LASSO + VIF: 18 variables distribuidas en 3 niveles causales (4 causales directas, 6 explicativas, 8 de entorno). Colab V6.0 · 06_Seleccion_Variables
06 — Evaluación primera solución · 20% rúbrica

Primera solución (V6.0): Regresión Logística regularizada, calibrada, con selección de umbral por función de costo

Modelo seleccionado V6_067_l1_C0.5_none_l1rNone: 33 → 18 variables (7 numéricas + 11 categóricas) por LASSO con control VIF; calibración sigmoide (Platt) sobre validación; umbral operativo t = 0,0300. Interpretabilidad directa vía Odds Ratios (macro_mercado_EU OR 7,64; materia_seca_pct OR 1,32). Se conserva como benchmark interpretable frente al laboratorio V8.0.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima
"Existe evaluación del posible sobreajuste, significancia y correcto uso de parámetros. Se compara el método contra reglas simples que se usen actualmente para evaluar posibles beneficios."
  • Sobreajuste: gap val/test analizado · XGBoost nivel-3 descartado por sobreajuste
  • Parámetros: grid de C (LASSO), calibración isotónica, threshold económico
  • Significancia: OR listos · IC 95% bootstrap en curso
  • Comparación vs regla simple del negocio — pendiente (gap crítico)
ROC-AUC test
0,6473
Validación: 0,758 · IC bootstrap en curso V6 §08
PR-AUC test
0,0264
Base rate test = 0,0137 → lift ≈ 1,93× V6 §08
Recall / Sensibilidad
13,79%
4 / 29 reclamos capturados @ t=0,03 V6 §08
Precision / PPV
3,10%
Consistente con base rate y umbral
Matriz de confusión — V6.0 · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0300 V6 §08
Predicho: ReclamoPredicho: Sin reclamo
Real: ReclamoTP = 4FN = 25
Real: Sin reclamoFP = 125TN = 1.960

Matriz reconstruida a partir de Recall = 0,1379 y Precision = 0,0310 reportados en el Reporte Final V6.0 (notebook, sección "Métricas Test"). El umbral t = 0,03 se seleccionó en validación por función de costo — no se reoptimiza en test.

06.a — Split temporal por temporada (V6.0 · sección 05) V6 §05 — abrir
Método: temporal_por_temporada. Respeta la unidad natural de estacionalidad del negocio (temporada de exportación).
RolTemporadasFilasPositivosTasa base
Train2018/19 · 2019/20 · 2020/21 · 2021/22 · 2022/2310.5291010,9593%
Validación2023/242.093241,1467%
Test2024/252.114291,3718% V6 §05
La tasa base es creciente (0,96% → 1,15% → 1,37%): drift positivo — se documenta como fuente de varianza esperada entre validación y test.
06.b — Leaderboard V6.0: 129 configuraciones evaluadas — abrir
Grilla: {L1, L2, ElasticNet} × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none, balanced, risk_5, risk_10} × l1_ratio. Selección por beneficio neto en validación — nunca sobre test.
RankConfigBeneficio validación (USD)
ElegidoV6_067_l1_C0.5_none_l1rNoneUSD 175.500 · ROC-AUC val 0,7584 · PR-AUC val 0,0497 · Recall val 25,0% · MCC val 0,0844 · threshold 0,0300
Grilla completa de 129 configuraciones (L1 · L2 · ElasticNet × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none · balanced · risk_5 · risk_10}) exportada en el notebook V6.0 V6 §06. El campeón se selecciona por beneficio neto en validación, no sobre test.
Lectura estadística: se comparan L1, L2 y ElasticNet con distintos pesos de clase y niveles de C. Lectura operacional: el mejor modelo no maximiza accuracy sino el trade-off económico entre TP y FP. Recomendación ML: conservar el leaderboard completo como evidencia de experimentación.
06.c — Reporte final V6.0 (síntesis del notebook) — abrir
ElementoValor
AlgoritmoRegresión Logística regularizada
LaboratorioL1 · L2 · ElasticNet — 129 configuraciones V6 §06
Modelo seleccionadoV6_067_L1_C0.5_none_l1rNone
Threshold seleccionado en validación0,0300
Calibraciónsigmoid_prefit_validacion (Platt)
SHAPExcluido por diseño — interpretación por coeficientes / OR / efectos marginales / contrafactuales
Universo V4.0 disponible33 variables
Variables finales V6.018 (7 numéricas + 11 categóricas)
Curva de calibración validación
Calibración isotónica en validación: las probabilidades predichas siguen la frecuencia observada en el rango de interés (<5%) — requisito para que el umbral económico tenga sentido. Colab V6.0 · 07_Calibracion
ROC test V6
ROC en test (una corrida): la curva domina el azar en todo el rango. El gap con validación (0,758) se discute como varianza por escasez de positivos (29 en test). Colab V6.0 · 08_Metricas
Matriz de confusión test
Matriz de confusión test @ umbral económico: el modelo prioriza no dejar escapar reclamos (FN=1) al costo de FP altos — decisión económica, no estadística. Colab V6.0 · 08_Metricas
Coeficientes logística
Coeficientes log-odds — interpretabilidad directa (V6.0 §09): Odds Ratios reportados por el notebook — macro_mercado_EU 7,64 · materia_seca_pct 1,32 · quiebre_cadena_frio_h 1,31 · atmosfera_controlada_si 0,80 (protector) · firmeza_pulpa_lb 0,90 (protector). Colab V6.0 · 09_Interpretabilidad
Beneficio neto por threshold
Umbral económico: el beneficio neto en test se maximiza cerca del threshold elegido en validación (0,03) — la decisión transfiere entre conjuntos. Colab V6.0 · 11_Resultados_Negocio
Contrafactuales
Contrafactuales de intervención: mover MS y frío a percentil 25 reduce el riesgo promedio ~0,2 pp; sugiere palancas operacionales (homogeneidad de cosecha). Colab V6.0 · 10_Causalidad
07 — Laboratorio V8.0 · extensión challenger — P3

Laboratorio V8.0: comparación de modelos challenger bajo validación temporal y selección por métricas de negocio y F1

Base metodológica heredada de V6.0 (18 variables, mismo split temporal). Familias evaluadas: Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost, con búsqueda de hiperparámetros. Selección de campeón sobre validación por F1-Score y beneficio; bootstrap del beneficio y análisis causal complementario (RF Causal, AIPW / Double-Robust). Modelo campeón: V8_0225_XGBoost, threshold operativo t = 0,0150. V8 §22 V8 §16

Por qué esto suma a la rúbrica — ver detalle
Evidencia comparativa entre familias, selección de campeón sin tocar test, robustez por bootstrap y diagnóstico causal formal — el estándar que exige una defensa de Magíster.
  • Ranking de +200 configuraciones por beneficio en validación
  • Bootstrap 100 del beneficio del campeón (incertidumbre, no punto único)
  • RF causal con diagnóstico de positividad — hallazgo honesto: soporte común violado
ROC-AUC test
0,6819
+3,5 pp vs V6.0 (0,6473) V8 §16
PR-AUC test
0,0344
Lift ≈ 2,51× sobre base rate
Recall
37,93%
11 / 29 reclamos capturados
Precision
3,65%
Consistente con base rate 1,37%
F1-Score
0,0667
F2 = 0,1319 (pondera Recall)
MCC
0,0800
Robusto al desbalance
Brier Score
0,0135
Calibración probabilística
Beneficio neto (t*)
USD 225.000
Top-K* = 150 → USD 205.500 V8 §11
Matriz de confusión — V8.0 XGBoost · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0150 V8 §16
Predicho: ReclamoPredicho: Sin reclamo
Real: ReclamoTP = 11FN = 18
Real: Sin reclamoFP = 290TN = 1.795

Matriz reconstruida a partir de Recall = 0,3793 y Precision = 0,0365 reportados en el Reporte Final V8.0. El campeón captura ≈ 2,75× más reclamos que V6.0 al mismo horizonte temporal, con precisión estable.

Comparativa test 2024/25 V8 §22V6.0 · Regresión LogísticaV8.0 · XGBoost campeónΔ
RolBenchmark interpretableModelo de alto desempeño
ROC-AUC0,64730,6819+5,3%
PR-AUC0,02640,0344+30,3%
Recall13,79%37,93%+24,1 pp
Precision3,10%3,65%+0,55 pp
F1-Score0,0667
Beneficio neto (umbral)USD 52.500USD 225.000+328%
Beneficio neto (Top-K*)USD 205.500 · K* = 150
07.a — Importancia por permutación · variables del campeón V8 §18 — abrir
Importancia por permutación (caída de PR-AUC al permutar la variable) del campeón V8_0225_XGBoost sobre test. En el notebook V8.0 SHAP no se computa (SHAP activo = False); la interpretación del challenger se realiza vía permutation importance y se triangula con los OR de la logística V6.0.
#VariableΔPR-AUC (media)StdNivel causal (V4.0)
1macro_mercado0,01200,0038Nivel 3 · Entorno
2firmeza_pulpa_lb0,00820,0034Nivel 2 · Explicativa
3materia_seca_pct0,00750,0042Nivel 1 · Causal directa
4quiebre_cadena_frio_h0,00470,0036Nivel 1 · Causal directa
5naviera0,00340,0015Nivel 3 · Entorno
6atmosfera_controlada0,00310,0012Nivel 2 · Explicativa
7edad_arboles_anos0,00180,0050Nivel 2 · Explicativa
8densidad_arboles_ha0,00170,0010Nivel 2 · Explicativa
9tipo_contenedor0,00150,0006Nivel 3 · Entorno
10linea_packing0,00030,0016Nivel 3 · Entorno
Triangulación con V6.0: materia_seca_pct y firmeza_pulpa_lb son también variables con mayor peso en los Odds Ratios de la logística (OR de macro_mercado_EU = 7,64; materia_seca_pct = 1,32 V6 §09). Coincidencia entre familias interpretable / no lineal, lo que refuerza que la señal está en las variables — no en el algoritmo.
07.b — Definiciones: AIPW / Double-Robust, RF Causal, contrafactuales, Top-K V8 §20 — abrir

DRAIPW · Doubly Robust

τ̂DR = E[ μ̂1(X) − μ̂0(X) + T(Y − μ̂1(X))/ê(X) − (1−T)(Y − μ̂0(X))/(1−ê(X)) ]. Consistente si el modelo de outcome μ̂ o el modelo de propensión ê están correctamente especificados (doble robustez). V8 §20

RF-CRandom Forest Causal

Estimador no paramétrico del efecto de tratamiento condicional τ(x) = E[Y(1) − Y(0) | X=x]. En V8.0 diagnostica violación de positividad sobre atmosfera_controlada: propensity bimodal — el efecto causal no es identificable sin restringir a soporte común. V8 §20

CFContrafactuales de intervención

Simulación bajo el modelo entrenado: mover materia_seca_pct y firmeza_pulpa_lb a percentil 25 y recalcular P̂(reclamo). No prueban causalidad; cuantifican efectos operacionales bajo el modelo. V8 §10

TopKPolítica Top-K

Regla operativa: revisar los K lotes con mayor score. Se reporta la curva Beneficio(K). En V8.0, K* = 150 maximiza el beneficio (USD 205.500) para una carga operacional realista de la planta. V8 §11

Comparación ROC top modelos V8
ROC en test — top modelos V8.0: los mejores ensambles se mueven en 0,64–0,72. Ningún challenger separa dramáticamente de la logística: señal de que el techo está en los datos, no en el algoritmo. Colab V8.0 · 17_Curvas
Lift acumulado campeón
Lift 3,1× en el primer decil: revisando el 10% de mayor score se capturan ~3× más reclamos que al azar — el argumento operacional más fuerte del modelo. Colab V8.0 · 17_Curvas
Recall vs capacidad top-k
Recall según capacidad de revisión (Top-K): con 150 lotes revisados, el campeón captura 24% de los reclamos vs 21% de la logística. La política Top-K conecta el modelo con la capacidad real de la planta. Colab V8.0 · 16_Ranking
Beneficio vs top-k
Beneficio neto vs Top-K: máximo ~USD 205K revisando 150 lotes. El campeón domina a la logística en casi todo el rango de capacidad. Colab V8.0 · 16_Ranking
Importancia por permutación
Importancia por permutación (PR-AUC): macro_mercado, firmeza y materia seca lideran — consistente con los OR de la logística y con el mecanismo causal propuesto. Triangulación de 3 métodos de importancia. Colab V8.0 · 18_Importancia
Bootstrap beneficio
Bootstrap del beneficio del campeón (V8.0 §19): media USD 231.960 · IC 95% empírico [USD −135.150 · USD 629.700]. Masa claramente positiva pero con cola izquierda — el beneficio se reporta con incertidumbre, no como promesa. Colab V8.0 · 19_Robustez
Diagnóstico de positividad
Diagnóstico de positividad (propensity score): distribución bimodal — tratados y controles casi no se solapan en atmósfera controlada. Hallazgo honesto: el efecto causal no es identificable sin restringir a soporte común. Colab V8.0 · 20_RF_Causal
08 — Palancas operacionales y defensa causal · lectura de negocio del modelo

Variables intervenibles priorizadas por los modelos y criterios de defensa causal

El modelo campeón (V8.0) y el benchmark interpretable (V6.0) coinciden en priorizar variables agronómicas y logísticas que la operación puede modificar antes del despacho. Se distingue entre asociación estadística y evidencia causal siguiendo cuatro criterios explícitos.

P1Reducir heterogeneidad de materia seca

Homogeneizar la ventana de MS del lote (varianza intra-lote) mediante corte por bloques de madurez fisiológica. Priorización agronómica; palanca respaldada por permutation importance y Odds Ratios. V8 §18 V6 §09

P2Evitar fruta con baja firmeza en tránsitos largos

Reasignar lotes con firmeza_pulpa_lb baja a clientes o rutas de menor duración, o a mercados con menor tolerancia a maduración avanzada. V8 §18 V6 §09

P3Reasignar fruta sensible a destinos cortos

Emparejar segmentación de cliente / mercado con la ventana de tránsito planificada; reducir la exposición acumulada de lotes de alto riesgo. V8 §20 V4 §9

P4Acelerar el paso cosecha → packing

Reducir dias_cosecha_a_packing para disminuir deterioro fisiológico temprano y variabilidad interna del lote. V8 §18

P5Intervención integral en lotes de alto riesgo

Aplicar las cuatro palancas simultáneamente cuando coinciden heterogeneidad de MS, baja firmeza, tránsito largo y packing lento — el peor cuadrante identificado por los contrafactuales. V8 §10

DCCriterios de defensa causal

Machine Learning aprende asociaciones. Para hablar de causalidad exigimos: (i) temporalidad — la variable ocurre antes del reclamo, (ii) mecanismo fisiológico o logístico plausible, (iii) intervenibilidad por la operación, (iv) coherencia en signo e intensidad entre modelos y literatura. V4 §5 V8 §20

08.a — Tabla de intervenciones operacionales (síntesis V8.0) V8 §20 — abrir
VariableTipo de evidenciaMecanismoAcción operacionalPrioridad
materia_seca_pct / desviacion_materia_seca_pctCausal (fisiológica)Madurez asincrónica dentro del contenedorHomogeneizar corte por bloques de MSAlto
firmeza_pulpa_lbCausal (estructural)Ablandamiento acelerado en tránsitoReasignar a rutas cortas / clientes tolerantesAlto
transito_plan_dias / desv_x_transitoCausal (exposición)Ventana de maduración prolongadaPreferir rutas cortas para fruta sensibleAlto
dias_cosecha_a_packingCausal (deterioro temprano)Pérdida de calidad antes de atmósfera controladaReducir tiempo cosecha → packingMedio
cliente_tipo / pais_destino / macro_mercadoAsociativa comercialDiferencias de exigencia y toleranciaNo enviar fruta sensible a clientes exigentesMedio
Tasas históricas cliente / mercado / navieraPredictiva (no necesariamente causal)Resumen de riesgo histórico — puede capturar factores no observadosUsar como señal de alerta, no como evidencia causalMedio
09 — Consultas metodológicas al profesor patrocinante · bifurcaciones abiertas

Seis decisiones metodológicas abiertas antes del cierre de P2

Se listan las bifurcaciones estadísticas y de diseño experimental que requieren juicio experto antes de congelar los números oficiales para la Presentación 2 del 27–28 de julio.

Métrica primaria: PR-AUC absoluta vs lift relativo a la base

El PR-AUC test de V8.0 (0,0344) parece bajo en términos absolutos, pero equivale a un lift ≈ 2,51× sobre la base rate (0,0137). ¿Se recomienda reportar la métrica en términos absolutos, en lift, o ambos? V8 §22 V8 §16

Regla de decisión: umbral por función de costo vs política Top-K

El umbral t = 0,015 maximiza beneficio pero alerta ~300 lotes (14% del test) para una precisión de 3,65%. La política K* = 150 ofrece beneficio comparable con carga operacional acotada. ¿Cuál se recomienda como decisión principal en P2? V8 §11

Inferencia sobre Odds Ratios en presencia de calibración post-hoc

Se planea bootstrap para IC 95% de OR y de métricas test. ¿Es coherente reportar significancia de coeficientes cuando se aplica calibración sigmoide posterior, o se prefiere inferencia Wald sobre el modelo sin calibrar? V6 §07 V6 §09

Violación de positividad en el análisis causal (RF Causal)

El propensity score sobre atmosfera_controlada es bimodal (≈ 0,35 vs ≈ 0,95): no hay soporte común. Opciones: (a) restringir al overlap común (pérdida de n), (b) AIPW con trimming, (c) limitar el claim a asociación + mecanismo respaldado por literatura. ¿Recomendación? V8 §20

Diseño de validación: split único vs TimeSeriesSplit multi-fold

Con 29 positivos en test, un único split tiene varianza alta (val 0,758 vs test 0,65). ¿Se recomienda TimeSeriesSplit con 3+ folds para P2, o basta declararlo como limitación y reservarlo para P3? V6 §05 V8 §19

Regla simple del negocio como benchmark comparativo

La rúbrica exige comparar contra las reglas actuales de la empresa. Candidatas: (a) revisar lotes de clientes con historial de reclamo, (b) materia_seca_pct > 30%, (c) mercado EU + tránsito largo. ¿Cuál se considera el benchmark justo? V4 §9 V6 §13

10 — Plan de trabajo al 27–28 de julio · cierre P2

Cronograma de cierre para los seis criterios de la rúbrica P2

Sem 06–12 jul

Benchmark vs regla simple del negocio (según definición de hoy) + IC bootstrap de OR y métricas test. Cierra el gap crítico de la rúbrica.

Sem 06–12 jul

Validación experta de variables top con agrónomo y jefe de packing (OE3: ≥80% de coherencia).

Sem 13–19 jul

TimeSeriesSplit 3+ folds (si se exige hoy) + decisión final umbral vs Top-K + congelar números oficiales de P2.

Sem 20–26 jul

PPT 15 minutos con la estructura de este sitio (1 criterio = 1–2 láminas) + 2 ensayos cronometrados + QA de defensa (documento de 60 preguntas ya construido en V8).

27–28 jul

P2: subir presentación a Webcursos al inicio de la jornada (no subirla = −1 punto) · asistencia completa del equipo.

Después de P2 → ruta a P3

Gestionar logger de temperatura en contenedor (variable de mayor impacto esperado: +0,05 a +0,10 ROC-AUC) · trazabilidad SKU-factura-reclamo para limpiar target noise · semáforo operacional calibrado + ROI (OE4) · comparación final de soluciones IA.

11 — Detalle · notebooks fuente · trazabilidad completa

Cada afirmación de este documento es verificable en el Colab correspondiente

Los tres notebooks (V4.0 auditoría causal · V6.0 regresión logística · V8.0 laboratorio challenger) están embebidos aquí como HTML estático navegable. Los pequeños enlaces V6 §13 distribuidos por el documento abren un panel lateral que aterriza directo en la sección del notebook que respalda ese claim. Esc o click fuera del panel devuelve al lector al mismo párrafo, sin perder el hilo.

V4.0 · Auditoría

Auditoría causal y económica

Universo candidato de variables antes de modelar. Clasificación en cinco niveles de defensa causal, matrices ejecutivas y auditoría económica sin modelo.

~12 secciones · fuente: BigQuery capstone_ml_ds
Nueva pestaña
V6.0 · Benchmark

Regresión Logística interpretable

Selección LASSO + VIF, split temporal, calibración sigmoide, umbral económico, 129 configuraciones evaluadas, reporte final con hiperparámetros.

~16 secciones · 18 variables finales · threshold 0,03
Nueva pestaña
V8.0 · Challenger

Laboratorio XGBoost / LightGBM / RF Causal

Optimización de hiperparámetros, curvas completas (ROC, PR, Lift, Gain, calibración), Top-K, robustez bootstrap, importancia de variables y RF Causal con AIPW / Double-Robust.

Campeón: XGBoost V8_0225 · ~24 secciones
Nueva pestaña