Avance P2 · Reunión Profesor Guía · 3 de julio 2026

Predicción binaria pre-despacho de reclamo comercial en exportación de Palta Hass

Formulación: modelar P(reclamo_comercial = 1 | X) a nivel lote / contenedor con información disponible antes del zarpe. Diseño experimental en tres versiones — V4.0 (auditoría causal), V6.0 (Regresión Logística regularizada, benchmark interpretable) y V8.0 (laboratorio de modelos challenger). Validación temporal estricta, calibración post-hoc y selección de umbral por función de costo. Documento estructurado según los seis criterios de la rúbrica P2.

Equipo: A. Cofré · F. Cortés · A. Santiago Profs: R. De la Cruz PhD · E. Méndez PhD Target: reclamo_comercial · base rate 1,05% ↗V4 §3 Validación: split temporal por temporada · métrica primaria: PR-AUC + beneficio neto P2: 27–28 julio 2026 · 15 min

Recall test — campeón XGBoost V8.0

11 / 29 reclamos capturados · threshold 0,015 ↗V8 §16

PR-AUC test — campeón

Base rate 0,0137 → lift ≈ 2,5× ↗V8 §22

Beneficio neto test — campeón

Umbral económico · función de costo B/C ↗V8 §11

Mejora económica vs benchmark V6.0

USD 52.500 ↗V6 §13 → USD 225.000 ↗V8 §22 (test 2024-25)

00 — Mapa de la rúbrica · cómo leer este avance

Estructura del documento y correspondencia con los seis criterios de evaluación P2

La rúbrica evalúa seis criterios en escala 0 / 0,5 / 1,0. Cada sección incluye un acordeón Rúbrica · descriptor 1,0 que explicita qué exige la nota máxima y qué evidencia lo cubre: ● verde (cubierto), ● ámbar (en curso), ● rojo (pendiente).

Criterio	Peso	Descriptor 1,0 (resumen)	Estado	Sección
Descripción del problema	10%	Correcta + justificación + evaluación económica + innovación explícita	Cubierto	01
Objetivos	10%	Bien planteados, con entregables y KPI medibles	Cubierto	02
Metodología	20%	Modelos, variables, KPI a pronosticar y formas de evaluación especificados	Cubierto	03
Descripción y visualización de datos	20%	EDA que funda la capacidad de predecir con los datos	Cubierto	04
Pre-procesamiento	20%	Limpieza, outliers, atributos con sentido de negocio	Cubierto	05
Evaluación primera solución	20%	Sobreajuste, significancia, parámetros + comparación contra reglas simples	1 pendiente	06

Gap pendiente para el 1,0 en Evaluación primera solución

La rúbrica exige comparar el modelo contra las reglas simples que la empresa aplica actualmente. Se dispone de benchmark interno entre versiones (V6.0 vs V8.0) pero falta la regla operativa de la contraparte. Candidata: "historial de cliente + materia seca > 30%", a validar con el profesor patrocinante. → Consulta 06

01 — Descripción del problema · 10% rúbrica

Predicción binaria de reclamo comercial a nivel lote / contenedor con información pre-despacho

Contexto de industria: Chile es el 7° exportador mundial de palta (USD 292M FOB en 2024) y la empresa patrocinante despacha ~3.200 contenedores por temporada a 32 destinos. Un lote heterogéneo en madurez fisiológica (materia seca dispersa, firmeza baja, tránsito largo) madura de forma asincrónica en atmósfera controlada y el defecto se detecta recién en inspección de arribo. La detección es entonces reactiva y los costos de reclamo se acumulan sin señal previa.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Descripción correcta, justificación, evaluación económica del potencial del proyecto, está explícita la innovación del proyecto."

Justificación cuantitativa con datos reales (ya no estimaciones P1): 154 reclamos, USD 195.259 auditados
Evaluación económica del potencial: beneficio neto verificado USD 225.000 en test 2024-25 (campeón V8.0)
Innovación explícita declarada (3 componentes, abajo)

i1Score de riesgo pre-despacho

Estimación de P(reclamo) a nivel lote de exportación, integrando variables agronómicas, poscosecha y logísticas disponibles antes del zarpe. Sustituye la inspección reactiva en destino por una señal ex-ante. ↗V4 §3

i2Auditoría causal previa al modelado

V4.0 clasifica las variables candidatas en cinco niveles de defensa causal, con respaldo en literatura postcosecha de Persea americana, antes de entrenar. Incorpora interacciones con mecanismo biológico como features. ↗V4 §5 ↗V4 §6

i3Umbral por función de costo

El punto de corte se selecciona resolviendo argmax_t [TP(t)·B − FP(t)·C] con B = USD 16.268 (costo evitado por FN) y C = USD 1.500 (costo de revisión). No se optimiza accuracy ni F1 puro. ↗V8 §11 ↗V4 §8

Magnitud del problema	Valor auditado (V4.0)
Lotes de exportación analizados	14.736 · 7 temporadas (2018-19 → 2024-25)
Reclamos comerciales (target)	154 · tasa base ≈ 1,05% · evento raro / clase minoritaria
Impacto económico documentado	USD 195.259 · promedio USD 1.268 por reclamo
Costo total por reclamo no detectado (FN)	USD 16.268 = 1.268 auditado + 15.000 logístico estimado (supuesto explícito)
Beneficio neto test (campeón V8.0)	USD 225.000 · temporada 2024-25 · +328% vs benchmark V6.0

02 — Objetivos · 10% rúbrica

Objetivos específicos con KPI declarados en P1 y estado medido contra resultados reales

Objetivo general: desarrollar un modelo predictivo del riesgo de reclamo comercial integrando variables agronómicas, poscosecha y logísticas, de modo de anticipar la calidad de arribo antes del despacho. Los KPI comprometidos en P1 se auditan aquí contra las métricas obtenidas — incluida la brecha entre lo comprometido y lo alcanzado.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Objetivos bien planteados, asociados a entregables, con KPI claros y medibles."

4 OE en infinitivo, cada uno con entregable y KPI numérico
Estado medido contra datos reales (no autoevaluación)
KPI AUC ≥ 0,80 aún no alcanzado → plan de cierre declarado

Objetivo específico	KPI comprometido (P1)	Estado hoy	Evidencia
OE1 · Construir base analítica trazable	Trazabilidad ≥ 80% · completitud ≥ 75%	Logrado	14.736 lotes · 16 tablas · 37 variables retenidas post-auditoría NaN
OE2 · Desarrollar y comparar modelos con validación temporal	AUC-ROC ≥ 0,80 · F1 ≥ 0,70 · +10 pts vs baseline	En curso	ROC-AUC test: 0,6473 (V6.0) · 0,6819 (V8.0). Brecha vs 0,80: plan = variable de frío (logger IoT sub-diario) + interacciones V9. Techo realista sin nuevos datos: 0,70–0,74
OE3 · Identificar y cuantificar variables predictoras	≥ 5 variables significativas · ≥ 80% validadas por experto	En curso	Odds Ratios V6.0 + importancia por permutación V8.0 listos ↗V6 §09 ↗V8 §18 · SHAP excluido por diseño en V6.0 / V8.0 · validación con agrónomo pendiente
OE4 · Proponer semáforo de riesgo calibrado	Reducción reclamos ≥ 20% · ROI positivo	En curso	Umbral económico y beneficio USD listos · diseño del semáforo es alcance P3

03 — Metodología · 20% rúbrica

Diseño experimental en tres versiones: auditoría causal, benchmark interpretable, laboratorio challenger

La auditoría causal (V4.0) precede al entrenamiento: define qué variables pueden entrar y por qué. La Regresión Logística regularizada (V6.0) constituye la primera solución exigida por P2, interpretable en términos de Odds Ratios y calibrada. El laboratorio V8.0 compara familias no lineales bajo protocolo temporal idéntico. La selección de campeón se realiza sobre validación; test se evalúa una única vez.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Se especifican modelos, variables, kpi a pronosticar, formas de evaluar el modelo."

Target: reclamo_comercial binario a nivel lote_exportacion_id
Modelos: logística L1/L2 · RF · XGBoost · LightGBM · HistGB
Evaluación: split temporal por temporada + ROC/PR-AUC + beneficio USD + calibración + bootstrap
Desbalance: class_weight + umbral económico (SMOTE descartado y justificado)

V4.0Auditoría causal y económica

Sin modelo. Construcción del target, clasificación de 37 variables candidatas en cinco niveles de defensa causal, cuantificación económica (USD 195K auditados) y matrices ejecutivas de asociación. Define el universo de variables admisibles y su justificación. ↗V4 §5 ↗V4 §8 ↗V4 §9

V6.0Regresión Logística regularizada — primera solución P2

Selección de variables por LASSO (L1) y control de multicolinealidad por VIF, con interacciones de mecanismo biológico. 129 configuraciones (L1 / L2 / ElasticNet × C × class_weight); calibración sigmoide (Platt) sobre validación; selección de umbral por función de costo. 33 → 18 variables finales. ↗V6 §06 ↗V6 §13

V8.0Laboratorio de modelos challenger

Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost con búsqueda de hiperparámetros. Ranking por F1 y beneficio en validación temporal, bootstrap del beneficio del campeón y análisis causal complementario (RF Causal, AIPW / Double-Robust). ↗V8 §15 ↗V8 §20

Decisión metodológica	Elección	Justificación estadística
Validación	Split temporal por temporada — train 2018/19–2022/23 · validación 2023/24 · test 2024/25	Respeta la estacionalidad e impide filtración del futuro. Tasa base por partición verificada (train 0,96% · val 1,15% · test 1,37%). ↗V6 §05
Desbalance de clases (~1%)	`class_weight` / `scale_pos_weight` + umbral por función de costo	Con ~100 positivos en train, SMOTE genera sintéticos poco plausibles y undersampling descarta información. La reponderación mantiene la estructura de la muestra.
Métrica primaria	PR-AUC + beneficio neto en USD — no accuracy	Con base ≈ 1% la accuracy es trivialmente ≥ 99% para el clasificador nulo. PR-AUC es sensible al comportamiento en la clase positiva; el beneficio operacionaliza el trade-off FN/FP asimétrico.
Calibración de probabilidades	Sigmoide (Platt) sobre validación — isotónica evaluada como alternativa ↗V6 §07	El umbral económico exige que el score se lea como probabilidad. Sin calibración, la logística regularizada tiende a subestimar en clases raras.
Selección de campeón	Sobre validación, jamás sobre test	Test se evalúa una única vez para acotar el sesgo de selección (data snooping).

04 — Descripción y visualización de datos · 20% rúbrica

Análisis exploratorio: evidencia asociativa y verificación de supuestos previos al modelado

El datamart consta de 15 tablas BigQuery organizadas en tres capas (hechos operacionales, hechos documentales de reclamo, dimensiones HAB de calidad). La tabla de inspección en destino contiene el target y se excluye de las features (primera decisión anti-leakage). El EDA bivariado documenta la relación entre cada variable candidata y la tasa de reclamo condicional, como sustento del universo de features admitidas al modelado.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Muestran gráficos y análisis que fundan la capacidad de usar la data para predecir y resolver el problema planteado (EDA)."

Modelo de datos documentado con claves y cardinalidades
Desbalance y estabilidad temporal del target (CV inter-temporada 0,19)
Relaciones monótonas variable → tasa de reclamo (evidencia predictiva)
Distribuciones condicionales por clase (boxplots)

04.a — Origen de los datos: 15 tablas del datamart BigQuery — abrir tabla completa

Inventario oficial cargado en el notebook V6.0 (paso 01_Carga). Los hechos operacionales aportan las features; los hechos documentales soportan la construcción del target; las dimensiones HAB soportan la interpretación causal.

Capa	Alias	Tabla BigQuery	Filas	Columnas
Hechos operacionales	cosecha	`fact_cosecha`	60.480	77
Hechos operacionales	expo	`fact_exportacion`	58.944	90
Hechos operacionales	clima	`fact_clima`	14.796	26
Hechos operacionales	insp	`fact_inspeccion_destino` target	14.736	24
Hechos reclamo	reclamo_documento_cabecera	`fact_reclamo_documento_cabecera`	9	21
Hechos reclamo	reclamo_factura_detalle	`fact_reclamo_factura_detalle`	9	12
Hechos reclamo	reclamo_nota_credito_detalle	`fact_reclamo_nota_credito_detalle`	3	15
Hechos reclamo	reclamo_ff_detalle	`fact_reclamo_ff_detalle`	114	28
Dimensión	dim	`dim_cuarteles`	144	46
Dimensión HAB	hab_parametro	`dim_hab_parametro_calidad`	18	12
Dimensión HAB	hab_defecto	`dim_hab_defecto_calidad`	12	8
Dimensión HAB	hab_causa_defecto	`bridge_hab_causa_defecto`	22	8
Dimensión HAB	hab_protocolo	`dim_hab_protocolo_operacional`	18	9
Dimensión HAB	hab_etapa	`dim_hab_etapa_cadena`	9	8
Dimensión HAB	hab_principio	`dim_hab_principio_gestion_calidad`	8	6

Nota anti-leakage: fact_inspeccion_destino contiene el evento y sus atributos post-arribo — se usa para construir el target y queda excluida del set de features.

Modelo de datos BigQuery — 16 tablas en 3 capas — **Modelo de datos BigQuery — 16 tablas, 3 capas.** fact_exportacion (58.944×90) es el núcleo; fact_inspeccion_destino aporta el target y se excluye del set predictivo. modelo_datos_bigquery_capstone.svg

Distribución del target — **El problema es un evento raro:** 154 reclamos en 14.736 lotes (1,05%). Toda la estrategia de desbalance y métricas se deriva de este gráfico. Colab V4.0 · auditoría del target

Tasa de reclamo por temporada — **Estabilidad temporal del target:** tasa por temporada oscila 0,7–1,4% con CV 0,19 — sin drift evidente, pero test 2024-25 (1,44%) sobre el promedio histórico. Colab V4.0 · auditoría causal

Tasa por segmento de materia seca — **Materia seca > 28% casi duplica la tasa de reclamo** (0,8% → 1,7%). Relación monótona en el tramo alto — consistente con senescencia acelerada. Colab V4.0 · bivariado

Tasa por segmento de desviación de materia seca — **La heterogeneidad del lote (desviación de MS) duplica el riesgo:** 1,0% → 2,0% entre segmento bajo y alto. Es la variable causal central de la tesis. Colab V4.0 · bivariado

Tasa por segmento de firmeza — **Firmeza baja (<34 lb) concentra el riesgo:** 1,8% vs ~0,8% en el resto. Variable protectora — coherente con daño mecánico y avance madurativo. Colab V4.0 · bivariado

Boxplot materia seca por reclamo — **Distribución condicional:** los lotes con reclamo muestran MS mediana superior (~26,5 vs ~25). Separación modesta pero consistente con el mecanismo. Colab V4.0 · distribuciones por clase

Tasa por macro mercado — **Europa concentra la tasa de reclamo** (~1,5%) — proxy de tránsito largo y estándar de calidad exigente. Variable asociativa, no causal. Colab V4.0 · bivariado categórico

Impacto económico por temporada — **El impacto económico es recurrente, no puntual:** USD 20–35K por temporada, todas las temporadas. Justifica un sistema permanente, no una campaña. Colab V4.0 · auditoría económica

05.a — Definiciones técnicas: LASSO, VIF, ElasticNet, calibración y métricas — abrir glosario

Definiciones estadísticas empleadas en V6.0 / V8.0. Se incluyen para referencia durante la lectura de resultados.

L1LASSO — Least Absolute Shrinkage and Selection Operator

Regresión penalizada con término λ Σ|β_j|. Fuerza coeficientes exactamente a cero → selección automática de variables. Elegida en V6.0 para reducir 33 → 18 predictores conservando interpretabilidad. ↗V6 §06

L2Ridge (L2)

Penalización λ Σ β_j². Reduce la magnitud de los coeficientes pero no los anula. Estabiliza en presencia de multicolinealidad; no realiza selección.

ENElasticNet

Combinación convexa L1 + L2 controlada por l1_ratio ∈ [0,1]. Compromiso entre la selección de LASSO y la estabilidad de Ridge cuando las variables candidatas están correlacionadas.

VIFVariance Inflation Factor

VIF_j = 1 / (1 − R²_j) donde R²_j es el R² de regresar la variable j sobre el resto. Umbral clásico: VIF > 5–10 indica multicolinealidad problemática. En V6.0 se descartan variables con VIF alto tras LASSO.

C1Calibración sigmoide (Platt)

Ajuste post-hoc P̂(y=1|s) = σ(a·s + b) con a, b estimados por MLE sobre validación. Corrige la subestimación típica de la logística regularizada en clases raras. Requisito para leer el score como probabilidad y aplicar umbral económico.

C2Calibración isotónica

Alternativa no paramétrica (regresión monotónica no decreciente). Más flexible que Platt pero exige más datos en la clase positiva. Evaluada como alternativa; V6.0 opta por sigmoide dado n_{pos, val} = 24.

M1PR-AUC vs ROC-AUC en eventos raros

Con base rate ≈ 1%, un clasificador nulo obtiene accuracy ≥ 99% y ROC-AUC puede parecer razonable por dominar el eje TN. PR-AUC es sensible al comportamiento en la clase positiva y por eso se adopta como métrica primaria.

M2F1, F2, MCC, Brier Score

F1 = media armónica de Precision y Recall. F2 pondera Recall (crítico si el FN es caro). MCC ∈ [−1,1] es robusto al desbalance. Brier = E[(p̂−y)²], mide calibración probabilística. Reportamos las cuatro.

THUmbral por función de costo

t* = argmax_t [ TP(t)·B − FP(t)·C ] con B = USD 16.268 y C = USD 1.500. Se estima sobre validación y se aplica sin re-ajuste sobre test.

TKPolítica Top-K

Regla operativa alternativa al umbral: revisar los K lotes con mayor score. Acopla el modelo a la capacidad real de inspección de la planta. Se reporta la curva Beneficio(K) y el K* óptimo.

05 — Pre-procesamiento · 20% rúbrica

Control de fuga temporal e indirecta, ingeniería de interacciones con mecanismo biológico y selección regularizada de variables

La etapa combina tres correcciones metodológicas: (i) exclusión de variables no disponibles al momento del despacho, (ii) cálculo de tasas históricas sobre train únicamente para prevenir data leakage indirecto, y (iii) construcción de interacciones con mecanismo biológico documentado. La selección final se obtiene por LASSO (L1) con control de multicolinealidad por VIF.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Se describen procesamiento de datos, limpieza, detección de outliers, creación de atributos con sentido de negocio y/o uso de aprendizaje no supervisado."

Auditoría NaN sistemática: >70% NaN → exclusión automática (18 excluidas / 37 retenidas)
Corrección leakage temporal + leakage indirecto en tasas históricas
Interacciones causales de negocio propuestas (V9): ms_x_desv · desv_x_transito · ms_x_firmeza; V6.0 / V8.0 actuales entrenan sobre 18 variables base sin interacciones (LASSO no las retuvo)
Selección LASSO + VIF → ≤18 variables finales por nivel causal

L1Leakage temporal — corregido

transito_real_dias no existe al momento del despacho: V4.3 lo usaba si estaba disponible. Corrección: solo transito_plan_dias como feature pre-despacho; el real queda para análisis retrospectivo. ↗V6 §04

L2Leakage indirecto en tasas históricas — corregido

tasa_hist_cliente/naviera/mercado ahora se calculan solo con train y se mapean a validación y test. Si esto no se corrige, las métricas están infladas. ↗V6 §04 ↗V6 §05

F1Interacciones con mecanismo biológico V9 planificada

ms_x_desv (madurez × heterogeneidad) y desv_x_transito (heterogeneidad × exposición): riesgo multiplicativo que la logística lineal no captura con términos separados. En V6.0 el LASSO no retuvo estas interacciones sobre la grilla actual; se re-evaluarán en V9 con la variable de frío ampliada. ↗V6 §04 ↗V6 §06

F2Limitaciones documentadas, no silenciosas

quiebre_cadena_frio_h entra al modelo (retenida, imputada) y aparece #4 en importancia por permutación del campeón V8.0. Sin embargo su granularidad actual (agregado por lote) subestima el efecto real: un logger IoT sub-diario en contenedor debería aportar +0,05 a +0,10 ROC-AUC adicional. Limitación ≠ fallo metodológico. ↗V8 §18

Matriz nivel x área de variables — **Clasificación causal de variables — 5 niveles × 13 áreas.** Mapa de qué variables pueden entrar al modelo y con qué jerarquía de defensa causal. Colab V4.0 · auditoría estratégica

Tasa de reclamo por split — **Verificación del split temporal:** tasas 0,96% / 1,15% / 1,44% en train/val/test. El test es más difícil que el histórico — se declara, no se esconde. Colab V6.0 · 05_Split_Temporal

Variables finales por nivel — **Set final V6.0 tras LASSO + VIF:** 18 variables distribuidas en 3 niveles causales (4 causales directas, 6 explicativas, 8 de entorno). Colab V6.0 · 06_Seleccion_Variables

06 — Evaluación primera solución · 20% rúbrica

Primera solución (V6.0): Regresión Logística regularizada, calibrada, con selección de umbral por función de costo

Modelo seleccionado V6_067_l1_C0.5_none_l1rNone: 33 → 18 variables (7 numéricas + 11 categóricas) por LASSO con control VIF; calibración sigmoide (Platt) sobre validación; umbral operativo t = 0,0300. Interpretabilidad directa vía Odds Ratios (macro_mercado_EU OR 7,64; materia_seca_pct OR 1,32). Se conserva como benchmark interpretable frente al laboratorio V8.0.

Rúbrica · descriptor 1,0 — ver qué exige la nota máxima

"Existe evaluación del posible sobreajuste, significancia y correcto uso de parámetros. Se compara el método contra reglas simples que se usen actualmente para evaluar posibles beneficios."

Sobreajuste: gap val/test analizado · XGBoost nivel-3 descartado por sobreajuste
Parámetros: grid de C (LASSO), calibración isotónica, threshold económico
Significancia: OR listos · IC 95% bootstrap en curso
Comparación vs regla simple del negocio — pendiente (gap crítico)

ROC-AUC test

0,6473

Validación: 0,758 · IC bootstrap en curso ↗V6 §08

PR-AUC test

0,0264

Base rate test = 0,0137 → lift ≈ 1,93× ↗V6 §08

Recall / Sensibilidad

13,79%

4 / 29 reclamos capturados @ t=0,03 ↗V6 §08

Precision / PPV

3,10%

Consistente con base rate y umbral

Matriz de confusión — V6.0 · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0300 ↗V6 §08
	Predicho: Reclamo	Predicho: Sin reclamo
Real: Reclamo	TP = 4	FN = 25
Real: Sin reclamo	FP = 125	TN = 1.960

Matriz reconstruida a partir de Recall = 0,1379 y Precision = 0,0310 reportados en el Reporte Final V6.0 (notebook, sección "Métricas Test"). El umbral t = 0,03 se seleccionó en validación por función de costo — no se reoptimiza en test.

06.a — Split temporal por temporada (V6.0 · sección 05) ↗V6 §05 — abrir

Método: temporal_por_temporada. Respeta la unidad natural de estacionalidad del negocio (temporada de exportación).

Rol	Temporadas	Filas	Positivos	Tasa base
Train	2018/19 · 2019/20 · 2020/21 · 2021/22 · 2022/23	10.529	101	0,9593%
Validación	2023/24	2.093	24	1,1467%
Test	2024/25	2.114	29	1,3718% ↗V6 §05

La tasa base es creciente (0,96% → 1,15% → 1,37%): drift positivo — se documenta como fuente de varianza esperada entre validación y test.

06.b — Leaderboard V6.0: 129 configuraciones evaluadas — abrir

Grilla: {L1, L2, ElasticNet} × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none, balanced, risk_5, risk_10} × l1_ratio. Selección por beneficio neto en validación — nunca sobre test.

Rank	Config	Beneficio validación (USD)
Elegido	`V6_067_l1_C0.5_none_l1rNone`	USD 175.500 · ROC-AUC val 0,7584 · PR-AUC val 0,0497 · Recall val 25,0% · MCC val 0,0844 · threshold 0,0300
—	Grilla completa de 129 configuraciones (L1 · L2 · ElasticNet × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none · balanced · risk_5 · risk_10}) exportada en el notebook V6.0 ↗V6 §06. El campeón se selecciona por beneficio neto en validación, no sobre test.

Lectura estadística: se comparan L1, L2 y ElasticNet con distintos pesos de clase y niveles de C. Lectura operacional: el mejor modelo no maximiza accuracy sino el trade-off económico entre TP y FP. Recomendación ML: conservar el leaderboard completo como evidencia de experimentación.

06.c — Reporte final V6.0 (síntesis del notebook) — abrir

Elemento	Valor
Algoritmo	Regresión Logística regularizada
Laboratorio	L1 · L2 · ElasticNet — 129 configuraciones ↗V6 §06
Modelo seleccionado	`V6_067_L1_C0.5_none_l1rNone`
Threshold seleccionado en validación	0,0300
Calibración	`sigmoid_prefit_validacion` (Platt)
SHAP	Excluido por diseño — interpretación por coeficientes / OR / efectos marginales / contrafactuales
Universo V4.0 disponible	33 variables
Variables finales V6.0	18 (7 numéricas + 11 categóricas)

Curva de calibración validación — **Calibración isotónica en validación:** las probabilidades predichas siguen la frecuencia observada en el rango de interés (<5%) — requisito para que el umbral económico tenga sentido. Colab V6.0 · 07_Calibracion

ROC test V6 — **ROC en test (una corrida):** la curva domina el azar en todo el rango. El gap con validación (0,758) se discute como varianza por escasez de positivos (29 en test). Colab V6.0 · 08_Metricas

**Matriz de confusión test @ umbral económico:** el modelo prioriza no dejar escapar reclamos (FN=1) al costo de FP altos — decisión económica, no estadística. Colab V6.0 · 08_Metricas

Coeficientes logística — **Coeficientes log-odds — interpretabilidad directa (V6.0 §09):** Odds Ratios reportados por el notebook — `macro_mercado_EU` **7,64** · `materia_seca_pct` **1,32** · `quiebre_cadena_frio_h` **1,31** · `atmosfera_controlada_si` **0,80** (protector) · `firmeza_pulpa_lb` **0,90** (protector). Colab V6.0 · 09_Interpretabilidad

Beneficio neto por threshold — **Umbral económico:** el beneficio neto en test se maximiza cerca del threshold elegido en validación (0,03) — la decisión transfiere entre conjuntos. Colab V6.0 · 11_Resultados_Negocio

**Contrafactuales de intervención:** mover MS y frío a percentil 25 reduce el riesgo promedio ~0,2 pp; sugiere palancas operacionales (homogeneidad de cosecha). Colab V6.0 · 10_Causalidad

07 — Laboratorio V8.0 · extensión challenger — P3

Laboratorio V8.0: comparación de modelos challenger bajo validación temporal y selección por métricas de negocio y F1

Base metodológica heredada de V6.0 (18 variables, mismo split temporal). Familias evaluadas: Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost, con búsqueda de hiperparámetros. Selección de campeón sobre validación por F1-Score y beneficio; bootstrap del beneficio y análisis causal complementario (RF Causal, AIPW / Double-Robust). Modelo campeón: V8_0225_XGBoost, threshold operativo t = 0,0150. ↗V8 §22 ↗V8 §16

Por qué esto suma a la rúbrica — ver detalle

Evidencia comparativa entre familias, selección de campeón sin tocar test, robustez por bootstrap y diagnóstico causal formal — el estándar que exige una defensa de Magíster.

Ranking de +200 configuraciones por beneficio en validación
Bootstrap 100 del beneficio del campeón (incertidumbre, no punto único)
RF causal con diagnóstico de positividad — hallazgo honesto: soporte común violado

ROC-AUC test

0,6819

+3,5 pp vs V6.0 (0,6473) ↗V8 §16

PR-AUC test

0,0344

Lift ≈ 2,51× sobre base rate

Recall

37,93%

11 / 29 reclamos capturados

Precision

3,65%

Consistente con base rate 1,37%

F1-Score

0,0667

F2 = 0,1319 (pondera Recall)

MCC

0,0800

Robusto al desbalance

Brier Score

0,0135

Calibración probabilística

Beneficio neto (t*)

USD 225.000

Top-K* = 150 → USD 205.500 ↗V8 §11

Matriz de confusión — V8.0 XGBoost · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0150 ↗V8 §16
	Predicho: Reclamo	Predicho: Sin reclamo
Real: Reclamo	TP = 11	FN = 18
Real: Sin reclamo	FP = 290	TN = 1.795

Matriz reconstruida a partir de Recall = 0,3793 y Precision = 0,0365 reportados en el Reporte Final V8.0. El campeón captura ≈ 2,75× más reclamos que V6.0 al mismo horizonte temporal, con precisión estable.

Comparativa test 2024/25 ↗V8 §22	V6.0 · Regresión Logística	V8.0 · XGBoost campeón	Δ
Rol	Benchmark interpretable	Modelo de alto desempeño	—
ROC-AUC	0,6473	0,6819	+5,3%
PR-AUC	0,0264	0,0344	+30,3%
Recall	13,79%	37,93%	+24,1 pp
Precision	3,10%	3,65%	+0,55 pp
F1-Score	—	0,0667	—
Beneficio neto (umbral)	USD 52.500	USD 225.000	+328%
Beneficio neto (Top-K*)	—	USD 205.500 · K* = 150	—

07.a — Importancia por permutación · variables del campeón ↗V8 §18 — abrir

Importancia por permutación (caída de PR-AUC al permutar la variable) del campeón V8_0225_XGBoost sobre test. En el notebook V8.0 SHAP no se computa (SHAP activo = False); la interpretación del challenger se realiza vía permutation importance y se triangula con los OR de la logística V6.0.

#	Variable	ΔPR-AUC (media)	Std	Nivel causal (V4.0)
1	`macro_mercado`	0,0120	0,0038	Nivel 3 · Entorno
2	`firmeza_pulpa_lb`	0,0082	0,0034	Nivel 2 · Explicativa
3	`materia_seca_pct`	0,0075	0,0042	Nivel 1 · Causal directa
4	`quiebre_cadena_frio_h`	0,0047	0,0036	Nivel 1 · Causal directa
5	`naviera`	0,0034	0,0015	Nivel 3 · Entorno
6	`atmosfera_controlada`	0,0031	0,0012	Nivel 2 · Explicativa
7	`edad_arboles_anos`	0,0018	0,0050	Nivel 2 · Explicativa
8	`densidad_arboles_ha`	0,0017	0,0010	Nivel 2 · Explicativa
9	`tipo_contenedor`	0,0015	0,0006	Nivel 3 · Entorno
10	`linea_packing`	0,0003	0,0016	Nivel 3 · Entorno

Triangulación con V6.0: materia_seca_pct y firmeza_pulpa_lb son también variables con mayor peso en los Odds Ratios de la logística (OR de macro_mercado_EU = 7,64; materia_seca_pct = 1,32 ↗V6 §09). Coincidencia entre familias interpretable / no lineal, lo que refuerza que la señal está en las variables — no en el algoritmo.

07.b — Definiciones: AIPW / Double-Robust, RF Causal, contrafactuales, Top-K ↗V8 §20 — abrir

DRAIPW · Doubly Robust

τ̂_DR = E[ μ̂₁(X) − μ̂₀(X) + T(Y − μ̂₁(X))/ê(X) − (1−T)(Y − μ̂₀(X))/(1−ê(X)) ]. Consistente si el modelo de outcome μ̂ o el modelo de propensión ê están correctamente especificados (doble robustez). ↗V8 §20

RF-CRandom Forest Causal

Estimador no paramétrico del efecto de tratamiento condicional τ(x) = E[Y(1) − Y(0) | X=x]. En V8.0 diagnostica violación de positividad sobre atmosfera_controlada: propensity bimodal — el efecto causal no es identificable sin restringir a soporte común. ↗V8 §20

CFContrafactuales de intervención

Simulación bajo el modelo entrenado: mover materia_seca_pct y firmeza_pulpa_lb a percentil 25 y recalcular P̂(reclamo). No prueban causalidad; cuantifican efectos operacionales bajo el modelo. ↗V8 §10

TopKPolítica Top-K

Regla operativa: revisar los K lotes con mayor score. Se reporta la curva Beneficio(K). En V8.0, K* = 150 maximiza el beneficio (USD 205.500) para una carga operacional realista de la planta. ↗V8 §11

Comparación ROC top modelos V8 — **ROC en test — top modelos V8.0:** los mejores ensambles se mueven en 0,64–0,72. Ningún challenger separa dramáticamente de la logística: señal de que el techo está en los datos, no en el algoritmo. Colab V8.0 · 17_Curvas

Lift acumulado campeón — **Lift 3,1× en el primer decil:** revisando el 10% de mayor score se capturan ~3× más reclamos que al azar — el argumento operacional más fuerte del modelo. Colab V8.0 · 17_Curvas

Recall vs capacidad top-k — **Recall según capacidad de revisión (Top-K):** con 150 lotes revisados, el campeón captura 24% de los reclamos vs 21% de la logística. La política Top-K conecta el modelo con la capacidad real de la planta. Colab V8.0 · 16_Ranking

Beneficio vs top-k — **Beneficio neto vs Top-K:** máximo ~USD 205K revisando 150 lotes. El campeón domina a la logística en casi todo el rango de capacidad. Colab V8.0 · 16_Ranking

**Importancia por permutación (PR-AUC):** macro_mercado, firmeza y materia seca lideran — consistente con los OR de la logística y con el mecanismo causal propuesto. Triangulación de 3 métodos de importancia. Colab V8.0 · 18_Importancia

Bootstrap beneficio — **Bootstrap del beneficio del campeón (V8.0 §19):** media **USD 231.960** · IC 95% empírico **[USD −135.150 · USD 629.700]**. Masa claramente positiva pero con cola izquierda — el beneficio se reporta con incertidumbre, no como promesa. Colab V8.0 · 19_Robustez

**Diagnóstico de positividad (propensity score):** distribución bimodal — tratados y controles casi no se solapan en atmósfera controlada. Hallazgo honesto: el efecto causal no es identificable sin restringir a soporte común. Colab V8.0 · 20_RF_Causal

08 — Palancas operacionales y defensa causal · lectura de negocio del modelo

Variables intervenibles priorizadas por los modelos y criterios de defensa causal

El modelo campeón (V8.0) y el benchmark interpretable (V6.0) coinciden en priorizar variables agronómicas y logísticas que la operación puede modificar antes del despacho. Se distingue entre asociación estadística y evidencia causal siguiendo cuatro criterios explícitos.

P1Reducir heterogeneidad de materia seca

Homogeneizar la ventana de MS del lote (varianza intra-lote) mediante corte por bloques de madurez fisiológica. Priorización agronómica; palanca respaldada por permutation importance y Odds Ratios. ↗V8 §18 ↗V6 §09

P2Evitar fruta con baja firmeza en tránsitos largos

Reasignar lotes con firmeza_pulpa_lb baja a clientes o rutas de menor duración, o a mercados con menor tolerancia a maduración avanzada. ↗V8 §18 ↗V6 §09

P3Reasignar fruta sensible a destinos cortos

Emparejar segmentación de cliente / mercado con la ventana de tránsito planificada; reducir la exposición acumulada de lotes de alto riesgo. ↗V8 §20 ↗V4 §9

P4Acelerar el paso cosecha → packing

Reducir dias_cosecha_a_packing para disminuir deterioro fisiológico temprano y variabilidad interna del lote. ↗V8 §18

P5Intervención integral en lotes de alto riesgo

Aplicar las cuatro palancas simultáneamente cuando coinciden heterogeneidad de MS, baja firmeza, tránsito largo y packing lento — el peor cuadrante identificado por los contrafactuales. ↗V8 §10

DCCriterios de defensa causal

Machine Learning aprende asociaciones. Para hablar de causalidad exigimos: (i) temporalidad — la variable ocurre antes del reclamo, (ii) mecanismo fisiológico o logístico plausible, (iii) intervenibilidad por la operación, (iv) coherencia en signo e intensidad entre modelos y literatura. ↗V4 §5 ↗V8 §20

08.a — Tabla de intervenciones operacionales (síntesis V8.0) ↗V8 §20 — abrir

Variable	Tipo de evidencia	Mecanismo	Acción operacional	Prioridad
`materia_seca_pct` / `desviacion_materia_seca_pct`	Causal (fisiológica)	Madurez asincrónica dentro del contenedor	Homogeneizar corte por bloques de MS	Alto
`firmeza_pulpa_lb`	Causal (estructural)	Ablandamiento acelerado en tránsito	Reasignar a rutas cortas / clientes tolerantes	Alto
`transito_plan_dias` / `desv_x_transito`	Causal (exposición)	Ventana de maduración prolongada	Preferir rutas cortas para fruta sensible	Alto
`dias_cosecha_a_packing`	Causal (deterioro temprano)	Pérdida de calidad antes de atmósfera controlada	Reducir tiempo cosecha → packing	Medio
`cliente_tipo` / `pais_destino` / `macro_mercado`	Asociativa comercial	Diferencias de exigencia y tolerancia	No enviar fruta sensible a clientes exigentes	Medio
Tasas históricas cliente / mercado / naviera	Predictiva (no necesariamente causal)	Resumen de riesgo histórico — puede capturar factores no observados	Usar como señal de alerta, no como evidencia causal	Medio

09 — Consultas metodológicas al profesor patrocinante · bifurcaciones abiertas

Seis decisiones metodológicas abiertas antes del cierre de P2

Se listan las bifurcaciones estadísticas y de diseño experimental que requieren juicio experto antes de congelar los números oficiales para la Presentación 2 del 27–28 de julio.

Métrica primaria: PR-AUC absoluta vs lift relativo a la base

El PR-AUC test de V8.0 (0,0344) parece bajo en términos absolutos, pero equivale a un lift ≈ 2,51× sobre la base rate (0,0137). ¿Se recomienda reportar la métrica en términos absolutos, en lift, o ambos? ↗V8 §22 ↗V8 §16

Regla de decisión: umbral por función de costo vs política Top-K

El umbral t = 0,015 maximiza beneficio pero alerta ~300 lotes (14% del test) para una precisión de 3,65%. La política K* = 150 ofrece beneficio comparable con carga operacional acotada. ¿Cuál se recomienda como decisión principal en P2? ↗V8 §11

Inferencia sobre Odds Ratios en presencia de calibración post-hoc

Se planea bootstrap para IC 95% de OR y de métricas test. ¿Es coherente reportar significancia de coeficientes cuando se aplica calibración sigmoide posterior, o se prefiere inferencia Wald sobre el modelo sin calibrar? ↗V6 §07 ↗V6 §09

Violación de positividad en el análisis causal (RF Causal)

El propensity score sobre atmosfera_controlada es bimodal (≈ 0,35 vs ≈ 0,95): no hay soporte común. Opciones: (a) restringir al overlap común (pérdida de n), (b) AIPW con trimming, (c) limitar el claim a asociación + mecanismo respaldado por literatura. ¿Recomendación? ↗V8 §20

Diseño de validación: split único vs `TimeSeriesSplit` multi-fold

Con 29 positivos en test, un único split tiene varianza alta (val 0,758 vs test 0,65). ¿Se recomienda TimeSeriesSplit con 3+ folds para P2, o basta declararlo como limitación y reservarlo para P3? ↗V6 §05 ↗V8 §19

Regla simple del negocio como benchmark comparativo

La rúbrica exige comparar contra las reglas actuales de la empresa. Candidatas: (a) revisar lotes de clientes con historial de reclamo, (b) materia_seca_pct > 30%, (c) mercado EU + tránsito largo. ¿Cuál se considera el benchmark justo? ↗V4 §9 ↗V6 §13

10 — Plan de trabajo al 27–28 de julio · cierre P2

Cronograma de cierre para los seis criterios de la rúbrica P2

Sem 06–12 jul

Benchmark vs regla simple del negocio (según definición de hoy) + IC bootstrap de OR y métricas test. Cierra el gap crítico de la rúbrica.

Sem 06–12 jul

Validación experta de variables top con agrónomo y jefe de packing (OE3: ≥80% de coherencia).

Sem 13–19 jul

TimeSeriesSplit 3+ folds (si se exige hoy) + decisión final umbral vs Top-K + congelar números oficiales de P2.

Sem 20–26 jul

PPT 15 minutos con la estructura de este sitio (1 criterio = 1–2 láminas) + 2 ensayos cronometrados + QA de defensa (documento de 60 preguntas ya construido en V8).

27–28 jul

P2: subir presentación a Webcursos al inicio de la jornada (no subirla = −1 punto) · asistencia completa del equipo.

Después de P2 → ruta a P3

Gestionar logger de temperatura en contenedor (variable de mayor impacto esperado: +0,05 a +0,10 ROC-AUC) · trazabilidad SKU-factura-reclamo para limpiar target noise · semáforo operacional calibrado + ROI (OE4) · comparación final de soluciones IA.

11 — Detalle · notebooks fuente · trazabilidad completa

Cada afirmación de este documento es verificable en el Colab correspondiente

Los tres notebooks (V4.0 auditoría causal · V6.0 regresión logística · V8.0 laboratorio challenger) están embebidos aquí como HTML estático navegable. Los pequeños enlaces ↗V6 §13 distribuidos por el documento abren un panel lateral que aterriza directo en la sección del notebook que respalda ese claim. Esc o click fuera del panel devuelve al lector al mismo párrafo, sin perder el hilo.

V4.0 · Auditoría

Auditoría causal y económica

Universo candidato de variables antes de modelar. Clasificación en cinco niveles de defensa causal, matrices ejecutivas y auditoría económica sin modelo.

~12 secciones · fuente: BigQuery capstone_ml_ds

Nueva pestaña

V6.0 · Benchmark

Regresión Logística interpretable

Selección LASSO + VIF, split temporal, calibración sigmoide, umbral económico, 129 configuraciones evaluadas, reporte final con hiperparámetros.

~16 secciones · 18 variables finales · threshold 0,03

Nueva pestaña

V8.0 · Challenger

Laboratorio XGBoost / LightGBM / RF Causal

Optimización de hiperparámetros, curvas completas (ROC, PR, Lift, Gain, calibración), Top-K, robustez bootstrap, importancia de variables y RF Causal con AIPW / Double-Robust.

Campeón: XGBoost V8_0225 · ~24 secciones

Nueva pestaña

Predicción binaria pre-despacho de reclamo comercial en exportación de Palta Hass

Estructura del documento y correspondencia con los seis criterios de evaluación P2

Predicción binaria de reclamo comercial a nivel lote / contenedor con información pre-despacho

i1Score de riesgo pre-despacho

i2Auditoría causal previa al modelado

i3Umbral por función de costo

Objetivos específicos con KPI declarados en P1 y estado medido contra resultados reales

Diseño experimental en tres versiones: auditoría causal, benchmark interpretable, laboratorio challenger

V4.0Auditoría causal y económica

V6.0Regresión Logística regularizada — primera solución P2

V8.0Laboratorio de modelos challenger

Análisis exploratorio: evidencia asociativa y verificación de supuestos previos al modelado

L1LASSO — Least Absolute Shrinkage and Selection Operator

L2Ridge (L2)

ENElasticNet

VIFVariance Inflation Factor

C1Calibración sigmoide (Platt)

C2Calibración isotónica

M1PR-AUC vs ROC-AUC en eventos raros

M2F1, F2, MCC, Brier Score

THUmbral por función de costo

TKPolítica Top-K

Control de fuga temporal e indirecta, ingeniería de interacciones con mecanismo biológico y selección regularizada de variables

L1Leakage temporal — corregido

L2Leakage indirecto en tasas históricas — corregido

F1Interacciones con mecanismo biológico V9 planificada

F2Limitaciones documentadas, no silenciosas

Primera solución (V6.0): Regresión Logística regularizada, calibrada, con selección de umbral por función de costo

Laboratorio V8.0: comparación de modelos challenger bajo validación temporal y selección por métricas de negocio y F1

DRAIPW · Doubly Robust

RF-CRandom Forest Causal

CFContrafactuales de intervención

TopKPolítica Top-K

Variables intervenibles priorizadas por los modelos y criterios de defensa causal

P1Reducir heterogeneidad de materia seca

P2Evitar fruta con baja firmeza en tránsitos largos

P3Reasignar fruta sensible a destinos cortos

P4Acelerar el paso cosecha → packing

P5Intervención integral en lotes de alto riesgo

DCCriterios de defensa causal

Seis decisiones metodológicas abiertas antes del cierre de P2

Métrica primaria: PR-AUC absoluta vs lift relativo a la base

Regla de decisión: umbral por función de costo vs política Top-K

Inferencia sobre Odds Ratios en presencia de calibración post-hoc

Violación de positividad en el análisis causal (RF Causal)

Diseño de validación: split único vs TimeSeriesSplit multi-fold

Regla simple del negocio como benchmark comparativo

Cronograma de cierre para los seis criterios de la rúbrica P2

Cada afirmación de este documento es verificable en el Colab correspondiente

Auditoría causal y económica

Regresión Logística interpretable

Laboratorio XGBoost / LightGBM / RF Causal

Diseño de validación: split único vs `TimeSeriesSplit` multi-fold