Formulación: modelar P(reclamo_comercial = 1 | X) a nivel lote / contenedor con información disponible antes del zarpe. Diseño experimental en tres versiones — V4.0 (auditoría causal), V6.0 (Regresión Logística regularizada, benchmark interpretable) y V8.0 (laboratorio de modelos challenger). Validación temporal estricta, calibración post-hoc y selección de umbral por función de costo. Documento estructurado según los seis criterios de la rúbrica P2.
La rúbrica evalúa seis criterios en escala 0 / 0,5 / 1,0. Cada sección incluye un acordeón Rúbrica · descriptor 1,0 que explicita qué exige la nota máxima y qué evidencia lo cubre: ● verde (cubierto), ● ámbar (en curso), ● rojo (pendiente).
| Criterio | Peso | Descriptor 1,0 (resumen) | Estado | Sección |
|---|---|---|---|---|
| Descripción del problema | 10% | Correcta + justificación + evaluación económica + innovación explícita | Cubierto | 01 |
| Objetivos | 10% | Bien planteados, con entregables y KPI medibles | Cubierto | 02 |
| Metodología | 20% | Modelos, variables, KPI a pronosticar y formas de evaluación especificados | Cubierto | 03 |
| Descripción y visualización de datos | 20% | EDA que funda la capacidad de predecir con los datos | Cubierto | 04 |
| Pre-procesamiento | 20% | Limpieza, outliers, atributos con sentido de negocio | Cubierto | 05 |
| Evaluación primera solución | 20% | Sobreajuste, significancia, parámetros + comparación contra reglas simples | 1 pendiente | 06 |
La rúbrica exige comparar el modelo contra las reglas simples que la empresa aplica actualmente. Se dispone de benchmark interno entre versiones (V6.0 vs V8.0) pero falta la regla operativa de la contraparte. Candidata: "historial de cliente + materia seca > 30%", a validar con el profesor patrocinante. → Consulta 06
Contexto de industria: Chile es el 7° exportador mundial de palta (USD 292M FOB en 2024) y la empresa patrocinante despacha ~3.200 contenedores por temporada a 32 destinos. Un lote heterogéneo en madurez fisiológica (materia seca dispersa, firmeza baja, tránsito largo) madura de forma asincrónica en atmósfera controlada y el defecto se detecta recién en inspección de arribo. La detección es entonces reactiva y los costos de reclamo se acumulan sin señal previa.
Estimación de P(reclamo) a nivel lote de exportación, integrando variables agronómicas, poscosecha y logísticas disponibles antes del zarpe. Sustituye la inspección reactiva en destino por una señal ex-ante. ↗V4 §3
| Magnitud del problema | Valor auditado (V4.0) |
|---|---|
| Lotes de exportación analizados | 14.736 · 7 temporadas (2018-19 → 2024-25) |
| Reclamos comerciales (target) | 154 · tasa base ≈ 1,05% · evento raro / clase minoritaria |
| Impacto económico documentado | USD 195.259 · promedio USD 1.268 por reclamo |
| Costo total por reclamo no detectado (FN) | USD 16.268 = 1.268 auditado + 15.000 logístico estimado (supuesto explícito) |
| Beneficio neto test (campeón V8.0) | USD 225.000 · temporada 2024-25 · +328% vs benchmark V6.0 |
Objetivo general: desarrollar un modelo predictivo del riesgo de reclamo comercial integrando variables agronómicas, poscosecha y logísticas, de modo de anticipar la calidad de arribo antes del despacho. Los KPI comprometidos en P1 se auditan aquí contra las métricas obtenidas — incluida la brecha entre lo comprometido y lo alcanzado.
| Objetivo específico | KPI comprometido (P1) | Estado hoy | Evidencia |
|---|---|---|---|
| OE1 · Construir base analítica trazable | Trazabilidad ≥ 80% · completitud ≥ 75% | Logrado | 14.736 lotes · 16 tablas · 37 variables retenidas post-auditoría NaN |
| OE2 · Desarrollar y comparar modelos con validación temporal | AUC-ROC ≥ 0,80 · F1 ≥ 0,70 · +10 pts vs baseline | En curso | ROC-AUC test: 0,6473 (V6.0) · 0,6819 (V8.0). Brecha vs 0,80: plan = variable de frío (logger IoT sub-diario) + interacciones V9. Techo realista sin nuevos datos: 0,70–0,74 |
| OE3 · Identificar y cuantificar variables predictoras | ≥ 5 variables significativas · ≥ 80% validadas por experto | En curso | Odds Ratios V6.0 + importancia por permutación V8.0 listos ↗V6 §09 ↗V8 §18 · SHAP excluido por diseño en V6.0 / V8.0 · validación con agrónomo pendiente |
| OE4 · Proponer semáforo de riesgo calibrado | Reducción reclamos ≥ 20% · ROI positivo | En curso | Umbral económico y beneficio USD listos · diseño del semáforo es alcance P3 |
La auditoría causal (V4.0) precede al entrenamiento: define qué variables pueden entrar y por qué. La Regresión Logística regularizada (V6.0) constituye la primera solución exigida por P2, interpretable en términos de Odds Ratios y calibrada. El laboratorio V8.0 compara familias no lineales bajo protocolo temporal idéntico. La selección de campeón se realiza sobre validación; test se evalúa una única vez.
reclamo_comercial binario a nivel lote_exportacion_idSin modelo. Construcción del target, clasificación de 37 variables candidatas en cinco niveles de defensa causal, cuantificación económica (USD 195K auditados) y matrices ejecutivas de asociación. Define el universo de variables admisibles y su justificación. ↗V4 §5 ↗V4 §8 ↗V4 §9
Selección de variables por LASSO (L1) y control de multicolinealidad por VIF, con interacciones de mecanismo biológico. 129 configuraciones (L1 / L2 / ElasticNet × C × class_weight); calibración sigmoide (Platt) sobre validación; selección de umbral por función de costo. 33 → 18 variables finales. ↗V6 §06↗V6 §13
Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost con búsqueda de hiperparámetros. Ranking por F1 y beneficio en validación temporal, bootstrap del beneficio del campeón y análisis causal complementario (RF Causal, AIPW / Double-Robust). ↗V8 §15↗V8 §20
| Decisión metodológica | Elección | Justificación estadística |
|---|---|---|
| Validación | Split temporal por temporada — train 2018/19–2022/23 · validación 2023/24 · test 2024/25 | Respeta la estacionalidad e impide filtración del futuro. Tasa base por partición verificada (train 0,96% · val 1,15% · test 1,37%). ↗V6 §05 |
| Desbalance de clases (~1%) | class_weight / scale_pos_weight + umbral por función de costo | Con ~100 positivos en train, SMOTE genera sintéticos poco plausibles y undersampling descarta información. La reponderación mantiene la estructura de la muestra. |
| Métrica primaria | PR-AUC + beneficio neto en USD — no accuracy | Con base ≈ 1% la accuracy es trivialmente ≥ 99% para el clasificador nulo. PR-AUC es sensible al comportamiento en la clase positiva; el beneficio operacionaliza el trade-off FN/FP asimétrico. |
| Calibración de probabilidades | Sigmoide (Platt) sobre validación — isotónica evaluada como alternativa ↗V6 §07 | El umbral económico exige que el score se lea como probabilidad. Sin calibración, la logística regularizada tiende a subestimar en clases raras. |
| Selección de campeón | Sobre validación, jamás sobre test | Test se evalúa una única vez para acotar el sesgo de selección (data snooping). |
El datamart consta de 15 tablas BigQuery organizadas en tres capas (hechos operacionales, hechos documentales de reclamo, dimensiones HAB de calidad). La tabla de inspección en destino contiene el target y se excluye de las features (primera decisión anti-leakage). El EDA bivariado documenta la relación entre cada variable candidata y la tasa de reclamo condicional, como sustento del universo de features admitidas al modelado.
| Capa | Alias | Tabla BigQuery | Filas | Columnas |
|---|---|---|---|---|
| Hechos operacionales | cosecha | fact_cosecha | 60.480 | 77 |
| Hechos operacionales | expo | fact_exportacion | 58.944 | 90 |
| Hechos operacionales | clima | fact_clima | 14.796 | 26 |
| Hechos operacionales | insp | fact_inspeccion_destino target | 14.736 | 24 |
| Hechos reclamo | reclamo_documento_cabecera | fact_reclamo_documento_cabecera | 9 | 21 |
| Hechos reclamo | reclamo_factura_detalle | fact_reclamo_factura_detalle | 9 | 12 |
| Hechos reclamo | reclamo_nota_credito_detalle | fact_reclamo_nota_credito_detalle | 3 | 15 |
| Hechos reclamo | reclamo_ff_detalle | fact_reclamo_ff_detalle | 114 | 28 |
| Dimensión | dim | dim_cuarteles | 144 | 46 |
| Dimensión HAB | hab_parametro | dim_hab_parametro_calidad | 18 | 12 |
| Dimensión HAB | hab_defecto | dim_hab_defecto_calidad | 12 | 8 |
| Dimensión HAB | hab_causa_defecto | bridge_hab_causa_defecto | 22 | 8 |
| Dimensión HAB | hab_protocolo | dim_hab_protocolo_operacional | 18 | 9 |
| Dimensión HAB | hab_etapa | dim_hab_etapa_cadena | 9 | 8 |
| Dimensión HAB | hab_principio | dim_hab_principio_gestion_calidad | 8 | 6 |
fact_inspeccion_destino contiene el evento y sus atributos post-arribo — se usa para construir el target y queda excluida del set de features.Regresión penalizada con término λ Σ|βj|. Fuerza coeficientes exactamente a cero → selección automática de variables. Elegida en V6.0 para reducir 33 → 18 predictores conservando interpretabilidad. ↗V6 §06
Penalización λ Σ βj². Reduce la magnitud de los coeficientes pero no los anula. Estabiliza en presencia de multicolinealidad; no realiza selección.
Combinación convexa L1 + L2 controlada por l1_ratio ∈ [0,1]. Compromiso entre la selección de LASSO y la estabilidad de Ridge cuando las variables candidatas están correlacionadas.
VIFj = 1 / (1 − R²j) donde R²j es el R² de regresar la variable j sobre el resto. Umbral clásico: VIF > 5–10 indica multicolinealidad problemática. En V6.0 se descartan variables con VIF alto tras LASSO.
Ajuste post-hoc P̂(y=1|s) = σ(a·s + b) con a, b estimados por MLE sobre validación. Corrige la subestimación típica de la logística regularizada en clases raras. Requisito para leer el score como probabilidad y aplicar umbral económico.
Alternativa no paramétrica (regresión monotónica no decreciente). Más flexible que Platt pero exige más datos en la clase positiva. Evaluada como alternativa; V6.0 opta por sigmoide dado npos, val = 24.
Con base rate ≈ 1%, un clasificador nulo obtiene accuracy ≥ 99% y ROC-AUC puede parecer razonable por dominar el eje TN. PR-AUC es sensible al comportamiento en la clase positiva y por eso se adopta como métrica primaria.
F1 = media armónica de Precision y Recall. F2 pondera Recall (crítico si el FN es caro). MCC ∈ [−1,1] es robusto al desbalance. Brier = E[(p̂−y)²], mide calibración probabilística. Reportamos las cuatro.
t* = argmaxt [ TP(t)·B − FP(t)·C ] con B = USD 16.268 y C = USD 1.500. Se estima sobre validación y se aplica sin re-ajuste sobre test.
Regla operativa alternativa al umbral: revisar los K lotes con mayor score. Acopla el modelo a la capacidad real de inspección de la planta. Se reporta la curva Beneficio(K) y el K* óptimo.
La etapa combina tres correcciones metodológicas: (i) exclusión de variables no disponibles al momento del despacho, (ii) cálculo de tasas históricas sobre train únicamente para prevenir data leakage indirecto, y (iii) construcción de interacciones con mecanismo biológico documentado. La selección final se obtiene por LASSO (L1) con control de multicolinealidad por VIF.
ms_x_desv · desv_x_transito · ms_x_firmeza; V6.0 / V8.0 actuales entrenan sobre 18 variables base sin interacciones (LASSO no las retuvo)transito_real_dias no existe al momento del despacho: V4.3 lo usaba si estaba disponible. Corrección: solo transito_plan_dias como feature pre-despacho; el real queda para análisis retrospectivo. ↗V6 §04
tasa_hist_cliente/naviera/mercado ahora se calculan solo con train y se mapean a validación y test. Si esto no se corrige, las métricas están infladas. ↗V6 §04 ↗V6 §05
ms_x_desv (madurez × heterogeneidad) y desv_x_transito (heterogeneidad × exposición): riesgo multiplicativo que la logística lineal no captura con términos separados. En V6.0 el LASSO no retuvo estas interacciones sobre la grilla actual; se re-evaluarán en V9 con la variable de frío ampliada. ↗V6 §04 ↗V6 §06
quiebre_cadena_frio_h entra al modelo (retenida, imputada) y aparece #4 en importancia por permutación del campeón V8.0. Sin embargo su granularidad actual (agregado por lote) subestima el efecto real: un logger IoT sub-diario en contenedor debería aportar +0,05 a +0,10 ROC-AUC adicional. Limitación ≠ fallo metodológico. ↗V8 §18
Modelo seleccionado V6_067_l1_C0.5_none_l1rNone: 33 → 18 variables (7 numéricas + 11 categóricas) por LASSO con control VIF; calibración sigmoide (Platt) sobre validación; umbral operativo t = 0,0300. Interpretabilidad directa vía Odds Ratios (macro_mercado_EU OR 7,64; materia_seca_pct OR 1,32). Se conserva como benchmark interpretable frente al laboratorio V8.0.
| Matriz de confusión — V6.0 · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0300 ↗V6 §08 | ||
|---|---|---|
| Predicho: Reclamo | Predicho: Sin reclamo | |
| Real: Reclamo | TP = 4 | FN = 25 |
| Real: Sin reclamo | FP = 125 | TN = 1.960 |
Matriz reconstruida a partir de Recall = 0,1379 y Precision = 0,0310 reportados en el Reporte Final V6.0 (notebook, sección "Métricas Test"). El umbral t = 0,03 se seleccionó en validación por función de costo — no se reoptimiza en test.
temporal_por_temporada. Respeta la unidad natural de estacionalidad del negocio (temporada de exportación).| Rol | Temporadas | Filas | Positivos | Tasa base |
|---|---|---|---|---|
| Train | 2018/19 · 2019/20 · 2020/21 · 2021/22 · 2022/23 | 10.529 | 101 | 0,9593% |
| Validación | 2023/24 | 2.093 | 24 | 1,1467% |
| Test | 2024/25 | 2.114 | 29 | 1,3718% ↗V6 §05 |
{L1, L2, ElasticNet} × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none, balanced, risk_5, risk_10} × l1_ratio. Selección por beneficio neto en validación — nunca sobre test.| Rank | Config | Beneficio validación (USD) |
|---|---|---|
| Elegido | V6_067_l1_C0.5_none_l1rNone | USD 175.500 · ROC-AUC val 0,7584 · PR-AUC val 0,0497 · Recall val 25,0% · MCC val 0,0844 · threshold 0,0300 |
| — | Grilla completa de 129 configuraciones (L1 · L2 · ElasticNet × C ∈ {0,25 · 0,5 · 1 · 2} × class_weight ∈ {none · balanced · risk_5 · risk_10}) exportada en el notebook V6.0 ↗V6 §06. El campeón se selecciona por beneficio neto en validación, no sobre test. | |
C. Lectura operacional: el mejor modelo no maximiza accuracy sino el trade-off económico entre TP y FP. Recomendación ML: conservar el leaderboard completo como evidencia de experimentación.| Elemento | Valor |
|---|---|
| Algoritmo | Regresión Logística regularizada |
| Laboratorio | L1 · L2 · ElasticNet — 129 configuraciones ↗V6 §06 |
| Modelo seleccionado | V6_067_L1_C0.5_none_l1rNone |
| Threshold seleccionado en validación | 0,0300 |
| Calibración | sigmoid_prefit_validacion (Platt) |
| SHAP | Excluido por diseño — interpretación por coeficientes / OR / efectos marginales / contrafactuales |
| Universo V4.0 disponible | 33 variables |
| Variables finales V6.0 | 18 (7 numéricas + 11 categóricas) |
macro_mercado_EU 7,64 · materia_seca_pct 1,32 · quiebre_cadena_frio_h 1,31 · atmosfera_controlada_si 0,80 (protector) · firmeza_pulpa_lb 0,90 (protector). Colab V6.0 · 09_InterpretabilidadBase metodológica heredada de V6.0 (18 variables, mismo split temporal). Familias evaluadas: Random Forest, ExtraTrees, Gradient Boosting, HistGB, XGBoost, LightGBM y CatBoost, con búsqueda de hiperparámetros. Selección de campeón sobre validación por F1-Score y beneficio; bootstrap del beneficio y análisis causal complementario (RF Causal, AIPW / Double-Robust). Modelo campeón: V8_0225_XGBoost, threshold operativo t = 0,0150. ↗V8 §22 ↗V8 §16
| Matriz de confusión — V8.0 XGBoost · test 2024/25 (n = 2.114, positivos = 29) @ t = 0,0150 ↗V8 §16 | ||
|---|---|---|
| Predicho: Reclamo | Predicho: Sin reclamo | |
| Real: Reclamo | TP = 11 | FN = 18 |
| Real: Sin reclamo | FP = 290 | TN = 1.795 |
Matriz reconstruida a partir de Recall = 0,3793 y Precision = 0,0365 reportados en el Reporte Final V8.0. El campeón captura ≈ 2,75× más reclamos que V6.0 al mismo horizonte temporal, con precisión estable.
| Comparativa test 2024/25 ↗V8 §22 | V6.0 · Regresión Logística | V8.0 · XGBoost campeón | Δ |
|---|---|---|---|
| Rol | Benchmark interpretable | Modelo de alto desempeño | — |
| ROC-AUC | 0,6473 | 0,6819 | +5,3% |
| PR-AUC | 0,0264 | 0,0344 | +30,3% |
| Recall | 13,79% | 37,93% | +24,1 pp |
| Precision | 3,10% | 3,65% | +0,55 pp |
| F1-Score | — | 0,0667 | — |
| Beneficio neto (umbral) | USD 52.500 | USD 225.000 | +328% |
| Beneficio neto (Top-K*) | — | USD 205.500 · K* = 150 | — |
V8_0225_XGBoost sobre test. En el notebook V8.0 SHAP no se computa (SHAP activo = False); la interpretación del challenger se realiza vía permutation importance y se triangula con los OR de la logística V6.0.| # | Variable | ΔPR-AUC (media) | Std | Nivel causal (V4.0) |
|---|---|---|---|---|
| 1 | macro_mercado | 0,0120 | 0,0038 | Nivel 3 · Entorno |
| 2 | firmeza_pulpa_lb | 0,0082 | 0,0034 | Nivel 2 · Explicativa |
| 3 | materia_seca_pct | 0,0075 | 0,0042 | Nivel 1 · Causal directa |
| 4 | quiebre_cadena_frio_h | 0,0047 | 0,0036 | Nivel 1 · Causal directa |
| 5 | naviera | 0,0034 | 0,0015 | Nivel 3 · Entorno |
| 6 | atmosfera_controlada | 0,0031 | 0,0012 | Nivel 2 · Explicativa |
| 7 | edad_arboles_anos | 0,0018 | 0,0050 | Nivel 2 · Explicativa |
| 8 | densidad_arboles_ha | 0,0017 | 0,0010 | Nivel 2 · Explicativa |
| 9 | tipo_contenedor | 0,0015 | 0,0006 | Nivel 3 · Entorno |
| 10 | linea_packing | 0,0003 | 0,0016 | Nivel 3 · Entorno |
materia_seca_pct y firmeza_pulpa_lb son también variables con mayor peso en los Odds Ratios de la logística (OR de macro_mercado_EU = 7,64; materia_seca_pct = 1,32 ↗V6 §09). Coincidencia entre familias interpretable / no lineal, lo que refuerza que la señal está en las variables — no en el algoritmo.τ̂DR = E[ μ̂1(X) − μ̂0(X) + T(Y − μ̂1(X))/ê(X) − (1−T)(Y − μ̂0(X))/(1−ê(X)) ]. Consistente si el modelo de outcome μ̂ o el modelo de propensión ê están correctamente especificados (doble robustez). ↗V8 §20
Estimador no paramétrico del efecto de tratamiento condicional τ(x) = E[Y(1) − Y(0) | X=x]. En V8.0 diagnostica violación de positividad sobre atmosfera_controlada: propensity bimodal — el efecto causal no es identificable sin restringir a soporte común. ↗V8 §20
Simulación bajo el modelo entrenado: mover materia_seca_pct y firmeza_pulpa_lb a percentil 25 y recalcular P̂(reclamo). No prueban causalidad; cuantifican efectos operacionales bajo el modelo. ↗V8 §10
Regla operativa: revisar los K lotes con mayor score. Se reporta la curva Beneficio(K). En V8.0, K* = 150 maximiza el beneficio (USD 205.500) para una carga operacional realista de la planta. ↗V8 §11
El modelo campeón (V8.0) y el benchmark interpretable (V6.0) coinciden en priorizar variables agronómicas y logísticas que la operación puede modificar antes del despacho. Se distingue entre asociación estadística y evidencia causal siguiendo cuatro criterios explícitos.
Homogeneizar la ventana de MS del lote (varianza intra-lote) mediante corte por bloques de madurez fisiológica. Priorización agronómica; palanca respaldada por permutation importance y Odds Ratios. ↗V8 §18 ↗V6 §09
Reasignar lotes con firmeza_pulpa_lb baja a clientes o rutas de menor duración, o a mercados con menor tolerancia a maduración avanzada. ↗V8 §18 ↗V6 §09
Emparejar segmentación de cliente / mercado con la ventana de tránsito planificada; reducir la exposición acumulada de lotes de alto riesgo. ↗V8 §20 ↗V4 §9
Reducir dias_cosecha_a_packing para disminuir deterioro fisiológico temprano y variabilidad interna del lote. ↗V8 §18
Aplicar las cuatro palancas simultáneamente cuando coinciden heterogeneidad de MS, baja firmeza, tránsito largo y packing lento — el peor cuadrante identificado por los contrafactuales. ↗V8 §10
Machine Learning aprende asociaciones. Para hablar de causalidad exigimos: (i) temporalidad — la variable ocurre antes del reclamo, (ii) mecanismo fisiológico o logístico plausible, (iii) intervenibilidad por la operación, (iv) coherencia en signo e intensidad entre modelos y literatura. ↗V4 §5 ↗V8 §20
| Variable | Tipo de evidencia | Mecanismo | Acción operacional | Prioridad |
|---|---|---|---|---|
materia_seca_pct / desviacion_materia_seca_pct | Causal (fisiológica) | Madurez asincrónica dentro del contenedor | Homogeneizar corte por bloques de MS | Alto |
firmeza_pulpa_lb | Causal (estructural) | Ablandamiento acelerado en tránsito | Reasignar a rutas cortas / clientes tolerantes | Alto |
transito_plan_dias / desv_x_transito | Causal (exposición) | Ventana de maduración prolongada | Preferir rutas cortas para fruta sensible | Alto |
dias_cosecha_a_packing | Causal (deterioro temprano) | Pérdida de calidad antes de atmósfera controlada | Reducir tiempo cosecha → packing | Medio |
cliente_tipo / pais_destino / macro_mercado | Asociativa comercial | Diferencias de exigencia y tolerancia | No enviar fruta sensible a clientes exigentes | Medio |
| Tasas históricas cliente / mercado / naviera | Predictiva (no necesariamente causal) | Resumen de riesgo histórico — puede capturar factores no observados | Usar como señal de alerta, no como evidencia causal | Medio |
Se listan las bifurcaciones estadísticas y de diseño experimental que requieren juicio experto antes de congelar los números oficiales para la Presentación 2 del 27–28 de julio.
El PR-AUC test de V8.0 (0,0344) parece bajo en términos absolutos, pero equivale a un lift ≈ 2,51× sobre la base rate (0,0137). ¿Se recomienda reportar la métrica en términos absolutos, en lift, o ambos? ↗V8 §22 ↗V8 §16
El umbral t = 0,015 maximiza beneficio pero alerta ~300 lotes (14% del test) para una precisión de 3,65%. La política K* = 150 ofrece beneficio comparable con carga operacional acotada. ¿Cuál se recomienda como decisión principal en P2? ↗V8 §11
Se planea bootstrap para IC 95% de OR y de métricas test. ¿Es coherente reportar significancia de coeficientes cuando se aplica calibración sigmoide posterior, o se prefiere inferencia Wald sobre el modelo sin calibrar? ↗V6 §07 ↗V6 §09
El propensity score sobre atmosfera_controlada es bimodal (≈ 0,35 vs ≈ 0,95): no hay soporte común. Opciones: (a) restringir al overlap común (pérdida de n), (b) AIPW con trimming, (c) limitar el claim a asociación + mecanismo respaldado por literatura. ¿Recomendación? ↗V8 §20
TimeSeriesSplit multi-foldCon 29 positivos en test, un único split tiene varianza alta (val 0,758 vs test 0,65). ¿Se recomienda TimeSeriesSplit con 3+ folds para P2, o basta declararlo como limitación y reservarlo para P3? ↗V6 §05 ↗V8 §19
La rúbrica exige comparar contra las reglas actuales de la empresa. Candidatas: (a) revisar lotes de clientes con historial de reclamo, (b) materia_seca_pct > 30%, (c) mercado EU + tránsito largo. ¿Cuál se considera el benchmark justo? ↗V4 §9 ↗V6 §13
Benchmark vs regla simple del negocio (según definición de hoy) + IC bootstrap de OR y métricas test. Cierra el gap crítico de la rúbrica.
Validación experta de variables top con agrónomo y jefe de packing (OE3: ≥80% de coherencia).
TimeSeriesSplit 3+ folds (si se exige hoy) + decisión final umbral vs Top-K + congelar números oficiales de P2.
PPT 15 minutos con la estructura de este sitio (1 criterio = 1–2 láminas) + 2 ensayos cronometrados + QA de defensa (documento de 60 preguntas ya construido en V8).
P2: subir presentación a Webcursos al inicio de la jornada (no subirla = −1 punto) · asistencia completa del equipo.
Gestionar logger de temperatura en contenedor (variable de mayor impacto esperado: +0,05 a +0,10 ROC-AUC) · trazabilidad SKU-factura-reclamo para limpiar target noise · semáforo operacional calibrado + ROI (OE4) · comparación final de soluciones IA.
Los tres notebooks (V4.0 auditoría causal · V6.0 regresión logística · V8.0 laboratorio challenger) están embebidos aquí como HTML estático navegable. Los pequeños enlaces ↗V6 §13 distribuidos por el documento abren un panel lateral que aterriza directo en la sección del notebook que respalda ese claim. Esc o click fuera del panel devuelve al lector al mismo párrafo, sin perder el hilo.
Universo candidato de variables antes de modelar. Clasificación en cinco niveles de defensa causal, matrices ejecutivas y auditoría económica sin modelo.
Selección LASSO + VIF, split temporal, calibración sigmoide, umbral económico, 129 configuraciones evaluadas, reporte final con hiperparámetros.
Optimización de hiperparámetros, curvas completas (ROC, PR, Lift, Gain, calibración), Top-K, robustez bootstrap, importancia de variables y RF Causal con AIPW / Double-Robust.