Validación de Hipótesis · Pérdidas Crónicas en Benefit per Order

El reporte arranca con el tratamiento de outliers (figura 1): identifica los 13,727 pedidos con pérdida estadísticamente extrema según el criterio Tukey y los aísla. Las figuras 2 a 11 analizan los 166,781 pedidos restantes (sin outliers) para detectar de dónde provienen las pérdidas ordinarias residuales — las que no se explican por valores atípicos sino por el patrón cotidiano de la operación.

Veredicto frente a los 11 componentes de la pregunta
✓ Outliers Tukey aislados: 13,727 pedidos (7.60%) aportan 84.6% del daño total✓ Dataset filtrado para análisis: 166,781 pedidos (se removieron 13,727 outliers)✓ Pérdida residual (sin outliers): 12.02% pierden · $149,846/año✗ Indep. descuento: rango 1.60 pp entre 0%-25%✓ Indep. Order Status: rango 1.77 pp entre 9 estados✓ Indep. TEMPORAL: rango mensual 4.96 pp en 37 meses✓ Indep. ESPACIAL: rango regional 2.54 pp en 23 regiones✗ Spread filtrado (n≥1000): máx 8.65 pp · sin filtro era 20.08 pp✓ Distancia irrelevante: correlación -0.0009 con Benefit✗ Categoría irrelevante: rango 8.65 pp entre top 15 categorías✗ Cantidad irrelevante: rango 4.73 pp entre 1-5 unidades

1. Tratamiento de outliers — distribución

Análisis del dataset completo (180,508 pedidos). Izquierda: distribución original con outliers Tukey. Derecha: distribución tras winsorización al fence. Los 13,727 outliers se aíslan; las siguientes figuras analizan los 166,781 pedidos restantes.

2. Magnitud crónica (sin outliers)

Tasa global de pedidos con pérdida y pérdida acumulada por año, sobre el dataset filtrado. Aun sin los outliers severos, la base de pérdidas sigue siendo no marginal.

3. Tasa de pérdida por rango de descuento (sin outliers)

% pedidos con pérdida por rango de descuento aplicado. Si las barras quedan a la misma altura, el descuento no explica las pérdidas residuales.

4. Tasa de pérdida por Order Status (sin outliers)

% pedidos con pérdida por estado administrativo. Incluye COMPLETE: si también pierde, descarta cancelaciones/fraudes como causa.

5. Tasa de pérdida mensual (sin outliers)

Serie mensual 2015-01 → 2018-01 con banda verde ±2pp del promedio. Si la línea no sale de la banda, no hay tendencia ni estacionalidad.

6. Tasa de pérdida por región (sin outliers)

% pedidos con pérdida en las 23 regiones del mundo. Si todas se agrupan cerca del promedio, no hay foco geográfico.

7. Cruce año × región (sin outliers)

Heatmap simultáneo año × región. Celdas vacías (—) son combinaciones sin datos; las celdas con valor deberían estar todas en tono similar.

8. Spread por variable (sin outliers)

Diferencia max-min del % de pérdida en cada candidato (categoría, región, hora, día, modo, cantidad, mercado, segmento, país). Se muestran dos barras: con todos los grupos y con n ≥ 1000 por grupo.

9. Distancia del cliente vs Benefit (sin outliers)

Scatter haversine cliente↔centro USA vs Benefit per order, con ganancias en verde y pérdidas en rojo. Las nubes superpuestas demuestran ausencia de pendiente.

10. Distribución por categoría top 15 (sin outliers)

Boxplots de Benefit per order por categoría, con el % de pérdida anotado. Distribuciones similares indican que ninguna categoría es estructuralmente más perdedora.

11. Cantidad enviada vs pérdida (sin outliers)

Barras rojas: tasa de pérdida por cantidad (1 a 5 unidades). Línea blanca: magnitud media de pérdida. La cantidad no afecta la tasa; sí amplifica la magnitud en $.