Figura 1: corte transversal de un paquete 2.5D con las vías de ingreso de humedad marcadas en cian y la zona de underfill destacada como principal riesgo de condensación y migración electroquímica.
A medida que los paquetes de aceleradores de IA crecen en densidad y sus presupuestos de potencia superan 1 kW por socket, la industria ha concentrado su atención en la gestión térmica y ha dejado subexplotado un problema de confiabilidad más insidioso. La humedad, con su difusión, sus transiciones de fase y sus consecuencias electroquímicas, merece hoy el mismo rigor que los ingenieros dedican desde hace décadas a la temperatura de unión.
Los aceleradores avanzados apilan múltiples dies heterogéneos (lógica, HBM, interconexión fotónica) en paquetes cuya superficie interna supera con creces la de un dispositivo monolítico. Cada interfaz entre materiales es un potencial reservorio de humedad y un evento de confiabilidad latente.
¿Por dónde entra el agua?
Los ingenieros a veces tratan el mold compound de un flip-chip BGA como si fuera un sello hermético. No lo es. Los encapsulantes basados en epoxy son permeables al vapor de agua; sus coeficientes de difusión rondan 10⁻¹² a 10⁻¹⁰ m²/s según la carga de filler y la química de curado. A 35 °C y 60 % de humedad relativa, un overmold moderno alcanza equilibrio de humedad en pocos días.
La vía más peligrosa es interfacial, no de bulk. El límite entre mold compound y laminado del substrate, o entre underfill y pasivación del die, presenta una resistencia a la difusión órdenes de magnitud menor que el polímero puro, por desajuste de energía superficial y microvacíos generados por el estrés térmico de coeficientes de expansión (CTE). Las arquitecturas chiplet agravan el problema: un paquete 2.5D introduce varias químicas de underfill, un interposer orgánico y las paredes de los TSV, cada uno una interfaz de humedad distinta.
Condensación durante switchover de chillers
!!Mapa psicrométrico de riesgo: humedad relativa vs temperatura Figura 2: mapa psicrométrico con las zonas verde (segura, <40 % HR), ámbar (precaución, 40–70 %) y roja (riesgo de condensación y corrosión, >70 %). Contornos azules de dew-point, línea de saturación al 100 % y rectángulo negro con el envelope ASHRAE A1 típico de datacentre.
Durante un cambio de chiller, la temperatura del aire de entrada cae 10 °C en minutos mientras la humedad absoluta se mantiene fija, empujando la humedad relativa de 45 % a 80 % justo cuando la superficie de un cold-plate baja por debajo del dew-point local. El ciclo de potencia empeora el escenario: pasar de idle a training completo eleva la temperatura de unión 40 a 60 °C en segundos, pero las superficies del paquete tardan más en calentarse y quedan cerca del ambiente el tiempo suficiente para condensación localizada en cada encendido.
La falla de fusible largo
A 80–105 °C de temperatura de unión y 0,7–1,0 V de suministro, la humedad en contacto iónico con las interconexiones de cobre gatilla la electromigración electroquímica (ECM). Películas delgadas de agua fisisorbida entregan suficiente conductividad iónica para disolver cobre y hacer crecer dendritas por debajo del umbral de condensación.
!!Migración electroquímica: crecimiento de dendrita de cobre entre ánodo y cátodo Figura 3: dos pads de cobre (ánodo izquierdo, cátodo derecho) sobre un substrato dieléctrico conectados a una fuente. Flechas naranjas del campo eléctrico, iones Cu²⁺ (puntos azules) migrando a través de una película de agua adsorbida y una dendrita roja de cobre creciendo desde el cátodo, precursora del cortocircuito.
La fuerza impulsora es el campo eléctrico: 1 V a través de 10 µm entrega 100 kV/m, suficiente para que una dendrita conductora crezca en miles y no millones de horas. En capas de redistribución con pitch de 2 µm (comunes en paquetes fan-out), el tiempo hasta falla se acorta proporcionalmente. Antes del cortocircuito físico ya hay degradación de integridad de señal: la humedad altera la constante dieléctrica del polímero y castiga los márgenes de eye-diagram en pares diferenciales multi-GHz.
Gradiente térmico y termoforesis
Los paquetes avanzados no son isotérmicos. Puede haber un gradiente de 40 °C entre los tiles de compute más calientes y los bordes del substrate. Ese gradiente arrastra vapor de agua desde las zonas calientes y lo condensa en las frías, justo en la periferia del BGA y los bordes del substrate, donde el daño mecánico y electroquímico duele más.
!!Mapa térmico top-view con acumulación de humedad en los bordes por termoforesis Figura 4: mapa térmico top-down desde rojo-naranja al centro (~105 °C) hasta azul en la periferia (~65 °C). Contornos blancos delimitan los 5 chiplets (compute, dos HBM, dos I/O). Elipses cianes en las esquinas marcan zonas de acumulación de humedad por termoforesis.
El ciclado térmico repetido con humedad absorbida acelera la delaminación por un mecanismo mecano-químico acoplado. El HAST estándar a temperatura y humedad uniformes puede fallar en reproducir la distribución real de fallas de campo.
El sistema completo, no sólo el chip
!!Riesgo sistémico: paquete, conector y cold-plate Figura 5: elevación frontal de un ensamble de servidor. Columna central: cold-plate con líneas de refrigerante y gotas de condensación; acelerador con IHS, mold y bolas de solder BGA con flancos naranjas de ingreso de humedad; PCB con trazas de cobre. Izquierda: conector PCIe/CXL con elipse roja de riesgo de oxidación.
El impacto se extiende más allá del paquete. Laminados de PCB de alto desempeño muestran un desplazamiento de Dk de 0,05–0,15 cuando la humedad sube de 0 a 1 % en peso, suficiente para degradar los presupuestos de skew en trazas PCIe Gen 5 o CXL 2.0 a 32 GT/s. Los conectores separables sufren crecimiento acelerado de óxido en ambientes húmedos, más rápido de lo que predice el cycling de calificación. Los sistemas refrigerados por líquido agregan otro flanco: las superficies del cold-plate suelen acercarse al dew-point ambiente.
Cuatro pasos para mitigarlo
Sekar propone cuatro acciones concretas:
- Extender el JEDEC MSL a una variante operational bias: dispositivos corriendo a voltaje y frecuencia de trabajo dentro de una cámara 85 °C / 85 % HR durante 1.000 horas, con monitoreo continuo de fuga y BER.
- Desarrollar HAST con gradiente: imponer 30–40 °C de diferencial en el paquete durante el soak de humedad, forzando la humedad hacia la periferia como ocurre en servicio real.
- Construir bases de datos validadas de difusividad y sorción para materiales de packaging avanzado, medidas entre 60 y 100 °C.
- Establecer programas de correlación con telemetría de aceleradores desplegados en campo y análisis de falla sobre hardware devuelto.
¿Qué implica para operadores en Chile y LatAm?
Los datacenters chilenos (Santiago, Quilicura, Curauma) operan con envelopes A1 de ASHRAE pero la humedad relativa varía fuerte entre invierno costero y verano interior. Para operadores con racks de aceleradores IA, la lección es doble: instrumentar dew-point sensors por rack y agregar un interlock de precalentamiento antes de cargar workloads pesados. En ambientes de laboratorio universitario donde no hay control climático, los aceleradores AMD Instinct MI355X y NVIDIA H200 pueden degradar en años, no en la vida útil nominal de 5 años, sin monitoreo activo.




