SpaceX alquiló Colossus 1 a Anthropic porque no pudo hacer que el centro de datos funcionara para Grok
TL; DR
SpaceX arrendó Colossus 1 a Anthropic después de sufrir problemas de latencia y desajuste de chips para intentar usarlo para Grok. Las nuevas instalaciones utilizan chips Blackwell uniformes.
SpaceX alquiló su centro de datos Colossus 1 a Anthropic no porque tuviera exceso de capacidad, sino porque no podía hacer que la instalación funcionara para sus propios modelos de IA. Bloomberg informó el viernes que SpaceX experimentó problemas de latencia al intentar conectar el sitio de Memphis con otros dos campus de centros de datos a más de 10 millas de distancia, agravados por una infraestructura de red obsoleta.
La empresa planeaba entrenar sus modelos Groc más avanzados utilizando un grupo de tres instalaciones que trabajaban juntas. Entrenar grandes modelos de IA requiere conexiones muy rápidas entre sitios. Si los enlaces son antiguos o tienen poco ancho de banda, crean retrasos que ralentizan todo el clúster. SpaceX determinó que la instalación generaría ingresos más valiosos de los que no se utilizarían.
La falta de coincidencia de hardware empeoró las cosas. Colossus 1 presenta una combinación de aceleradores más antiguos y generaciones de chips Nvidia, incluidos los sistemas Hopper y Blackwell. Los Colossus 2 y 3 se construyeron de manera más uniforme alrededor de los chips Blackwell de Nvidia. En un clúster de capacitación distribuido, la carga de trabajo se distribuye entre las máquinas que deben sincronizarse. Los chips más antiguos rápidamente causan cuellos de botella al obligar al acelerador a esperar. El clúster funciona más cerca de su hardware más lento, no del más rápido.
El resultado es que Anthropic ahora está pagando 1.250 millones de dólares al mes para utilizar una instalación que los propios ingenieros de SpaceX no pudieron utilizar por completo. Combinado con el contrato mensual de Google de 920 millones de dólares, SpaceX está recaudando alrededor de 2.170 millones de dólares al mes en ingresos de la infraestructura que construyó en gran medida para sí mismo.
La revelación complica la narrativa presentada durante la gira de IPO de SpaceX. La compañía de Musk ha enfatizado repetidamente que el Colossus 1 se construyó en sólo 122 días, superando el promedio de la industria. La velocidad de construcción fue un punto de venta. Los informes de Bloomberg sugieren que la velocidad tuvo un costo: las instalaciones no se construyeron de manera lo suficientemente uniforme como para servir como parte de un grupo de capacitación más grande.
El director financiero de SpaceX, Brett Johnsen, dijo que la compañía no ha renunciado a los servicios internos de inteligencia artificial, incluido Grok. Musk describió el acuerdo del Antropoceno como un contrato de arrendamiento de 180 días con un derecho de cancelación mutua de 90 días, reservándose la opción de reclamar energía. "Si el conteo es demasiado ajustado, dije que podríamos necesitarlo en algún momento", dijo.
Pero la trayectoria de Grok hace que recuperar el cómputo sea menos urgente. Las descargas cayeron de 20 millones en enero a 8,3 millones en abril. Las conversiones pagas son una quinta parte de ChatGPT. La adopción federal ha sido suspendida. El producto que se suponía justificaría la inversión en el centro de datos tiene un rendimiento deficiente, mientras que los ingresos por alquiler de Anthropic y Google representan ahora una línea de ingresos anuales de 26 mil millones de dólares. SpaceX construyó un centro de datos para el entrenamiento de IA y, dicho sea de paso, se convirtió en propietario de IA.





