November 6, 2025

Office Address

123/A, Miranda City Likaoli
Prikano, Dope

Phone Number

+0989 7876 9865 9

+(090) 8765 86543 85

Ciencia y Técnología

La industria se obsesionó con entrenar modelos de IA, mientras Google preparaba su jugada maestra: los chips de inferencia – El diario andino

La industria se obsesionó con entrenar modelos de IA, mientras Google preparaba su jugada maestra: los chips de inferencia

 – El diario andino

En los últimos años, lo verdaderamente relevante fue entrenar modelos de IA para mejorarlos. Ahora que han madurado y el entrenamiento ya no escala tan notablemente, lo que más importa es la inferencia: cuando usamos chatbots con IA, funcionan de manera rápida y eficiente. Google se dio cuenta de este cambio de enfoque y tiene chips precisamente preparados para ello.

palo de hierro. Este es el nombre de los nuevos chips de la famosa familia de Unidades de Procesamiento Tensoriales (TPU) de Google. La compañía, que comenzó a desarrollarlos en 2015 y lanzó los primeros en 2018, está obteniendo ahora de todo ese esfuerzo frutos especialmente interesantes: unos chips realmente prometedores no para entrenar modelos de IA, sino para que los utilicemos de forma más rápida y eficiente que nunca.

Inferencia, inferencia, inferencia. Estos «TPUv7» estarán disponibles en las próximas semanas y podrán usarse para entrenar modelos de IA, pero están especialmente orientados a «servir» estos modelos a los usuarios para que puedan utilizarlos. Es la otra gran pata de los chips de IA, la realmente visible: una cosa es entrenar los modelos y otra muy distinta «ejecutarlos» para que respondan a las peticiones de los usuarios.

Eficiencia y potencia por bandera. El avance en el rendimiento de estos chips de IA es enorme, al menos según Google. La compañía afirma que Ironwood ofrece cuatro veces el rendimiento de la generación anterior tanto en entrenamiento como en inferencia, y es «el silicio personalizado más potente y energéticamente más eficiente hasta la fecha». Google ya ha llegado a un acuerdo con Anthropic para que esta última tenga acceso a hasta un millón de TPU para ejecutar Claude y servirlo a sus usuarios.

Las supercomputadoras con inteligencia artificial de Googley. Estos chips son los componentes clave del llamado AI Hypercomputer, un sistema de supercomputación integrado que según Google permite a los clientes reducir los costos de TI en un 28% y un ROI del 353% en tres años. O lo que es lo mismo: prometen que si utilizas estos chips el retorno de la inversión se multiplicará por más de cuatro en ese periodo.

Casi 10.000 chips interconectados. Los nuevos Ironwood también están equipados con la capacidad de ser parte de unir fuerzas a lo grande. Es posible combinar hasta 9.216 de ellos en un único nodo o pod, lo que teóricamente hace desaparecer los cuellos de botella de los modelos más exigentes. El tamaño de este tipo de clusters es enorme, y permite hasta 1,77 Petabytes de memoria HBM compartida mientras que estos chips se comunican con un ancho de banda de 9,6 Tbps gracias a la llamada Inter-Chip Interconnect (ICI).

Más FLOPS que nadie. La compañía también afirma que un «Ironwood pod» (un grupo con esos 9216 TPU de Ironwood) ofrece 118 veces más ExaFLOPS FP8 que su mejor competidor. Los FLOPS miden cuántas operaciones matemáticas de punto flotante pueden resolver estos chips por segundo, lo que garantiza que básicamente cualquier carga de trabajo de IA se ejecute en tiempos récord.

NVIDIA cada vez tiene más competencia (y eso es bueno). Los chips de Google son una demostración de la clara vocación de las empresas por evitar demasiadas dependencias de terceros. Google tiene todos los ingredientes para hacerlo, y su TPUv7 es prueba de ello. No es la única, y muchas otras empresas de IA llevan tiempo buscando crear sus propios chips. El dominio de NVIDIA sigue siendo claro, pero la empresa tiene un pequeño problema.

En inferencia CUDA ya no es tan vital. Una vez que se ha entrenado el modelo de IA, la inferencia opera bajo reglas de juego diferentes a las del entrenamiento. El soporte de CUDA sigue siendo un factor relevante, pero su importancia en la inferencia es mucho menor. La inferencia se centra en obtener la respuesta más rápida posible. Aquí los modelos se «compilan» y pueden ejecutarse de manera óptima en el hardware de destino. Esto puede hacer que NVIDIA pierda relevancia frente a alternativas como Google.

En | Cuando eres OpenAI y no puedes comprar suficientes GPU, la solución es obvia: crea las tuyas propias

About Author

Redactor Andino