La octava generación de chips TPU de Google llega dividida en dos variantes especializadas, anunciadas oficialmente en Google Cloud Next. Se trata del TPU v8t y el TPU v8i, cada uno diseñado para tareas distintas dentro del ciclo de vida de los modelos de inteligencia artificial. La distinción no es cosmética: marca un cambio en cómo Google concibe la infraestructura necesaria para que los agentes de IA funcionen de forma eficiente y a escala.
Qué ha pasado exactamente
Google ha anunciado oficialmente el lanzamiento de dos chips TPU de nueva generación a través de su blog oficial The Keyword. Ambos forman parte de lo que la compañía denomina la octava generación de sus Tensor Processing Units, y han sido presentados en el marco de Google Cloud Next. El anuncio destaca que estos chips están diseñados específicamente para lo que Google llama «la era agéntica», es decir, el momento en que los sistemas de IA no solo responden preguntas sino que ejecutan tareas complejas de forma autónoma y encadenada.
Los dos chips tienen nombres que reflejan su función: el TPU v8t está orientado al entrenamiento de modelos —la fase más intensiva en cómputo, donde se ajustan los parámetros de una red neuronal con enormes volúmenes de datos—, mientras que el TPU v8i está diseñado para inferencia, es decir, el proceso mediante el cual un modelo ya entrenado genera respuestas o toma decisiones en tiempo real. Esta separación de responsabilidades en hardware dedicado es una apuesta concreta de Google por optimizar cada etapa del ciclo de vida de un modelo de IA de forma independiente.
El comunicado oficial no detalla cifras concretas de rendimiento comparativo respecto a generaciones anteriores, ni especifica precios de acceso a través de Google Cloud. Lo que sí queda claro en el anuncio es el posicionamiento estratégico: estos chips están pensados para alimentar los sistemas agénticos que Google está desarrollando y que ya despliega en productos como Gemini y en sus servicios de nube empresarial. La denominación «era agéntica» no es casual; refleja que el tipo de carga de trabajo que demanda la IA ha cambiado sustancialmente respecto a los modelos de lenguaje de primera generación.
El anuncio llega en un momento en que Google Cloud compite directamente con AWS y Microsoft Azure por los contratos de infraestructura de IA más grandes del mundo. Disponer de hardware propio y especializado le da a Google una palanca que sus competidores no tienen en la misma medida: control total sobre la pila tecnológica, desde el silicio hasta el modelo.
Por qué esto importa ahora
Durante años, el entrenamiento y la inferencia de modelos de IA se ejecutaban sobre el mismo tipo de hardware, con diferencias principalmente en la escala del despliegue. Los primeros TPUs de Google, lanzados en 2016, ya marcaron una ruptura con las GPU de uso general al optimizar el cómputo matricial que necesitan las redes neuronales. Pero la separación explícita entre un chip para entrenar y otro para inferir es una evolución que responde a una realidad operativa concreta: los agentes de IA modernos necesitan responder en milisegundos, y hacerlo de forma masiva y simultánea para miles de usuarios.
Los agentes de IA —sistemas que no solo generan texto sino que navegan por internet, ejecutan código, gestionan calendarios o coordinan tareas en nombre del usuario— tienen patrones de uso muy distintos a los de un chatbot tradicional. Requieren latencia baja, alta disponibilidad y capacidad para manejar flujos de trabajo largos y ramificados. Un chip diseñado para inferencia optimizada, como el TPU v8i, puede marcar la diferencia entre un agente que responde en tiempo real y uno que introduce fricciones inaceptables para el usuario final.
Para el ecosistema empresarial español y europeo, esto tiene implicaciones directas. Muchas empresas que están evaluando adoptar soluciones de IA agéntica a través de Google Cloud —desde automatización de procesos en banca hasta asistentes en retail o salud— se beneficiarán de una infraestructura más eficiente energéticamente y con menor coste por inferencia. Aunque los precios exactos no han sido publicados, históricamente las mejoras en eficiencia de los TPUs se han traducido en reducciones de coste para los clientes de Google Cloud.
Entrenamiento e inferencia: por qué separarlos tiene sentido técnico
La decisión de separar el hardware de entrenamiento del de inferencia no es nueva en la industria, pero Google la lleva ahora a su propia línea de TPUs con una claridad que no había tenido antes. NVIDIA, por ejemplo, lleva tiempo diferenciando sus líneas H100 —más orientadas a entrenamiento— de las L40S o las próximas Blackwell B200, que apuntan también a inferencia optimizada. Intel y AMD han seguido caminos similares. Lo que hace distinto el caso de Google es que estos chips están diseñados desde el principio para trabajar con los modelos Gemini y la arquitectura de agentes que Google está construyendo internamente, lo que teóricamente permite una optimización mucho más profunda.
El entrenamiento de un modelo grande como Gemini requiere semanas o meses de cómputo continuo sobre miles de chips trabajando en paralelo. El objetivo es maximizar el número de operaciones por segundo y la eficiencia en la comunicación entre chips. La inferencia, en cambio, exige responder a millones de peticiones simultáneas con latencia mínima. Intentar hacer las dos cosas bien con el mismo chip es un compromiso de ingeniería que inevitablemente sacrifica algo en cada frente.
Con el TPU v8t y el v8i, Google apuesta por no hacer ese compromiso. Cada chip puede estar optimizado para su caso de uso específico: mayor ancho de banda de memoria y mejor interconexión entre nodos para el v8t, menor latencia y mayor eficiencia energética por inferencia para el v8i. El comunicado no entra en detalles técnicos de arquitectura, por lo que las especificaciones exactas de cada chip no están disponibles en el material publicado hasta ahora.
Cómo se posiciona Google frente a NVIDIA y la competencia en silicio de IA
El mercado de chips para inteligencia artificial ha estado dominado durante los últimos años por NVIDIA de una forma tan abrumadora que la escasez de H100 se convirtió en noticia por sí misma durante 2023 y buena parte de 2024. Empresas como Microsoft, Amazon, Meta y el propio Google llevan años invirtiendo en desarrollar sus propios chips para reducir esa dependencia. Amazon tiene sus chips Trainium e Inferentia, Microsoft ha desarrollado el Maia 100, y Meta trabaja en su MTIA. Google, con los TPUs, es en realidad el pionero más antiguo de este grupo: lleva usando chips propios para IA desde 2016.
Lo que cambia con esta octava generación es el nivel de especialización. Hasta ahora, las distintas versiones de TPU eran chips de propósito general dentro del dominio de la IA. La división explícita en una variante para entrenamiento y otra para inferencia señala que Google considera que las cargas de trabajo agénticas son lo suficientemente distintas entre sí como para merecer hardware diferente. Es una apuesta de madurez tecnológica: ya no se trata de demostrar que los TPUs pueden competir con las GPU, sino de optimizar para casos de uso concretos que Google conoce mejor que nadie porque los opera a escala global.
Para los clientes empresariales, esto tiene una lectura práctica: acceder a los TPUs de Google a través de Google Cloud significa potencialmente obtener un rendimiento mejor en inferencia agéntica que el que ofrecerían configuraciones equivalentes basadas en GPU de terceros. La comparativa real dependerá de los benchmarks que se publiquen, y de momento el comunicado no incluye datos de rendimiento comparativo. Lo que sí está claro es que Google quiere que sus clientes de IA más exigentes no necesiten mirar fuera de su ecosistema para encontrar el hardware adecuado.
Qué cabe esperar
Google Cloud Next es el escenario habitual donde Google despliega sus anuncios de infraestructura más relevantes, y el lanzamiento de los TPU v8t y v8i en este contexto sugiere que la disponibilidad en Google Cloud está próxima o ya activa para algunos clientes. El siguiente paso natural será la publicación de benchmarks comparativos, precios por hora de cómputo y casos de uso documentados que permitan a los equipos técnicos evaluar si la migración tiene sentido para sus cargas de trabajo específicas. También conviene vigilar cómo responden NVIDIA, Amazon y Microsoft en los próximos meses: el anuncio de Google añade presión sobre toda la industria para acelerar la especialización de sus propios chips. La carrera por el silicio de IA agéntica acaba de entrar en una nueva fase.