Qualcomm presenta AI200 y AI250 para inferencia de IA a escala de rack

Categorias

Principales destaques

AI200: solución de inferencia a nivel de rack con 768 GB de LPDDR por tarjeta, optimizada para LLM/LMM y TCO bajo.
AI250: arquitectura de near-memory computing con >10x ancho de banda efectivo y menor consumo para inferencia generativa.
Funciones de data center: liquid cooling directa, PCIe (scale-up), Ethernet (scale-out), confidential computing; consumo por rack de 160 kW.
Stack de software de grado hyperscaler: compatibilidad con frameworks líderes, despliegue “one-click” de modelos de Hugging Face vía Efficient Transformers Library y Qualcomm AI Inference Suite.

(Añadir enlace a la fuente original aquí). El 27 de octubre de 2025, Qualcomm anunció AI200 y AI250, aceleradores y racks orientados a inferencia generativa en centros de datos con foco en desempeño por dólar por watt y bajo TCO.

AI200 está diseñado para inferencia a escala de rack y prioriza capacidad de memoria y eficiencia: integra 768 GB de LPDDR por tarjeta, permitiendo mayor densidad y costo contenido para servir LLM/LMM y otros workloads de IA con flexibilidad de escalamiento.

AI250 introduce una arquitectura de memoria innovadora basada en near-memory computing, que entrega un salto generacional en eficiencia y desempeño para inferencia: más de 10 veces mayor ancho de banda efectivo de memoria y menor consumo energético. Este enfoque habilita inferencia desagregada, mejorando la utilización del hardware según metas de costo y rendimiento del cliente.

Ambas soluciones en rack incorporan enfriamiento líquido directo, PCIe para escalar verticalmente, Ethernet para escalar horizontalmente y confidential computing para cargas seguras; el consumo eléctrico por rack es de 160 kW.

En software, Qualcomm provee un stack de grado hyperscaler de extremo a extremo (aplicación a sistema), optimizado para inferencia y compatible con frameworks líderes. Facilita onboarding de modelos y despliegue con un clic de modelos de Hugging Face mediante Efficient Transformers Library y Qualcomm AI Inference Suite, además de herramientas para serving desagregado y aplicaciones/agents listos para uso.

Roadmap y disponibilidad: AI200 apunta a disponibilidad comercial en 2026 y AI250 en 2027. Qualcomm indica un roadmap anual enfocado en desempeño líder de inferencia, eficiencia energética y TCO competitivo.

Implicaciones para mercado/negocio: estas ofertas apuntan a reducir el costo total de servir modelos generativos aprovechando mayor capacidad de memoria, ancho de banda efectivo y eficiencia térmica/energética a nivel de rack, con un ecosistema de software que busca acortar el time-to-deploy de modelos ya entrenados en entornos empresariales y de hyperscalers. En este contexto, Qualcomm lanza chips de IA para disputar con Nvidia y AMD en el segmento de inferencia en data centers, priorizando costo, eficiencia y escalabilidad.

Marlom de Souza Pinto

Es profesional de trading desde 2017 y de marketing digital desde 2018. Actúa en el portal Trading Latam, donde analiza mercados, tecnología y negocios con foco en los impactos para inversionistas. En su tiempo libre, le gusta viajar, leer y profundizar en estudios continuos.

Qualcomm presenta AI200 y AI250 para inferencia de IA a escala de rack

Categorias

Table of Contents

Marlom de Souza Pinto

Categorias

Table of Contents

Sobre Nosotros

Nuestros Servicios

Síguenos