Modelo multimodal abierto con 30 mil millones de parámetros y 3 mil millones de activos para agentes de IA perimetrales

0 3 6 minutos de lectura

TL; DR

Nvidia ha lanzado Nemotoron 3 Nano Omni, un modelo multimodal de peso abierto que integra visión, audio y lenguaje en una sola arquitectura con 30 mil millones de parámetros pero solo 3 mil millones activos por proyección. Afirma un rendimiento 9 veces mayor que el de modelos Open comparables y supera seis puntos de referencia. Disponible bajo el acuerdo de modelo abierto de Nvidia para uso comercial, apunta a implementaciones de agentes de IA en GPU individuales, lo que convierte a Nvidia en un competidor no solo en infraestructura de IA sino también en los modelos que se ejecutan en ella.

Nvidia lanzó el martes Nemotoron 3 Nano Omni, un modelo de IA multimodal de peso abierto que integra visión, audio y comprensión del lenguaje en una única arquitectura diseñada para impulsar agentes de IA autónomos en dispositivos de borde. El modelo tiene 30 mil millones de parámetros pero activa solo tres mil millones por paso directo a través de una mezcla experta, una proporción que le permite ejecutarse en una sola GPU mientras la capacidad multimodal del modelo iguala o supera varias veces su tamaño. Nvidia afirma tener un rendimiento nueve veces mayor que los modelos multimodales abiertos comparables con interactividad equivalente, una lógica de flujo único 2,9 veces más rápida en tareas multimodales y una capacidad del sistema aproximadamente nueve veces más efectiva para la lógica de video. El modelo superó seis puntos de referencia en inteligencia de documentos, comprensión de video y comprensión de audio. Procesa texto, imágenes, audio, video, documentos, cuadros e interfaces gráficas como entrada y produce texto como salida, lo que significa que un solo modelo puede reemplazar el mosaico de modelos especializados de visión, voz y procesamiento de documentos que actualmente unen la mayoría de las implementaciones de IA empresarial. El lanzamiento de Hugging Face, disponible bajo el acuerdo de modelo abierto de Nvidia con plenos derechos de uso comercial, representa el movimiento más agresivo hasta el momento por parte de la compañía que vende infraestructura de IA al mercado de IA.

arquitectura

Nemotoron 3 Nano Omni utiliza una arquitectura híbrida Mamba-transformer con 23 capas selectivas de espacio de estado Mamba-2, 23 capas de mezcla de expertos con 128 expertos con seis por token y un experto compartido, y seis capas de atención de consultas agrupadas. El codificador de visión, C-RADIOv4-H, maneja imágenes de resolución variable con parches de 16 por 16, escalando de 1.024 a 13.312 parches visuales por imagen. El codificador de audio, Parakeet-TDT-0.6B-v2, procesa la voz y el audio ambiental. El procesamiento de vídeo utiliza convolución tridimensional para capturar el movimiento entre fotogramas en lugar de tratar el vídeo como una secuencia de imágenes fijas. El modelo de texto base se entrenó previamente en 25 billones de tokens y admite una ventana de contexto de 256.000 tokens. Las elecciones arquitectónicas reflejan una filosofía de diseño específica: maximizar la capacidad por parámetro activo en lugar del parámetro total, porque la implementación del borde no está limitada por el tamaño del modelo en reposo sino por el cálculo por paso de estimación. Se estima que tres mil millones de parámetros activos significan que el modelo puede ejecutarse en el hardware anunciado en la conferencia de desarrolladores GTC 2026 de Nvidia, incluidas las estaciones de trabajo DGX Spark y DGX Station, sin la necesidad de clústeres de múltiples GPU que alimentan modelos grandes en centros de datos.

El método de mezclar expertos no es nuevo, pero sí su aplicación a un modelo multimodal a esta escala. La mayoría de los modelos multimodales abiertos utilizan una única arquitectura densa, que requiere que todos los parámetros estén activos en cada paso de estimación, o utilizan modelos expertos separados unidos en una canalización, lo que introduce latencia durante cada transferencia. Nemotoron 3 Nano Omni no hace ninguna de las dos cosas. Enruta cada token a seis especialistas de 128 en un modelo unificado, lo que significa que los tokens de visión, tokens de audio y tokens de texto fluyen a través de la misma arquitectura pero permiten diferentes habilidades según el método. El resultado es un modelo que puede procesar una transmisión de video, una instrucción hablada y un documento simultáneamente sin la latencia entre modelos que hace que las arquitecturas de canalización no sean adecuadas para aplicaciones de agentes en tiempo real. Para las implementaciones empresariales, desglosa la complejidad operativa de los modelos separados de visión, voz y lenguaje en puntos finales de inferencia separados, monitoreo y control de versiones en un único modelo que atiende a un único punto final.

estrategia

💜 de tecnología de la UE

Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y algo de arte de inteligencia artificial dudoso. Es gratis, todas las semanas, en tu bandeja de entrada. ¡Regístrate ahora!

Nvidia pasó el auge de la IA vendiendo infraestructura: GPU, redes y el ecosistema de software CUDA que encerró a los desarrolladores en su hardware. La familia de modelos Nemotron, que se descargó más de 50 millones de veces el año pasado, representa una estrategia paralela en la que Nvidia también ofrece modelos que se ejecutan en esa infraestructura. La lógica es circular pero poderosa: los modelos de Nvidia están optimizados para el hardware de Nvidia, y el hardware de Nvidia está optimizado para los modelos de Nvidia, creando un ecosistema completo que compite con las ofertas de modelo más nube de Google, Amazon y Microsoft. El argumento a favor de modelos de lenguaje pequeños y de dominio específico se ha desarrollado en la educación, la atención médica y la empresa, y Nemotoron 3 Nano Omni extiende esa lógica a aplicaciones multimodales: en lugar de llamar a un modelo de nube masivo para cada tarea de visión o audio, las empresas pueden ejecutar un modelo compacto localmente que gestiona toda la pila de percepción.

La adopción empresarial temprana incluye Foxconn, Palantir, Aible, ASI, Eka Care y H Company, y evalúa modelos de implementación de producción con Dell, DocuSign, Infosys, Oracle y Zefr. Los casos de uso, inspección visual en el piso de fábrica, procesamiento de documentos, aplicaciones de agentes de voz y comprensión de pantalla para agentes de uso de computadoras, reflejan el mercado al que se dirige Nvidia: no asistentes de IA para el consumidor, sino agentes de IA industriales que deben ver, oír y leer en tiempo real en hardware local. El modelo está disponible como microservicio Nvidia NIM a través de Amazon SageMaker jumpstart y en OpenRouter con opciones de implementación que incluyen VLLM, SGlang, Ollama, llama.cpp y TensorRT-LLM. La amplitud de las opciones de implementación es una declaración competitiva en sí misma: Nvidia está haciendo que el modelo sea aceptable en todas partes, en todos los marcos, y está profundizando la confianza en el ecosistema más amplio de Nvidia.

competencia

Los modelos de IA de código abierto diseñados para el razonamiento agente provienen de múltiples direcciones simultáneamente. V4-Pro y V4-Flash de Dipsic, lanzados la semana pasada, utilizan una arquitectura de atención híbrida optimizada para tareas agentes de largo horizonte. Los modelos Mater Lama dominan el espacio de texto de peso abierto. Los modelos Gemini de Google gestionan tareas multimodales a escala de la nube. Los modelos GPT de OpenAI siguen siendo el punto de referencia comercial. Lo que distingue al Nemotron 3 Nano Omni no es una capacidad única sino una combinación: percepción multimodal a través de visión, audio y texto en un solo modelo, una combinación de experiencia experta que permite la implementación de vanguardia, lanzada como pesos abiertos con licencia comercial. Ningún otro modelo ofrece actualmente cuatro funciones a la vez. Los comparadores más cercanos, el Gemini Nano de Google para dispositivos integrados y el Lama de Mater para pesos abiertos, carecen de al menos un componente: el Gemini Nano no es de peso abierto y las capacidades multimodales del Lama no incluyen procesamiento de audio en una arquitectura unificada.

Las implicaciones competitivas se extienden más allá del modelo. Si los modelos abiertos de Nvidia se convierten en los predeterminados para las implementaciones de agentes de IA en el borde, la empresa captura valor en cada nivel de la pila: la GPU que ejecuta la inferencia, el marco de software que la optimiza y ahora el modelo mismo. Los competidores que construyen los modelos de Nvidia aumentan su dependencia del hardware de Nvidia. Los competidores que construyen sus propios modelos todavía necesitan GPU Nvidia para entrenar. La era de la IA agente se está acelerando en toda la industria, y la estrategia de Nvidia es ser indispensable en todos los niveles en lugar de dominante en uno. Nemotoron 3 Nano Omni no es la respuesta de Nvidia a GPT-4o. El argumento de Nvidia es que el futuro de los agentes de IA se construirá sobre modelos pequeños, eficientes y abiertos que se ejecuten en el hardware de Nvidia en el borde, en lugar de grandes modelos propietarios que se ejecuten en la nube de otra persona. Que ese argumento sea válido depende de si las iniciativas para construir sistemas autónomos de próxima generación prefieren el control local a las instalaciones en la nube, y de si un modelo con tres mil millones de parámetros activos puede hacer el trabajo que actualmente requiere cientos de miles de millones de modelos. La norma dice que sí. El mercado decidirá si los criterios son correctos.

Source link

Redacción - ACN 3 horas hace

0 3 6 minutos de lectura