Connect with us

TECNOLOGÍA

NVIDIA lanza Cosmos 3, un nuevo modelo para la IA física

Published

on

NVIDIA hizo la presentación oficial de su NVIDIA Cosmos 3, un modelo base de mundo abierto para IA física, construido sobre una innovadora arquitectura de mezcla de transformadores que combina razonamiento visual, generación de mundos y predicción de acciones en un solo sistema.

Cosmos 3 es el primer omnimodelo totalmente abierto del mundo capaz de comprender y generar de forma nativa texto, imágenes, vídeo, sonido ambiental y acciones con una precisión física líder en el mercado, reduciendo los ciclos de entrenamiento y evaluación de la IA física de meses a días.

NVIDIA también lanzó la Coalición NVIDIA Cosmos, una colaboración global entre creadores de modelos de mundos y desarrolladores de IA —incluidos Agile Robots, Black Forest Labs, Generalist, LTX, Runway y Skild AI— que trabajan juntos para impulsar los modelos de mundos de próxima generación.

«El gran auge de la IA física está a la vuelta de la esquina gracias a los avances en el lenguaje de razonamiento multimodal, la visión y los modelos de mundos», afirmó Jensen Huang, fundador y CEO de NVIDIA. La familia Cosmos 3 de omnimodelos abiertos y de vanguardia ofrece a los desarrolladores un salto generacional en la capacidad de construir robots, vehículos autónomos e IA de visión que perciben, razonan, planifican y actúan en el mundo físico.

Una nueva arquitectura para la IA física

Cosmos 3 aborda un desafío fundamental en la IA física: permitir que robots, vehículos autónomos (VA) o agentes de visión generalicen en el mundo real con datos de entrenamiento limitados y pilas de simulación fragmentadas.

La arquitectura de mezcla de transformadores del modelo combina un transformador de razonamiento con un transformador de generación experta, lo que permite a Cosmos 3 comprender las interacciones de los objetos, el movimiento y las relaciones espacio-temporales antes de generar trayectorias de vídeo y acción.

Entrenado con uno de los conjuntos de datos multimodales de IA física más grandes —que incluye miles de millones de muestras de texto, imagen, vídeo, sonido y trayectorias de acción—, el modelo proporciona a los desarrolladores una base preentrenada potente para construir sistemas de IA física con menos datos y menores costes de entrenamiento.

Los desarrolladores pueden usar Cosmos 3 como:

  • Un modelo de lenguaje de visión que comprende y razona en diferentes modalidades.
  • Un modelo del mundo o modelo de base de vídeo que simula entornos físicos y predice estados futuros del mundo para entrenamiento y evaluación.

La base de los modelos de acción del mundo que ayudan a entrenar robots para realizar tareas específicas.

Los modelos Cosmos 3 ofrecen resultados líderes en pruebas comparativas de IA física. Entre los modelos abiertos, ocupa el primer lugar en Artificial Analysis, Physics-IQ, PAI-Bench y R-Bench en precisión de generación de mundos, RoboLab y RoboArena en política de acción, y en las clasificaciones de VANTAGE-Bench y TAR en comprensión de visión.

Comentarios

Continue Reading
Haz clic para comentar

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entradas recientes

Lo Último

Do NOT follow this link or you will be banned from the site!