Google Deepmind dio a conocer dos nuevos modelos de inteligencia synthetic (AI) el jueves, lo que puede controlar a los robots para que realicen una amplia gama de tareas en entornos del mundo actual. Apodado Géminis Robótica y Géminis Robotics-Er (razonamiento encarnado), estos son modelos de lenguaje de visión avanzados capaces de mostrar inteligencia espacial y acciones de realización. El gigante tecnológico con sede en Mountain View también reveló que se está asociando con Apptronik para construir robots humanoides de Gemini 2.0. La compañía también está probando estos modelos para evaluarlos aún más y comprender cómo mejorarlos.
Google DeepMind presenta modelos de AI de Géminis Robotics AI
En blogDeepMind detalló los nuevos modelos AI para robots. Carolina Parada, directora senior y jefa de robótica en Google Deepmind, dijo que para que la IA sea útil para las personas en el mundo físico, tendrían que demostrar un razonamiento “encarnado”, la capacidad de interactuar y comprender el mundo físico y realizar acciones para completar las tareas.
Gemini Robotics, el primero de los dos modelos AI, es un modelo avanzado de acción-idioma de visión (VLA) que se construyó utilizando el modelo Gemini 2.0. Tiene una nueva modalidad de salida de “acciones físicas” que permite que el modelo controle directamente los robots.
Deepmind destacó que para ser útiles en el mundo físico, los modelos de IA para la robótica requieren tres capacidades clave: generalidad, interactividad y destreza. La generalidad se refiere a la capacidad de un modelo para adaptarse a diferentes situaciones. Gemini Robotics es “experto en tratar con nuevos objetos, diversas instrucciones y nuevos entornos”, afirmó la compañía. Según las pruebas internas, los investigadores encontraron que el modelo de IA duplica más que el rendimiento en un punto de referencia de generalización integral.
La interactividad del modelo AI se basa en la base de Gemini 2.0, y puede comprender y responder a los comandos redactados en el lenguaje cotidiano, conversacional y los diferentes idiomas. Google afirmó que el modelo también monitorea continuamente su entorno, detecta cambios en el entorno o instrucciones y ajusta sus acciones en función de la entrada.
Finalmente, DeepMind afirmó que Gemini Robotics puede realizar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa del entorno físico. Los investigadores dijeron que el modelo de IA puede controlar los robots para doblar un trozo de papel o empacar un refrigerio en una bolsa.
El segundo modelo de IA, Gemini Robotics-Er, también es un modelo de lenguaje de visión, pero se centra en el razonamiento espacial. Dibujo de la codificación de Gemini 2.0 y la detección 3D, se cube que el modelo AI muestra la capacidad de comprender los movimientos correctos para manipular un objeto en el mundo actual. Al destacar un ejemplo, Parada dijo que cuando al modelo se le mostró una taza de café, pudo generar un comando para una comprensión de dos dedos para recogerlo por el mango a lo largo de una trayectoria segura.
El modelo AI realiza una gran cantidad de pasos necesarios para controlar un robotic en el mundo físico, incluida la percepción, la estimación del estado, la comprensión espacial, la planificación y la generación de códigos. En explicit, ninguno de los dos modelos de IA está actualmente disponible en el dominio público. DeepMind probablemente integrará primero el modelo AI en un robotic humanoide y evaluará sus capacidades, antes de liberar la tecnología.