Google por fin ha lanzado su nuevo modelo de inteligencia artificial. Se trata de Gemini, un modelo de lenguaje del que DeepMind y Google han adelantado detalles desde hace meses, pero ahora comienza su lanzamiento oficial, y llega en tres versiones.
Después de rumores de un posible retraso del lanzamiento de Gemini, Google ha dado un golpe sobre la mesa anunciando que el modelo comienza a estar disponible a partir de ahora, primero en Bard y pronto también en su móvil más premium, el Pixel 8 Pro. En 2024 llegará a más productos de la compañía.
Gemini es aún mejor que GPT-4, según las pruebas de Google
Uno de los aspectos más interesantes del lanzamiento de Gemini es que Google lo ha acompañado con algunas demostraciones de su potencial y con los resultados de las pruebas más importantes para modelos de inteligencia artificial, en los que ha superado a GPT-4, su mayor rival y un modelo que se ha convertido en el estándar con el que todos quieren compararse.
Gemini llega en tres versiones:
- Gemini Nano: un modelo más eficiente para ejecutar tareas directamente en los dispositivos
- Gemini Pro: diseñado para escalar en muchos tipos de tarea
- Gemini Ultra: el modelo más potente y más grande Google, diseñado para tareas de gran complejidad
Ultra, al ser el más potente, es el que han evaluado en los tests para comparar sus resultados con los del GPT-4 de OpenIA. Google asegura que Gemini Ultra superó a GPT-4 en 30 de las 32 pruebas académicas estándar para evaluar estos modelos.
El modelo de Google supera al de OpenIA por un margen pequeño pero significativo en la prueba general de MMLU (comprensión masiva del lenguaje multitarea), obteniendo una puntuación del 90,04%, en comparación al 86,4% de GPT-4. De este modo, Gemini en su versión Ultra se convierte en el primer modelo de IA que supera a los expertos humanos en este tipo de prueba, que utiliza una combinación de 57 materias distintas, incluyendo matemáticas, física, historia, medicina y ética.
Lo que hace más interesante a Gemini Ultra es su capacidad de distinguir situaciones y solucionar problemas. El modelo de Google utiliza sus capacidades de razonamiento para analizar una situación de forma detallada antes de responder a una pregunta difícil. En demostraciones en vídeo, Google compartió su experiencia al interactuar con Gemini en algunas pruebas básicas de reconocimiento de imágenes y situaciones, y los resultados son sorprendentes.
Por ejemplo, Gemini pudo reconocer que el usuario estaba dibujando figuras en una hoja de papel, lo que después transformó mediante más líneas en algo que parecía un pato, y Gemini lo identificó correctamente. Al pintarlo de azul, Gemini mencionó que no es común que existan los patos de color azul, pero es posible en algunas razas.
El usuario también le mostró un mapa del planeta Tierra a Gemini y le pidió que inventara un juego usando emojis, por lo que al modelo se le ocurrió un juego basado en identificar países mediante elementos comunes. Por ejemplo, utilizó el emoji de koala y el de canguro como pistas del país a identificar.
La capacidad de reconocimiento de Gemini es uno de sus aspectos más interesantes, ya que Google y DeepMind han diseñado el modelo para reconocer e interpretar texto, imágenes, vídeo, audio e incluso código. Es un modelo capaz de extraer datos y obtener conclusiones a partir de cientos de miles de documentos, algo que la compañía promete que puede ser de mucha utilidad para materias complejas como matemáticas y física.
Según Google, sobre el diseño de Gemini:
“Gemini fue diseñado para que sea multimodal de forma nativa, preentrenado desde el comienzo en diferentes modalidades y, después, fue perfeccionado con datos multimodales para refinar aún más su eficacia. Esto ayuda a que Gemini pueda entender y razonar a la perfección sobre cualquier tipo de entrada, mucho mejor que los modelos multimodales existentes”.
Además, Google también puede entender, explicar y generar código en los lenguajes de programación más utilizados: Python, Java, C++ y Go. La compañía incluso ha creado un sistema de generación de código avanzado llamado AlphaCode 2, sucesor del AlphaCode de hace un par de años, que puede solucionar problemas de programación avanzados que implican matemáticas complejas.
Gemini comienza a estar disponible, primero en Bard y en el Pixel 8 Pro
A partir de hoy Gemini llega en su versión Pro a Google Bard, lo que supone la mayor actualización que ha recibido Bard desde su lanzamiento. Según Google, esto lo convierte en uno de los modelos gratuitos más capaces del mundo. Está disponible en más de 170 países, primero en inglés, y la compañía promete que en los próximos meses darán soporte a más territorios e idiomas.
Gemini también llega, en su versión Nano, al móvil más premium de Google, el Pixel 8 Pro. Esto llevará al smartphone nuevas funciones como usar las respuestas inteligentes del teclado Gboard en WhatsApp, entre otras. En 2024 prometen llevar Gemini a más aplicaciones de mensajería.
Los desarrolladores también podrán acceder a Gemini Pro a partir del próximo 13 de diciembre, a través de la API Gemini en Google AI Studio o Vertex AI. Y por último, Gemini llegará a más productos de Google como el Buscador, Chrome, Ads y Duet AI en los próximos meses.
En cuanto a Gemini Ultra, la versión más potente de este modelo, Google asegura que estará disponible para algunos clientes, desarrolladores y expertos en seguridad para que sean los primeros en probarlo, antes de que esté disponible para todos los desarrolladores en algún momento durante los primeros meses de 2024.
Imágenes | Google
En Xataka Móvil | Un hacker demuestra por qué se debe apagar correctamente el Bluetooth del iPhone para evitar riesgos de seguridad
En Xataka Móvil | Cómo crear tus propios GPTs de ChatGPT desde el móvil: haz que la IA se comporte como tú quieres
Ver 1 comentarios