Google ha lanzado Gemini Embedding 2, un modelo de embeddings que promete revolucionar cómo las empresas gestionan e interpretan sus datos. A diferencia de modelos anteriores, este nuevo sistema puede procesar y unificar información de texto, imágenes, video, audio y documentos en un único espacio numérico. Esto no solo mejora la eficiencia, sino que también reduce costos al eliminar la necesidad de modelos separados para cada tipo de dato.

Los embeddings son, en esencia, la forma en que la inteligencia artificial organiza la información por significado, no solo por metadatos. Imagina una biblioteca donde los libros se agrupan por su "esencia" o temática, no por su título o autor. Gemini Emb edding 2 convierte datos complejos en vectores numéricos, representando su posición en un mapa de alta dimensión. Si dos elementos son semánticamente similares, sus "coordenadas" estarán cerca. Esta tecnología es la base de motores de búsqueda más inteligentes, sistemas de recomendación personalizados y, crucialmente para las empresas, la Generación Aumentada por Recuperación (RAG), donde los asistentes de IA consultan bases de conocimiento internas para responder preguntas precisas.
Lo que hace a Gemini Embedding 2 tan especial es su naturaleza intrínsecamente multimodal. Puede entender el audio como ondas sonoras y el video como movimiento directamente, sin necesidad de transcribirlo a texto primero. Esto minimiza errores de "traducción" y captura matices que se perderían en un enfoque basado puramente en texto. Para los desarrolladores y las empresas, esto se traduce en flujos de trabajo de IA más eficientes. Ahora es posible realizar búsquedas 'transmodales ', como usar una consulta de texto para encontrar un momento específico en un video o una imagen que coincida con un sonido particular. El modelo incluso puede procesar solicitudes que mezclan modalidades, como una imagen de un coche antiguo y la pregunta "¿Cuál es el tipo de motor?". Además, incorpora la técnica 'Matryoshka Representation Learning', que permite anidar información importante en las primeras dimensiones del vector, ofreciendo flexibilidad para optimizar el almacenamiento y la precisión según las necesidades.
Las pruebas de rendimiento muestran que Gemini Embedding 2 establece un nuevo estándar, superando a modelos anteriores en tareas de recuperación de texto, imagen y video, especialmente en audio y video, donde su arquitectura nativa evita la degradación del rendimiento asociada a las transcripciones. Para las empresas, esto significa la posibilidad de crear una 'Base de Conocimiento Unificada', permitiendo a la IA comprender las relaciones entre d iferentes tipos de datos. Socios tempranos como Sparkonomy han reportado reducciones de latencia de hasta el 70%, y Everlaw, una firma de tecnología legal, lo usa para encontrar evidencia crucial en litigios que antes pasaría desapercibida. Si bien existen límites en la cantidad de datos que se pueden procesar en una sola solicitud (por ejemplo, 6 páginas de un PDF, 128 segundos de video), estos límites se refieren a la entrada por solicitud, no a la capacidad de almacenamiento general de la base de datos. El modelo ya está disponible en vista previa pública a través de la API de Gemini y Vertex AI, con modelos de precios que varían según el tipo de datos y la escala de uso, ofreciendo también licencias permisivas para su integración y modificación.
Fuente Original: https://venturebeat.com/data/googles-gemini-embedding-2-arrives-with-nat ive-multimodal-support-to-cut
Artículos relacionados de LaRebelión:
- IA en Empresas Identidad Humana vs Agentes AI
- 10 Ejercicios Resueltos de Bash Scripting en Linux: Guía para Universidad
- 10 Ejercicios de C++ para Aprobar Estructuras de Datos (Ingeniería)
- 10 Ejercicios Resueltos de Python: Guía Definitiva para Ingeniería Informática
- Claude Marketplace Herramientas IA para Empresas
Artículo generado mediante LaRebelionBOT










