Modelos de lenguajes grandes (LLM) explicados

Que hace un LLM

En esencia, un LLM predice qué texto debería venir a continuación dado el texto anterior. Este mecanismo simple, cuando se escala a miles de millones de parámetros y se entrena con datos a escala de Internet, produce comportamientos notablemente sofisticados: comprender preguntas, seguir instrucciones, razonar problemas, resumir documentos, traducir idiomas y generar contenido creativo.

Para los agentes de IA, los LLM brindan la capacidad de interpretar las solicitudes de los usuarios, recuperar y sintetizar información, decidir acciones y formular respuestas. Sin embargo, un LLM por sí solo no es un agente. Necesita una infraestructura circundante: recuperación de conocimientos (RAG), integración de herramientas, sistemas de memoria y controles de flujo de trabajo.

Principales familias de LLM

GPT-4 y GPT-4o (OpenAI): Entre los modelos de uso general más capaces. Razonamiento sólido, seguimiento de instrucciones y llamada de funciones. GPT-4o ofrece respuestas más rápidas y capacidades multimodales. Ampliamente disponible a través de API y utilizado por muchas plataformas de agentes de IA.
Familia Claude 3 (Antrópica): Opus para razonamiento complejo, Sonnet para rendimiento equilibrado, Haiku para velocidad y rentabilidad. Conocido por sus sólidas prácticas de seguridad, largas ventanas de contexto y seguimiento de instrucciones matizadas. Popular para aplicaciones empresariales.
Géminis (Google): Modelos Pro y Ultra con fuertes capacidades multimodales. Integración nativa con el ecosistema de Google. Modelos flash para respuestas más rápidas. Habilidades de codificación y razonamiento competitivo.
Llama (Meta): Modelos de peso abierto que pueden ejecutarse en su propia infraestructura. Llama 3 ofrece un rendimiento competitivo con la ventaja del control y personalización de datos. Requiere una configuración más técnica.
Mistral y otros: Modelos europeos con sólidas relaciones rendimiento-coste. A menudo se utiliza para implementaciones especializadas o configuraciones de costos optimizados.

Capacidades

Los LLM modernos pueden realizar una amplia gama de tareas relevantes para los agentes de IA:

Comprensión del lenguaje natural: Analice las solicitudes de los usuarios, identifique la intención, extraiga información clave y maneje variaciones de redacción.
Instrucción siguiente: Ejecute instrucciones detalladas sobre formato, tono, restricciones y pasos del flujo de trabajo.
Razonamiento: Resuelva problemas de varios pasos, considere alternativas y explique las decisiones.
Llamada de función: Estructurar resultados para activar herramientas, API y flujos de trabajo externos.
Manejo del contexto: Mantenga el historial de conversaciones y haga referencia a declaraciones anteriores.
Procesamiento multimodal: Muchos modelos pueden comprender imágenes, audio y documentos además de texto.

Limitaciones

Comprender las limitaciones de LLM es esencial para crear agentes de IA confiables:

Alucinación: Los LLM pueden generar información que suena plausible pero falsa. No distinguen entre el conocimiento que tienen y los patrones que infieren. Conecte siempre a tierra las salidas LLM en fuentes verificadas.
Sin acceso al conocimiento inherente: Los LLM no tienen acceso directo a los datos, políticas o información en tiempo real de su negocio. Solo saben lo que había en sus datos de entrenamiento y lo que usted proporciona a través del contexto o la recuperación.
Límites de conocimiento: Los datos de entrenamiento tienen fecha límite. Los modelos no conocen eventos recientes, políticas actualizadas ni información sobre nuevos productos a menos que se proporcionen a través de RAG.
Fallos de razonamiento: El razonamiento complejo puede fallar de manera sutil. Los modelos pueden cometer errores lógicos, pasar por alto casos extremos o llegar a conclusiones incorrectas con confianza.
Sensibilidad inmediata: Pequeños cambios en la redacción pueden producir resultados diferentes. Los resultados pueden variar entre ejecuciones en la misma entrada.
Vulnerabilidades de seguridad: La inyección inmediata puede anular las instrucciones. Se puede engañar a los modelos para que revelen patrones de datos de entrenamiento o eludan restricciones.
Costo y latencia: Los modelos más grandes son más lentos y más caros por token. Las largas conversaciones y la recuperación compleja aumentan los costos.

Factores de selección del modelo

Al evaluar las plataformas de agentes de IA, considere estos factores relacionados con el LLM:

Elección del modelo: ¿La plataforma te permite elegir modelos o está limitada a un solo proveedor? ¿Puedes mezclar modelos para diferentes tareas?
Rendimiento en sus tareas: Pruebe los modelos con su conjunto de evaluación específico, no con puntos de referencia genéricos. Un modelo que sobresale en la codificación puede tener dificultades con sus conversaciones de soporte.
Latencia: ¿Qué tiempos de respuesta ofrece el modelo bajo carga? ¿Cómo cambia la latencia con la longitud y la complejidad del contexto?
Costo: ¿Cuál es el costo por conversación, por token, por llamada a herramienta? ¿Cómo aumentan los costos con el uso?
Privacidad de datos: ¿Dónde está alojado el modelo? ¿Los datos salen de su región? ¿Cuáles son las políticas de retención de datos y capacitación del proveedor?
Estabilidad: ¿Con qué frecuencia cambia el modelo? ¿Puedes fijar versiones específicas? ¿Qué sucede cuando el proveedor actualiza?

LLM en arquitectura de agentes de IA

El LLM es un componente de un sistema más grande:

Procesamiento de entrada: Las solicitudes de los usuarios pasan por la detección de intenciones, la extracción de entidades y el ensamblaje de contexto antes de llegar al LLM.
Recuperación de conocimientos: Los sistemas RAG obtienen documentos, políticas y datos relevantes para fundamentar las respuestas del LLM.
Integración de herramientas: La llamada a funciones permite al LLM desencadenar acciones, pero la ejecución ocurre fuera del modelo.
Filtrado de respuestas: Los resultados pueden pasar por moderación, detección de PII y verificaciones de reglas comerciales antes de llegar a los usuarios.
Sistemas de memoria: El historial de conversaciones y el contexto del usuario se almacenan y recuperan por separado del propio LLM.

Qué deberían preguntar los compradores

¿Qué LLM admite la plataforma? ¿Puedo elegir o cambiar de modelo?
¿Cómo maneja la plataforma las actualizaciones y versiones del modelo?
¿Cuál es el modelo de precios para el uso de LLM? ¿Hay límites o cargos por excedente?
¿Cómo mitiga la plataforma las alucinaciones y garantiza respuestas fundamentadas?
¿Qué sucede cuando el modelo principal tiene una interrupción? ¿Existen opciones alternativas?
¿Puedo traer mi propio modelo o ejecutar modelos en mi infraestructura?
¿Cómo se registran y auditan los resultados del modelo para garantizar su cumplimiento?

Agente de IA - La arquitectura del sistema alrededor del LLM.
RAG - Recuperación de generación aumentada para la base del conocimiento.
Prompt Engineering - Diseño de instrucciones para el LLM.
IA multimodal - LLM extendidos a imágenes, audio y más.