Definición

Memoria del agente de IA

La memoria del agente de IA se refiere a los sistemas que almacenan y recuperan el historial de conversaciones, el contexto del usuario y la información aprendida, lo que permite interacciones coherentes y personalizadas que se basan en intercambios pasados.

¿Qué significa la memoria en la práctica?

Para los compradores de empresas, la memoria del agente de IA no se trata de darle a la IA una conciencia similar a la humana. Se trata de mantener suficiente contexto para tener conversaciones coherentes, eficientes y que no frustren a los clientes pidiéndoles que repitan información.

Sin memoria, toda interacción comienza desde cero. El agente no puede hacer referencia a lo que acaba de decir el cliente, recordar que ya se discutió un problema o aprovechar pasos anteriores para la resolución de problemas. Con la memoria, el agente puede mantener la coherencia de la conversación, personalizar las interacciones y proporcionar el tipo de continuidad que los clientes esperan de los agentes humanos.

tipos de memoria

Memoria a corto plazo (memoria de trabajo): Cubre la sesión de conversación actual. Incluye mensajes recientes, contexto recopilado durante la interacción y el estado actual del flujo de trabajo. Esto es lo que le permite al agente responder "¿qué pasa con mi segundo pedido?" sin que el cliente repita el contexto.

Memoria a largo plazo: Persiste a lo largo de múltiples sesiones y días. Incluye historial de conversaciones pasadas, preferencias del usuario, información de la cuenta y patrones aprendidos a lo largo del tiempo. Esto permite al agente decir "Veo que se comunicó con nosotros la semana pasada sobre el mismo problema" sin necesidad de que el cliente dé explicaciones.

Memoria episódica: Registros de interacciones pasadas específicas: qué se discutió, qué se resolvió, qué acciones se tomaron. Útil para la continuidad cuando un cliente regresa con preguntas de seguimiento.

Memoria semántica: Hechos y conocimientos sobre el contexto del usuario o negocio: preferencias, detalles de la cuenta, historial de relaciones. Menos sobre conversaciones específicas y más sobre comprensión acumulada.

Memoria procesal: Conocimiento sobre cómo manejar situaciones recurrentes basadas en interacciones pasadas. Patrones como "este cliente prefiere el seguimiento por correo electrónico" o "este tipo de problema generalmente requiere una escalada".

Por qué es importante la memoria

Coherencia de la conversación: Las conversaciones de varios turnos requieren memoria. Si un cliente menciona un número de pedido y luego pregunta sobre "el envío", el agente debe conectar "el envío" con el pedido mencionado.

Eficiencia: La memoria reduce la repetición. Los clientes no deberían tener que repetir su problema, número de cuenta o contexto cada vez que interactúan.

Personalización: La memoria a largo plazo permite experiencias personalizadas: saludar a los clientes que regresan, hacer referencia a preferencias pasadas y adaptar las respuestas a las necesidades individuales.

Calidad de escalada: Cuando un agente pasa a ser un humano, la memoria garantiza que el humano reciba el contexto completo. El cliente no debería tener que empezar de nuevo.

Consistencia: La memoria ayuda al agente a mantener la coherencia dentro de una conversación y entre sesiones. Las respuestas contradictorias dañan la confianza.

Arquitecturas de memoria

Diferentes plataformas implementan la memoria de diferentes maneras:

  • Ventana de contexto: El enfoque más simple: incluya el historial de conversaciones recientes en cada mensaje enviado al LLM. Limitado por el tamaño de la ventana de contexto del modelo. Los mensajes más antiguos desaparecen a medida que crece la conversación.
  • Basado en resumen: El historial de conversaciones anteriores se resume en lugar de incluirse palabra por palabra. Equilibra la retención de contexto con límites de tokens.
  • Memoria vectorial: Las interacciones pasadas están integradas y almacenadas en una base de datos vectorial. Los recuerdos relevantes se recuperan en función de la similitud con el contexto actual.
  • Memoria estructurada: Los datos clave se extraen y almacenan en formatos estructurados (preferencias del usuario, datos de la cuenta, historial de problemas) para una recuperación confiable.
  • Enfoques híbridos: Combine múltiples métodos: contexto reciente palabra por palabra, historia anterior resumida, hechos clave estructurados, interacciones pasadas relevantes recuperadas a través de vectores.

Privacidad y cumplimiento

Los sistemas de memoria plantean importantes consideraciones de privacidad:

  • Retención de datos: ¿Cuánto tiempo se almacena el historial de conversaciones? ¿Existe una eliminación automática después de un período? ¿Pueden los clientes solicitar la eliminación?
  • Controles de acceso: ¿Quién puede ver el historial de conversaciones y el contenido de la memoria? ¿Existen controles de acceso basados ​​en roles?
  • Visibilidad del cliente: ¿Pueden los clientes ver lo que el agente recuerda de ellos? ¿Pueden corregir o eliminar la información almacenada?
  • Uso de entrenamiento: ¿Se utilizan los datos de la memoria para entrenar o mejorar modelos? ¿Qué consentimiento existe?
  • Almacenamiento geográfico: ¿Dónde se almacenan los datos de la memoria? ¿Cumple con los requisitos de cumplimiento regionales como GDPR?
  • Datos sensibles: ¿Cómo maneja el sistema la PII, la información de pago u otro contenido confidencial en la memoria?

Límites de memoria y costos.

La memoria tiene limitaciones prácticas:

  • Límites de la ventana de contexto: Los LLM solo pueden procesar una cierta cantidad de contexto. Las conversaciones largas o la historia extensa pueden llegar a sus límites.
  • Costos simbólicos: Incluir memoria en las indicaciones aumenta el uso de tokens, lo que aumenta los costos por conversación.
  • Costos de almacenamiento: Almacenar el historial de conversaciones y las incrustaciones requiere recursos de base de datos.
  • Latencia de recuperación: Recuperar recuerdos relevantes agrega tiempo de procesamiento.
  • Decaimiento de relevancia: No todos los recuerdos son igualmente relevantes. La mala recuperación de la memoria puede incluir un contexto irrelevante que confunde al agente.

Memoria multicanal

Los clientes interactúan a través de múltiples canales: chat, correo electrónico, teléfono, redes sociales. La memoria debería funcionar a través de estos canales. Una conversación iniciada en el chat web debe continuar por teléfono sin que el cliente se repita. Esto requiere:

  • Identidad de cliente unificada: Reconocer al mismo cliente en todos los canales.
  • Almacén de memoria compartida: Un sistema de memoria central accesible desde todos los canales.
  • Transferencia de contexto: Pasar el contexto apropiado cuando las conversaciones se mueven entre canales.

Qué deberían preguntar los compradores

  • ¿Cuánto tiempo se conserva el historial de conversaciones? ¿Puedo configurar períodos de retención?
  • ¿Qué arquitectura de memoria utiliza la plataforma? ¿Cómo maneja conversaciones largas?
  • ¿Puede el agente hacer referencia a interacciones anteriores? ¿Qué tan atrás?
  • ¿Cómo funciona la memoria a través de canales?
  • ¿Qué ven los agentes humanos durante la transferencia? ¿Reciben el contexto completo?
  • ¿Cuáles son los costos de almacenamiento y recuperación de memoria?
  • ¿Cómo acceden, corrigen o eliminan los clientes su información almacenada?
  • ¿Se utilizan datos de memoria para el entrenamiento de modelos? ¿Cómo se maneja el consentimiento?
  • ¿Qué características de privacidad y cumplimiento existen para los datos de la memoria?

Pruebas de evaluación

  • Prueba de varias vueltas: Tenga una conversación de varios pasos en la que los turnos posteriores hagan referencia a información anterior. Verifique que el agente mantenga el contexto.
  • Prueba de referencia: Consulte la información mencionada anteriormente con otras palabras. Vea si el agente conecta las referencias.
  • Prueba cruzada: Regrese en una nueva sesión y haga referencia a la conversación anterior. Verificar la memoria a largo plazo.
  • Prueba de escalada: Escale a un humano y verifique que el humano reciba el contexto completo sin pedirle al cliente que repita.
  • Prueba de privacidad: Intente acceder a los controles de memoria como cliente. Verifique la capacidad de ver y eliminar información almacenada.
  • Agente de IA - El sistema que utiliza la memoria.
  • RAG - Recuperación de conocimientos, relacionada con la recuperación de la memoria.
  • LLM - Ventanas de contexto y capacidad de memoria.
  • Human-in-the-Loop - Memoria para contexto de transferencia