Benchmarks

Benchmarks de calidad de datos de Salesforce para agentes de IA

Los benchmarks de calidad de datos de Salesforce son los umbrales de puntuación que una org debería alcanzar — por métrica, en cada objeto que lee un agente de IA — antes de salir a producción con Agentforce: 85%+ de completitud, 90%+ de conformidad y validez, y menos de 1% de exposición de PII. Aquí tienes cada cifra y el razonamiento que hay detrás.

Por el equipo de AgentforceSense · Actualizado el 12 de junio de 2026

La tabla de benchmarks

Objetivos de lanzamiento recomendados para las seis dimensiones de la calidad de datos para Agentforce, medidos sobre los objetos y campos que tus agentes leerán de verdad — no sobre la media de toda la org, que oculta justamente los problemas que afloran en las respuestas de los agentes.

Métrica	Benchmark de lanzamiento	Qué mide
Tasa de completitud	85%+	Proporción de campos clave rellenos en los objetos que leen los agentes.
Tasa de conformidad	90%+	Proporción de valores de listas de selección y referencias que siguen un único estándar aprobado.
Tasa de validez	90%+	Proporción de campos estructurados (emails, teléfonos, IDs) que cumplen las reglas de formato.
Tasa de actualidad	tu ventana	Proporción de registros sensibles a fechas actualizados dentro de tu ventana de vigencia definida.
Tasa de duplicados	baja y a la baja	Proporción de registros de los objetos que leen los agentes con un duplicado probable.
Tasa de exposición de PII	< 1%	Proporción de registros escaneados con una coincidencia de patrón de PII en texto libre.

¿Por qué el benchmark de completitud es 85% y no 100%?

Porque perseguir el último 15% tiene un rendimiento que cae en picado. Parte del vacío es legítimo: campos opcionales, registros anteriores a un proceso, objetos donde un valor sencillamente no aplica. Con 85%+ en los campos clave, el agente casi siempre tiene contexto suficiente para responder con concreción en lugar de con generalidades. Por debajo de esa cifra, las respuestas vagas dejan de ser casos aislados y se convierten en la seña de identidad del agente. Dedica el esfuerzo restante a la consistencia y la PII: sus fallos hacen mucho más ruido.

¿Por qué la conformidad y la validez exigen un 90%?

Los valores inconsistentes e inválidos no solo debilitan las respuestas: crean contradicciones. Cuando “US”, “USA” y “United States” conviven, un agente puede dar tres respuestas distintas a la misma pregunta, y la recuperación puede pasar por alto registros filtrados por valor. Los emails e IDs inválidos se citan a los clientes tal cual. Estos fallos los ven los usuarios en el primer registro defectuoso con el que se topan, y por eso el listón está más alto que el de completitud.

¿Por qué la exposición de PII debe quedar por debajo del 1%?

Porque la PII es la única métrica en la que un solo registro puede ser un incidente. Un SSN pegado en el comentario de un caso puede acabar en la respuesta de un agente, y en ese momento el problema es regulatorio, no cosmético. Menos de 1% es un techo operativo para el visto bueno de lanzamiento, no la meta final: el objetivo operativo es cero hallazgos en los patrones de SSN y tarjeta de crédito, verificado con un escaneo, y que el resto tienda a cero gracias a la monitorización semanal.

¿Por qué la actualidad y los duplicados no tienen una cifra universal?

La vigencia depende de cada negocio: una org de soporte puede necesitar casos tocados en cuestión de días, mientras que los datos de cuentas de un fabricante pueden tener un trimestre y seguir siendo correctos. Define tu propia ventana por objeto y luego cúmplela. Con los duplicados pasa algo parecido: la tasa aceptable depende del volumen del objeto y de las reglas de coincidencia, así que el benchmark es direccional — baja, medida y a la baja — porque cada duplicado fragmenta el historial de un cliente en registros que el agente no puede reconciliar.

¿Cada cuánto deberías volver a medir?

Los benchmarks se degradan: los usuarios siguen introduciendo datos después del lanzamiento. Esta es la cadencia que mantiene las puntuaciones al nivel del lanzamiento:

Semanal

Exposición de PII

Los campos de texto de alto volumen acumulan a diario mensajes de clientes pegados; el riesgo de PII es el que más rápido vuelve a crecer.

Mensual

Completitud y consistencia

Los registros y usuarios nuevos erosionan ambas de forma constante; la revisión mensual detecta la deriva antes que los agentes.

Trimestral

Las seis métricas

Un barrido completo de cada objeto que leen los agentes restablece tu línea base y detecta el deterioro lento.

Para la secuencia completa previa al lanzamiento — qué medir y corregir en los 90 días anteriores a producción — usa el checklist de lanzamiento de Agentforce.

Consigue tus cifras en 15 minutos

AgentforceSense puntúa tu org frente a todos los benchmarks de esta página — de forma nativa en Salesforce, con detalle hasta los registros que no alcanzan el listón.

Reserva una demo