Detectar duplicados inexactos

Concept Information

Comando FUZZYDUP

Puede probar un campo de caracteres en la tabla activa para detectar si existen valores casi idénticos (duplicados inexactos). Opcionalmente, puede incluir valores idénticos (duplicados exactos) en los resultados de salida así como valores casi idénticos.

Si uno o más grupos de duplicados inexactos de los resultados alcanzan el tamaño máximo, aparece un mensaje en el log. Si desea obtener más información, consulte Controlar el tamaño de los resultados duplicados inexactos.

Mejorar la eficacia de la prueba de duplicados inexactos

Puede mejorar significativamente la eficacia de la prueba de duplicados inexactos incorporando una o más de las siguientes técnicas:

  • ordenar los elementos individuales en los valores del campo de prueba
  • quitar los elementos genéricos de los valores del campo de prueba
  • concatenar los campos de prueba

Si desea obtener más información, consulte Funciones de ayuda de duplicados inexactos y Concatenar campos.

Reducción del tiempo de ejecución y del tamaño de los resultados de la salida

La función de duplicados inexactos requiere el uso intensivo del procesador, debido a que cada valor en un campo de prueba se debe comparar con cada valor subsiguiente en el campo.

Si su análisis lo permite, utilice métodos tales como filtrar o extraer subconjuntos de registros para limitar el tamaño del conjunto de datos que prueba. Los conjuntos de datos más pequeños mejoran el tiempo total de ejecución y también ayudan a controlar el tamaño de los resultados de la salida.

Pasos

Nota

Después de los pasos, se muestra información detallada. Consulte Opciones del cuadro de diálogo Duplicados inexactos.

  1. Seleccione Analizar > Duplicados inexactos.
  2. En la ficha Principal, realice una de las siguientes acciones:
    • Seleccione el campo para probar en la lista Duplicados inexactos en.
    • Haga clic en Duplicados inexactos en para seleccionar el campo o para crear una expresión.

      Consejo

      La creación de una expresión es la manera de concatenar los campos de prueba, quitar los elementos genéricos de los valores del campo de prueba u ordenar los elementos individuales de los valores del campo de prueba. Si desea obtener más información, consulte Funciones de ayuda de duplicados inexactos y Concatenar campos.

  3. Opcional. Seleccione una o más opciones en Listar campos para incluir cualquier campo adicional en los resultados o haga clic en Listar campos para seleccionar campos, para Agregar todos los campos o para crear una expresión.

    Los campos adicionales pueden proporcionar contexto útil para los resultados, y pueden ayudar a verificar si los duplicados inexactos hacen referencia a la misma entidad en el mundo real.

    Nota

    El campo seleccionado para la detección de duplicados inexactos se muestra automáticamente al comienzo de cualquier registro de resultados y no es necesario seleccionarlo específicamente en Listar campos.

  4. Especifique un Umbral de diferencia para controlar la cantidad de diferencia entre duplicados inexactos.

    El ajuste se explica a continuación.

  5. Realice una de las siguientes acciones:
    • Especifique un Porcentaje de diferencia para controlar el porcentaje de cada duplicado inexacto que puede ser diferente.
    • Quite la selección de Porcentaje de diferencia para desactivarlo.

    El ajuste se explica a continuación.

  6. Realice una de las siguientes acciones:
    •  Especifique un Tamaño de resultado (%) para establecer el tamaño máximo de los resultados en relación con el tamaño del campo de prueba.
    •  Deseleccione Tamaño de resultado (%) para desactivarlo.

    El ajuste se explica a continuación.

  7. Si desea incluir tanto duplicados exactos como duplicados inexactos en los resultados, seleccione Incluir duplicados exactos.

    Si desea obtener más información, consulte Cómo se agrupan los duplicados inexactos.

  8. Si hay registros en la vista principal que desee excluir del procesamiento, introduzca una condición en el cuadro de texto Si, o haga clic en Si para crear un enunciado IF usando Generador de expresiones.

    El enunciado IF considera todos los registros en la vista principal y filtra los que no cumplan la condición especificada.

  9. Si está conectado a una tabla de servidores, realice una de las acciones siguientes:
    • Seleccione Local para guardar la tabla de salida en la misma ubicación del proyecto, o para especificar una ruta de acceso o navegar a una carpeta local diferente.
    • Deje Local sin seleccionar para guardar la tabla de salida en la carpeta Prefijo en un servidor.
    • Nota

      Para los resultados de salida obtenidos a partir del análisis o el procesamiento de las tablas del servidor Analytics Exchange, seleccione Local. No puede quitar la selección de la configuración Local para importar tablas de resultados a Analytics Exchange.

  10. Realice una de las siguientes acciones:
    • En el cuadro de texto En, especifique el nombre de la tabla Analytics que contendrá los resultados de salida.Analytics
    • Haga clic en En y seleccione una tabla existente en el cuadro de diálogo Guardar o Guardar archivo como para sobrescribir o anexar a la tabla.

    También puede especificar una ruta de acceso absoluta o relativa, o navegar a una carpeta diferente, para guardar o anexar la tabla en un lugar distinto al lugar de la ubicación del proyecto. Por ejemplo: C:\Resultados\Salida.fil o Resultados\Salida.fil.

    Independientemente del lugar en que guarde hubo anexo la tabla, ésta se agrega al proyecto abierto si ya no está en el proyecto.

    Si Analytics pre-completa un nombre de tabla, puede aceptar el nombre pre-completado o cambiarlo.

    Nota

    Los nombres de las tablas de Analytics tienen un límite de 64 caracteres alfanuméricos, sin incluir la extensión .FIL. El nombre puede incluir un guión bajo ( _ ), pero no puede incluir ningún otro carácter especial ni espacios. El nombre no puede comenzar con un número.

  11. Seleccione Utilizar la tabla de salida si desea que la tabla de salida se abra automáticamente al finalizar la operación.

  12. Haga clic en Aceptar.
  13. Si aparece el mensaje de sobrescritura, seleccione la opción adecuada.

Opciones del cuadro de diálogo Duplicados inexactos

La tabla que se incluye a continuación ofrece información detallada acerca de las opciones del cuadro de diálogo Duplicados inexactos.

Opciones: Cuadro de diálogo Duplicados inexactos Descripción
Umbral de diferencia

La cantidad de diferencia permitida entre los duplicados inexactos.

Especifique un número del 1 al 10. Aumentar el Umbral de diferencia aumenta el número de caracteres que pueden diferir entre los pares de duplicados inexactos, lo cual incrementa el tamaño de los resultados.

Si desea obtener más información, consulte Cómo funciona la configuración de diferencia.

Porcentaje de diferencia

El porcentaje de cada duplicado inexacto que puede ser diferente.

Especifique un porcentaje entre 1 y 99. Aumentar el Porcentaje de diferencia aumenta el porcentaje de un duplicado inexacto que puede ser diferente, lo cual aumenta el tamaño de los resultados.

Si desactiva Porcentaje de diferencia, los resultados no toman en cuenta el porcentaje de un duplicado inexacto que sea diferente. Los resultados serán más grandes que al utilizar el Porcentaje de diferencia con cualquier valor de configuración.

Si desea obtener más información, consulte Cómo funciona la configuración de diferencia.

Tamaño de resultado (%)

El tamaño máximo de los resultados en relación con el tamaño del campo de prueba.

Especifique un porcentaje de 1 a 1000 (mil). Esta opción le permite finalizar automáticamente la operación de duplicados inexactos si el tamaño de los resultados crece más allá de lo que usted considera útil.

Por ejemplo, para un campo de prueba con 50.000 valores, un Tamaño de resultado (%) de 1 finalizaría el procesamiento si el conjunto de resultados supera los 500 duplicados inexactos. No se produce ninguna tabla de salida si el procesamiento finaliza.

Si desactiva Tamaño de resultado (%), Analytics no impone ningún límite al tamaño de los resultados.Analytics

¡Precaución!

Desactivar Tamaño de resultado (%) puede producir conjuntos de resultados excesivamente grandes que tardan mucho tiempo en procesarse o que pueden ocasionar que se exceda la memoria disponible, lo cual finaliza el procesamiento. Desactive esta opción sólo si está seguro de que los resultados serán de un tamaño manejable.

Si desea obtener más información, consulte Controlar el tamaño de los resultados duplicados inexactos.