Ir al contenido principal

Búsqueda de Coincidencia por Aproximación con Arbutus

Resumen

Los auditores han utilizado las herramientas y tecnología de coincidencias por aproximación durante décadas para encontrar similitudes, duplicados o anomalías en los datos. Aun así, estas capacidades todavía no suelen estar disponibles en la mayoría de las herramientas, y rara vez son fáciles de usar.

Hoy en día, la mayoría de las organizaciones han dispersado datos a través de un sinnúmero sistemas no relacionados, es decir, la importancia de realizar comparaciones lógicas de datos es mayor que nunca.

·           Una herramienta de coincidencia por aproximaciones puede ayudarle con:
·           La armonización de datos o eliminación de datos duplicados
·           Investigaciones de fraude
·           Datos coincidentes de diferentes sistemas de
·           Para fines de seguridad
·           La identificación de similitudes para cualquier propósito analítico, tales como la calidad de los datos de prueba

La tecnología Arbutus proporciona a los auditores y analistas de negocios herramientas potentes e intuitivas de análisis de datos que ofrece sólidas capacidades de pruebas de coincidencias.

Algoritmos comunes de comparación para la búsqueda de coincidencias por aproximación, como Soundex y Levenshtein, son sólo el comienzo, ya que la tecnología Arbutus pone las herramientas de correlación para la búsqueda de coincidencias por aproximación fáciles de usar en manos de sus usuarios.

Arbutus también puede realizar comparaciones difusas sobre y entre diferentes datos, incluyendo los datos de mainframe heredados, no los archivos de datos de origen en un data mart o almacén, datos basados en ERP, e incluso de fuentes web.

Con el siguiente símbolo:  representamos varios filtros, comandos o funciones en Arbutus que le ayudarán a realizar análisis de datos sofisticados para la búsqueda de coincidencias por aproximación.




Coincidencias por Aproximación
 



Coincidencias por Aproximación Con Arbutus

Aprovechar la tecnología con eficacia – es uno de los ocho atributos que máximizan la función de Auditoría Interna

Si se está trabajando con un archivo de gran tamaño, datos heredados, un archivo plano tradicional, o una hoja de cálculo todos los días, y su tarea es encontrar similitudes o duplicados en los datos - como nombres o direcciones - "coincidencia por aproximación” es casi siempre la mejor manera de ir.

·         La tecnología difusa puede ayudar con:
·         la armonización de datos o eliminación de datos duplicados
·         Investigaciones de fraude
·         Cruzar cuentas de diferentes sistemas con fines de seguridad
·         La identificación de similitudes para cualquier propósito analítico, como la calidad de los datos de prueba

Varios softwares presentan soluciones al realizar comparaciones utilizando algoritmos como SOUNDEX y de LEVENSHTEIN, pero pocas herramientas hacen que sea fácil. Lo que es peor, cuando los datos se encuentran en los sistemas distintos o son datos heredados, la mayoría de las herramientas con las capacidades de comparación lógica ni siquiera pueden acceder a los datos.

”La tecnología se utiliza para mejorar la eficacia del proceso de auditoría a través de la recuperación de datos y pruebas, la minería de datos y analítica"
Si usted trabaja en una organización más pequeña, se enfrenta a retos aún mayores, ya que no puede tener acceso a las herramientas y recursos informáticos apropiados. Usted puede incluso necesitar saber de programación rudimentaria en SQL para tratar estas comparaciones en MS Access y Excel, que están lejos de ser herramientas ideales para la tarea.

Con los algoritmos de Arbutus para la comparación de diferencias, como SOUNDEX o LEVENSHTEIN, están integradas en funciones tales como SOUNDSLIKE, DIFERENCIA, y CERCA. También puede utilizar Arbutus para preparar los datos para la comparación lógica significativa y oportuna de los datos cuando se necesita para que coincida con los datos entre sistemas independientes, o para una prueba de calidad de los datos.


Prueba de Fraude:




¿Hay empleados de su organización se hacen pasar por los proveedores de la empresa? Esta práctica está prohibida en la mayoría de organizaciones. En la prueba de búsqueda de coincidencias por aproximación, los campos de dirección de dos bases de datos han sido comparados para encontrar posibles coincidencias - y estafadores. Esta prueba requiere programación y se creó y se despliega en menos de 5 minutos.






Herramientas disponibles



Herramientas disponibles en Arbutus

Arbutus proporciona una serie de comandos útiles y funciones que se pueden utilizar de forma aislada o en combinación para apoyar una variedad de escenarios de coincidencia aproximada. Ya sea que usted está buscando coincidencias parciales dentro de la misma tabla o entre tablas, Arbutus permite a los usuarios elegir y combinar estas herramientas con el fin de personalizar la coincidencia aproximada para satisfacer sus necesidades.
*       ALGORITMO SOUNDEX compara nombres que se pronuncian de la misma, o cerca, pero escriben diferente. Particularmente útil con los datos transcritos a partir de conversaciones o llamadas telefónicas.
"60% de las funciones de auditoría interna ve la necesidad de aumentar las habilidades sobre tecnología específica"
SOUNDEX genera el código de cuatro dígitos para cualquier nombre, para la comparación general de similitud o diferencia.
SOUNDSLIKE encapsula y se extiende el algoritmo SOUNDEX, haciendo conversión y la comparación de dos cadenas buscando repeticiones. Por ejemplo, el filtro:
SOUNDSLIKE (nombre, "Smith")
... Coincidirá con "Smythe", "Smithe" y "Schmidt". Otros ejemplos incluir Catherine/Kathyrn, Lee/Leigh/Li, Fisher/Fischer, Don/Dawn, or Johanson/Johanssen.

*       Algoritmo de LEVENSHTEIN compara los datos de una cadena de texto, tales como nombres o direcciones.

 

Lección rápida: Damerau-Levenshtein

Es el mínimo número de cambios para convertir una cadena en otra, a través de Insertar, eliminar, reemplazar, la transposición

vs. '123 Main Street' '123 Main St' = 4
34567vs. 34576 = 1 (Levenshtein: 2)
'Rob' vs.'Robert '= 3
'Gary' vs.'Mary '= 1
'Gary' vs.'gary '= 1

DIFFERENCE calcula la distancia LEVENSHTEIN por dos cadenas de texto, basadas en un grado de similitud que se determinará entre las dos cadenas. Esto se puede utilizar para identificar una amplia gama de errores de datos accidentales o intencionales.

NEAR utiliza automáticamente el método de comparación más adecuado para los datos que se comparan (LEVENSHTEIN para una cadena de texto, por ejemplo). Comparaciones NEAR se pueden aplicar a cualquiera de los tipos de datos fundamentales, para que pueda fácilmente identificar los elementos de datos que, si bien no es exacta, se acercan.

Coincidencia por Aproximación Usando el Algoritmo de Levenshtein

La siguiente función corta identificará los datos que difieren en dos o menos caracteres, para que pueda encontrar similitudes en los datos que residen en dos o más tablas de datos relacionados o no relacionados:

NEAR(customer.name, master.name, 2)

El uso de esta función en "CUSTOMER_NAME" y "MASTERNAME" dio los siguientes resultados, algunos de los cuales pueden requerir una mayor investigación:


*       COMPARACIONES DE TEXTO LIBRE permiten realizar una búsqueda con uno o más valores de cadena en sus datos. Al igual que una búsqueda en Google, "Búsqueda Inteligente" para Arbutus le permite buscar términos individuales o múltiples, literales, o cualquier otro texto, ya sea en campos seleccionados o en la totalidad de los registros. "Búsqueda Inteligente" hace que la búsqueda de texto libre de los archivos de datos tan fácil como cualquier búsqueda en la web.

*       FORMAT compara o categoriza los datos por sus propias características, por lo que es útil para aplicaciones de gestión de calidad de los datos. Sin embargo, en lugar de comparar un carácter a otro carácter, se puede comparar cadenas donde dígitos coinciden con los datos de dígitos y datos alfa coincide con cualquier otro dato alfa.

Comparaciones agrupadas permiten hacer coincidir dos conjuntos de rangos de valores:

*       BETWEEN proporciona una manera fácil de especificar un rango de valores para que coincida

*       MACHT le permite especificar una lista de valores que se debe comparar
“46% de las profesionales de Auditoria Interna han previsto emplear el uso de la tecnología como una forma de aumentar la eficiencia global de las funciones de Auditoría Interna”

*       COMPARACIONES COMPLEJAS permiten cualquiera de las técnicas anteriores para ser utilizadas en combinación, para lograr los requisitos exactos o aproximados. Por ejemplo, estos tres podrían combinarse:

ZIP1=ZIP2 and Near(date1, date2,3) and
(name1=name2 or amount1=amount2)

*       FECHA Y HORA DE DATOS - Fechas y hora pueden ser almacenados en cualquier formato de fecha, fecha - hora y hora válida, o en cualquier conjunto de caracteres. Incluso fecha - hora almacenados en carácter o tipos de datos numéricos pueden ser marcados como fecha - hora. Arbutus convierte automáticamente todos fecha - hora internamente a un formato de fecha y hora estándar y todas las comparaciones de fecha y hora puedan ser usados en este formato interno (no en la forma en que fecha - hora se almacenan físicamente).

*       COMPARACIONES EXACTAS Y RELATIVAS – Comparaciones por aproximación a menudo incorporan comparaciones regulares. Con Arbutus, puede comparar cualquier tipo de datos para las comparaciones exactas o relativas. También puede comparar directamente los datos, independientemente de cómo o dónde se almacenan físicamente. Esto se debe a que Arbutus estandarizada internamente datos de forma automática, por lo que la comparación de los datos sin problemas de desigualdad.



*       DATOS NUMÉRICOS - Al leer datos de origen, Arbutus automáticamente estandariza todos los tipos de datos numéricos (Empaquetado, Zona, Binario, etc.) internamente, por lo que las comparaciones y las matemáticas entre tipos de datos numéricos diferentes es tan simple como:

Campo1 > Campo 2
o
Campo5 = Campo3 + Campo4

Incluso a nivel de bits y los datos numéricos no alineados por bytes es compatible.

*       DATOS CARÁCTER - Tanto los datos de caracteres EBCDIC y ASCII están soportados directamente y se pueden comparar y bcombinar sin tener en cuenta el conjunto de caracteres de origen.

*       DATOS MIXTOS - Arbutus proporciona funciones que permiten convertir y comparar directamente los datos almacenados fundamentalmente diferentes tipos de datos que desea.



Armonización de Datos
*       
*         


Armonización de Datos


Cuando los datos no se disponen de forma ordenada, Arbutus puede ayudar a normalizar o armonizar estos datos. Las siguientes funciones se pueden utilizar en cualquier combinación, o en combinación con cualquiera de las comparaciones descritas anteriormente, para satisfacer sus necesidades:

*       UPPER y LOWER en el caso de una cadena de texto estandariza los datos para una comparación constante. Por ejemplo, "John Smith" se puede convertir automáticamente a "JOHN SMITH".

*       TRIM, LTRIM, y ALLTRIM elimina los espacios en blanco iniciales / finales para mejorar la calidad de los datos, por lo que " John Smith " se convierte en "John Smith".

*       COMPACT elimina los espacios en blanco entre las palabras adicionales. Al igual que TRIM, que mejora la comparabilidad, como "John   Smith" se convierte en "John Smith".

*       INCLUDE y EXCLUDE son funciones que especifican caracteres que se le mantenga o se eliminan (por ejemplo, el espaciado en blanco, puntuación, caracteres extranjeros, etc.) para garantizar la que la puntuación o el formato no reduce la comparabilidad. Por ejemplo:

... va a convertir "(888) 123-4567" en "8881234567".

*       REPLANCE es útil para las abreviaturas convencionales (por ejemplo, AVE. AV por AVENIDA), así como para corregir los errores de entrada de datos comunes (como I por 1). Para usar otro ejemplo de teléfono, algunas entradas con códigos de país podrían introducirse como "+1 888 123 4567" o "+44 1 234 567".

Replace(phone, “+1 “, ””, “+”, “”)

...elimina automáticamente cualquier "+1" prefijos de América del Norte, así como el "+" de cualquier otro código de país.


*       NORMALIZE combina diversas técnicas de armonización descritos anteriormente, ya que de forma automática:

·         reemplaza los caracteres que no esté en blanco y no alfanuméricos (como puntuación) con espacios en blanco
·         recorta espacios en blanco iniciales o finales y compacta espacios contiguos
·         reemplaza caracteres extranjeros con equivalentes en inglés
·         pone en mayúsculas los resultados (como John para JOHN)

También se puede aplicar cualquier número de sustituciones de datos estandarizados o la absorción (por ejemplo, William / Wm, NJ / Nueva Jersey, Boulevard / BLVD.).


Estandarizar los Datos en Segundos

Campos de dirección a menudo contienen descripciones innecesarias, como la Oficina, #, Suite o Apartamento, o puntuación adicional, como comas o puntos. La Función NORMALIZE limpia automáticamente datos como estos:


*       ARRANGE reorganizar caracteres en una cadena de texto en orden descendente. Esta es una prueba de propósito especial que es particularmente útil en la identificación de errores de transposición, tal como (888) 132-4567, o palabras en diferentes órdenes.

*       SUBSTRING selecciona una porción de una cadena para la comparación. Continuando con nuestro ejemplo el número de teléfono, si ya había armonizado los números de teléfono a "8881234567" a continuación: SUBSTRING (teléfono, 1, 3)

... se acaba de extraer el código de área para la comparación.


Ejecute las Comparaciones de Búsqueda por Aproximaciones

Una vez que tenga sus comparaciones identificadas y armonizan sus datos, el siguiente paso es llevar a cabo las comparaciones.

“Al darse cuenta del potencial del uso de la tecnología, esto se debe enfrentar a través de tres ejes: disponibilidad de la herramienta, habilidades adecuadas del personal y la colaboración con otras funciones corporativas.”
Cuando vaya a hacer comparaciones dentro de un archivo, es posible que la comparación de los datos dentro del mismo registro, o la comparación de datos entre los registros. En cualquier caso, los datos a cada lado de la comparación puede ser un campo simple, el resultado de una expresión, o el resultado de un campo virtual multi-valor que adquiere su valor basado en criterios definidos.

Si va a realizar comparaciones entre los archivos que comparten una clave común, ya sea directa o indirectamente, Arbutus ofrece dos opciones diferentes:

*       RELACIONAR         prácticamente se combinan tablas basadas en una clave común.
(Véase el gráfico en la página siguiente)

*       UNIR  los datos se combinarán a partir de varias tablas para crear una nueva tabla, física. UNIR permite igualar basado en común una o más claves, y le permitirá datos de salida de registros coincidentes, los registros no coincidentes, o una combinación de ambos.
(Véase el gráfico en la página siguiente)




Relacionar: Relaciones Virtuales Entre Tablas o Archivos

Con Arbutus, incluso datos dispares se pueden preparar para las pruebas de aproximaciones. El uso de la interfaz de clic y arrastre de Arbutus, puede definir fácilmente las RELACIONES entre las tablas de un esquema original o una que ha sido armonizada. También se pueden definir múltiples relaciones e independientes.



Combinar y Compartir Datos de Múltiples Tablas

UNIR ofrece una selección más amplia de opciones que RELACIONAR desde la primaria a la tabla secundaria. Al igual que RELACIONAR, una combinación puede llevarse a cabo en unos pocos clics, e incluso ofrece la opción de seleccionar el tipo de unión haciendo clic en un diagrama de Venn.


Arbutus también ofrece maneras de hacer comparaciones entre los archivos que no comparten una clave tradicional:

*       UNIR DE INTERSECCIÓN MUCHOS-A-MUCHOS combina los registros en función de un elemento de datos común que normalmente no se considera una clave tradicional, tal como un código postal, ciudad o estado. Una UNIR DE INTERSECCIÓN MUCHOS-A-MUCHOS pueden reducir en gran medida la complejidad de los resultados unirse y mejorar significativamente el rendimiento cuando se unen grandes conjuntos de datos.

UNIR MUCHOS-A-MUCHOS combina todos los registros en un archivo con todos los registros en un segundo archivo, de la misma manera como el estándar de unión en SQL. A continuación, puede aplicar cualquiera de las técnicas de armonización y de comparación descritos anteriormente para limitar el tamaño del conjunto de datos resultante. Esta técnica se puede utilizar para comparar los datos de cualquier fuente, incluidas las fuentes dispares. Tenga en cuenta que UNIR MUCHOS-A-MUCHOS a menudo da un resultado complejo, por lo que se utiliza casi siempre como último recurso.



Comparar Datos Heredados
























 




Comparación de Datos Heredados


Al comparar los datos, que rara vez se tiene la suerte de que residan en un entorno único y homogéneo. Sus datos pueden residir en los sistemas relacionales como Oracle, los sistemas ERP como SAP, entornos mainframe de complejidad y tamaño a menudo atroz, o incluso en las páginas web. A menudo, abarcará a varios de estos.

Con los servidores Arbutus, puede comparar todos estos datos.

Servidores Arbutus cuentan con tecnología basadas en servidores nativos optimizados para procesar grandes archivos o complejos de una manera altamente eficiente. Todos los servidores Arbutus muestran sus datos nativos en un formato tabular reconocible al instante.

·         El Arbutus Windows Server soporta prácticamente todos los datos basados en Windows, y se lee directamente de fuentes relacionadas (a través de ODBC), incluyendo SAP e incluso URL web.

·         Los servidores zSeries e iSeries Arbutus le permiten leer directamente las bases de datos nativos como IMS, DB2 y ADABAS) junto con los datos nativos (como VSAM y QSAM) independientemente de sus complejidades internas.

Lo que hace que los servidores Arbutus sean únicos para la comparación de datos es que todos los servidores Arbutus pueden intercambiar libremente sus datos. Como resultado, los datos de estas plataformas diferentes se pueden transferir fácilmente a una sola plataforma - típicamente en Arbutus Windows Server - y ser comparados. Esto le permite comparar las fuentes de datos es posible que no haya considerado lo contrario.

Ampliar el Alcance de Hacia las Aplicaciones más Comunes

Si ya utiliza herramientas comunes tales como Microsoft Excel o Crystal Reports, potentes capacidades de acceso a datos y armonización de Arbutus pueden extender su alcance.

Arbutus puede proporcionar acceso a todos sus datos a través de LegacyLink, que es un driver ODBC que actúa como un "canal de datos", proporcionar cualquier aplicación basada en Windows compatible con ODBC con acceso de sólo lectura a todos sus datos
Imagínese la lectura, de datos de mainframe heredados armonizadas, directamente desde Excel o Crystal Reports. Con Arbutus, este sueño se haga realidad.