Resumen
Los auditores han utilizado las herramientas y tecnología
de coincidencias por aproximación durante décadas para encontrar similitudes,
duplicados o anomalías en los datos. Aun así, estas capacidades todavía no
suelen estar disponibles en la mayoría de las herramientas, y rara vez son
fáciles de usar.
Hoy en día, la mayoría de las organizaciones han
dispersado datos a través de un sinnúmero sistemas no relacionados, es decir,
la importancia de realizar comparaciones lógicas de datos es mayor que nunca.
·
Una
herramienta de coincidencia por aproximaciones puede ayudarle con:
·
La
armonización de datos o eliminación de datos duplicados
·
Investigaciones
de fraude
·
Datos
coincidentes de diferentes sistemas de
·
Para
fines de seguridad
·
La
identificación de similitudes para cualquier propósito analítico, tales como la
calidad de los datos de prueba
La tecnología
Arbutus proporciona a los auditores y analistas de negocios herramientas
potentes e intuitivas de análisis de datos que ofrece sólidas capacidades de
pruebas de coincidencias.
Algoritmos comunes
de comparación para la búsqueda de coincidencias por aproximación, como Soundex
y Levenshtein, son sólo el comienzo, ya que la tecnología Arbutus pone las
herramientas de correlación para la búsqueda de coincidencias por aproximación
fáciles de usar en manos de sus usuarios.
Arbutus también
puede realizar comparaciones difusas sobre y entre diferentes datos, incluyendo
los datos de mainframe heredados, no los archivos de datos de origen en un data
mart o almacén, datos basados en ERP, e incluso de fuentes web.
Con el siguiente símbolo:
representamos
varios filtros, comandos o funciones en Arbutus que le ayudarán a realizar
análisis de datos sofisticados para la búsqueda de coincidencias por
aproximación.
Coincidencias
por Aproximación
Coincidencias
por Aproximación Con Arbutus
Aprovechar la tecnología con eficacia – es uno de
los ocho atributos que máximizan la función de Auditoría Interna
|
Si se está trabajando con un archivo de gran tamaño,
datos heredados, un archivo plano tradicional, o una hoja de cálculo todos los
días, y su tarea es encontrar similitudes o duplicados en los datos - como
nombres o direcciones - "coincidencia por aproximación” es casi siempre la
mejor manera de ir.
·
La
tecnología difusa puede ayudar con:
·
la
armonización de datos o eliminación de datos duplicados
·
Investigaciones
de fraude
·
Cruzar
cuentas de diferentes sistemas con fines de seguridad
·
La
identificación de similitudes para cualquier propósito analítico, como la
calidad de los datos de prueba
Varios softwares presentan soluciones al realizar
comparaciones utilizando algoritmos como SOUNDEX y de LEVENSHTEIN, pero pocas
herramientas hacen que sea fácil. Lo que es peor, cuando los datos se
encuentran en los sistemas distintos o son datos heredados, la mayoría de las
herramientas con las capacidades de comparación lógica ni siquiera pueden
acceder a los datos.
”La tecnología se utiliza
para mejorar la eficacia del proceso de auditoría a través de la recuperación
de datos y pruebas, la minería de datos y analítica"
|
Si usted trabaja en una organización más pequeña, se
enfrenta a retos aún mayores, ya que no puede tener acceso a las herramientas y
recursos informáticos apropiados. Usted puede incluso necesitar saber de
programación rudimentaria en SQL para tratar estas comparaciones en MS Access y
Excel, que están lejos de ser herramientas ideales para la tarea.
Con los algoritmos de Arbutus para la comparación de
diferencias, como SOUNDEX o LEVENSHTEIN, están integradas en funciones tales
como SOUNDSLIKE, DIFERENCIA, y CERCA. También puede utilizar Arbutus para
preparar los datos para la comparación lógica significativa y oportuna de los datos
cuando se necesita para que coincida con los datos entre sistemas
independientes, o para una prueba de calidad de los datos.
Prueba de Fraude:
|
¿Hay empleados de
su organización se hacen pasar por los proveedores de la empresa? Esta práctica
está prohibida en la mayoría de organizaciones. En la prueba de búsqueda de
coincidencias por aproximación, los campos de dirección de dos bases de datos
han sido comparados para encontrar posibles coincidencias - y estafadores. Esta
prueba requiere programación y se creó y se despliega en menos de 5 minutos.
Herramientas disponibles
Herramientas disponibles en Arbutus
Arbutus proporciona
una serie de comandos útiles y funciones que se pueden utilizar de forma
aislada o en combinación para apoyar una variedad de escenarios de coincidencia
aproximada. Ya sea que usted está buscando coincidencias parciales dentro de la
misma tabla o entre tablas, Arbutus permite a los usuarios elegir y combinar
estas herramientas con el fin de personalizar la coincidencia aproximada para
satisfacer sus necesidades.
ALGORITMO SOUNDEX compara nombres que
se pronuncian de la misma, o cerca, pero escriben diferente. Particularmente
útil con los datos transcritos a partir de conversaciones o llamadas
telefónicas.
"60% de las funciones de auditoría interna ve
la necesidad de aumentar las habilidades sobre tecnología específica"
|
SOUNDEX genera el código de
cuatro dígitos para cualquier nombre, para la comparación general de similitud
o diferencia.
SOUNDSLIKE encapsula y se
extiende el algoritmo SOUNDEX, haciendo conversión y la comparación de dos
cadenas buscando repeticiones. Por ejemplo, el filtro:
SOUNDSLIKE (nombre,
"Smith")
... Coincidirá con
"Smythe", "Smithe" y "Schmidt". Otros ejemplos incluir Catherine/Kathyrn,
Lee/Leigh/Li, Fisher/Fischer, Don/Dawn, or Johanson/Johanssen.
Algoritmo de LEVENSHTEIN compara los datos de una
cadena de texto, tales como nombres o direcciones.
|
Lección rápida:
Damerau-Levenshtein
Es el mínimo número de cambios para convertir una cadena en otra, a través
de Insertar, eliminar, reemplazar, la transposición
vs. '123 Main Street' '123 Main St' = 4
34567vs. 34576 = 1 (Levenshtein: 2)
'Rob' vs.'Robert '= 3
'Gary' vs.'Mary '= 1
'Gary' vs.'gary '= 1
DIFFERENCE calcula la distancia LEVENSHTEIN por dos cadenas de texto,
basadas en un grado de similitud que se determinará entre las dos cadenas. Esto
se puede utilizar para identificar una amplia gama de errores de datos
accidentales o intencionales.
NEAR utiliza automáticamente el método de comparación más
adecuado para los datos que se comparan (LEVENSHTEIN
para una cadena de texto, por ejemplo). Comparaciones NEAR se pueden
aplicar a cualquiera de los tipos de datos fundamentales, para que pueda
fácilmente identificar los elementos de datos que, si bien no es exacta, se
acercan.
Coincidencia por Aproximación Usando el Algoritmo de Levenshtein
La siguiente
función corta identificará los datos que difieren en dos o menos caracteres,
para que pueda encontrar similitudes en los datos que residen en dos o más
tablas de datos relacionados o no relacionados:
NEAR(customer.name, master.name, 2)
El uso de esta función en
"CUSTOMER_NAME" y "MASTERNAME" dio los siguientes
resultados, algunos de los cuales pueden requerir una mayor investigación:
COMPARACIONES DE TEXTO LIBRE permiten realizar una búsqueda con uno o más valores de cadena en sus
datos. Al igual que una búsqueda en Google, "Búsqueda Inteligente"
para Arbutus le permite buscar términos individuales o múltiples, literales, o
cualquier otro texto, ya sea en campos seleccionados o en la totalidad de los
registros. "Búsqueda Inteligente" hace que la búsqueda de texto libre
de los archivos de datos tan fácil como cualquier búsqueda en la web.
FORMAT compara o
categoriza los datos por sus propias características, por lo que es útil para
aplicaciones de gestión de calidad de los datos. Sin embargo, en lugar de
comparar un carácter a otro carácter, se puede comparar cadenas donde dígitos
coinciden con los datos de dígitos y datos alfa coincide con cualquier otro
dato alfa.
Comparaciones agrupadas permiten hacer coincidir dos conjuntos de rangos de
valores:
BETWEEN
proporciona una manera fácil de especificar un rango de valores para que
coincida
MACHT
le permite especificar una lista de valores que se debe comparar
“46% de las profesionales de Auditoria Interna han
previsto emplear el uso de la tecnología como una forma de aumentar la
eficiencia global de las funciones de Auditoría Interna”
|
COMPARACIONES COMPLEJAS permiten cualquiera de las técnicas anteriores para ser
utilizadas en combinación, para lograr los requisitos exactos o aproximados.
Por ejemplo, estos tres podrían combinarse:
ZIP1=ZIP2 and Near(date1, date2,3)
and
(name1=name2 or amount1=amount2)
FECHA Y HORA DE DATOS - Fechas y hora pueden ser almacenados en cualquier
formato de fecha, fecha - hora y hora válida, o en cualquier conjunto de
caracteres. Incluso fecha - hora almacenados en carácter o tipos de datos
numéricos pueden ser marcados como fecha - hora. Arbutus convierte
automáticamente todos fecha - hora internamente a un formato de fecha y hora
estándar y todas las comparaciones de fecha y hora puedan ser usados en este
formato interno (no en la forma en que fecha - hora se almacenan físicamente).
COMPARACIONES EXACTAS Y RELATIVAS – Comparaciones por aproximación a menudo incorporan
comparaciones regulares. Con Arbutus, puede comparar cualquier tipo de datos
para las comparaciones exactas o relativas. También puede comparar directamente
los datos, independientemente de cómo o dónde se almacenan físicamente. Esto se
debe a que Arbutus estandarizada internamente datos de forma automática, por lo
que la comparación de los datos sin problemas de desigualdad.
DATOS NUMÉRICOS - Al leer datos de origen, Arbutus automáticamente estandariza todos los
tipos de datos numéricos (Empaquetado, Zona, Binario, etc.) internamente, por
lo que las comparaciones y las matemáticas entre tipos de datos numéricos
diferentes es tan simple como:
Campo1 > Campo 2
o
Campo5 = Campo3 + Campo4
|
Incluso a nivel de
bits y los datos numéricos no alineados por bytes es compatible.
DATOS CARÁCTER - Tanto los datos de caracteres EBCDIC y ASCII están soportados
directamente y se pueden comparar y bcombinar sin tener en cuenta el conjunto
de caracteres de origen.
DATOS MIXTOS - Arbutus proporciona funciones que permiten convertir y comparar
directamente los datos almacenados fundamentalmente diferentes tipos de datos
que desea.
Armonización de Datos
Armonización de Datos
Cuando los datos no
se disponen de forma ordenada, Arbutus puede ayudar a normalizar o armonizar
estos datos. Las siguientes funciones se pueden utilizar en cualquier
combinación, o en combinación con cualquiera de las comparaciones descritas
anteriormente, para satisfacer sus necesidades:
|
UPPER y LOWER en el caso de una cadena de
texto estandariza los datos para una comparación constante. Por ejemplo,
"John Smith" se puede convertir automáticamente a "JOHN
SMITH".
TRIM, LTRIM, y ALLTRIM elimina los espacios
en blanco iniciales / finales para mejorar la calidad de los datos, por lo que
" John Smith " se convierte en "John Smith".
COMPACT
elimina los espacios en blanco entre las palabras adicionales. Al igual que
TRIM, que mejora la comparabilidad, como "John Smith" se convierte en "John
Smith".
INCLUDE y EXCLUDE son funciones que especifican caracteres que se le
mantenga o se eliminan (por ejemplo, el espaciado en blanco, puntuación,
caracteres extranjeros, etc.) para garantizar la que la puntuación o el formato
no reduce la comparabilidad. Por ejemplo:
... va a convertir "(888) 123-4567" en
"8881234567".
REPLANCE
es útil para las abreviaturas convencionales (por ejemplo, AVE. AV por
AVENIDA), así como para corregir los errores de entrada de datos comunes (como
I por 1). Para usar otro ejemplo de teléfono, algunas entradas con códigos de
país podrían introducirse como "+1 888 123 4567" o "+44 1 234
567".
Replace(phone,
“+1 “, ””, “+”, “”)
...elimina automáticamente cualquier "+1" prefijos de América del Norte, así como el "+" de cualquier otro código de país.
NORMALIZE
combina diversas técnicas de armonización descritos anteriormente, ya que de
forma automática:
·
reemplaza
los caracteres que no esté en blanco y no alfanuméricos (como puntuación) con
espacios en blanco
·
recorta
espacios en blanco iniciales o finales y compacta espacios contiguos
·
reemplaza
caracteres extranjeros con equivalentes en inglés
·
pone
en mayúsculas los resultados (como John para JOHN)
También se puede aplicar cualquier número de
sustituciones de datos estandarizados o la absorción (por ejemplo, William /
Wm, NJ / Nueva Jersey, Boulevard / BLVD.).
Estandarizar los Datos
en Segundos
Campos de dirección a menudo contienen descripciones
innecesarias, como la Oficina, #, Suite o Apartamento, o puntuación adicional,
como comas o puntos. La Función NORMALIZE
limpia automáticamente datos como estos:
ARRANGE
reorganizar caracteres en una cadena de texto en orden descendente. Esta es una
prueba de propósito especial que es particularmente útil en la identificación
de errores de transposición, tal como (888) 132-4567, o palabras en diferentes
órdenes.
SUBSTRING
selecciona una porción de una cadena para la comparación. Continuando con nuestro
ejemplo el número de teléfono, si ya había armonizado los números de teléfono a
"8881234567" a continuación: SUBSTRING (teléfono, 1, 3)
... se acaba de extraer el código de área para la
comparación.
Ejecute las
Comparaciones de Búsqueda por Aproximaciones
Una vez que tenga sus comparaciones identificadas y
armonizan sus datos, el siguiente paso es llevar a cabo las comparaciones.
“Al darse cuenta del potencial del uso de la
tecnología, esto se debe enfrentar a través de tres ejes: disponibilidad de
la herramienta, habilidades adecuadas del personal y la colaboración con
otras funciones corporativas.”
|
Cuando vaya a hacer comparaciones dentro de un archivo,
es posible que la comparación de los datos dentro del mismo registro, o la
comparación de datos entre los registros. En cualquier caso, los datos a cada
lado de la comparación puede ser un campo simple, el resultado de una
expresión, o el resultado de un campo virtual multi-valor que adquiere su valor
basado en criterios definidos.
Si va a realizar comparaciones entre los archivos que
comparten una clave común, ya sea directa o indirectamente, Arbutus ofrece dos
opciones diferentes:
RELACIONAR prácticamente se combinan tablas basadas
en una clave común.
(Véase el gráfico en la página siguiente)
UNIR los datos se combinarán a partir de varias
tablas para crear una nueva tabla, física. UNIR permite igualar basado en común
una o más claves, y le permitirá datos de salida de registros coincidentes, los
registros no coincidentes, o una combinación de ambos.
(Véase el gráfico
en la página siguiente)
Relacionar:
Relaciones Virtuales Entre Tablas o Archivos
Con Arbutus, incluso datos dispares se pueden preparar
para las pruebas de aproximaciones. El uso de la interfaz de clic y arrastre de
Arbutus, puede definir fácilmente las RELACIONES
entre las tablas de un esquema original o una que ha sido armonizada. También
se pueden definir múltiples relaciones e independientes.
Combinar y
Compartir Datos de Múltiples Tablas
UNIR ofrece una selección más amplia de opciones que RELACIONAR desde la primaria a la tabla
secundaria. Al igual que RELACIONAR,
una combinación puede llevarse a cabo en unos pocos clics, e incluso ofrece la
opción de seleccionar el tipo de unión haciendo clic en un diagrama de Venn.
Arbutus también ofrece maneras de hacer comparaciones
entre los archivos que no comparten una clave tradicional:
UNIR DE INTERSECCIÓN MUCHOS-A-MUCHOS combina los registros en función de un elemento de datos
común que normalmente no se considera una clave tradicional, tal como un código
postal, ciudad o estado. Una UNIR DE
INTERSECCIÓN MUCHOS-A-MUCHOS pueden reducir en gran medida la complejidad
de los resultados unirse y mejorar significativamente el rendimiento cuando se
unen grandes conjuntos de datos.
UNIR MUCHOS-A-MUCHOS combina todos los registros en un archivo con todos los registros en un
segundo archivo, de la misma manera como el estándar de unión en SQL. A
continuación, puede aplicar cualquiera de las técnicas de armonización y de
comparación descritos anteriormente para limitar el tamaño del conjunto de
datos resultante. Esta técnica se puede utilizar para comparar los datos de
cualquier fuente, incluidas las fuentes dispares. Tenga en cuenta que UNIR MUCHOS-A-MUCHOS a menudo da un
resultado complejo, por lo que se utiliza casi siempre como último recurso.
Comparar Datos Heredados
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Comparación de Datos Heredados
Al comparar los datos, que rara vez se tiene la suerte de
que residan en un entorno único y homogéneo. Sus datos pueden residir en los
sistemas relacionales como Oracle, los sistemas ERP como SAP, entornos
mainframe de complejidad y tamaño a menudo atroz, o incluso en las páginas web.
A menudo, abarcará a varios de estos.
Con los servidores Arbutus, puede comparar todos estos
datos.
|
Servidores Arbutus cuentan con tecnología basadas en
servidores nativos optimizados para procesar grandes archivos o complejos de
una manera altamente eficiente. Todos los servidores Arbutus muestran sus datos
nativos en un formato tabular reconocible al instante.
·
El
Arbutus Windows Server soporta prácticamente todos los datos basados en
Windows, y se lee directamente de fuentes relacionadas (a través de ODBC),
incluyendo SAP e incluso URL web.
·
Los
servidores zSeries e iSeries Arbutus le permiten leer directamente las bases de
datos nativos como IMS, DB2 y ADABAS) junto con los datos nativos (como VSAM y
QSAM) independientemente de sus complejidades internas.
Lo que hace que los servidores Arbutus sean únicos para
la comparación de datos es que todos los servidores Arbutus pueden intercambiar
libremente sus datos. Como resultado, los datos de estas plataformas diferentes
se pueden transferir fácilmente a una sola plataforma - típicamente en Arbutus
Windows Server - y ser comparados. Esto le permite comparar las fuentes de datos
es posible que no haya considerado lo contrario.
Ampliar el Alcance
de Hacia las Aplicaciones más Comunes
Si ya utiliza herramientas comunes tales como Microsoft
Excel o Crystal Reports, potentes capacidades de acceso a datos y armonización
de Arbutus pueden extender su alcance.
Arbutus puede proporcionar acceso a todos sus datos a
través de LegacyLink, que es un driver ODBC que actúa como un "canal de
datos", proporcionar cualquier aplicación basada en Windows compatible con
ODBC con acceso de sólo lectura a todos sus datos
Imagínese la lectura, de datos de mainframe heredados
armonizadas, directamente desde Excel o Crystal Reports. Con Arbutus, este
sueño se haga realidad.
auditcaats.com
Conclusión
Los auditores a menudo luchan con algún tipo de
programación o con las limitaciones solución de sus herramientas actuales.
Muchas veces, las pruebas basadas en la lógica de búsqueda de coincidencias por
aproximaciones no son realizas debido a estas barreras. La tecnología Arbutus
ayuda a los auditores y otros usuarios encontrar nuevas y mejores resultados de
su análisis utilizando herramientas con la tecnología basadas en la lógica de
búsqueda de coincidencias por aproximaciones.
·
Póngase en contacto
a través de correo electrónico o llamada de teléfono gratuito, para hacerles
una demostración
Comentarios
Publicar un comentario