El aprendizaje automático desempeña un papel fundamental en la mejora de la calidad de los datos

Matthew Rawlings, Jefe de Licencia de Datos, Bloomberg

El aprendizaje automático desempeña un papel fundamental en la mejora de la calidad de los datos

A medida que el mundo de los datos crece a un ritmo casi incomprensible, las empresas están sentadas sobre enormes reservas de datos que, hasta el momento, siguen sin explotar.

El mundo de los datos está creciendo a un ritmo casi incomprensible: el tamaño del universo digital se duplicará al menos cada dos años.

Como resultado de la proliferación de datos, muchas empresas están sentadas sobre enormes reservas de datos sin explotar, pero a menudo están dispersas y en formatos de datos incompatibles.

Las empresas con una estrategia de capitalización de datos están invirtiendo para asegurarse de que pueden extraer el mayor valor posible a partir de sus datos. Un componente clave de cualquier estrategia de datos fiables incluye un sólido proceso de calidad de datos.

Es tentador para las empresas considerar soluciones a corto plazo y procesos manuales para la depuración de datos, pero para cualquier estrategia relacionada con datos repetibles y a largo plazo, lo apropiado es un enfoque algorítmico.

Tanto un desafío como una oportunidad

Para las empresas de servicios financieros en particular, big data presenta tanto un desafío como una oportunidad. Actualmente, las empresas tienen más datos a su alcance que nunca, pero entender y utilizar estos datos de manera efectiva puede ser difícil.

Según Matthew Rawlings, Jefe de Licencia de Datos de Bloomberg, los problemas surgen por el hecho de que “se necesita un gran esfuerzo manual para limpiar y ejecutar esos datos y, encima, agregar algo de inteligencia comercial”.

Muchas empresas se han enfrentado a un retraso en la toma de decisiones basadas en datos: para cuando se ubican, ordenan, clasifican y aplican los datos, están prácticamente desactualizados y ya no son relevantes. Las empresas pueden tener problemas importantes, tanto regulatorios como comerciales, si la calidad de sus datos no está a la altura.

De hecho, en una encuesta previa a la conferencia de delegados que se dirigían a la Cumbre de Información Financiera de América del Norte 2017, poco más de la mitad (51%) mencionó la calidad de los datos como su mayor obstáculo inmediato.

Un proceso de un año – en un día

Quizás debido a algunos de estos impulsores, un número creciente de adoptadores tempranos están recurriendo al aprendizaje automático, un proceso que utiliza inteligencia artificial sofisticada para llevar a cabo una revolución tecnológica en el mundo de la calidad de datos. Las capacidades de IA están en el punto de inflexión de la adopción exponencial y el impacto.

“La IA es importante porque comprime el proceso. Puede tomar lo que fue un proceso de un año y la máquina puede hacerlo en potencialmente un día, así puede poner a prueba
la hipótesis y actuar sobre ellas más rápidamente”.
Matthew Rawlings, Jefe de Licencia de Datos, Bloomberg

Para ilustrar esto, imagine un gran banco que trata regularmente con NatWest (National Westminster Bank). A través de diferentes unidades de negocios, bases de datos y hojas de cálculo, puede haber muchas variaciones del mismo nombre del cliente, tal vez aparece simplemente como County NatWest, Nat West o National Westminster, etc. La conciliación de todas estas entradas requeriría un importante trabajo manual.

Pero, teóricamente, un programa informático puede escanear y procesar datos de todo el banco y entregar todas las coincidencias en cuestión de horas. “De repente, el banco puede ver instantáneamente, a nivel corporativo, toda su exposición a NatWest”, explica Rawlings. Añadió, “Esto permite una mejor y más rápida toma de decisiones”.

Este proceso, o reconocimiento de nombre-identidad, es solo una de las áreas donde el aprendizaje automático es capaz de hacer una diferencia radical. Y el proceso mejora a lo largo del tiempo.

En el ejemplo de NatWest, el escaneo original puede marcar el 10% o el 15% de coincidencias de falsos positivos en su primer intento. A través de una retroalimentación continua, es capaz de aprender de los falsos positivos y aplicar las reglas ajustadas al siguiente conjunto de datos. Esta constante evolución es lo que hace que la tecnología del aprendizaje automático sea tan efectiva a la hora de depurar y verificar datos a velocidades que antes se creían imposibles.

Garantizando la calidad de los datos con el aprendizaje automático

Al utilizar tecnología de este tipo se puede garantizar la calidad de los datos en toda la empresa. Durante un webinar, John Randles, Director Ejecutivo de Bloomberg PolarLake, recordó la historia de un gran gestor global de activos.

“Descubrimos millones de desajustes entre los metadatos que describían esos datos y los datos de origen reales en sí mismos y en un período de 15 meses eliminamos estos problemas, reduciendo la cantidad de problemas con el conjunto de datos de millones a miles”.

El uso de la tecnología adecuada puede proporcionarle a una empresa una de sus necesidades principales: datos en contexto. El contexto es el aspecto más importante de lograr que el personal aprecie la calidad de los datos, según Sanjay Saxena, Director de Gobernanza de Datos Empresariales en Northern Trust Corporation. “Cuando puedes explicarlo en términos de tu trabajo diario, ves que se enciende la bombilla”, indicó durante el webinar.

Las mejores prácticas de gestión de datos se han mejorado significativamente gracias a una combinación de la caída del costo de la energía del procesamiento de la computadora, el aumento de la disponibilidad de datos y la democratización de las herramientas de aprendizaje automático de fuente abierta, que le permite a cualquier empresa habilitar IA.

Los nuevos métodos de ciencia de datos y las mejores prácticas permiten la destilación de miles de millones de celdas de datos y filas en información significativa. La calidad de los datos seguirá siendo un elemento diferenciador para la información de datos de cualquier institución.

En última instancia, los seres humanos no pueden escalar a la velocidad necesaria para interpretar los datos en zettabytes, por lo que la base del aprendizaje automático es muy importante.

Póngase en contacto con nosotros y contrate nuestro servicio Bloomberg Professional.