Machine Learning para detectar fraude

Machine Learning para detectar fraude

Una acción fraudulenta es aquella en la que se realiza un engaño con la encubierta intención de conseguir un beneficio económico a costa de que una persona, empresa u organización quede perjudicada.

En la actualidad, el aumento significativo del fraude, su complejidad cada vez mayor y su especialización hacen que los recursos utilizados por parte de las organizaciones para combatirlos sean cada vez más significativos. La búsqueda de fraude es un trabajo altamente especializado que consume una gran cantidad de tiempo.

Gracias a la Ciencia de Datos, y en especial al Machine Learning, este trabajo se automatiza en gran medida poniendo el foco en los posibles casos de fraude y atomizando el problema para una solución óptima.

¿Qué es el Aprendizaje Automático o Machine Learning?

El objetivo del Aprendizaje Automático, o Machine Learning, es desarrollar máquinas o software que aprendan una determinada tarea. Estos sistemas aprenden dicha tarea mediante la adaptación de ciertos algoritmos que toman como entrada una serie de datos que son ejemplos de lo que se quiere aprender.

En el diseño de un sistema basado en tecnología Machine Learning se distinguen tres etapas:

• Aprendizaje o entrenamiento. En esta fase se construye el modelo a partir de una serie de datos de entrenamiento, utilizando para ello un determinado algoritmo o varios algoritmos.

• Validación. Esta etapa permite elegir los parámetros libres del modelo. Las muestras utilizadas en la etapa de validación sirven para modificar el sistema, es decir, para que el modelo se ajuste lo máximo posible a los datos.

• Evaluación. Esta fase permite evaluar las prestaciones del modelo, es decir, el conjunto de observaciones de test permite caracterizar la bondad del modelo.

Gracias a un dataset inicial que proporciona información del tipo y la metodología del fraude, los sistemas de Machine Learning diseñados para este fin analizan las características en busca de patrones. Por ejemplo, si estamos estudiando la detección de fraude de siniestros de automóviles, el dataset debe contener datos de accidentes de automóviles y sus características, y a partir de estos datos el sistema aprende a distinguir las clases.

¿Cuál es la forma óptima de implementar el Machine Learning?

Existen dos técnicas principales en la implementación de la tecnología Machine Learning aplicables a la detección de fraude. Una de ellas es la clasificación, técnica perteneciente a los métodos de aprendizaje supervisados, y se basa en aprender la relación que existe entre las características que describen los ejemplos y sus etiquetas. La etiqueta es la característica de salida que indica a qué clase pertenece cada uno de los ejemplos: fraudulenta o no fraudulenta. Por tanto, si introducimos un nuevo ejemplo en la máquina, esta detecta si esa muestra se parece más al fraude o al no fraude.

Ejemplo de clasificación

La otra técnica es la denominada detección de anomalías, y pertenece a los métodos no supervisados. En este caso, las muestras no están etiquetadas. El sistema trata de identificar los ejemplos que son raros, es decir, los que tienen patrones diferentes a los comunes. Estos modelos no necesitan aprender qué es el fraude, es decir, no hace falta entrenar el modelo con todos los tipos de fraude, simplemente necesitan aprender los patrones de los ejemplos normales, y si un ejemplo futuro difiere de los patrones normales, entonces este es detectado como posible fraude.

Ejemplo detección de anomalías

Ahora la pregunta es ¿cuál de las dos técnicas debo utilizar? Esto depende de los datos de que se dispongan. Si se tienen los datos etiquetados en fraudulentos y no fraudulentos, y existen datos con patrones de todos los tipos de fraude, se utilizaría la técnica de clasificación. Si, por el contrario, se dispone de los datos sin etiquetar y estos definen muy bien lo que no es fraude, se debe utilizar la detección de anomalías.

Para concluir, comentar que el Machine Learning ha ayudado mucho a la detección de fraude gracias a la automatización o construcción de sistemas que detectan los patrones de las características de las muestras.

Es importante destacar que hoy en día el sector de las aseguradoras es uno de los más afectados, y en especial los seguros de automóviles. Por ello, en BOTECH nos hemos especializado en la detección de fraudes a compañías aseguradoras, además de la detección de transacciones realizadas con tarjetas de crédito y la detección de insiders dentro de una compañía.

Un post de Leire Posilio, Junior Data Scientist BOTECH