Una métrica en datos secuenciales para clasificación

Autor: Luis Manuel Díaz Meza
Inspirados en la generación de scores de riesgo crédito, donde el objetivo es pronosticar el comportamiento de los clientes, o en problemas de clasificación de clientes de acuerdo a sus hábitos, resalta la importancia de la construcción de variables con alto poder predictivo y clasificadores a nivel cliente (no a nivel transaccional). Los datos normalmente se presentan a nivel transaccional y de índole muy variada, por ejemplo datos con detalle de compras con tarjetas de crédito. Típicamente en la industria se suelen construir variables sumarizadas del tipo {\it Promedio de Compras en los últimos 6 meses}, etc. perdiendo con ello la riqueza intrínseca del detalle transaccional. Se propone una metodología con la que se pretende construir variables con mayor poder predictivo. Dado un conjunto $X = X_0 \times X_1 \times \cdots \times X_n$, con cada $X_i$ espacio métrico (por ejemplo el conjunto de compras con TDC \{comida, \$500, linea alta\}) y el conjunto $S(X)$ de secuencias (sucesiones finitas de elementos de $X$), se propone una distancia en $S(X)$ basada en una generalización de la distancia de Levenshtein. Esta distancia incorpora efectos de inserción, extracción, intercambio de características en las secuencias, así como los aspectos métricos propios de cada componente. Finalmente mediante técnicas de clusters en espacios métricos es posible extraer información útil. Se habla un poco de sus propiedades y se muestran ejemplos de su uso.