Clasificación binaria para datos de dimensión alta con representación geométrica asintótica

Ponente(s): Addy Margarita Bolívar Cimé, Luis Miguel Córdova Rodríguez
La representación geométrica asintótica que tiene cierta clase de datos multivariados, se refiere a la estructura asintótica de $n$-simplex que tiene un conjunto de $n$ vectores aleatorios i.i.d. cuando la dimensión $d$ tiende a infinito. En esta plática mostramos que al considerar datos multivariados con una representación geométrica asintótica, los cuatro métodos de clasificación binaria Support Vector Machine, Mean Difference, Distance-Weighted Discrimination y Maximal Data Piling tienen el mismo comportamiento asintótico cuando la dimensión de los datos tiende a infinito mientras que el tamaño de las muestras permanece fijo. Se presenta la consistencia, inconsistencia e inconsistencia fuerte de los métodos, en términos de los ángulos entre los vectores normales de los hiperplanos separantes de los métodos y la dirección óptima para la clasificación. Se considera también la comparación de los métodos en términos de las probabilidades de clasificación errónea. Finalmente se muestran simulaciones que comprueban los resultados teóricos presentados.