Calculando la precisión en un modelo de Clasificación Multiclase

Wayner Barrios Bustamante
3 min readApr 3, 2021

--

Clasificación Multiclase

Cuando se desarrolla modelos de clasificación en el aprendizaje supervisado es la matriz de confusión la fuente principal para determinar las métricas que nos permite evaluar cuan confiable es nuestro modelo. Es de recalcar que sí bien se obtiene dichas métricas como: accuracy_score, precision, recall o f1_score, la confiabilidad del modelo estará sujeto a la correcta interpretación que el científico de datos le dé a dichos valores.

Es común encontrar que en los ejemplos para explicar la métrica de precisión se emplee modelos de clasificación binaria, es decir, en donde nuestro clasificador solo tiene dos etiquetas por estimar (0 ó 1, SI o NO, YES or NOT, FALSO o VERDADERO, …, o el tradicional PERRO o GATO) y su matriz de confusión se presenta como:

Matriz de confusión para Clasificador Binario

Un arreglo numérico con dimensiones 2x2, determinadas por la cantidad de etiquetas a clasificar, que nos muestra: los Verdaderos Positivos (TP), los Falsos Positivos (FP), los Verdaderos Negativos (TN) y los Falsos Negativos (FN). De tal forma que la formulación de la precisión está dada por:

Esto explica que tan preciso fue nuestro modelo pero sobre la etiqueta positiva (Real= YES), al comparar las mediciones de la predicción realizada por el clasificador frente a los valores reales presente en los datos de prueba (test_data).

Sin embargo, en algunos problemas de clasificación nos podemos encontrar con modelo con una cantidad de etiquetas por clasificar superior a 2, y la fórmula de la precisión no puede tomarse de la expresión anterior. Cuando tenemos un modelo de clasificación en donde se involucren N etiquetas (donde N>2) la matriz de confusión (MC) presenta NxN dimensiones.

Matriz de confusión para un Clasificador Multiclase

donde cada columna representa los Falsos Positivos (FP) y la fila los Falsos Negativos (FN) para esa etiqueta. La gráfica anterior ilustra los Falsos Positivos y Falsos Negativos para la clase o etiqueta 1 y N-1 de nuestro clasificador. Observe que en donde converge el índice de la fila con la columna corresponde al Verdadero Positivo (TP), es decir donde la estimación de nuestro modelo coincide con la realidad.

Por tanto, la formula generalizada para calcular la precisión para una etiqueta k de nuestro clasificador estaría representado por la siguiente expresión:

Precisión para la etiqueta k-ésima de un Clasificador Multiclase

El numerador de la expresión MC(k,k) representa la casilla de la matriz en donde converge la estimación del modelo con la realidad para esa etiqueta k, lo que se define como los Verdaderos Positivos (TP) y el denominador, la sumatoria total de elementos identificados como positivos por el clasificador para esa etiqueta k, que incluye todos los Falsos Positivos (FP) y su Verdadero Positivo (TP) respectivamente.

Conclusión. Recuerda que para cualquier clasificador multiclase la precisión de una etiqueta k mide la relación que hay entre el número de elementos correctamente identificados como positivos del total de elementos identificados como positivos, pero su relevancia como métrica de un clasificador estará determinada cuando su valor sea cercano a 1 en un modelo en donde los valores de las etiquetas estén balanceadas o equilibradas.

--

--

Wayner Barrios Bustamante

Systems Engineer, Universidad del Norte , Specialist in Computer Networks and student of Machine Learning.