Clase 4 - METRICAS DE EVALUACIÓN DE SISTEMAS DE RECOMENDACIÓN.

MÉTRICAS DE EVALUACIÓN DE SISTEMAS DE RECOMENDACIÓN.

Estas métricas nos permite determinar de qué forma los métodos de evaluación propuestos cumplen con el objetivo que se persigue.
                La evaluación se ve influida por algunos indicadores:
-          Dependiendo de las características del Set de datos, dependerá el funcionamiento del algoritmo.
-          Cuando evaluamos un sistema de recomendación queremos determinar qué tan cerca está la predicción de las elecciones reales de un usuario. No obstante lo anterior, el real objetivo debiera ser ayudar al “usuario” a tomar decisiones correctas.

Para realizar predicciones, tenemos:

Evaluación tradicional. Predicción de rating

Error Absoluto Medio (MAE).
                El Error Absoluto Medio (en ingles Mean Absolute Error, MAE) es el error que el Sistema Recomendado comete al realizar las predicciones de las valoraciones de preferencia. Por lo tanto, cuanto menor es el MAE de un Sistema Recomendador, mejor es su eficacia. Se calcula de la siguiente manera:
               


Donde pi es la predicción, vi es el valor de preferencia real y N es el número de predicciones que se calculan.
                Ejemplo:  Si queremos determinar la similitud entre películas, donde la referencia es Ghost.
PELICULA 1
PELICULA 2
SIMILITUD
PUNTUACION REAL
PUNTUACION ESTIMADA
DIFERENCIA
GHOST
Pretty Woman
0,3458
5
4,0825
0,9175
GHOST
Sister Act
0,3364
3
3,5638
-0,5638
GHOST
Dirty Dancing
0,3226
5
4,1441
0,8559
GHOST
Titanic
0,283
5
4,0708
0,9292
GHOST
What Women Want
0,2751
3
3,4842
-0,4842
GHOST
Mrs. Doubtfire
0,2637
4
3,5638
0,4362
MAE
0,34847




Mean Squared Error (MSE).
                El Error Cuadratico Medio,  es la media del error que el Sistema Recomendador comete, al cuadrado, por lo que esta medida penaliza errores de prediccion mayores. Al ser una medida de error, cuanto menos sea el MSE, más eficaz es el Sistema recomendador. Se calcula de la siguiente manera:
               


Donde pi es la predicción, vi es el valor de preferencia real y N es el número de

Root Mean Squared Error (RMSE).
                Corresponde a la Raiz del Error Cuadratico Medio.



Root Mean Squared Error se popularizó bastante debido a que fue utilizada como métrica durante el Netflix Prize para evaluar el desempeño de los algoritmos. RMSE representa básicamente la desviación estándar de las diferencias entre los valores estimados y los valores reales. Se define como la raíz cuadrada de la diferencia entre la predicción del rating y su valor real al cuadrado.
Aunque las métricas de precisión estadística han ayudado a medir con éxito diversos campos de los sistemas de recomendación, las recomendaciones más precisas a veces no son las más útiles para los usuarios. Por lo tanto, se deben explorar métricas capaces de evaluar si los objetos recomendados por el sistema son realmente relevantes para el usuario.

Evaluación de listas de recomendación.

Si consideramos los elementos recomendados como un conjunto S y los elementos relevantes como un conjunto R, tenemos:.




                Para evaluar un sistema de recomendación, tenemos dos tipos de métrica:
Precision:           De todos los que me ha mostrado el recomendador, cuántos me gustan.





                Recall:                  De todos los que me gustan, cuántos me ha mostrado el recomendador.



               
Se evalúan a partir de la tabla de verdad de salida del sistema recomendador.
               

                               
Al aumentar el Recall (la proporción de elementos relevantes) disminuimos la precision, por lo cual hay un compromiso entre ambas
métricas.



Fβ-medida
                La precisión y el recall por sí mismos no dan una medida completa de la eficacia de un SR. La Fβ-medida es una combinación de la precisión y el recall:




donde β es un parámetro libre, que indica la importancia que se da a la precisión sobre el recall. Cuanto mayor es β, mayor importancia se da a la precisión.

Mean Recicropal Rank (MRR)
                Mean Reciprocal Rank (MRR) considera la posición en la lista del primer elemento relevante.


                donde r es el ranking del primer elemento relevante. El problema es que usualmente se tiene más de un elemento relevante.

Precision at k (P@k)
                Precision at k (P@k) mide la satisfacción del usuario frente a la lista de objetos recomendados hasta un cierto punto. Es decir, dado un ranking de recomendaciones se establece que proporción de elementos relevantes hay dentro de los primeros k ítems de la lista (típicamente k = 5, 10, o 20).
                Se define como:




                donde Rel(i) = 1 si el elemento en la posición i es relevante para el usuario. En caso contrario es cero.
Average Precision (AP)
                En general, no se tiene claro hasta que valor de k es conveniente evaluar, la arbitrariedad en la elección pudiera alterar la calidad de la evaluación. Average Precision (AP) trata de solucionar este problema promediando la precisión cada vez que encuentra un elemento relevante.



Mean Average Precision (MAP)
                Mean Average Precision (MAP) es el promedio de varias Average Precision. Si se considera que hay m usuarios en el Data Set y que, además, a cada uno se le calculó una lista de recomendaciones, se define:




Discounted cumulated gain (DCG)
                Discounted cumulated gain (DCG) aplica una función de penalización para devaluar los ítems que están abajo en el ranking. Esto fue ideado pensando que el usuario tendrá menos interés en consultar esos objetos al exigirle más tiempo y esfuerzo. La función de descuento más utilizada es dividir por el log de la posición en la lista, a pesar de que, es posible encontrar otras.




Normalized discounted cumulative gain (nDCG)
                Normaliza el vector DCG con respecto al ideal. El ranking ideal es el vector que tiene ordenados de mayor a menor los valores de ganancia o relevancia.

                                                    

                Las ventajas que exhiben estas métricas es que no necesitan transformar los ratings a escala binaria y permiten evaluar a cada usuario por separado según su propio ranking de relevancia ideal. Además, sin importar la cantidad de ítems en el ranking, entregan una estimación de la ganancia acumulada como medida única.
               




Comentarios

Entradas populares de este blog

Clase 5: Recomendación Basada en contexto

Clase 1: Sistemas de Recomendación_Introducción