Clase 4 - METRICAS DE EVALUACIÓN DE SISTEMAS DE RECOMENDACIÓN.
MÉTRICAS DE EVALUACIÓN DE SISTEMAS DE RECOMENDACIÓN.
Estas métricas nos permite determinar de qué forma los métodos
de evaluación propuestos cumplen con el objetivo que se persigue.
La
evaluación se ve influida por algunos indicadores:
-
Dependiendo de las características del Set de
datos, dependerá el funcionamiento del algoritmo.
-
Cuando evaluamos un sistema de recomendación
queremos determinar qué tan cerca está la predicción de las elecciones reales
de un usuario. No obstante lo anterior, el real objetivo debiera ser ayudar al
“usuario” a tomar decisiones correctas.
Para realizar predicciones, tenemos:
Evaluación tradicional. Predicción de rating
Error Absoluto Medio
(MAE).
El Error Absoluto Medio (en
ingles Mean Absolute Error, MAE) es el error que el Sistema Recomendado comete
al realizar las predicciones de las valoraciones de preferencia. Por lo tanto,
cuanto menor es el MAE de un Sistema Recomendador, mejor es su eficacia. Se
calcula de la siguiente manera:
Donde pi es la predicción, vi
es el valor de preferencia real y N
es el número de predicciones que se calculan.
Ejemplo:
Si queremos determinar la similitud
entre películas, donde la referencia es Ghost.
PELICULA
1
|
PELICULA
2
|
SIMILITUD
|
PUNTUACION
REAL
|
PUNTUACION
ESTIMADA
|
DIFERENCIA
|
GHOST
|
Pretty
Woman
|
0,3458
|
5
|
4,0825
|
0,9175
|
GHOST
|
Sister
Act
|
0,3364
|
3
|
3,5638
|
-0,5638
|
GHOST
|
Dirty
Dancing
|
0,3226
|
5
|
4,1441
|
0,8559
|
GHOST
|
Titanic
|
0,283
|
5
|
4,0708
|
0,9292
|
GHOST
|
What
Women Want
|
0,2751
|
3
|
3,4842
|
-0,4842
|
GHOST
|
Mrs.
Doubtfire
|
0,2637
|
4
|
3,5638
|
0,4362
|
MAE
|
0,34847
|
Mean Squared Error (MSE).
El Error Cuadratico Medio, es la media del error que el Sistema
Recomendador comete, al cuadrado, por lo que esta medida penaliza errores de
prediccion mayores. Al ser una medida de error, cuanto menos sea el MSE, más
eficaz es el Sistema recomendador. Se calcula de la siguiente manera:
Donde pi es la predicción, vi
es el valor de preferencia real y N
es el número de
Root Mean Squared Error (RMSE).
Corresponde
a la Raiz del Error Cuadratico Medio.
Root Mean Squared Error se popularizó bastante debido a que
fue utilizada como métrica durante el Netflix Prize para evaluar el desempeño
de los algoritmos. RMSE representa básicamente la desviación estándar de las
diferencias entre los valores estimados y los valores reales. Se define como la
raíz cuadrada de la diferencia entre la predicción del rating y su valor real
al cuadrado.
Aunque las métricas de precisión
estadística han ayudado a medir con éxito diversos campos de los sistemas de
recomendación, las recomendaciones más precisas a veces no son las más útiles
para los usuarios. Por lo tanto, se deben explorar métricas capaces de evaluar
si los objetos recomendados por el sistema son realmente relevantes para el
usuario.
Evaluación de
listas de recomendación.
Si consideramos los elementos
recomendados como un conjunto S y los elementos relevantes como un conjunto R,
tenemos:.
Para
evaluar un sistema de recomendación, tenemos dos tipos de métrica:
Precision: De todos los que me ha
mostrado el recomendador, cuántos me gustan.
Recall: De todos los que me gustan,
cuántos me ha mostrado el recomendador.
Se evalúan a partir de la tabla de verdad de salida del
sistema recomendador.
Al aumentar el Recall (la proporción de elementos relevantes)
disminuimos la precision, por lo cual hay un compromiso entre ambas
métricas.
Fβ-medida
La precisión y
el recall por sí mismos no dan una medida completa de la eficacia de un SR. La
Fβ-medida es una combinación de la precisión y el recall:
donde β es un parámetro libre, que indica la importancia que
se da a la precisión sobre el recall. Cuanto mayor es β, mayor importancia se
da a la precisión.
Mean Recicropal Rank (MRR)
Mean Reciprocal Rank (MRR)
considera la posición en la lista del primer elemento relevante.
donde r
es el ranking del primer elemento relevante. El problema es que usualmente se
tiene más de un elemento relevante.
Precision at k (P@k)
Precision at k (P@k) mide la
satisfacción del usuario frente a la lista de objetos recomendados hasta un
cierto punto. Es decir, dado un ranking de recomendaciones se establece que
proporción de elementos relevantes hay dentro de los primeros k ítems de la
lista (típicamente k = 5, 10, o 20).
Se
define como:
donde
Rel(i) = 1 si el elemento en la posición i es relevante para el usuario. En
caso contrario es cero.
Average Precision (AP)
En
general, no se tiene claro hasta que valor de k es conveniente evaluar, la
arbitrariedad en la elección pudiera alterar la calidad de la evaluación.
Average Precision (AP) trata de solucionar este problema promediando la
precisión cada vez que encuentra un elemento relevante.
Mean Average Precision (MAP)
Mean Average Precision (MAP)
es el promedio de varias Average Precision. Si se considera que hay m usuarios
en el Data Set y que, además, a cada uno se le calculó una lista de
recomendaciones, se define:
Discounted cumulated gain (DCG)
Discounted cumulated gain
(DCG) aplica una función de penalización para devaluar los ítems que están
abajo en el ranking. Esto fue ideado pensando que el usuario tendrá menos
interés en consultar esos objetos al exigirle más tiempo y esfuerzo. La función
de descuento más utilizada es dividir por el log de la posición en la lista, a
pesar de que, es posible encontrar otras.
Normalized discounted cumulative gain
(nDCG)
Normaliza
el vector DCG con respecto al ideal. El ranking ideal es el vector que tiene
ordenados de mayor a menor los valores de ganancia o relevancia.
Las ventajas que exhiben
estas métricas es que no necesitan transformar los ratings a escala binaria y
permiten evaluar a cada usuario por separado según su propio ranking de
relevancia ideal. Además, sin importar la cantidad de ítems en el ranking,
entregan una estimación de la ganancia acumulada como medida única.
Comentarios
Publicar un comentario