Curvas ROC

Resumo sobre curvas ROC

Uma das principais formas de avaliar um classificador é através das curvas ROC.

As curvas ROC é uma curva que é desenhada utilizando a taxa de positivos corretos e a taxa de falso positivo.

No livro do Witten ele fala que para a construção das curvas ROC cada ponto da curva é feito a partir do raqueamento das predições feitas no conjunto de teste. Este ranqueamento é feito principalmente pela propabilidade deste instância ser verdadeira, isto é, as instâncias com a maior probabilidade de ser verdadeira ficará melhor ranqueada.

Mas como funciona com os classificadores não probabilísticos? Li uma série de artigos e em todos falam somente de um limiar, mas que limiar é este. Variando o valor do limiar, eu poderia obter cada ponto da curva.

E como funciona este limiar na prática? Após muita leitura, e algumas perguntas feitas, vi que o limiar varia para cada classificador. Por exemplo, nas redes neurais é a confiança da predição, nas árvores de decisão são a quantidade de instância que chegam naquela folha e no KNN é a quantidade de votos positivos em cada k questionado.

Por exemplo, se eu tenho K=5, eu posso variar o limiar de 1 a 5, como assim? Para o limiar=1, eu preciso apenas de um voto positivo para classificar aquela instância como positiva, ou seja, a instância perguntada tem a probabilidade 4/5 de ser verdadeira. Desde modo, um classificador não probabilístico se tornou um probabilístico.

Próximo passo: Calcular o ponto em que a taxa de falso positivo é igual a taxa de positivos verdadeiros. Isto é calcular a taxa de erro igual. Onde fazer: No Weka. Como fazer? Ainda não sei. Estou lendo a documentação, mas pelo jeito vou ter que criar um novo método de avaliação e contribuir com o código do Weka.

Do	Se	Te	Qu	Qu	Se	Sa
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Marcelo Damasceno

Ferramentas Pessoais

Curvas ROC