O momento de escolher o algoritmo a ser aplicado em um projeto de Machine Learning é determinante na qualidade das previsões e na seleção das estratégias.
Em um processo de Aprendizado de Máquina, a definição da técnica utilizada se relaciona com o objetivo desejado. Uma vez estabelecido esse objetivo, associamos a técnica de Aprendizado de Máquina mais adequada e, posteriormente, nos deparamos com o desafio de selecionar o algoritmo ou conjunto de algoritmos que ofereçam o melhor resultado para a análise preditiva.
Neste artigo, vamos explorar alguns aspectos relacionados com esse processo de escolha.
O valor da avaliação dos dados disponíveis
Para escolher com sucesso o algoritmo que melhor se adapta às necessidades do projeto, é importante avaliar quais dados e tipos de dados temos disponíveis. Assim, a informação incluída no modelo será processada de forma eficiente e os resultados na matriz de previsão serão realmente úteis para as de decisões e para o negócio.
A importância das métricas de desempenho
Existem várias métricas para avaliar o desempenho preditivo de um algoritmo de Machine Learning – e cada algoritmo deve ser avaliado com a métrica apropriada para ele.
Por exemplo, para algoritmos de regressão, que envolvem a combinação de índices históricos que variam um em função do outro, a métrica apropriada é o erro quadrático médio (RMSE). Já para tarefas de classificação binária, que é usada para prever a qual de duas categorias uma certa instância de dados pertence, a avaliação é desenvolvida a partir da matriz de confusão.
Um exemplo de avaliação de algoritmos: a matriz de confusão
Quando temos um algoritmo de classificação binária, temos na prática um conjunto de possibilidades de classificação em que cada categoria possível é um número inteiro de 0 ou 1. O resultado da aplicação desse algoritmo é a capacidade de prever qual a classe de novas instâncias (dados). Por exemplo, reconhecer algo como “positivo” ou “negativo”, como se um email é ou não spam, se um paciente tem uma determinada doença ou não, etc.
A matriz de confusão mede o desempenho do aprendizado de máquina avaliando os acertos e erros do algoritmo de forma ponderada, de acordo com seu impacto nos processos em que estão inseridos – processos de decisões de negócios, por exemplo. Em outras palavras, é medido o impacto real da performance do Machine Learning no seu contexto de aplicação.
A matriz de confusão nos mostra quatro grupos, partindo das respostas conhecidas e das predições. Estes grupos são: positivos reais, predições negativas corretas, positivos falsos e predições negativas incorretas.
Com isso, podemos obter as métricas típicas utilizadas para avaliar algoritmos de Machine Learning, que são:
- Exatidão
- Precisão.
- Recuperação.
- Taxa de falsos positivos.
- Cálculo de F1.
Cada métrica se refere a um aspecto do modelo. Por exemplo, a exatidão mede a fração de previsões corretas. A precisão, por outro lado, mede a fração de positivos reais, em relação aos casos que são previstos como positivos. A recuperação mede quantos positivos reais são previsto como positivo. A medida F1 é a média harmônica entre precisão e recuperação.
Algoritmos e a implantação do Machine Learning em negócios
Como vimos, seja via matriz de confusão, ou outra forma de verificação de desempenho, uma avaliação bem feita e aplicando o método adequado é a base para escolher os algoritmos a serem aplicados no Machine Learning – e influi diretamente no sucesso da sua implantação.
Quando se trata de usar o aprendizado de máquina para aprimorar a tomada de decisão em um negócio, isso se torna ainda mais crucial. Afinal, estamos falando de algo que lida com novos dados constantemente e que vai se tornar fonte de insights para a organização!
Além de verificar se estamos usando os algoritmos ideais, é essencial ir além, e averiguar se estamos envolvendo os dados realmente importantes. Também é fundamental ajustar os limites de pontuação nas previsões. Dessa forma, é possível obter resultados adequados e acionáveis – informações que a organização realmente consegue utilizar; tudo isso sempre alinhado às necessidades do negócio.
Quer saber mais sobre o processo de implantação do Machine Learning? Não deixe de conferir este artigo do Blog Tatic!