O momento de escolher o algoritmo a ser aplicado em um projeto de Machine Learning é determinante na qualidade das previsões e na seleção das estratégias.

Em um processo de Aprendizado de Máquina, a definição da técnica utilizada se relaciona com o objetivo desejado.  Uma vez estabelecido esse objetivo, associamos a técnica de Aprendizado de Máquina mais adequada e, posteriormente, nos deparamos com o desafio de selecionar o algoritmo ou conjunto de algoritmos que ofereçam o melhor resultado para a análise preditiva.

Neste artigo, vamos explorar alguns aspectos relacionados com esse processo de escolha.

O valor da avaliação dos dados disponíveis

Para escolher com sucesso o algoritmo que melhor se adapta às necessidades do projeto, é importante avaliar quais dados e tipos de dados temos disponíveis. Assim, a informação incluída no modelo será processada de forma eficiente e os resultados na matriz de previsão serão realmente úteis para as de decisões e para o negócio.

A importância das métricas de desempenho

Existem várias métricas para avaliar o desempenho preditivo de um algoritmo de Machine Learning – e cada algoritmo deve ser avaliado com a métrica apropriada para ele.

Por exemplo, para algoritmos de regressão, que envolvem a combinação de índices históricos que variam um em função do outro, a métrica apropriada é o erro quadrático médio (RMSE). Já para tarefas de classificação binária, que é usada para prever a qual de duas categorias uma certa instância de dados pertence, a avaliação é desenvolvida a partir da matriz de confusão.

Um exemplo de avaliação de algoritmos: a matriz de confusão

Quando temos um algoritmo de classificação binária, temos na prática um conjunto de possibilidades de classificação em que cada categoria possível é um número inteiro de 0 ou 1. O resultado da aplicação desse algoritmo é a capacidade de prever qual a classe de novas instâncias (dados). Por exemplo, reconhecer algo como “positivo” ou “negativo”, como se um email é ou não spam, se um paciente tem uma determinada doença ou não, etc.

A matriz de confusão mede o desempenho do aprendizado de máquina avaliando os acertos e erros do algoritmo de forma ponderada, de acordo com seu impacto nos processos em que estão inseridos – processos de decisões de negócios, por exemplo. Em outras palavras, é medido o impacto real da performance do Machine Learning no seu contexto de aplicação. 

A matriz de confusão nos mostra quatro grupos, partindo das respostas conhecidas e das predições. Estes grupos são: positivos reais, predições negativas corretas, positivos falsos e predições negativas incorretas.

Com isso, podemos obter as métricas típicas utilizadas para avaliar algoritmos de Machine Learning, que são:

  • Exatidão
  • Precisão.
  • Recuperação.
  • Taxa de falsos positivos.
  • Cálculo de F1.

Cada métrica se refere a um aspecto do modelo. Por exemplo, a exatidão mede a fração de previsões corretas. A precisão, por outro lado, mede a fração de positivos reais, em relação aos casos que são previstos como positivos. A recuperação mede quantos positivos reais são previsto como positivo. A medida F1 é a média harmônica entre precisão e recuperação.

Algoritmos e a implantação do Machine Learning em negócios

Como vimos, seja via matriz de confusão, ou outra forma de verificação de desempenho, uma avaliação bem feita e aplicando o método adequado é a base para escolher os algoritmos a serem aplicados no Machine Learning – e influi diretamente no sucesso da sua implantação.

Quando se trata de usar o aprendizado de máquina para aprimorar a tomada de decisão em um negócio, isso se torna ainda mais crucial. Afinal, estamos falando de algo que lida com novos dados constantemente e que vai se tornar fonte de insights para a organização!

Além de verificar se estamos usando os algoritmos ideais, é essencial ir além, e averiguar se estamos envolvendo os dados realmente importantes. Também é fundamental ajustar os limites de pontuação nas previsões. Dessa forma, é possível obter resultados adequados e acionáveis – informações que a organização realmente consegue utilizar; tudo isso sempre alinhado às necessidades do negócio.

Quer saber mais sobre o processo de implantação do Machine Learning? Não deixe de conferir este artigo do Blog Tatic!