El momento de elegir el algoritmo que se aplicará en un proyecto de Machine Learning es decisivo en la calidad de los pronósticos y en la selección de estrategias.

En un proceso de Machine Learning, la definición de la técnica utilizada está relacionada con el objetivo deseado. Una vez establecido este objetivo, asociamos la técnica de Machine Learning más adecuada y, posteriormente, nos enfrentamos al reto de seleccionar el algoritmo o conjunto de algoritmos que ofrezcan el mejor resultado para el análisis predictivo.

En este artículo, explicaremos algunos aspectos relacionados con este proceso de elección.

El valor de evaluar los datos disponibles

Para elegir con éxito el algoritmo que mejor se adapta a las necesidades del proyecto, es importante evaluar qué datos y tipos de datos tenemos disponibles. De esta forma, la información incluida en el modelo será procesada de manera eficiente y los resultados en la matriz de pronóstico serán realmente útiles para la toma de decisiones y para el negocio.

La importancia de las métricas de desempeño

Existen varias métricas para evaluar el rendimiento predictivo de un algoritmo de aprendizaje automático, y cada algoritmo debe evaluarse con la métrica adecuada para ello.

Por ejemplo, para los algoritmos de regresión, que implican la combinación de índices históricos que varían de uno a otro, la métrica apropiada es el error cuadrático medio (RMSE). Para tareas de clasificación binaria, que se usa para predecir a cuál de dos categorías pertenece una determinada instancia de datos, la evaluación se desarrolla a partir de la matriz de confusión.  

Un ejemplo de evaluación de algoritmos: la matriz de confusión

Cuando tenemos un algoritmo de clasificación binaria, tenemos en la práctica un conjunto de posibilidades de tipificación, en el que cada categoría posible es un número entero de 0 o 1. El resultado de aplicar este algoritmo entrega la capacidad de predecir nuevas instancias (datos ). Por ejemplo, reconocer algo como «positivo» o «negativo», como si un correo electrónico es spam o no, si un paciente tiene una enfermedad en particular o no, etc.

La matriz de confusión mide el rendimiento del aprendizaje automático evaluando los aciertos y errores del algoritmo de forma ponderada, de acuerdo con su impacto en los procesos en los que se utilizan, por ejemplo, los procesos de decisión empresarial. En otras palabras, se mide el impacto real del rendimiento del aprendizaje automático en su contexto de aplicación.

La matriz de confusión nos muestra cuatro grupos, basados ​​en respuestas y predicciones conocidas. Estos grupos son: positivos reales, predicciones negativas correctas, falsos positivos y predicciones negativas incorrectas.

Con eso, podemos obtener las métricas típicas que se utilizan para evaluar los algoritmos de Machine Learning, que son:

  • Exactitud
  • Precisión.
  • Recuperación.
  • Tasa de falsos positivos.
  • Cálculo F1.

Cada métrica se refiere a un aspecto del modelo. Por ejemplo, la exactitud es la proporción entre los positivos reales y todos los casos positivos. La precisión, por otro lado, es la proporción entre el número de predicciones correctas de 1 y 0 contra el total de los datos. La sensibilidad mide cuántos positivos reales se predice que serán positivos. La medida F1 es el promedio armónico entre precisión y la sensibilidad.

Algoritmos e implementación de Machine Learning en los negocios

Como hemos visto, ya sea a través de una matriz de confusión u otra forma de verificación del rendimiento, una evaluación bien hecha y la aplicación del método adecuado es la base para elegir los algoritmos que se aplicarán en Machine Learning, e influye directamente en el éxito de su implementación.

Cuando se trata de utilizar el aprendizaje automático para mejorar la toma de decisiones en una empresa, se vuelve aún más crucial. Después de todo, estamos hablando de algo que se ocupa de nuevos datos constantemente y que se convertirá en una fuente de conocimientos para la organización.

Además de verificar que estamos utilizando los algoritmos ideales, es fundamental ir más allá y ver si estamos involucrando los datos realmente importantes. También es fundamental ajustar los límites de puntuación en las previsiones. De esta manera, es posible obtener resultados adecuados y procesables: información que la organización realmente puede utilizar; todo ello siempre en concordancia con las necesidades del negocio.