Machine Learning: Tipos de Aprendizaje
Portada » Machine Learning » Machine Learning: Tipos de Aprendizaje

Machine Learning: Tipos de Aprendizaje

Cuando hablamos de Machine Learning nos referimos a la capacidad de las máquinas (ordenadores) de descubrir patrones y relaciones subyacentes en los datos sin que ningún programador haya tenido que codificar instrucciones  específicamente para esas tareas. En palabras de Arthur Samuel, uno de los pioneros del aprendizaje automático:

«El aprendizaje automático es el campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programadas explícitamente».

Para aprender, el Machine Learning (ML) emplea diferentes tipos de algoritmos y modelos matemáticos que utilizan grandes cantidades de datos de distintos tipos (texto, imágenes, video, etc.) como materia prima. Al proceso mediante el cual un algoritmo aprende a realizar una tarea específica usando los datos como input se le denomina entrenamiento.

Existen diferentes tipos de aprendizaje que se pueden usar en el entrenamiento de los datos cuya aplicación dependerá del tipo de problema que se quiera abordar y del tipo y cantidad de datos disponibles para resolver ese reto. Veamos los diferentes enfoques existentes:

Aprendizaje Supervisado

La diferencia fundamental de este tipo de aprendizaje es que toma como punto de partida un conjunto de datos que han sido previamente etiquetados.  Este tipo de aprendizaje se usa de manera habitual para la creación de modelos predictivos. Dicho de otro modo, este tipo de modelo aprende de datos del pasado que contienen ejemplos etiquetados (o clasificados en categorías si prefieres) sobre la variable que se quiere predecir en el futuro.

Veámoslo con un ejemplo, supongamos que lo que queremos es que nuestro modelo de Machine Learning (ML) realice una predicción sobre cuál debería ser el precio de un coche de segunda mano en el mercado. 

Para que nuestro modelo sea capaz de determinar de manera fiable el valor de un coche, debemos proporcionarle la mayor cantidad posible de datos sobre muchos coches, incluyendo diferentes atributos (marca, modelo, etc.) que sean relevantes para la tarea, junto al precio al que se han vendido. Las características del coche serán los inputs (valores de entrada) del modelo, y el precio será el output (resultado).

Este tipo de aprendizaje utiliza los datos etiquetados, aquellas filas de nuestra tabla que contienen el precio para cada coche (etiqueta), para predecir el valor de salida para un nuevo coche. El modelo que apliquemos se encargará de descubrir los patrones que hay entre los atributos del coche y su precio para hacer la predicción del valor de un nuevo coche.

Generalmente, se dice que los atributos del coche que se usan para predecir son las variables independientes, y la variable que queremos predecir, en este caso el precio, es la variable dependiente. Las variables independientes tendrán diferentes pesos en el modelo; es decir, no todas las variables independientes aportan el mismo valor al modelo a la hora de determinar el precio.

Una de las ventajas de este tipo de aprendizaje es que siempre podemos contar con datos de prueba o validación para comprobar cómo de buenos son los pronósticos de nuestro modelo a la hora de predecir el valor de un coche. Cuando los valores del pronóstico y los datos reales se encuentran muy distanciados, hablamos de error en la predicción. Nuestro objetivo será encontrar los parámetros del modelo que reduzcan ese error, de manera que la distancia entre los valores pronosticados y los reales sea la mínima posible. A ese proceso se le denomina optimización.

Ejemplos de algoritmos comunes utilizados en el aprendizaje supervisado incluyen análisis de regresión (regresión lineal, regresión logística y regresión no lineal), árboles de decisión, k-vecinos más cercanos (KNN), redes neuronales (RN) y máquinas de vectores de soporte (SVM).

Aprendizaje NO Supervisado

En el caso del aprendizaje no supervisado no contamos con la ayuda de datos etiquetados, y, por lo tanto, no hay tal cosa como inputs y outputs del modelo, solo datos.

En el aprendizaje supervisado utilizábamos los datos para una tarea específica, en nuestro ejemplo la predicción del precio del coche. En este tipo de aprendizaje para un mismo input que introduzcamos en el modelo siempre obtendremos un mismo output. Dicho de otro modo, dos coches de idénticas características tendrán la misma predicción de precio.

En el aprendizaje no supervisado centramos la misión del algoritmo en descubrir patrones y relaciones ocultos en los datos, observar los datos sin procesar y ver si se dividen de manera natural en diferentes grupos. 

Usemos como ejemplo el caso del fraude en operaciones online. Si usásemos técnicas de aprendizaje supervisado, por ejemplo proporcionar datos de casos de operaciones lícitas (negativos) y datos de operaciones fraudulentas (positivos), el sistema podría detectar los patrones de los casos históricos y clasificar el nivel de riesgo de una operación basándose en esos datos. Sin embargo, los profesionales del fraude son tremendamente creativos y cambian sus metodologías para evitar que les pillen y poder seguir cometiendo sus fechorías.

La compañía Datavisor, por ejemplo, se centra en la detección de fraudes utilizando técnicas de Aprendizaje no Supervisado, usando, entre otras técnicas, la Clusterización (Clustering) de los datos. Esta técnica permite identificar la similitudes entre grupos de datos de manera que son capaces de agrupar los datos en base a sus características comunes y crear grupos que son lo más diferentes posible entre ellos.

Datavision procesa todos los eventos y actividades del conjunto de datos para analizar correlaciones y similitudes entre millones (o incluso cientos de millones) de cuentas. Al utilizar aprendizaje no supervisado no requiere etiquetas ni datos de entrenamiento, es capaz de revelar estructuras sutiles y ocultas en cuentas falsas, fraudulentas y maliciosas en tiempo real lo que permite una detección temprana de anomalías y la elaboración de respuestas adaptativas ante patrones de ataque cambiantes.

Un inconveniente de usar métodos de Aprendizaje No Supervisado es que, al no usar datos etiquetados, no contamos con observaciones de los datos de salida (output) por lo que no tenemos datos con los que contrastar la bondad de las predicciones del modelo.

Algunos de los algoritmos más utilizados en tareas de aprendizaje no supervisado son los algoritmos de clusterización como K-means o la Clusterización Jerárquica, de reducción de dimensionalidad como el Análisis de Componentes Principales (PCA) o el Análisis de Componentes Independientes (ICA) por ejemplo

Aprendizaje Semi-Supervisado

Es un camino intermedio entre los dos anteriores, es decir, el modelo se entrena con un conjunto de datos que contiene tanto datos etiquetados como datos sin etiquetar. Con «cuantos más datos mejor» como motivación central, el objetivo de este tipo de aprendizaje es aprovechar los casos no etiquetados para mejorar la robustez en la capacidad de predicción del modelo.

Este tipo de enfoque es habitual cuando el coste de conseguir un alto volumen de datos etiquetados es elevado, ya sea en dinero o en tiempo, pero el volumen de datos sin etiquetas disponible es abundante. 

Un caso de uso puede ser en el ámbito del procesamiento del lenguaje natural (PLN) el análisis de sentimiento, donde se entrena el modelo con un subconjunto de datos etiquetados y luego se aplica sobre datos sin etiquetar. 

Aprendizaje por Refuerzo 

El aprendizaje por refuerzo (RL) trata de aprender a través de la experiencia el comportamiento óptimo en un determinado entorno para obtener la máxima recompensa. Este comportamiento óptimo se aprende a través de diferentes interacciones con el entorno y observar su resultado. 

El agente explora un entorno desconocido en pos de conseguir un objetivo. A través  del ensayo y error, el agente va explorando diferentes acciones y en cada interacción recibe retroalimentación del entorno. Cuando el feedback es positivo recibe una recompensa, cuando es negativo un castigo. El agente irá ajustando sus acciones (política) para maximizar la recompensa acumulada y mejorar su desempeño en el entorno.

En sus inicios se inspira en los experimentos del psicólogo conductista B. F. Skinner que enseñaba a palomas y ratas a aprender a realizar ciertas tareas en base a refuerzos positivos y negativos. 

Siguiendo el ejemplo de Skinner tomemos el entrenamiento de un perro desde la perspectiva del aprendizaje por refuerzo. El objetivo del aprendizaje es entrenar al perro (agente) a completar una tarea en un entorno. Por entorno entendemos tanto el sitio en el que ocurre la interacción como el propio entrenador.

En primer lugar, el entrenador dará una orden que el perro (agente) tendrá que observar y responder mediante una acción, idealmente que vaya a por el palo y lo traiga de vuelta. Si la acción del perro se acerca al objetivo, el perro trae el palo, entonces el perro recibirá el hueso (recompensa), si no no recibirá nada (castigo).

Al comienzo del entrenamiento el comportamiento del perro será bastante aleatorio, puede que se siente, puede que ladre, puede que no haga nada en absoluto. El perro intentará entender las instrucciones del entrenador y asociarlas con cuál es el comportamiento esperado a través de las recompensas. Poco a poco ira construyendo una mapa de asociaciones entre las instrucciones y las acciones (política) mientras intenta maximizar su objetivo: conseguir cuantas más recompensas mejor.

Usemos otro ejemplo clásico que se ha usado en múltiples ocasiones en el contexto del Aprendizaje por Refuerzo: los videojuegos,  más concretamente el Pac-Man. El Pac-Man es un juego de Arcade clásico en el que el objetivo es maximizar la puntuación a través de comer puntos y frutas mientras evitamos ser comidos por los fantasmas. El agente (el Pac-Man) toma decisiones en cada paso sobre qué movimiento realizar (acciones: moverse a la izquierda, la derecha, arriba o abajo)  dentro de las restricciones de movimiento que impone el entorno. 

La recompensas se consiguen al comer puntos, por ejemplo, un punto normal cuenta 10 puntos, uno grande 50, las cerezas 100 y la fresa 300. Y, si nos come un fantasma, perdemos una vida y 500 puntos.

La política es la estrategia que usa el pac-man para decidir que acción tomar en cada estado, es decir, la situación del pac-man en el entorno en un momento dado. A todo esto le acompaña un valor Q, una función que estima la recompensa acumulada esperada para cada acción desde cada estado.

El modelo aprende a base de volver a jugar múltiples partidas probando diferentes estrategias y explorando diversas rutas posibles. En cada interacción el modelo aprende de los resultados y va mejorando su puntuación. Si miramos a la representación acumulada de las puntuaciones conseguidas podemos comprobar como, a medida que va aprendiendo, va mejorando su rendimiento.

Un ejemplo clásico de este tipo de aprendizaje es AlphaGo, desarrollado por DeepMind, empresa comprada por Google hace unos años. AlphaGo revolucionó el mundo del aprendizaje automático al vencer a uno de los mejores jugadores de Go del mundo. Su desarrollo combinó técnicas avanzadas de aprendizaje supervisado y aprendizaje por refuerzo. Inicialmente, AlphaGo fue entrenado con millones de movimientos de partidas humanas, lo que le permitió aprender las estrategias básicas. Posteriormente, se perfeccionó jugando millones de partidas contra sí mismo mediante un proceso de autoaprendizaje (SSL).

Lee Sedol enfrentándose a AlphaGo

El momento culminante de AlphaGo llegó en marzo de 2016, cuando se enfrentó a Lee Sedol, un legendario jugador de Go y campeón mundial. Contra todas las expectativas, AlphaGo ganó cuatro de los cinco juegos de la serie, demostrando la impresionante capacidad de la IA para manejar la complejidad estratégica del Go. Esta victoria marcó un hito en la inteligencia artificial, mostrando que las máquinas podían no solo aprender de los humanos, sino también superar las habilidades humanas en juegos de estrategia complejos. La hazaña de AlphaGo no solo supuso un triunfo tecnológico, sino que también abrió nuevas fronteras para la aplicación del aprendizaje por refuerzo en otros campos.

Foto de Google DeepMind en Unsplash

Foto de Lee Sedol en  Google DeepMind

 

 

CompartirFacebookX
Únete a la discusión

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Instagram

Instagram has returned empty data. Please authorize your Instagram account in the plugin settings .

Please note

This is a widgetized sidebar area and you can place any widget here, as you would with the classic WordPress sidebar.

Johannes

A multi-concept personal blog and magazine WordPress theme