Un nuevo método de aprendizaje, bautizado como control neuronal episódico e inspirado en el cerebro humano, logra que las máquinas aprendan 10 veces más rápido que con otros enfoques tradicionales.
Las máquinas inteligentes tienen a los humanos en el punto de mira. El aprendizaje profundo ha dotado a los ordenadores de capacidades superhumanas en áreas como reconocer caras y jugar a videojuegos y los ha convertido en maestros del antiguo juego chino Go (ver Cinco lecciones del histórico triunfo de AlphaGo sobre la inteligencia humana). Así es fácil pensar que los humanos nos estamos quedando atrás.
Pero no tan rápido. Aún hay un área en la que las máquinas son más torpes que los humanos: la velocidad a la que aprenden. Cuando se trata de dominar videojuegos clásicos, por ejemplo, las mejores máquinas de aprendizaje profundo necesitan unas 200 horas de práctica para alcanzar el mismo nivel de aptitud que logran los humanos en tan sólo dos horas.
Así que a los informáticos les encantaría tener alguna manera de acelerar el ritmo al que aprenden las máquinas.
Hoy, el investigador de DeepMind de Google en Londres (Reino Unido) Alexander Pritzel y varios compañeros suyos afirman haberlo logrado. El equipo ha desarrollado una máquina de aprendizaje profundo que es capaz de asimilar rápidamente nuevas experiencias y después actuar en consecuencia. El resultado es una ordenador que aprende significativamente más rápido que el resto y que tiene el potencial de igualar a los humanos en un futuro no tan lejano.
Primero, un poco de contexto. El aprendizaje profundo utiliza capas de redes neuronales para buscar patrones dentro de los datos. Cuando una única capa divisa un patrón que reconoce, envía esta información a la capa siguiente, que busca patrones dentro de esta señal, y así sucesivamente.
Así que con el reconocimiento facial, una capa podría buscar los bordes de una imagen, la siguiente podría buscar bordes circulares (el tipo que forman los ojos y las bocas) y la siguiente podría buscar patrones triangulares como los que forman dos ojos y una boca. Cuando sucede todo esto, el resultado final es una indicación de que una cara ha sido encontrada.
Por supuesto, el diablo está en los detalles. Hay varios sistemas de retroalimentación para que el sistema aprenda que dependen de varios parámetros internos como la fuerza de las conexiones entre capas. Estos parámetros han de cambiar lentamente, puesto que un gran cambio en una capa puede afectar catastróficamente al aprendizaje de las siguientes. Por eso las redes neuronales profundas necesitan tanto entrenamiento y tardan tanto.
El equipo de Pritzel ha abordado este problema con una técnica que denomina control neuronal episódico. Los investigadores afirman: «El control neuronal episódico ofrece drásticas mejoras en la velocidad del aprendizaje en un amplio abanico de entornos. Nuestro sistema es capaz de aprovecharse de estrategias altamente exitosas en cuanto las experimenta, en lugar de tener que esperar a completar muchos pasos de optimización».
La idea básica de este enfoque imita cómo aprenden los humanos y los animales. El consenso general es que los humanos aprenden de dos maneras distintas. Ante una situación conocida, nuestros cerebros ya han creado un modelo de comportamiento. Esto sucede en una parte del cerebro llamada la corteza prefrontal. Pero cuando la situación no es familiar, nuestros cerebros han de apoyarse en otra estrategia. Se cree que esto conlleva un enfoque mucho más sencillo de probar y recordar en el que participa el hipocampo. Así que probamos algo y recordamos el resultado de este episodio. Si da buen resultado, lo probamos de nuevo, y así sucesivamente. Pero si el resultado no es bueno, intentamos evitarlo en futuro.
Este enfoque episódico funciona a corto plazo mientras nuestros cerebros prefrontales aprenden hasta que superan el primer enfoque de ensayo y error y crean un modelo de comportamiento.
El equipo de Pritzel se ha inspirado en esta estrategia. Su nuevo sistema combina los dos enfoques. El primero es un sistema convencional de aprendizaje profundo que imita el comportamiento de la corteza prefrontal. El segundo se parece más al hipocampo. Cuando el sistema prueba algo nuevo, recuerda el resultado.
Pero, a diferencia de los humanos, no intenta aprender qué debe recordar sino que lo recuerda todo. La investigación detalla: «Nuestra arquitectura no intenta aprender cuándo grabar [algo] en la memoria, ya que puede resultar lento aprender y puede llevar una cantidad de tiempo importante. En su lugar, elegimos grabar todas las experiencias en la memoria y permitir que adquiera un tamaño muy grande frente a las arquitecturas de memoria existentes».
Entonces, los investigadores emplean un conjunto de estrategias para leer esta gran memoria. El resultado es un sistema que se aprovecha de las estrategias exitosas con una rapidez mucho mayor que los sistemas convencionales de aprendizaje profundo.
Para demostrar lo bien que funciona, enseñaron a su máquina a jugar a videojuegos clásicos de Atari como Breakout, Pong y Space Inavaders. (Esto es un campo de juegos que DeepMind ha empleado para entrenar muchas máquinas de aprendizaje profundo). El equipo, que incluye al cofundador de DeepMind Demis Hassibis (ver Así es el hombre que diseña la inteligencia de Google), demuestra que el control neural episódico rinde mejor que otros enfoques de aprendizaje profundo en la velocidad a la que aprende. Los investigacores concluyen: «Nuestros experimentos demuestran que el control neuronal episódico requiere menos interacciones con el entorno por una orden de magnitud».
Es un trabajo impresionante con mucho potencial. Los investigadores señalan que una extensión obvia de este trabajo sería probar su enfoque en entornos en 3D más complejos. Será interesante comprobar qué entornos escogen y el impacto que tendrá sobre el mundo real. Estamos ansiosos de observar cómo sale todo eso.
Ref: Neural Episodic Control : arxiv.org/abs/1703.01988