El sistema de aprendizaje por máquina de Google DeepMind puede haber triunfado en el famoso y complejo juego del Go, pero los investigadores cuestionan las limitaciones del enfoque del gigante de la tecnología.
Google ha desarrollado un sistema de aprendizaje automático capaz de dominar el Go, un antiguo juego chino cuya complejidad ha dejado perplejos a los ordenadores durante décadas.
Mientras que la computadora Deep Blue de IBM dominaba el ajedrez a mediados de la década de 1990 y en años más recientes un sistema construido por el laboratorio DeepMind de Google ha vencido a los humanos en los clásicos juegos de arcade de los años 70 – Go era un asunto diferente.
Go tiene 200 movimientos por turno comparado con 20 por turno en Ajedrez. En el curso de un juego de Go hay tantos movimientos posibles que buscar en cada uno de ellos para identificar la mejor jugada es demasiado costoso desde un punto de vista computacional.
Ahora un sistema desarrollado por Google DeepMind ha vencido al campeón europeo de Go y jugador de élite Fan Hui. En lugar de estar programado en cómo jugar el juego, el sistema AlphaGo aprendió a hacerlo utilizando dos redes neuronales profundas y una búsqueda avanzada en los árboles.
El Go se juega típicamente en un tablero de 19 por 19 cuadrados y ve a los jugadores intentar capturar áreas vacías y rodear las piezas de un oponente. Para enseñar al sistema a jugar el juego, se introdujeron movimientos de 30 millones de juegos Go jugados por expertos humanos en las redes neuronales de AlphaGo. A continuación, el sistema utilizó el aprendizaje de refuerzo para determinar el tipo de jugadas que tenían más probabilidades de éxito, basándose en estos partidos anteriores. Este enfoque permite a AlphaGo restringir el número de posibles movimientos que necesita buscar durante una partida – haciendo el proceso más manejable.
El CEO de DeepMind, Demis Hassibis, describió el Go como «probablemente el juego más complejo que juegan los humanos». Hay más configuraciones de la placa que átomos en el universo».
Era esa complejidad lo que significaba que el juego había sido tan difícil de dominar para las máquinas, dijo David Silver de DeepMind. «En el juego del Go necesitamos esta maquinaria intuitiva increíblemente compleja, que la gente creía que sólo estaba disponible en el cerebro humano, para tener incluso la idea correcta de quién está adelante y cuál es el movimiento correcto».
Google ha sugerido que el enfoque utilizado por AlphaGo para aprender a dominar el Go podría extenderse a la resolución de problemas más importantes, como la modelización del cambio climático, así como a la mejora de las interacciones de Google con los usuarios de sus servicios.
Por ejemplo, DeepMind’s Silver sugiere que la tecnología podría ayudar a personalizar el cuidado de la salud utilizando una técnica de aprendizaje de refuerzo similar para entender qué tratamientos «llevarían a los mejores resultados para los pacientes individuales basados en su historial y trayectoria particular».
Y lo que es más importante, Hassabis ve el logro como un progreso hacia un objetivo aún más grande, el de construir una IA con las mismas capacidades generales y la misma comprensión que los humanos.
«La mayoría de los juegos son divertidos y fueron diseñados porque son microcosmos de algún aspecto de la vida. Pueden estar ligeramente limitados o simplificados de alguna manera, pero eso los convierte en el peldaño perfecto hacia la construcción de la inteligencia artificial general».
Se están llevando a cabo iniciativas similares de IA en gigantes de la tecnología de todo el mundo, y Facebook ha revelado recientemente la capacidad de su sistema de aprendizaje profundo para reconocer personas y cosas en imágenes y predecir resultados del mundo real, como cuando se derrumba una torre de bloques.
Por qué Google persigue la IA estrecha, no la general
El Dr. Simon Stringer, director del Centro de Neurociencia Teórica e Inteligencia Artificial de Oxford, dijo que AlphaGo y otros sistemas de aprendizaje profundo son buenos en tareas específicas, como detectar objetos o animales en fotos o dominar un juego. Pero estos sistemas funcionan de manera muy diferente al cerebro humano y no deben ser vistos como un progreso hacia el desarrollo de una inteligencia general, similar a la humana, que él cree que requiere un enfoque guiado por la biología.
«Si quieres resolver la conciencia no la vas a resolver usando el tipo de algoritmos que ellos están usando», dijo.
«Todos queremos llegar a la luna. Se las han arreglado para llegar a alguna parte de esta escalera, delante de nosotros, pero sólo vamos a llegar allí construyendo un cohete a largo plazo.
«Ciertamente desarrollarán algoritmos útiles con varias aplicaciones, pero habrá toda una gama de aplicaciones en las que estamos realmente interesados y en las que no tendrán éxito al seguir ese camino».
En el caso de DeepMind, Stringer dice que el enfoque de aprendizaje de refuerzo utilizado para enseñar a los sistemas a jugar a los juegos clásicos de arcade y Go tiene limitaciones en comparación con la forma en que los animales y los humanos adquieren conocimiento sobre el mundo.
Mientras que estos algoritmos de aprendizaje de refuerzo pueden aprender a mapear qué acciones conducen a los mejores resultados, están «libres de modelos», lo que significa que el sistema «no sabe nada de su mundo».
Ese enfoque es muy diferente a cómo el cerebro de una rata le permite navegar por un laberinto, dijo.
«Hace más de medio siglo se ha demostrado que las ratas aprenden sobre la estructura de su entorno, aprenden sobre la estructura espacial y las relaciones causales en su mundo y luego, cuando quieren ir de A a B, hacen malabarismos con esa información para crear una secuencia novedosa de pasos para llegar a esa recompensa».
Cuando se enseña un sistema utilizando el aprendizaje de refuerzo sin modelos, Stringer dice que es «muy limitante desde el punto de vista de la conducta».
«A medida que el entorno cambia, por ejemplo, una ruta está bloqueada, el sistema no sabe nada de su mundo, por lo que no puede decir `Este camino está bloqueado, voy a tomar el siguiente más corto’. No puede adaptarse, pero las ratas sí».
Del mismo modo, el anuncio de Google hace unos años de que había entrenado una red neuronal para detectar gatos en imágenes no representa un paso hacia el desarrollo de un sistema de visión similar al humano.
«Cuando miramos a un gato, no sólo nos damos cuenta de que hay un gato en la imagen, sino que vemos todos los millones de características visuales que lo componen y cómo se relacionan entre sí. En otras palabras, nuestra experiencia visual es mucho más rica que una de estas arquitecturas de aprendizaje profundo, que simplemente te dice si hay un tipo particular de característica en una imagen».
En particular, tales sistemas carecen de la capacidad humana de unir los rasgos -dijo- para comprender exhaustivamente cómo se relacionan entre sí los rasgos de una imagen. Las redes neuronales de aprendizaje profundo tampoco suelen modelar sistemas biológicos que parecen desempeñar un papel clave en la forma en que los seres humanos asignan un significado al mundo. Estos modelos típicamente excluyen, por ejemplo, la retroalimentación en la corteza visual del cerebro y los tiempos precisos en los pulsos eléctricos entre neuronas, dijo, añadiendo que el centro en Oxford había desarrollado teorías concretas sobre la importancia de estas características en la corteza visual.
«Compramos todos esos elementos juntos. Al menos nos da una visión profunda de lo que es tan especial de la visión humana que aún no ha sido capturada en los sistemas de visión artificial».
Este enfoque de inspiración biológica es muy diferente al adoptado por DeepMind, pero Stringer cree que es necesario tener la oportunidad de algún día descifrar la inteligencia artificial general.
La desventaja es que Stringer cree que el resultado final de su investigación será a largo plazo, un factor que, en su opinión, ha impulsado la decisión de DeepMind de centrarse en la IA estrecha que podría ser aplicable en un futuro próximo.
«Tengo que admitir que siempre me sorprende un poco, dados los recursos que tiene DeepMind, por qué no dedican más recursos a tratar de recrear la dinámica de las funciones cerebrales y creo que es porque cuando se trata de recaudar fondos, se necesita producir mermelada hoy en día, se necesita que estos algoritmos funcionen rápidamente, de lo contrario, el grifo se apaga.
«Mi objetivo es producir los primeros sistemas prototípicos de conciencia, algo muy simple, a medio camino entre un ratón y una rata, en los próximos 20 ó 30 años».
El software DeepMind que derrotó al campeón de Go Hui, en un partido que tuvo lugar el pasado mes de octubre, se ejecutaba en Google Cloud Platform y, según se informa, estaba distribuido en unas 170 GPU (unidades de procesamiento gráfico) y 1.200 CPU (unidades centrales de procesamiento.
El próximo gran desafío para el AlphaGo de Google llegará en marzo, cuando se enfrentará al campeón mundial de Go Lee Sedol.
DeepMind’s Silver confía en que AlphaGo tiene lo que se necesita para vencer a todos los que vienen, al menos a largo plazo.
«Un humano puede quizás jugar 1.000 juegos al año, AlphaGo puede jugar millones de juegos cada día. Es al menos concebible que como resultado AlphaGo pueda, con suficiente procesamiento, con suficiente entrenamiento, con suficiente poder de búsqueda, alcanzar un nivel que está más allá de cualquier humano».