Estoy trabajando en un proyecto personal para acercar la inteligencia artificial a todo el mundo. Se trata de un editor de bots conversacionales. El proyecto se llama myBot, y podéis probarlo aquí.
También os había prometido detalles técnicos. A continuación os cuento un poco cómo funciona. El motor de todo el sistema es una red de neuronas recurrente. Más específicamente, una red con neuronas (o células) LSTM. La principal ventaja de este tipo de redes es que poseen memoria. Son capaces de recordar información que recibieron en su entrada anteriormente. Por eso mismo, se utilizan con frecuencia para reconocer secuencias de datos.
Si recordáis el artículo sobre Deep Learning, las redes de neuronas convencionales (feed forward) se entrenan con ejemplos que son pares [entrada, salida], de forma que si a la red le presentamos esa entrada, nos gustaría que produjese la salida que le hemos enseñado. Si recordáis, lo primero que tenemos que decidir, es cómo codificar entrada y salida como listas fijas de números. ¿Pero qué sucede si intentamos aplicar este modelo a secuencias de datos, como por ejemplo las secuencias de caracteres en frases o párrafos? Pues que hay que empezar a usar hacks, para adaptar secuencias de longitud variable a una red con longitudes fijas.
Aquí es donde entran las redes recurrentes. Dado que son capaces de recordar las entradas anteriores, no es necesario hacer ningún hack. En el ejemplo de las frases (que es lo que se hace en myBot), damos a la red un caracter a la entrada, y luego otro, y luego otro, y así sucesivamente. Cada vez que la red recibe una entrada, producirá una salida, con lo cual, la salida también es una secuencia!
¿Y cómo entrenamos una red así? Pues ahora, los ejemplos de entrada y salida no son dos vectores con números, sino dos secuencias de vectores (posiblemente de distinta longitud). Uno de los algoritmos más utilizados para entrenar este tipo de redes se llama Propagación hacia atrás a través del tiempo (BPTT). No os voy a aburrir con los detalles, pero si os interesa más información que lo que sale en la página de Wikipedia, dejadme un mensaje y os contesto con más referencias.
¿Qué podemos hacer con una red como esta? Prácticamente cualquier cosa que tenga que ver con secuencias. Por ejemplo, asociar preguntas con respuestas, de forma que dada una pregunta, la red produzca una respuesta. Estaréis pensando, ¡seguro que eso es lo que hace myBot! Pues no exactamente, en myBot se utiliza la red recurrente sólo con el objetivo de clasificar las preguntas según el grupo al que pertenecen. A continuación se proporciona una de las respuestas definidas por el usuario. De esta forma, no hay sorpresas cuando la red genera gramáticas divertidas, o palabras que no existen.
Alguien se preguntará, si simplemente se reconocen preguntas y se elige una respuesta, ¿qué valor proporcionan las redes de neuronas recurrentes? El valor que proporcionan es que modelan el lenguaje y son capaces de reconocer incluso preguntas que nadie les ha enseñado, y son muy resistentes a errores tipográficos. Esto lógicamente funciona mucho mejor cuantas más preguntas y variaciones se le enseñen al bot. Como todas las redes de neuronas, son una herramienta estadística. Cuanta más información consumen, más habilidad tienen para reconocer patrones y encontrar la información que es realmente importante.
El mundo de las redes de neuronas recurrentes es algo más enrevesado que las redes convencionales, pero si hay suficiente interés, puedo escribir un artículo de divulgación más detallado explicando cómo funcionan y cómo se entrenan. ¡Ya me contaréis!
Mientras tanto, probad mybot.be y compartid vuestras creaciones, tengo curiosidad por ver lo que sois capaces de hacer con la herramienta 🙂