Hasta ahora, el uso de una red neuronal óptica lo suficientemente grande como para implementarla en el mundo real sería demasiado imprecisa para ser efectiva.
Pero los científicos han superado este obstáculo al agregar un pequeño componente de hardware a los conmutadores ópticos que forman la arquitectura de la red.
A medida que los modelos de aprendizaje automático se vuelven más grandes y complejos, requieren hardware más rápido y con mayor eficiencia energética para realizar los cálculos.
Las computadoras digitales convencionales luchan por mantenerse al día.
Una red neuronal óptica analógica podría realizar las mismas tareas que una digital, como la clasificación de imágenes o el reconocimiento de voz, pero debido a que los cálculos se realizan utilizando luz en lugar de señales eléctricas, las redes neuronales ópticas pueden funcionar muchas veces más rápido y consumir menos energía.
Sin embargo, estos dispositivos analógicos son propensos a errores de hardware que pueden hacer que los cálculos sean menos precisos.
Las imperfecciones microscópicas en los componentes de hardware son una de las causas de estos errores.
En una red neuronal óptica que tiene muchos componentes conectados, los errores pueden acumularse rápidamente.
Incluso con técnicas de corrección de errores, debido a las propiedades fundamentales de los dispositivos que componen una red neuronal óptica, es inevitable cierta cantidad de error.
Investigadores del MIT superaron este obstáculo y encontraron una manera de escalar de manera efectiva una red neuronal óptica.
Al agregar un pequeño componente de hardware a los conmutadores ópticos que forman la arquitectura de la red, pueden reducir incluso los errores incorregibles que de otro modo se acumularían en el dispositivo.
Su trabajo podría habilitar una red neuronal analógica súper rápida y eficiente en energía que puede funcionar con la misma precisión que una digital.
Con esta técnica, a medida que un circuito óptico se vuelve más grande, la cantidad de error en sus cálculos en realidad disminuye.
Una red neuronal óptica se compone de muchos componentes conectados que funcionan como espejos sintonizables y reprogramables.
Estos espejos sintonizables se denominan inferómetros Mach-Zehnder (MZI).
Los datos de la red neuronal se codifican en luz, que se dispara a la red neuronal óptica desde un láser.
Un MZI típico contiene dos espejos y dos divisores de haz.
La luz ingresa por la parte superior de un MZI, donde se divide en dos partes que interfieren entre sí antes de ser recombinada por el segundo divisor de haz y luego reflejada por la parte inferior hacia el siguiente MZI en la matriz.
Los investigadores pueden aprovechar la interferencia de estas señales ópticas para realizar operaciones de álgebra lineal complejas, conocidas como multiplicación de matrices, que es la forma en que las redes neuronales procesan los datos.
Pero los errores que pueden ocurrir en cada MZI se acumulan rápidamente a medida que la luz se mueve de un dispositivo al siguiente.
Uno puede evitar algunos errores identificándolos con anticipación y ajustando los MZI para que los errores anteriores sean cancelados por dispositivos posteriores en la matriz.
“Es un algoritmo muy simple si sabes cuáles son los errores.
Pero estos errores son notoriamente difíciles de determinar porque solo tiene acceso a las entradas y salidas de su chip”, dice Hamerly.
“Esto nos motivó a ver si es posible crear una corrección de errores sin calibración”.
Hamerly y sus colaboradores demostraron previamente una técnica matemática que fue un paso más allá.
Pudieron inferir con éxito los errores y ajustar correctamente los MZI en consecuencia, pero incluso esto no eliminó todo el error.
Debido a la naturaleza fundamental de un MZI, hay casos en los que es imposible ajustar un dispositivo para que toda la luz fluya por el puerto inferior al siguiente MZI.
Si el dispositivo pierde una fracción de luz en cada paso y la matriz es muy grande, al final solo quedará una pequeña cantidad de energía.
“Incluso con la corrección de errores, existe un límite fundamental en lo bueno que puede ser un chip.
Los MZI son físicamente incapaces de realizar ciertas configuraciones para las que deben configurarse”, dice.
Entonces, el equipo desarrolló un nuevo tipo de MZI.
Los investigadores agregaron un divisor de haz adicional al final del dispositivo, llamándolo 3-MZI porque tiene tres divisores de haz en lugar de dos.
Debido a la forma en que este divisor de haz adicional mezcla la luz, se vuelve mucho más fácil para un MZI alcanzar la configuración que necesita para enviar toda la luz a través de su puerto inferior.
Cuando los investigadores realizaron simulaciones para probar su arquitectura, descubrieron que puede eliminar gran parte del error incorregible que dificulta la precisión.
Y a medida que la red neuronal óptica se vuelve más grande, la cantidad de error en el dispositivo en realidad disminuye, lo contrario de lo que sucede en un dispositivo con MZI estándar.
Los investigadores también desarrollaron una variante del diseño MZI específicamente para errores correlacionados.
Estos ocurren debido a imperfecciones de fabricación: si el grosor de un chip es ligeramente incorrecto, es posible que todos los MZI estén desviados en aproximadamente la misma cantidad, por lo que los errores son todos similares.
Encontraron una manera de cambiar la configuración de un MZI para hacerlo resistente a este tipo de errores.
Esta técnica también aumentó el ancho de banda de la red neuronal óptica para que pueda funcionar tres veces más rápido.
Ahora que han mostrado estas técnicas mediante simulaciones, Hamerly y sus colaboradores planean probar estos enfoques en hardware físico y continuar avanzando hacia una red neuronal óptica que puedan implementar de manera efectiva en el mundo real.
Fuente: Optica