Máquina
Imagem anterior Próxima imagem
ChatGPT ganhou as manchetes em todo o mundo com sua capacidade de escrever ensaios, e-mails e códigos de computador com base em algumas instruções de um usuário. Agora, uma equipe liderada pelo MIT relata um sistema que poderia levar a programas de aprendizado de máquina várias ordens de magnitude mais poderosos do que aquele por trás do ChatGPT. O sistema que desenvolveram também poderia usar várias ordens de magnitude menos energia do que os supercomputadores de última geração por trás dos modelos de aprendizado de máquina de hoje.
Na edição de 17 de julho da Nature Photonics, os pesquisadores relatam a primeira demonstração experimental do novo sistema, que realiza seus cálculos com base no movimento da luz, em vez de elétrons, usando centenas de lasers em escala micrométrica. Com o novo sistema, a equipe relata uma melhoria superior a 100 vezes na eficiência energética e uma melhoria de 25 vezes na densidade computacional, uma medida do poder de um sistema, em relação aos computadores digitais de última geração para aprendizado de máquina. .
Em direção ao futuro
No artigo, a equipe também cita “substancialmente várias outras ordens de magnitude para melhorias futuras”. Como resultado, continuam os autores, a técnica “abre um caminho para processadores optoeletrônicos em grande escala para acelerar tarefas de aprendizado de máquina de data centers a dispositivos de ponta descentralizados”. Por outras palavras, os telemóveis e outros pequenos dispositivos poderão tornar-se capazes de executar programas que actualmente só podem ser computados em grandes centros de dados.
Além disso, como os componentes do sistema podem ser criados utilizando processos de fabricação já em uso atualmente, “esperamos que ele possa ser dimensionado para uso comercial em alguns anos. Por exemplo, os conjuntos de laser envolvidos são amplamente utilizados na identificação facial e na comunicação de dados de telefones celulares”, diz Zaijun Chen, primeiro autor, que conduziu o trabalho enquanto era pós-doutorando no MIT no Laboratório de Pesquisa de Eletrônica (RLE) e agora é pesquisador. professor assistente da Universidade do Sul da Califórnia.
Diz Dirk Englund, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação do MIT e líder do trabalho: “O tamanho do ChatGPT é limitado pelo poder dos supercomputadores atuais. Simplesmente não é economicamente viável treinar modelos muito maiores. Nossa nova tecnologia poderia possibilitar o salto para modelos de aprendizado de máquina que de outra forma não seriam acessíveis em um futuro próximo.”
Ele continua: “Não sabemos quais capacidades o ChatGPT de próxima geração terá se for 100 vezes mais poderoso, mas esse é o regime de descoberta que esse tipo de tecnologia pode permitir”. Englund também é líder do Laboratório de Fotônica Quântica do MIT e é afiliado ao RLE e ao Laboratório de Pesquisa de Materiais.
Uma batida de progresso
O trabalho atual é a mais recente conquista de um progresso realizado nos últimos anos por Englund e muitos dos mesmos colegas. Por exemplo, em 2019, uma equipa de Englund relatou o trabalho teórico que levou à demonstração atual. O primeiro autor desse artigo, Ryan Hamerly, agora da RLE e da NTT Research Inc., também é autor do artigo atual.
Coautores adicionais do artigo atual da Nature Photonics são Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein e Lamia Ateshian, todos da RLE; e Tobias Heuser, Niels Heermeier, James A. Lott e Stephan Reitzensttein da Technische Universitat Berlin.
Redes neurais profundas (DNNs), como a que está por trás do ChatGPT, são baseadas em enormes modelos de aprendizado de máquina que simulam como o cérebro processa as informações. No entanto, as tecnologias digitais por trás das DNNs atuais estão atingindo seus limites, mesmo com o crescimento do campo do aprendizado de máquina. Além disso, requerem enormes quantidades de energia e estão em grande parte confinados a grandes centros de dados. Isso está motivando o desenvolvimento de novos paradigmas de computação.
Usar luz em vez de elétrons para executar cálculos DNN tem o potencial de romper os gargalos atuais. Os cálculos que utilizam óptica, por exemplo, têm o potencial de utilizar muito menos energia do que aqueles baseados na electrónica. Além disso, com a óptica, “você pode ter larguras de banda muito maiores” ou densidades de computação, diz Chen. A luz pode transferir muito mais informações em uma área muito menor.