Texto adaptado. Fonte ao final.
Existe uma profunda idéia por trás da atual Revolução da Inteligência Artificial: que a predição de padrões pode levar à inteligência. Tudo o que a máquina vê ou ouve, toda ação que ela toma, mesmo conceitos e idéias construídos, são todos entendidos da mesma forma, isto é, como reconhecimento de padrões. Quando a máquina aprende a predizer padrões, ela também pode criá-los, imitando e, freqüentemente, superando a habilidade humana. O que nós estamos chamando de Inteligência Artificial é uma máquina gigante de predição de padrões criada copiando a solução que a natureza encontrou para aprender. Podemos dizer que a natureza desenvolveu o ato de aprender em três etapas diferentes.
A primeira etapa é o aprendizado evolucionário, que é construído com a simples estratégia de tentar coisas aleatórias (mutações) e ver o que funciona. Esse é um processo muito lento que acontece ao longo de gerações e é incapaz de se adaptar a rápidas mudanças ambientais.
Então a natureza construiu uma segunda etapa muito mais rápida de aprendizado: usar o cérebro para se adaptar. Permitir que o comportamento (ações e decisões) do ser vivo se adapte ao longo de sua própria vida. O cérebro permite que o organismo mesmo tente coisas diferentes e repita o que funciona baseado na experiência (memória) e no mecanismo de reforço baseado em recompensa ou dor.
Essa é a base para o paradigma de aprendizado de máquina da inteligência artificial. Em lugar de programar instruções passo a passo, nós deixamos a máquina aprender por si mesma. Esse conceito vem desde a década de 1960, demonstrado a partir de mecânicas de jogos. Ao tentar todas as combinações possíveis associadas a um sistema de reforço de aprendizado (premiando jogadas corretas e punindo jogadas erradas), demonstrou-se que a própria máquina seria capaz de identificar padrões de jogos perfeitos.
Essas estratégias de vitória emergiram diretamente da experiência, não de programação. Mas elas possuem uma grande limitação. Nesse modelo de aprendizagem artificial, é necessário que haja espaço para armazenar todas as combinações possíveis.
Para verdadeiramente imitar o cérebro humano, máquinas ainda precisariam desenvolver sua própria forma de reconhecimento de padrões, o que nós chamamos de abstração. Nós somos capazes de formar abstrações automaticamente, ignorando diferenças triviais enquanto nos focamos nas similaridades.
Este foi o motivo pelo qual este ensaio me chamou a atenção. O desenvolvimento da linguagem como ferramenta de abstração de conceitos é o instrumento fundamental da Filosofia. A capacidade de reconhecimento de padrões e suas implicações no comportamento humano também são tema de discussões sobre a psique humana, como bem argumentam Richard Dawkins e Christopher Hitchens.
Veja também: Como a linguagem modela a maneira como nós pensamos?
Abstrair permite ignorar as diferenças sem importância e atentar aos padrões intrínsecos das coisas. Para construir uma máquina capaz de aprender a abstrair conceitos, pesquisadores olharam para a natureza. O modo como o cérebro funciona em camadas de rede de neurônios, como essas redes formam circuitos que criam padrões em cascata durante o processamento de informações, e como quanto mais profundas forem essas camadas, mais específica será a informação. Pensamentos são identificados com padrões de atividade neuronal, de modo que hoje é possível dizer em que imagem você está pensando ao observar sua atividade cerebral.
O primeiro ”cérebro” artificial foi construído por Frank Rosen em 1958, usando transístores agrupados em três camadas. A primeira camada foi conectada a uma “retina” artificial capaz de ler os píxeis de uma imagem de forma direta. As demais camadas foram ajustadas de forma aleatória. A saída registrava apenas duas possibilidades, se a imagem seria um quadrado ou um círculo. Esse circuito aprendeu por tentativa e erro. Cada conexão entre os ”neurônios” era controlada por um potenciômetro que ajustava o fluxo de eletricidade. Consistia numa versão mecânica daquilo que o cérebro humano faz. Os ajustes eram feitos manualmente para ensinar à máquina a reconhecer as imagens. Após várias iterações, ela se tornou capaz de reconhecer padrões por si mesma. Esse é o princípio do algoritmo para o aprendizado de máquina usado hoje, lidar com pesos de ”certo” e ”errado”.
Veja também: O transistor: um documentário de 1953 antecipando o futuro impacto na tecnologia
Nesse exemplo, parte da rede neural aprendeu a se tornar sensível somente a curvas, já outra parte se tornou sensível a linhas retas. Em 1980 o mesmo conceito foi usado para desenvolver um leitor de números, capaz de reconhecer os algarismos de 0 a 9 escritos à mão. Após aprender com milhares de exemplos, as primeiras camadas da rede reconheciam padrões de curvas e as camadas mais profundas eram capazes de reconhecer padrões complexos. Desse modo, o infinito universo de combinações de curvas foi reduzido a apenas 10 resultados possíveis. É possível visualizar na rede os grupos específicos de neurônios que reconhecem cada imagem. Esse salto tecnológico é o que se chama de reconhecimento de ”conceitos”.
O próximo salto ocorreu em 2012. Durante o desafio anual de desenvolver um computador capaz de reconhecer imagens, a mesma abordagem foi utilizada numa escala muito maior. Uma grande rede neural foi treinada com milhões de imagens. Descobriram então que, enquanto as camadas mais superficiais da rede ainda detectavam apenas formas simples, as camadas mais profundas eram capazes de descobrir por si mesmas padrões cada vez mais complexos de texturas e mesmo padrões de face. Além de aprender por si mesma, a rede neural era capaz de superar a capacidade humana de reconhecimento de padrões sem nenhuma programação prévia, algo antes considerado impossível.
Quanto maior e mais profunda for a rede neural, mais complexas são as tarefas que ela pode realizar e maior é sua capacidade de reconhecimento de padrões. Voltando a 1992, Gerald Tessaro criou uma rede neural que aprendesse o jogo de Gamão. Ela não foi programada com as regras do jogo, apenas observou as posições no tabuleiro até ser capaz de reconhecer quais padrões indicavam vitória e quais indicavam derrota. O próximo passo foi a rede passar a predizer quais seriam os próximos movimentos, quais as probabilidades de vitória e quais as melhores jogadas a serem realizadas.
Há poucos anos a OpenAI começou a aplicar os mesmos princípios de reconhecimento de padrões para a física do mundo real. Eles treinaram uma mão robótica para manipular um cubo. Não foi programado nenhum movimento específico. Uma grande rede neural receberia uma imagem como entrada e a saída seria a probabilidade de vários movimentos motores. O sistema aprendeu por meio da simulação de milhões de tentativas, descobrindo padrões de manipulação bem sucedidos por si mesmo. O resultado que emergiu da experiência foi surpreendentemente parecido com o movimento humano.
Em problemas complexos como o futebol de robôs, a rede neural aprende a andar, chutar, antecipar jogadas e bloqueá-las antes que elas aconteçam. Todos esses comportamentos complexos surgiram do mesmo processo de aprendizagem. Chamamos isso de abstração comportamental.
Embora todos os experimentos até então tivessem sido bem sucedidos, eles somente eram capazes de treinar a inteligência artificial para o que se pode chamar de abstração restrita, isto é, treinar para fazer uma única tarefa específica. Os sistemas são capazes de realizar a tarefa muito bem, mas somente aquela tarefa. Desse modo, uma inteligência artificial capaz de fazer qualquer coisa em geral ainda parecia ser inviável.
Até 2016 o aprendizado sem supervisão humana era um problema ainda não resolvido para o aprendizado de máquina, e ninguém tinha idéia de como resolvê-lo. Foi então que a inteligência artificial atingiu a terceira camada de aprendizado da natureza: a linguagem. A linguagem permite que um indivíduo aprenda não por meio de experiência própria, mas a partir da experiência de outras pessoas, usando sua própria imaginação. Com a linguagem, vem a imaginação de propósito geral. Qualquer coisa que possa ser posta em palavras pode ser imaginada.
Para atingir essa meta, seria então necessário compreender a matemática por trás da linguagem. Claude Shannon, o pai da teoria da informação, já nos anos 1940, nos ajudou a ver a linguagem como uma seqüência de predições, onde cada palavra que se diz é escolhida a partir de um conjunto de palavras possíveis. Desde 1980 pesquisadores treinavam pequenas redes neurais para predizer quais os próximos movimentos em jogos. Da mesma forma, as redes neurais poderiam predizer quais palavras se seguem as já escritas. A rede forma sozinha grupos de palavras similares, agrupa verbos com verbos, substantivos com substantivos, sinônimos etc. automaticamente, a partir da predição de palavras. As redes são capazes de reconhecer estilos diferentes de escrita, de Shakespeare à matemática, e de predizer a continuação do texto.
A empresa OpenAI treinou uma vasta rede neural com os comentários escritos por milhões consumidores na página de compras Amazon. Ao processar o texto, a rede encontrou padrões, tal como os padrões das redes de reconhecimento visual. A partir da gramática, a rede conseguiu distinguir idéias complexas, incluindo os sentimentos dos consumidores, se estes estavam satisfeitos ou não com os produtos. Esse reconhecimento do estado emocional positivo ou negativo dos consumidores foi superior ao de sistemas especializados. Foi essa descoberta que levou ao desenvolvimento do GPT. Esse sistema é capaz de aprender linguagem por si próprio.
Veja também: Críticas ao ChatGPT
Quando o GPT-1 foi treinado, foi feita a maior rede neural até o momento e foi treinado com milhares de livros. O objetivo geral era que a rede fosse capaz de predizer a próxima palavra de uma sentença, mas os pesquisadores se surpreenderam com o resultado. A rede não apenas podia continuar qualquer segmento de texto, como era capaz de responder a questões que não estavam previamente escritas. Essa foi mais uma evidência de que a simples predição estava levando ao entendimento real .
Assim, o GPT está sendo treinado com cada vez mais dados, de livros à internet e futuramente todo o conhecimento humano. Algo que o GPT revelou é sua capacidade de aprender e entender conceitos novos apenas os descrevendo, o que foi chamado de aprendizagem contextual. Ele foi ainda mais longe, demonstrando que sua habilidade de aprender a partir de novos exemplos era tão rápida quanto a habilidade humana em compreender novos conceitos. Uma rede neural desse tipo pode aprender novos comportamentos apenas por suas descrições.
Outra grande revelação foi descoberta com o GPT3. Ao ser treinado com suas próprias respostas, primeiramente ele foi treinado a seguir instruções, o que o fez ser bom em seguir ordens; depois ele foi treinado se suas respostas eram coerentes ou não, resultando em respostas cada vez mais coerentes; e finalmente ele surpreendeu demonstrando que esses sistemas funcionam de forma melhor se forem permitidos a gerar respostas passo a passo, do mesmo modo como humanos entendem melhor as coisas quando falamos em voz alta ou explicamos a nós mesmos o que estamos fazendo.
Esses experimentos mostraram que em lugar de construir redes cada vez maiores, podemos apenas deixá-las ”pensar”, ”raciocinar” por mais tempo. Redes neurais, assim como a mente humana, podem usar tanto a intuição rápida quanto raciocínio lento e deliberado aprendido tanto pela experiência quanto pela imaginação. Isso marcou a entrada em uma nova era da computação, onde máquinas podem operar ao nível de conceitos e idéias. Essa abordagem rapidamente se expandiu para além de texto quando os pesquisadores perceberam que se poderia tratar tudo como um tipo de linguagem, esmiuçando toda a informação em seqüências: músicas são seqüências de notas, vídeos são seqüências de imagens que geram a noção de movimento etc. É possível gerar músicas novas predizendo qual deverá ser a próxima nota, procurando reconhecer quais são os padrões daquela música.
Todos os padrões possíveis são levados em consideração numa rede neural, pois sua arquitetura lhe permite observar tudo em todo lugar ao mesmo tempo. Ela não é capaz de predizer apenas o próximo passo. A cada etapa da resposta ela se retroalimenta e reexamina toda a seqüência, o contexto da resposta, e dá o próximo passo. Esse modelo de transformação de conceitos é tão eficiente que ele pode ultrapassar domínios específicos. Agora um modelo pode entender palavras, a partir delas gerar imagens, então gerar vídeos que guiem os movimentos de um robô para que ele execute alguma tarefa no mundo físico. Um robô pode executar ordens expressas apenas por palavras usando sua “imaginação”.
Essa capacidade espelha o funcionamento do cérebro humano, que em sua raiz se baseia em reconhecimento e predição de padrões. Esses são os três estágios ou etapas do aprendizado: tentativa e erro, manter o que funciona e descartar o que não funciona (evolução); aprender por experiência direta (memória e imaginação); abstração por meio de linguagem. Tudo isso aconteceu muito mais rápido do que qualquer um poderia esperar.
Os pesquisadores dizem que já podemos ver o caminho para a Inteligência Artificial Geral, a inteligência verdadeira, capaz de algo equivalente à consciência humana. A questão principal não é se ela será atingida, mas como ela será utilizada. Estamos ingressando numa era de incertezas, onde estaremos lidando com coisas tão inteligentes ou até mais inteligentes do que nós. Será possível descobrir uma maneira de fazer com que elas nunca queiram assumir o controle? Porque se elas quiserem assumir o controle poderão facilmente se forem mais inteligentes do que nós. No final, o futuro da inteligência, seja artificial ou humana, pode depender não se as máquinas realmente entendem, mas dos padrões que escolhemos adotar e, mais importante, da agência que lhes concedemos.
How AI Took Over The World | Art of the Problem
One insight changed everything… intelligence can emerge from pattern prediction. This is a capstone video featuring key insights from the entire AI series.
From the first neural networks built with matchboxes and beads to today’s AI systems that can reason, create, and understand language, this video reveals how machines learned to think by copying nature’s three-layered approach to learning. We’ll journey through the key breakthroughs – from simple visual pattern recognition to game-playing AIs that developed “alien” strategies, and finally to language models that can imagine anything we can describe. Along the way, we’ll discover how researchers unlocked each layer of intelligence: evolutionary learning that keeps what works, reinforcement learning that adapts within a lifetime, and finally, language learning that allows knowledge to be shared across minds. This is the story of how pattern prediction became pattern generation, and how machines learned to think… one layer at a time.