Tecnologia

Kosmos-1: Microsoft revela IA que “enxerga” e analisa imagens

Novidade é um avanço na exploração de modelos multimodais de inteligências artificiais. Ela foi revelada em artigo assinado por pesquisadores

Publicado

07/03/2023 às 18:45

Por

Galtiery Rodrigues

Pesquisadores da Microsoft apresentaram, na última sexta-feira (3), um modelo multimodal de inteligência artificial (IA) chamado Kosmos-1, que é capaz de analisar e enxergar imagens em busca de conteúdos.

A nova IA tem, ainda, a capacidade de resolver quebra-cabeças, realizar reconhecimento visual de texto, entender instruções de linguagem e até passar em testes de QI visual.

Os pesquisadores responsáveis pela criação da IA acreditam que esse modelo multimodal, que trabalha não só com texto, mas também com áudio, imagens e vídeo, é um passo importante.

De modo geral, eles avaliam que estão se aproximando da construção de uma inteligência geral artificial (AGI), capaz de executar tarefas em um nível compatível com o ser humano.

Cada vez mais próximos da capacidade humana

Por meio de um artigo, intitulado Language Is Not All You Need: Aligning Perception with Language Models, os pesquisadores da Microsoft expuseram não só as características da nova IA, mas também as percepções do grupo.

“Sendo uma parte básica da inteligência, a percepção multimodal é uma necessidade para alcançar a inteligência geral artificial, em termos de aquisição de conhecimento e fundamentação no mundo real“, escreveram.

O documento traz exemplos visuais do Kosmos-1 analisando imagens e, em seguida, respondendo a perguntas sobre elas. Mostra, ainda, a IA lendo o texto de uma imagem, escrevendo legendas e fazendo um teste de QI visual com precisão de 22% a 26%.

Foco na criação de uma AGI

Enquanto os veículos de imprensa e os amantes da tecnologia vivem a efusão do momento, com as notícias recentes sobre o lançamento de grandes modelos de inteligências artificiais de linguagem, como o ChatGPT, especialistas apontam que o grande foco dos pesquisadores é a AGI.

Esse, por exemplo, é o objetivo declarado da OpenAI, empresa responsável pela criação do ChatGPT e outros modelos de IAs de linguagem. Vale lembrar, inclusive, que ela é uma importante parceira de negócios da Microsoft.

No caso do Kosmos-1, o projeto parece ser puramente da Microsoft, sem o envolvimento da OpenAI. Os pesquisadores o definem como “modelo de linguagem grande multimodal” (MLLM), pois ele surgiu, originalmente, a partir do processamento de linguagem natural, como uma LLM somente de texto (ChatGPT).

Como funciona?

Para que o Kosmos-1 aceite a entrada de imagem, os pesquisadores devem traduzir a imagem em uma série específica de tokens inteligíveis para uma LLM.

No artigo assinado pelos pesquisadores, isso é explicado de maneira mais detalhada:

“Para o formato de entrada, achatamos a entrada como uma sequência decorada com tokens especiais. Especificamente, usamos ‘e’ para denotar o início e o fim da sequência. Os tokens especiais ‘e’ indicam o início e o fim das incorporações de imagens codificadas.”

“… Um módulo de incorporação é usado para codificar tokens de texto e outras modalidades de entrada em vetores. Em seguida, as incorporações são alimentadas no decodificador.

Para tokens de entrada, usamos uma tabela de pesquisa para mapeá-los em incorporações. Para as modalidades de sinais contínuos (por exemplo, imagem e áudio), também é viável representar entradas como código discreto e então considerá-las como ‘línguas estrangeiras’.“

Preparação

Pelo texto do documento, denota-se que a Microsoft treinou o Kosmos-1 usando dados da internet. Após a fase de treinamento, os pesquisadores avaliaram as habilidades da IA em diferentes testes.

Em muitos deles, o Kosmos-1 foi além e obteve resultados que superaram modelos atuais da IA considerados de última geração, segundo a empresa.

O Kosmos-1 representa, de certa forma, os primeiros passos no campo multimodal da inteligência artificial. Futuramente, poderemos estar falando de resultados ainda mais expressivos, até mesmo de uma IA com capacidade de fala.

Galtiery Rodrigues

Jornalista formado pela Universidade Federal de Goiás (UFG), com especialização em Comunicação Digital, e que trabalha há 14 anos como repórter e redator