Tecnologia
Kosmos-1: Microsoft revela IA que “enxerga” e analisa imagens
Novidade é um avanço na exploração de modelos multimodais de inteligências artificiais. Ela foi revelada em artigo assinado por pesquisadores
Pesquisadores da Microsoft apresentaram, na última sexta-feira (3), um modelo multimodal de inteligência artificial (IA) chamado Kosmos-1, que é capaz de analisar e enxergar imagens em busca de conteúdos.
A nova IA tem, ainda, a capacidade de resolver quebra-cabeças, realizar reconhecimento visual de texto, entender instruções de linguagem e até passar em testes de QI visual.
Os pesquisadores responsáveis pela criação da IA acreditam que esse modelo multimodal, que trabalha não só com texto, mas também com áudio, imagens e vídeo, é um passo importante.
De modo geral, eles avaliam que estão se aproximando da construção de uma inteligência geral artificial (AGI), capaz de executar tarefas em um nível compatível com o ser humano.
Cada vez mais próximos da capacidade humana
Por meio de um artigo, intitulado Language Is Not All You Need: Aligning Perception with Language Models, os pesquisadores da Microsoft expuseram não só as características da nova IA, mas também as percepções do grupo.
“Sendo uma parte básica da inteligência, a percepção multimodal é uma necessidade para alcançar a inteligência geral artificial, em termos de aquisição de conhecimento e fundamentação no mundo real“, escreveram.
O documento traz exemplos visuais do Kosmos-1 analisando imagens e, em seguida, respondendo a perguntas sobre elas. Mostra, ainda, a IA lendo o texto de uma imagem, escrevendo legendas e fazendo um teste de QI visual com precisão de 22% a 26%.
Foco na criação de uma AGI
Enquanto os veículos de imprensa e os amantes da tecnologia vivem a efusão do momento, com as notícias recentes sobre o lançamento de grandes modelos de inteligências artificiais de linguagem, como o ChatGPT, especialistas apontam que o grande foco dos pesquisadores é a AGI.
Esse, por exemplo, é o objetivo declarado da OpenAI, empresa responsável pela criação do ChatGPT e outros modelos de IAs de linguagem. Vale lembrar, inclusive, que ela é uma importante parceira de negócios da Microsoft.
No caso do Kosmos-1, o projeto parece ser puramente da Microsoft, sem o envolvimento da OpenAI. Os pesquisadores o definem como “modelo de linguagem grande multimodal” (MLLM), pois ele surgiu, originalmente, a partir do processamento de linguagem natural, como uma LLM somente de texto (ChatGPT).
Como funciona?
Para que o Kosmos-1 aceite a entrada de imagem, os pesquisadores devem traduzir a imagem em uma série específica de tokens inteligíveis para uma LLM.
No artigo assinado pelos pesquisadores, isso é explicado de maneira mais detalhada:
“Para o formato de entrada, achatamos a entrada como uma sequência decorada com tokens especiais. Especificamente, usamos ‘e’ para denotar o início e o fim da sequência. Os tokens especiais ‘e’ indicam o início e o fim das incorporações de imagens codificadas.”
“… Um módulo de incorporação é usado para codificar tokens de texto e outras modalidades de entrada em vetores. Em seguida, as incorporações são alimentadas no decodificador.
Para tokens de entrada, usamos uma tabela de pesquisa para mapeá-los em incorporações. Para as modalidades de sinais contínuos (por exemplo, imagem e áudio), também é viável representar entradas como código discreto e então considerá-las como ‘línguas estrangeiras’.“
Preparação
Pelo texto do documento, denota-se que a Microsoft treinou o Kosmos-1 usando dados da internet. Após a fase de treinamento, os pesquisadores avaliaram as habilidades da IA em diferentes testes.
Em muitos deles, o Kosmos-1 foi além e obteve resultados que superaram modelos atuais da IA considerados de última geração, segundo a empresa.
O Kosmos-1 representa, de certa forma, os primeiros passos no campo multimodal da inteligência artificial. Futuramente, poderemos estar falando de resultados ainda mais expressivos, até mesmo de uma IA com capacidade de fala.
-
Tecnologia1 dia atrás
Já conhece o cavalo robô lançado por Elon Musk?
-
Tecnologia2 dias atrás
Proibidos! 5 aparelhos que nunca devem ser ligados na extensão elétrica
-
Criptomoedas1 dia atrás
24 anos de prisão: homem cai em armadilha do WhatsApp e mesmo assim é preso
-
Mundo1 dia atrás
Partiu? 5 países com o melhor equilíbrio entre vida pessoal e trabalho
-
Tecnologia1 dia atrás
Alerta de segurança: golpe de taxa de entrega faz novas vítimas no WhatsApp
-
Economia2 dias atrás
Alô, dona de casa! Saiba como garantir sua aposentadoria do INSS
-
Tecnologia2 dias atrás
Não deixe rastros! Aprenda a excluir conversas com a Meta AI do WhatsApp
-
Economia2 dias atrás
Salário mínimo pode chegar a R$ 1.524 e trazer desafios em 2025