Tecnologia
Kosmos-1: Microsoft revela IA que “enxerga” e analisa imagens
Novidade é um avanço na exploração de modelos multimodais de inteligências artificiais. Ela foi revelada em artigo assinado por pesquisadores
Pesquisadores da Microsoft apresentaram, na última sexta-feira (3), um modelo multimodal de inteligência artificial (IA) chamado Kosmos-1, que é capaz de analisar e enxergar imagens em busca de conteúdos.
A nova IA tem, ainda, a capacidade de resolver quebra-cabeças, realizar reconhecimento visual de texto, entender instruções de linguagem e até passar em testes de QI visual.
Os pesquisadores responsáveis pela criação da IA acreditam que esse modelo multimodal, que trabalha não só com texto, mas também com áudio, imagens e vídeo, é um passo importante.
De modo geral, eles avaliam que estão se aproximando da construção de uma inteligência geral artificial (AGI), capaz de executar tarefas em um nível compatível com o ser humano.
Cada vez mais próximos da capacidade humana
Por meio de um artigo, intitulado Language Is Not All You Need: Aligning Perception with Language Models, os pesquisadores da Microsoft expuseram não só as características da nova IA, mas também as percepções do grupo.
“Sendo uma parte básica da inteligência, a percepção multimodal é uma necessidade para alcançar a inteligência geral artificial, em termos de aquisição de conhecimento e fundamentação no mundo real“, escreveram.
O documento traz exemplos visuais do Kosmos-1 analisando imagens e, em seguida, respondendo a perguntas sobre elas. Mostra, ainda, a IA lendo o texto de uma imagem, escrevendo legendas e fazendo um teste de QI visual com precisão de 22% a 26%.
Foco na criação de uma AGI
Enquanto os veículos de imprensa e os amantes da tecnologia vivem a efusão do momento, com as notícias recentes sobre o lançamento de grandes modelos de inteligências artificiais de linguagem, como o ChatGPT, especialistas apontam que o grande foco dos pesquisadores é a AGI.
Esse, por exemplo, é o objetivo declarado da OpenAI, empresa responsável pela criação do ChatGPT e outros modelos de IAs de linguagem. Vale lembrar, inclusive, que ela é uma importante parceira de negócios da Microsoft.
No caso do Kosmos-1, o projeto parece ser puramente da Microsoft, sem o envolvimento da OpenAI. Os pesquisadores o definem como “modelo de linguagem grande multimodal” (MLLM), pois ele surgiu, originalmente, a partir do processamento de linguagem natural, como uma LLM somente de texto (ChatGPT).
Como funciona?
Para que o Kosmos-1 aceite a entrada de imagem, os pesquisadores devem traduzir a imagem em uma série específica de tokens inteligíveis para uma LLM.
No artigo assinado pelos pesquisadores, isso é explicado de maneira mais detalhada:
“Para o formato de entrada, achatamos a entrada como uma sequência decorada com tokens especiais. Especificamente, usamos ‘e’ para denotar o início e o fim da sequência. Os tokens especiais ‘e’ indicam o início e o fim das incorporações de imagens codificadas.”
“… Um módulo de incorporação é usado para codificar tokens de texto e outras modalidades de entrada em vetores. Em seguida, as incorporações são alimentadas no decodificador.
Para tokens de entrada, usamos uma tabela de pesquisa para mapeá-los em incorporações. Para as modalidades de sinais contínuos (por exemplo, imagem e áudio), também é viável representar entradas como código discreto e então considerá-las como ‘línguas estrangeiras’.“
Preparação
Pelo texto do documento, denota-se que a Microsoft treinou o Kosmos-1 usando dados da internet. Após a fase de treinamento, os pesquisadores avaliaram as habilidades da IA em diferentes testes.
Em muitos deles, o Kosmos-1 foi além e obteve resultados que superaram modelos atuais da IA considerados de última geração, segundo a empresa.
O Kosmos-1 representa, de certa forma, os primeiros passos no campo multimodal da inteligência artificial. Futuramente, poderemos estar falando de resultados ainda mais expressivos, até mesmo de uma IA com capacidade de fala.

-
Tecnologia1 dia atrás
‘Prova de vida’: por que as empresas te ligam e desligam quando você atende?
-
Tecnologia2 dias atrás
Descubra como rastrear alguém pelo WhatsApp de forma segura (e autorizada)
-
Mundo14 horas atrás
Vai viajar para a Itália? Conheça 6 costumes dos italianos que você pode estranhar
-
Finanças1 dia atrás
Quanto custa ter um filho até os 18 anos? Veja os dados atualizados
-
Economia2 dias atrás
Ranking revelado: as 10 empresas que mais devem aos cofres públicos
-
Tecnologia2 dias atrás
Nada de senhas: 2 maneiras de conectar-se ao Wi-Fi de uma forma segura e prática
-
Artigos1 dia atrás
Lista de carros aceitos pela Uber foi atualizada; veja o que mudou
-
Finanças2 dias atrás
Quem tem direito à pensão vitalícia por morte? Entenda as regras