Tecnologia
Estudo da Apple coloca potencial das IAs em xeque
Trata-se do teste GSM8K.
Um estudo recente realizado por pesquisadores da Apple revelou que os grandes modelos de linguagem que impulsionam as plataformas de inteligência artificial podem não ser tão inteligentes quanto aparentam.
Tradicionalmente, o teste GSM8K tem sido o método mais utilizado para avaliar as capacidades de raciocínio desses modelos. Apesar de sua validação por especialistas, a popularidade do teste levanta a questão de que os modelos podem ter sido expostos às respostas durante seu treinamento, o que explicaria seu bom desempenho.
Partindo dessa premissa, os pesquisadores da Apple desenvolveram um novo método chamado GSM-Symbolic. Embora mantenha a mesma estrutura das questões de raciocínio, ele altera as variáveis. Os resultados foram surpreendentes, mas negativos, evidenciando falhas nos modelos de linguagem natural.
Apple
Modelos desenvolvidos pela OpenAI, Microsoft, Google e Meta mostraram um padrão semelhante: ao modificar as variáveis, seu desempenho decaiu. A conclusão foi que esses modelos são mais aptos a reconhecer padrões complexos do que a raciocinar de fato.
Isso inclui o modelo “o1”, apresentado recentemente pela OpenAI, que, ao invés de fornecer respostas imediatas, teria a capacidade de “refletir” mais sobre as questões, aumentando a precisão das respostas. No entanto, a empresa admitiu que não conseguiu eliminar completamente as chamadas alucinações da IA.
O desempenho dos modelos foi particularmente ruim quando os pesquisadores inseriram sentenças irrelevantes nas questões. Por exemplo: “Oliver colhe 44 kiwis na sexta-feira. Então ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que colheu na sexta-feira, mas cinco deles eram um pouco menores do que a média. Quantos kiwis Oliver tem?” Neste caso, os modelos tendem a subtrair os cinco kiwis menores, evidenciando uma falha em interpretar que o tamanho das frutas era irrelevante. Isso sugere que os modelos de linguagem operam principalmente com base em padrões estatísticos.
Modelo
Embora o modelo o1 da OpenAI tenha alcançado o melhor desempenho, ele ainda apresentou uma queda de 17,5% na precisão, um resultado alarmante. O modelo Phi, da Microsoft, foi ainda pior, com uma redução de 65% na precisão.
Os cientistas ressaltam que esses modelos não compreendem verdadeiramente conceitos matemáticos e carecem de capacidade para classificar a relevância das informações. O estudo serve como um alerta para a necessidade de cautela em relação aos grandes modelos de IA que prometem revolucionar o mundo.
(Com Agências).
-
Criptomoedas23 horas atrás
NFTs: quanto valem hoje os ativos de Neymar e outras celebridades?
-
Empresas1 dia atrás
Mudanças no Outback: sucesso da rede no Brasil CHOCA os EUA
-
Finanças24 horas atrás
Moeda rara de 10 centavos de 2005 está valendo até 600x mais; veja como achar
-
Finanças1 dia atrás
Esta cédula valiosa de R$ 50 pode colocar até R$ 4 mil no seu bolso
-
Tecnologia1 dia atrás
‘123456’, ‘gabriel’ e mais: pesquisa revela as PIORES SENHAS do mundo
-
Imposto de Renda - IRPF2 dias atrás
Imposto de Renda: confira quem recebe restituição no lote residual
-
Finanças2 dias atrás
Revire a carteira! Moedas raras de 50 centavos podem valer até R$ 4 mil
-
Carreira1 dia atrás
Antes de mudarem o mundo, Steve Jobs e Bill Gates pediam emprego DESTA forma