Funcionários da OpenAI acusam publicamente os resultados dos testes de benchmark do mais recente modelo de IA da xAI, Grok3, de serem enganosos
Recentemente, um funcionário da OpenAI acusou publicamente a empresa xAI de Elon Musk de divulgar resultados enganosos de testes de benchmark para seu mais recente modelo de IA, o Grok3. Em resposta, Igor Babushkin, cofundador da xAI, insistiu que não houve impropriedade.
O gráfico da xAI mostra que duas versões do Grok3 - Grok3 Reasoning Beta e Grok3 mini Reasoning - superaram o modelo atualmente mais forte disponível da OpenAI, o o3-mini-high, no AIME 2025. No entanto, um funcionário da OpenAI rapidamente apontou na plataforma X que o gráfico da xAI não incluía a pontuação do o3-mini-high sob a condição "cons@64" no AIME 2025.
Na plataforma X, Babushkin argumentou que a OpenAI também havia divulgado gráficos de benchmark enganosos semelhantes no passado, apesar de esses gráficos serem usados para comparar o desempenho de seus próprios modelos.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez você também goste
Populares
MaisPreços de criptomoedas
Mais








