Um novo desafio de codificação de IA revelou seu primeiro vencedor-e estabeleceu um novo bar para engenheiros de software movidos a IA.

Na quarta-feira, às 17:00 PST, o Instituto Laude sem fins lucrativos anunciou o primeiro vencedor do K Prêmio, um desafio de codificação de IA multi-rodada lançado pela Databricks e co-fundador da Perplexity, Andy Konwinski. O vencedor foi um engenheiro rápido brasileiro chamado Eduardo Rocha de Andrade, que receberá US $ 50.000 pelo prêmio. Mas mais surpreendente do que a vitória foi sua pontuação final: ele venceu com respostas corretas para apenas 7,5% das perguntas no teste.

“Estamos felizes por termos construído uma referência que é realmente difícil”, disse Konwinski. “Os benchmarks devem ser difíceis se eles forem importantes”, continuou ele, acrescentando: “As pontuações seriam diferentes se os grandes laboratórios tivessem entrado com seus maiores modelos. Mas esse é o tipo de ponto. O prêmio K fica offline com computação limitada, então favorece modelos menores e abertos. Eu amo isso.

Konwinski prometeu US $ 1 milhão ao primeiro modelo de código aberto que pode pontuar mais de 90% no teste.

Semelhante ao conhecido sistema SWE-Bench, o K Prêmio testa os modelos em relação a questões sinalizadas do GitHub como um teste de como os modelos podem lidar com os problemas de programação do mundo real. Mas, embora o SWE-Bench seja baseado em um conjunto fixo de problemas contra os modelos, o Prêmio K é projetado como uma “versão sem contaminação do SWE-banch”, usando um sistema de entrada cronometrado para se proteger contra qualquer treinamento específico de referência. Para a primeira rodada, os modelos eram entregues em 12 de março. Os organizadores do K Prêmio construíram o teste usando apenas problemas do GitHub sinalizados após essa data.

A pontuação superior de 7,5% é de contraste acentuado com o próprio SWE-banch, que atualmente mostra uma pontuação superior de 75% em seu teste ‘verificado’ mais fácil e 34% em seu teste “completo” mais difícil. Konwinski ainda não tem certeza se a disparidade se deve à contaminação no banco do SWE ou apenas o desafio de coletar novos problemas do Github, mas ele espera que o projeto do prêmio K responda a pergunta em breve.

“À medida que obtivemos mais corridas, teremos um senso melhor”, disse ele ao TechCrunch, “porque esperamos que as pessoas se adaptem à dinâmica de competir nisso a cada poucos meses”.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

Pode parecer um lugar estranho para ficar aquém, dada a ampla gama de ferramentas de codificação de IA já disponíveis ao público – mas com os benchmarks se tornando muito fáceis, muitos críticos veem projetos como o K Prêmio como um passo necessário para resolver Problema de avaliação crescente da IA.

“Sou bastante otimista em construir novos testes para os benchmarks existentes”, diz o pesquisador de Princeton Sayash Kapoor, que apresentou uma ideia semelhante em um artigo recente. “Sem tais experimentos, não podemos realmente dizer se o problema é contaminação, ou mesmo se mirar na tabela de classificação do SWE com um humano no circuito”.

Para Konwinski, não é apenas uma referência melhor, mas um desafio aberto ao resto da indústria. “Se você ouvir o hype, é como se estivéssemos vendo médicos de IA e advogados de IA e engenheiros de software de IA, e isso não é verdade”, diz ele. “Se não conseguimos nem obter mais de 10% em um banco de swe sem contaminação, essa é a verificação da realidade para mim”.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Políticas de privacidade

Este site usa cookies para que possamos oferecer a melhor experiência de usuário possível. As informações de cookies são armazenadas em seu navegador e executam funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.