No ano passado, o Stack Overflow se tornou um dos primeiros sites a anunciar que cobraria dos gigantes da IA pelo acesso ao conteúdo usado para treinar chatbots. Agora, o popular serviço de perguntas e respostas para programadores contratou seu primeiro cliente – o Google – no que o CEO Prashanth Chandrasekar diz ser o início de um novo fluxo de receita “significativo”.
O acordo é significativo porque ainda não está claro até que ponto o Google e outros desenvolvedores de IA pagarão pelo conteúdo necessário para projetos de IA. Milhões de livros e websites alimentaram o desenvolvimento de sistemas de IA, mas a maioria dos editores não foi compensada e alguns estão a processar por aquilo que alegam ser utilização indevida. Muitos editores, incluindo Stack Overflow, parecem ameaçados pelo ChatGPT e outros produtos generativos de IA, que podem responder a perguntas que anteriormente teriam enviado codificadores em sua direção.
O acordo fará com que a divisão de nuvem do Google use perguntas e respostas do Stack Overflow sobre os serviços do Google Cloud para fornecer assistência de codificação e suporte técnico por meio de uma versão do chatbot Gemini do Google. Os clientes de computação em nuvem do Google também poderão fazer perguntas por meio da interface de linha de comando do Google Cloud. “A IA deles pode não ter todas as respostas e, portanto, temos uma enorme capacidade de ajudar a completar esse ciclo”, diz Chandrasekar. “Somos o maior lugar onde o conhecimento da comunidade é curado e validado.”
Gemini resumirá as respostas extraídas do Stack Overflow com suas próprias palavras, mas incluirá o logotipo da empresa, um link para o material original e o nome de usuário do colaborador do site que o forneceu. As empresas planejam demonstrar o sistema no Google Cloud Next, a conferência anual sobre nuvem da empresa de buscas, em abril, e lançá-lo logo depois.
Chandrasekar diz que não há restrições significativas sobre como o Google Cloud pode usar dados Stack Overflow, o que significa que pode ser usado para treinar grandes modelos de linguagem e outros sistemas de IA. “Onde queremos permanecer firmes é—coisas inegociáveis para nós— confiança, precisão, qualidade e atribuição às fontes desses resultados de IA”, diz ele.
Ele se recusou a dizer quanto o Stack Overflow está sendo pago pelo Google pelos dados. “Esta será uma oferta comercial significativa para nós no curto, médio e longo prazo”, diz Chandrasekar.
Raspagem secreta
O Google e outros desenvolvedores de IA já coletaram dados do Stack Overflow e de outros sites sem aviso prévio. À medida que a procura por tecnologias de IA generativas aumentou – e as avaliações das empresas que as desenvolvem dispararam – os websites que fornecem o texto fundamental começaram a exigir o que consideram ser a sua parte justa. Felizmente para o Stack Overflow, os clientes em potencial deram ouvidos à mensagem, diz Chandrasekar. “Não precisamos perseguir pessoas”, diz ele.
Os dados Stack Overflow são particularmente benéficos para sistemas de IA que geram código de computador, que provaram ser populares entre engenheiros de software e uma fonte significativa de receita para Microsoft e OpenAI.
O novo acordo Stack Overflow ocorre apenas uma semana depois que o Google chegou a um acordo de licenciamento para coletar dados do Reddit, o operador de fóruns de discussão, cujo conteúdo ajudou a capacidade de conversação dos chatbots. O Reddit revelou planos para começar a cobrar pelo acesso aos dados pouco antes do Stack Overflow no ano passado.