Notícias, Tecnologia

Os vazamentos mais estranhos do ChatGPT até agora: registros de bate-papo constrangedores encontrados na ferramenta de análise do Google.



Durante meses, conversas extremamente pessoais e sensíveis do ChatGPT têm vazado para um destino inesperado: o Google Search Console (GSC) — uma ferramenta que desenvolvedores normalmente usam para monitorar tráfego de busca, não para bisbilhotar conversas privadas.

Normalmente, quando administradores de sites acessam os relatórios de desempenho do GSC, eles veem consultas baseadas em palavras-chave ou frases curtas que os usuários digitam no Google para encontrar conteúdo relevante. Mas, a partir de setembro, consultas estranhas — às vezes com mais de 300 caracteres — começaram a aparecer no GSC. Exibindo apenas as entradas dos usuários, essas consultas pareciam vir de pessoas desavisadas pedindo ajuda a um chatbot para resolver problemas de relacionamento ou de negócios, acreditando que suas conversas permaneceriam privadas.

Jason Packer, dono da consultoria analítica Quantable, foi um dos primeiros a denunciar o problema em um blog detalhado no mês passado.

Determinado a descobrir a causa do vazamento, ele se uniu ao “detetive da Internet” e consultor de otimização web Slobodan Manić. Juntos, eles realizaram testes que acreditam ter revelado “a primeira prova definitiva de que a OpenAI está raspando (scraping) diretamente o Google Search com prompts reais de usuários”. A investigação deles sugeriu que a empresa estaria comprometendo a privacidade dos usuários para manter o engajamento, capturando dados de busca que o Google normalmente não compartilharia.

A OpenAI recusou o pedido do site Ars Technica para confirmar se a teoria apresentada por Packer e Manić era verdadeira ou responder outras perguntas que ajudariam a dimensionar o problema.

Contudo, um porta-voz da OpenAI confirmou que a empresa estava “ciente” do problema e que já havia resolvido uma falha temporária que “afetou o roteamento de um pequeno número de consultas de busca”.

Packer disse ao Ars que ficou “muito satisfeito por a OpenAI ter resolvido o problema rapidamente”, mas destacou que a resposta não confirmou se a empresa realmente estava raspando o Google, deixando dúvidas se o problema foi de fato solucionado.
O Google se recusou a comentar.

“Mais estranho” do que os vazamentos anteriores do ChatGPT

A primeira consulta anômala que Packer encontrou no GSC parecia vir de uma mulher pedindo ajuda ao ChatGPT para interpretar o comportamento de um rapaz que a provocava — tentando descobrir se ele gostava dela. Outra consulta vinha aparentemente de uma gerente de escritório compartilhando informações empresariais ao planejar o retorno ao trabalho presencial.

Esses foram apenas dois de cerca de 200 prompts estranhos — incluindo “alguns bem malucos”, disse Packer — que ele encontrou em apenas um site. Em seu blog, ele concluiu que as consultas deveriam servir como “um lembrete de que seus prompts não são tão privados quanto você imagina”.

Packer suspeitou que esses vazamentos estavam ligados a uma reportagem do site The Information, publicada em agosto, segundo a qual a OpenAI estaria raspando resultados de busca do Google para alimentar respostas do ChatGPT, especialmente sobre eventos atuais.

A OpenAI nunca confirmou se realiza scraping das páginas de resultados do Google (SERPs), mas Packer acredita que suas descobertas são evidências de que a empresa não apenas coleta dados das SERPs, como também envia prompts de usuários ao Google Search.

Manić ajudou a resolver uma parte crucial do mistério: ele descobriu que as consultas estranhas apareciam em sites que tinham bom ranqueamento no Google para a URL
https://openai.com/index/chatgpt/ — o mesmo endereço que precedia todos os prompts vazados.

O Google aparentemente havia “tokenizado” a URL, transformando-a em uma busca pelos termos “openai + index + chatgpt”. Assim, sites com bom posicionamento para essas palavras-chave eram mais propensos a receber vazamentos do ChatGPT em seus relatórios do GSC. O Ars confirmou esse padrão.

Packer destacou: “Não se confunda — esse é um erro completamente diferente daquele em que o Google estava indexando conversas públicas do ChatGPT. É mais estranho, embora talvez não tão grave.”

Como os vazamentos podem ter acontecido

Não está claro o que exatamente a OpenAI corrigiu, mas Packer e Manić acreditam que o bug envolvia um campo de prompt defeituoso no site do ChatGPT. Esse erro fazia com que “a URL da página fosse adicionada ao prompt”.

O problema, explicaram, é que o ChatGPT (versão 5) realiza buscas na web quando julga necessário — especialmente em consultas recentes ou específicas. Mas esse campo defeituoso continha o parâmetro hints=search, fazendo com que ele sempre realizasse uma busca.

Assim, o ChatGPT acabava enviando ao Google a consulta completa do usuário, precedida por
https://openai.com/index/chatgpt/. Segundo Packer, isso prova que o ChatGPT não usou uma API privada, mas sim raspou diretamente o Google, já que esses dados só aparecem no GSC quando são provenientes de pesquisas reais.

Isso implica que a OpenAI compartilhou os prompts de usuários com o Google e com qualquer site listado nos resultados de busca, algo que Packer resumiu como: “Yikes.”

Para ele, todos os prompts que acionaram buscas do Google nos últimos dois meses podem ter sido expostos.

A OpenAI afirmou que apenas “um pequeno número” de consultas foi afetado, mas se recusou a fornecer números. Assim, ainda não se sabe quantos dos 700 milhões de usuários semanais do ChatGPT tiveram suas mensagens redirecionadas ao GSC.

Resposta da OpenAI deixa “perguntas persistentes”

Depois que conversas do ChatGPT foram encontradas no índice do Google em agosto, a OpenAI explicou que isso ocorreu porque os usuários haviam clicado em uma opção para tornar as conversas públicas — algo que a empresa considerava “suficientemente claro”.
Mas, no novo caso, ninguém clicou em nada.

“Será que a OpenAI foi tão rápida que não considerou as implicações de privacidade, ou simplesmente não se importou?”, questionou Packer em seu blog.

O mais preocupante, para alguns usuários, é que não há como remover as conversas vazadas do GSC, ao contrário do incidente anterior.

Packer e Manić dizem ainda ter “dúvidas persistentes” sobre o alcance da correção. Manić esperava que a OpenAI confirmasse se os prompts digitados em https://chatgpt.com que acionam buscas também foram afetados — mas não recebeu resposta.

Para ele, há indícios de que o scraping da OpenAI pode estar contribuindo para o problema conhecido como “boca de crocodilo” no GSC, quando as impressões aumentam mas os cliques caem.

A OpenAI também não respondeu à principal dúvida de Packer: o “conserto” encerrou apenas o envio de consultas ao Google ou a empresa parou completamente de raspar dados da busca do Google?

“Não sabemos se era só aquela página com bug ou algo mais amplo”, disse Packer ao Ars. “De qualquer forma, é sério — e mostra como a OpenAI parece ter pouca preocupação em agir com cuidado quando se trata de privacidade.”

 



You Might Also Like

No Comments

Leave a Reply