Banner Top JOTA INFO
Inteligência Artificial

Por que o ChatGPT descumpre a LGPD – parte 2

Recurso à decisão de arquivamento pela ANPD

ChatGPT
Crédito: Unsplash

Conforme destacado em outro artigo, publicado neste JOTA no último dia 28 de junho, a Autoridade Nacional de Proteção de Dados (ANPD) recebeu peticionamento pela averiguação da conformidade do serviço ChatGPT, oferecido pela empresa OpenAI, com a Lei Geral de Proteção de Dados (LGPD).

A petição, protocolada por Luca Belli, na qualidade de titular de dados, requereu a interposição da ANPD para garantir o pleno gozo dos direitos do titular: 

  • de conhecer a identidade do controlador de dados do serviço ChatGPT, na forma do artigo 9º, III da LGPD;  
  • de acessar todos os dados pessoais que lhe digam respeito tratados pela empresa, bem como informações claras, precisas e facilmente acessíveis sobre a realização do tratamento de tais dados, previsto nos artigos 9º e 18º da LGPD; e 
  • de receber informações claras e adequadas sobre os critérios e os procedimentos utilizados para a formulação das respostas automáticas relacionadas aos questionamentos (os ditos “prompts”) “quem é Luca Belli” ou “onde mora Luca Belli”, vez que a elaboração de tais respostas, nitidamente, enquadra-se como tratamento automatizado de dados pessoais que afeta diretamente seu interesse, nos moldes do artigo 20 da LGPD.

Felizmente, o primeiro ponto foi resolvido com a atualização da política de privacidade da empresa, deixando clara a informação de que a OpenAI era a entidade controladora. É, neste sentido, muito saudável ver que o exercício de direitos pelos cidadãos, junto com a fiscalização dos reguladores podem levar a um aprimoramento das práticas de governança de dados. 

Curiosamente, porém, os outros pontos não receberam a mesma atenção. Ao contrário, na opinião de quem escreve, não somente até hoje os questionamentos levantados não foram respondidos devidamente, mas as respostas e as teses – ao nosso ver altamente questionáveis – oferecidas pela empresa OpenAI para justificar respostas insuficientes aos pedidos mencionados acima foram acatadas pela ANPD, que resolveu arquivar o requerimento com motivação particularmente sucinta. 

Especificamente, em sua decisão de arquivamento a ANPD parece concordar totalmente com duas interpretações muito particulares da LGPD oferecidas pela empresa OpenAI, segundo as quais i) as obrigações definidas pela LGPD se aplicariam somente aos titulares de dados em sua qualidade de usuários do serviço ChatGPT, e não aos titulares cujos dados são utilizados para treinar os modelos nos quais baseia-se o serviço; e ii) a elaboração de respostas automáticas que constam no processamento de dados pessoais e cuja respostas, inclusive, oferecem dados pessoais não deve ser considerada como tratamento automatizado de dados e, portanto, o titular de dados não tem direito de receber explicações sobre o porquê e como tais respostas sobre ele ou ela são elaboradas.

Em razão da divergência de entendimento sobre as teses apresentadas, a decisão da ANPD, que optou pelo arquivamento do processo administrativo, desafiou a interposição de recurso.  

Por que o arquivamento da ANPD merece recurso?    

Antes de analisar as inconsistências da fundamentação da OpenAI no que se refere ao teor do peticionamento feito pelo titular de dados, é importante observar a atuação da ANPD, que se limitou ao recebimento da reposta fornecida pela empresa, supostamente, acatando as teses desenvolvidas pela empresa, vez que, em seguida, arquivou o processo administrativo. 

Nos parece, portanto, que não houve análise do mérito da resposta de maneira a considerar se a resposta efetivamente se conectava àquilo que foi demandado, tampouco houve esclarecimentos a respeito da interpretação correta da lei – o que, por força da LGPD, é seu poder-dever no âmbito do processo administrativo. Veja-se a resposta da Autoridade no despacho de arquivamento do processo: 

“Após o contato pela CGF, o controlador se manifestou em 24/07/2023 (SUPER 4440070), alegando que em relação ao pedido de acesso, teria respondido diretamente ao Titular no dia 8 de maio de 2023. [...] Dessa forma, o requerimento foi considerado atendido pelo controlador”. 

A não manifestação da Autoridade em relação ao mérito do caso preocupa por diversos motivos, expostos em seguida.

Transparência e accountability

Primeiro, se trata de situação de imensa disparidade informacional entre controlador e titular, visto que se trata de empresa estrangeira operadora de sistema de inteligência artificial (IA) de funcionamento complexo e cujo treinamento se aproveitou de raspagem de dados – inclusive pessoais – da internet realizada de maneira opaca.  

Uma atuação incisiva da ANPD em um caso como este seria crucial não somente para equilibrar a balança, exigindo da controladora esclarecimentos substantivos, mas também para esclarecer pontos essenciais pelo desenvolvimento sustentável da IA no país, como os elementos que caracterizam o dever de transparência e accountability e as modalidade de aplicação do artigo 20 da LGPD. 

De um lado, nos parece absolutamente discricionária a tese segundo a qual o treinamento de modelos de IA não deveria ser considerado como tratamento de dados pessoais e, portanto, obrigar o controlador ao pleno respeito da LGPD, inclusive por meio do fornecimento do acesso aos dados tratados e de informações claras, adequadas e ostensivas sobre o tratamento. Tal tese passa de discricionária a contraditória quando se lê que a mesma empresa, em sua resposta à ANPD, admite, in verbis, que   

“[U]ma parcela significativa dos textos de treinamento do seu modelo advém de fontes publicamente disponíveis na internet, o que pode conter informação que se qualifique como dado pessoal, como nomes, sobrenomes, endereços de e-mail ou informação semelhante que esteja amplamente disponível online”.

A tese da empresa parece defender que, se dado pessoal for publicado online, qualquer uso de tal dado configura interesse legítimo, nenhuma obrigação decorrente da LGPD se aplica a tal processamento e o titular cujos dados sejam raspados perde sua qualidade de titular. Nos parece que se pronunciar sobre a validade de tal interpretação seja realmente essencial.  

Além disso, a empresa e a ANPD parecem considerar que direcionar o titular para a um blog disponível exclusivamente em inglês, cujo título é How ChatGPT and Our Language Models are Developed e cujo conteúdo inclui somente informações genéricas sobre como os modelos de IA são desenvolvidos, é suficiente para cumprir com os deveres de transparência da empresa no que diz respeito ao processamento de dados pessoais no âmbito do treinamento de modelos. Parece difícil acreditar que tal entendimento da transparência e, consequentemente, da accountability seja realmente a interpretação da ANPD no que diz respeito ao tratamento de dados pessoais no âmbito de treinamento de modelos de IA. 

Esquizofrenia regulatória 

Segundo, a atividade de treinamento de modelos de IA baseada em raspagem de dados na internet se trata, em última análise, de caso análogo àquele objeto da recente decisão que culminou na aplicação da primeira sanção pela Autoridade, contra serviço de mensagens publicitárias automatizadas da empresa Telekall Infoservice, em razão da existência de base de dados composta a partir de raspagem de dados da web.   

Não é razoável que no espaço de dois meses a ANPD aplique motivações distintas para atos administrativos correlatos. Por um lado, a ANPD sanciona a Telekall com base na “constatação de que a Telekall se utilizava de dados disponíveis na internet para gerar informação e, assim, comercializá-la a terceiros”, destacando, justamente, que a Telekall “considera que os dados públicos podem ser usados em sua atividade comercial, o que vai de encontro ao art. 6º, I, da LGPD".

Por outro lado, como pode considerar admissível a raspagem, pela OpenAI, de forma bem mais abrangente e com finalidade genérica – e até desconhecida – certo de que a própria empresa admite que seu “modelo advém de fontes publicamente disponíveis na internet” que incluem ampla gama de dados pessoais? A elaboração quase simultânea destes dois entendimentos poderia ser considerado um caso de esquizofrenia regulatória.  

Tratamento automatizado

Terceiro, a resolução do caso com mero arquivamento, além de não permitir o esclarecimento dos elementos cruciais da LGPD destacados acima, implicitamente convalida uma intepretação altamente restritiva dos direitos do titular ao concordar com as teses apresentadas pela OpenAI. 

Acatar a tese patrocinada pela OpenAI, segundo a qual o treinamento de IA seria um tipo de tratamento diferenciado, que desonera o controlador de suas obrigações, parece ser um caminho pernicioso. Igualmente questionável é sustentar que a elaboração de respostas automáticas baseadas em modelos de IA, que incluem dados pessoais e que contém no teor de sua resposta dados pessoais e informações incorretas apresentadas como dados pessoais corretos, não deve ser considerado como tratamento automatizado e, portanto, inaplicável o artigo 20 da LGPD. 

A empresa OpenAI sustenta que o artigo 20 não deve se aplicar ao serviço ChatGPT porque o chatbot não configura “tratamento automatizado de dados, incluindo decisões destinadas a definir o perfil pessoal, profissional, de consumo e de crédito ou aspectos de sua personalidade”. De onde surgiu tal interpretação restritiva e por que a ANPD resolveu acatá-la são dois grandes mistérios que merecem ser esclarecidos com motivação pela Autoridade.   

Os pontos levantados acima não são triviais. Ao contrário, nos parecem algumas das questões mais relevantes no que diz respeito à interseção entre o tratamento automatizado de dados pessoais e a governança de IA.  

Portanto, a interposição de recurso mencionada neste breve artigo nos parece essencial não somente para esclarecer os pontos cruciais do caso, mas, de maneira muito mais ampla, para permitir que a IA possa se desenvolver de maneira transparente e responsável no País, aproveitando toda a segurança jurídica que um assunto tão relevante para o desenvolvimento nacional e global merece. logo-jota