tecnologia

Construindo soluções baseadas em inteligência artificial generativa

Quais são as opções disponíveis e quais os prós e contras de cada uma?

inteligência artificial, direitos autorais
Crédito: Unsplash

Inteligência artificial generativa (IAG) é uma técnica de inteligência artificial que pode criar conteúdo novo e original a partir de dados existentes, como textos, imagens, vídeos e sons. Ela usa modelos de aprendizado de máquina que aprendem os padrões dos dados de entrada e geram novos dados que refletem as características dos dados originais, com base em uma massa de dados genérica, que foi utilizada para o “treinamento” do modelo. Essa tecnologia pode ter diversas aplicações práticas, como gerar resumos, legendas, roteiros, músicas, logos e muito mais. 

Mas como construir uma solução baseada em IAG? Quais são as opções disponíveis e quais os prós e contras de cada uma? De forma holística, podemos pensar em três caminhos principais para construir uma solução baseada em IA generativa: 1) o desenvolvimento de um modelo proprietário; 2) a adaptação e treinamento de modelos de código aberto; e 3) o uso de APIs de modelos de mercado como serviço. 

Assim, o primeiro caminho envolve o desenvolvimento de um modelo proprietário, que oferece ao desenvolvedor o domínio completo da solução, podendo personalizá-lo conforme as suas necessidades específicas. Isso significa criar a arquitetura do modelo, definir os parâmetros e hiperparâmetros, coletar e preparar os dados para treinamento e validação, treinar o modelo em uma infraestrutura adequada e avaliar os resultados. No entanto, existem pontos críticos que devem ser considerados, como o alto custo e tempo de desenvolvimento, pois um modelo próprio exige um grande investimento financeiro e humano.

Ademais, é necessário ter uma equipe qualificada e experiente em IAG, além de recursos computacionais suficientes para treinar o modelo. Soma-se a isso o fato de que o processo pode levar meses ou até anos para ser concluído. E depois de tudo isso, há um alto risco de resultados abaixo do esperado em relação aos modelos open source ou comerciais já existentes, mesmo se o investimento for semelhante. Sem contar que é necessário adaptar o modelo para o uso da língua portuguesa, o que pode ser um desafio adicional. 

Um exemplo dessa abordagem foi a contratação – por meio de Encomenda Tecnológica[1] – do desenvolvimento de uma solução que agregue funcionalidades baseadas em inteligência artificial à Solução de Instrução Assistida de processos do Tribunal de Contas da União (TCU). A proposta do consórcio vencedor pretende atender à essa demanda por meio da construção e manutenção de um modelo único (e proprietário), do TCU, de aprendizado profundo generativo, similar ao GPT-3, com capacidade de aprendizado few-shot[2], que será capaz de cumprir as tarefas de processamento de linguagem natural (NLP) com baixo custo de treinamento, ampla generalização e plena flexibilidade na execução de tarefas do Tribunal[3]. A proposta vencedora ainda afirma que na fase de pré-treinamento no domínio, a ser executada durante o primeiro ano do projeto, serão utilizados “utilizar modelos few-shot disponíveis via APIs comerciais, como o GPT-3 da OpenAI e T0++, disponível na HuggingFace[4]. A adoção de um modelo pré-treinado como este também permite reduzir os custos de desenvolvimento nesta fase de prova de conceito da solução tecnológica". 

O segundo caminho envolve a adaptação e treinamento de modelos open source, que são modelos validados, funcionais e treinados para uma massa de dados genérica. Os prós incluem o uso de modelos validados e o recebimento de atualizações e evolução simplificada, enquanto os cuidados incluem a exigência de estudo e testes para escolha do melhor modelo, a dependência para evolução do modelo, a necessidade de criar infraestrutura própria para execução do modelo e a necessidade de adaptá-lo para uso da língua portuguesa.  

Um exemplo dessa abordagem seria a utilização de modelos LLM “genéricos” e open source, como os desenvolvidos pela empresa Stability AI5. Tais modelos que podem ser adaptados por qualquer instituição que queira usar a inteligência artificial para gerar textos de alta qualidade. 

O terceiro caminho é o uso de API de modelos de mercado como serviço, que permite o uso de modelos funcionais consagrados, como GPT-4, a baixo custo e rapidez de desenvolvimento, com uso da infraestrutura do fornecedor e evolução contínua conforme disponibilização de novos recursos pelo próprio fornecedor. No entanto, os existem limitações e cuidados como restrições no treinamento do modelo, dependência de solução proprietária e pagamento contínuo pelo uso. 

Considerando a evolução dos serviços em nuvem, nível de especialização envolvidos em projetos de IA generativa, pode-se concluir que o custo, o tempo e o risco podem não justificar o desenvolvimento de um modelo proprietário. A evolução da IA generativa está em um ritmo tão veloz que é muito grande a chance de a solução proprietária já estar obsoleta em relação a outras soluções de mercado, sem falar da necessidade de evolução constante. Além disso, é provável que o custo de uso, treinamento e acesso a modelos proprietários como serviço caia radicalmente nos próximos anos, como tem acontecido com outras soluções e tecnologias em nuvem. Assim, tudo isso nos leva a crer que o acesso a modelos de treinamento de mercado, por meio de API – uma Generative Artificial Intelligence as a Service (GAIaaS) – pode vir a se tornar uma commodity no médio prazo e, consequentemente, o padrão do mercado.


[1] Encomenda Tecnológica (ETEC) | Portal TCU 

[2] Um few-shot é um tipo de aprendizado de máquina que permite que um modelo aprenda uma nova tarefa com poucos exemplos. Por exemplo, se você quiser ensinar um modelo a reconhecer diferentes tipos de flores, você não precisa fornecer milhares de imagens de cada flor. Você pode apenas mostrar algumas imagens de cada tipo e o modelo será capaz de generalizar para novas imagens. Isso é útil porque reduz o tempo e o custo de treinar um modelo e permite que ele se adapte rapidamente a novos domínios ou problemas. 

[3] https://portal.tcu.gov.br/lumis/portal/file/fileDownload.jsp?fileId=8A81881F7FF0EFD20181AABF778C6E3B  

[4] bigscience/T0pp · Hugging Face 

[5] Stability AI logo-jota