Pesquisas indicam queda de desempenho e desafios de governança em sistemas baseados em dados sintéticos

O avanço acelerado da inteligência artificial trouxe um novo desafio para empresas, governos e desenvolvedores: o que acontece quando modelos passam a ser treinados majoritariamente com conteúdos gerados por outras IAs. O fenômeno, já mapeado por pesquisas acadêmicas e centros de tecnologia, acende um alerta sobre qualidade, confiabilidade e sustentabilidade dos sistemas de IA em escala global.

Segundo Abner Crivellari, engenheiro de software, especialista em arquitetura de sistemas e inteligência artificial e fundador da DIOTI, a preocupação não está apenas na eficiência dos algoritmos, mas na origem dos dados. “Quando a IA começa a aprender predominantemente com conteúdo produzido por outras IAs, ela passa a operar em um ciclo fechado, com menos contato com a realidade. Isso compromete a capacidade de adaptação e aumenta a chance de erros sistêmicos”, afirma.

Estudos recentes indicam que a reutilização contínua de dados sintéticos pode levar à perda progressiva de diversidade e precisão dos modelos, afetando desde motores de busca até sistemas de recomendação e análise de risco. 

Pesquisadores da Universidade de Oxford e da Universidade de Cambridge demonstraram que esse processo pode desencadear o chamado model collapse, em que cada nova geração do modelo apresenta desempenho inferior à anterior, mesmo mantendo a mesma arquitetura.

Na prática, essa degradação compromete a capacidade de generalização da IA e reduz o reconhecimento de padrões raros, justamente os mais relevantes em contextos críticos. “O problema é silencioso. O modelo continua funcionando, mas passa a responder de forma mais rasa e previsível”, explica Crivellari. 

O impacto já começa a preocupar o mercado corporativo. De acordo com relatório da Gartner, até 2026 mais de 60% dos dados usados no treinamento de sistemas de IA nas empresas serão sintéticos. 

O mesmo levantamento alerta que organizações sem políticas claras de governança de dados podem enfrentar decisões enviesadas e perdas operacionais, especialmente em áreas como crédito, saúde, jurídico e recursos humanos.

Outro efeito observado é a amplificação de vieses. Um estudo do Stanford Institute for Human-Centered AI aponta que modelos treinados com grandes volumes de dados sintéticos tendem a reforçar padrões já existentes, reduzindo gradualmente a diversidade de respostas. “Sem dados humanos atualizados, a IA deixa de corrigir distorções e passa a repeti-las em escala”, destaca Crivellari.

Para Abner, o caminho mais seguro envolve combinar dados sintéticos com bases reais, supervisão humana e auditorias frequentes. Relatórios da OECD indicam que modelos híbridos, submetidos a ciclos contínuos de validação, apresentam desempenho até 25% superior em tarefas complexas, quando comparados àqueles treinados apenas com dados artificiais. “Treinar IA com IA pode acelerar processos no curto prazo, mas não sustenta decisões críticas no longo prazo”, conclui Crivellari.

Share.