A IA está a decidir o futuro da língua portuguesa?

Entre corretores automáticos, menus de idioma e modelos de inteligência artificial, o português já não é decidido só por gramáticos, escolas ou Estados. Também é decidido por dados, plataformas e defaults.

9-14 minutos

Abres uma aplicação qualquer. Vais às definições. Procuras “idioma”. Aparece a lista clássica: English, Español, Français, Deutsch, Italian, Portuguese (Brazil).

Ficas à espera.

Portuguese (Portugal)? Nada.

Português de Angola? Nem vê-lo.

Português de Moçambique? Talvez esteja escondido no mesmo sítio onde as plataformas guardam a vergonha.

À primeira vista, parece só uma escolha de interface, um mero detalhe técnico onde alguém decidiu simplificar o menu, poupar espaço e evitar chatices. Tudo muito moderno, muito limpo, muito “experiência de utilizador”.

Mas é aqui que a coisa começa a cheirar a história mal contada. Porque, quando uma plataforma escolhe uma variante de português por defeito, não está apenas a organizar botões mas a dizer, mesmo sem o dizer, que “este” português conta mais. “Este” é o português suficientemente grande, suficientemente rentável, suficientemente previsível para aparecer à frente dos ecrãs.

E os outros? Bem, os outros logo se vê, como quase sempre.

A velha pergunta já não chega

Durante muito tempo, a pergunta “quem manda na língua portuguesa?” foi respondida com os suspeitos do costume.

Portugal dizia: “fui eu que comecei isto”.

O Brasil respondia: “sim, mas agora quem enche a sala sou eu”.

África lusófona levantava a mão e dizia: “desculpem interromper, mas também estamos aqui”.

As diásporas falavam misturando com francês, inglês, crioulo, luxemburguês e vida real, enquanto os puristas tinham pequenos AVCs ortográficos em silêncio.

Depois vinham os gramáticos, os professores, os acordos ortográficos, as academias, os ministérios, os jornais e aquelas criaturas nocturnas que corrigem vírgulas nas caixas de comentários, às três da manhã.

Tudo isto continua a importar, mas já não chega.

Hoje, parte do poder sobre a língua passou para outro sítio, para plataformas digitais, motores de busca, corretores automáticos, tradutores, modelos de IA, bases de dados, sistemas de recomendação e menus de idioma. Ou seja, para infraestruturas que ninguém elegeu, quase ninguém conhece e que, mesmo assim, entram todos os dias na forma como escrevemos.

Nem é preciso haver um decreto, desde que haja um botão por defeito.

O português de máquina não cai do céu

Chamam “português de máquina” àquele português produzido ou corrigido por sistemas digitais. Aquela coisa geralmente correta, polida, arrumadinha e funcional. Parece um texto que tomou banho, vestiu-se a rigor e foi trabalhar para uma repartição pública com ar condicionado.

O problema é que esse português, muitas vezes, tem pouca paciência para a variação, preferindo as frases neutras e as formas previsíveis. Gosta muito pouco de sotaques, gírias, marcas regionais, oralidade, humor “torto”, classe social, bairrismo, musseque, quebrada, emigrante cansado ou professor de História em modo taberna.

Mas a máquina não faz isto porque acordou mal-disposta e decidiu perseguir a tua avó de Trás-os-Montes ou o teu primo de Luanda. A questão é mais profunda.

A IA aprende com dados. E os dados têm que vir de algum lado.

Vêm de textos disponíveis online, de jornais, livros digitalizados, sites, fóruns, legendas, comentários, documentos institucionais, redes sociais, artigos científicos, páginas comerciais e toneladas de lixo textual onde a humanidade decidiu depositar a alma, a bílis e os erros “de teclado”.

Depois isto tudo é filtrado, limpo, organizado, classificado e vai servir para treina modelos. E é aí que começa a fábrica.

A fábrica decide o que parece normal

Um corpus é, simplificando, um grande conjunto de textos usado para estudar ou treinar linguagem. Se esse conjunto tiver muito português brasileiro urbano, escolarizado e mediático, a máquina aprende mais com esse português. Se tiver muito português europeu institucional, jornalístico e académico, já vai aprender este. Se tiver pouco português angolano, moçambicano, cabo-verdiano, popular, regional ou diaspórico, essas variedades entram para alimentar, quantos mais melhor, mas são tratados como exceção, ruído ou exotismo.

Infelizmente, isto não é uma teoria da conspiração com engenheiros escondidos numa cave a apagarem o “facto” para impor o “fato”. É pior, porque é muito mais banal e básico.

É economia.

O que há mais, pesa mais.
O que está melhor digitalizado, pesa mais.
O que dá mais mercado, pesa mais.
O que é mais fácil de processar, pesa mais.
O que exige menos investimento, pesa mais.

E, quando isso se repete em milhares de interações, o resultado começa a parecer completamente natural. O corretor sugere, a IA reformula, a plataforma recomenda, o menu esconde, o utilizador aceita e, sem grandes dramas, uma escolha técnica transforma-se numa espécie de norma.

O default vira lei, mas sem parecer lei. Belo truque! Luís XIV teria inveja.

Isto não é Portugal contra Brasil

Convém travar já a coisa antes de ela cair no buraco do costume.

O problema não é “o Brasil está a colonizar Portugal”. Essa leitura, muito cómoda, é barulhenta e, acima de tudo, curta. O Brasil tem um peso demográfico, cultural e digital enorme e isso é um facto. Se produz muito conteúdo, muita música, muito audiovisual, muita internet, muita língua em circulação, seria estranho que isso não aparecesse nos sistemas digitais.

Mas a questão séria não é saber se Portugal perdeu ou se o Brasil ganhou.

A questão é perceber que tipo de português ganha quando a máquina aprende e é, aí, que o jogo muda.

É que não ganha “o Brasil inteiro” mas apenas certas formas brasileiras, geralmente mais urbanas, mais escritas, mais escolarizadas, mais presentes em conteúdos digitais. Da mesma forma, também não ganha “Portugal inteiro” mas, novamente, certas formas portuguesas, muitas vezes institucionais, jornalísticas, administrativas, académicas.

Na margem, ficam muitas formas de português brasileiro popular, nordestino, periférico e oral, acrescidas das formas regionais portuguesas, das variedades africanas e das diásporas que vivem todos os dias entre línguas. Ou seja, fica na margem muita gente que fala português sem pedir licença ás normas.

A língua portuguesa é reconhecidamente pluricêntrica, ou seja, tem vários centros, várias normas, várias histórias, várias legitimidades. O problema é que a infraestrutura digital tende a gostar muito pouco de condomínios complicados, preferindo uma entrada principal, uma etiqueta simples, um mercado grande e poucos botões.

África não pode continuar a ser “o futuro” só nos discursos

Há uma frase muito repetida nos congressos, nos discursos oficiais e nos brindes lusófonos: “o futuro da língua portuguesa está em África”.

Muito bonito, verdadeiro, em parte, mas convém perguntar onde é que está em África, precisamente?

Nos modelos de IA? Nos corpora? Nos corretores? Nos menus? Nos recursos linguísticos abertos? Nos sistemas de reconhecimento da fala? Nas ferramentas que vão escrever, corrigir, traduzir e classificar português nos próximos anos?

É que se a resposta for “mais ou menos”, o problema já está encontrado.

Angola, Moçambique, Cabo Verde, Guiné-Bissau, São Tomé e Príncipe e as mais diásporas não podem ser chamadas para a fotografia quando se fala do futuro da língua e depois desaparecer quando se decide que dados é que entram na máquina.

Porque, no mundo digital, existir não é apenas falar mas estar representado em dados, recursos, modelos, ferramentas e decisões técnicas. Sem isso, uma comunidade até pode ter milhões de falantes e, ainda assim, aparecer como simples silêncio estatístico.

É a versão tecnológica daquele velho truque histórico em que toda a gente diz que és importante, mas a reunião onde se decide tudo acontece sem ti.

A caixa de comentários também trabalha para a máquina

Mas há ainda uma parte mais desagradável.

Quando discutimos português nas redes sociais, quando Portugal e Brasil se atiram aos memes, quando alguém grita “devolvam o ouro” e quando outro responde com superioridade gramatical de quem acha que uma vírgula bem posta dá direito a império moral, tudo isso junto, gera atenção.

E atenção é dinheiro.

As plataformas vivem de tempo de ecrã, interação e dados. Esta guerra da língua é perfeita para isso pois tem identidade, ressentimento, História mal digerida, piada fácil e zero necessidade de ler um livro antes de opinar.

Cada comentário, cada resposta, cada discussão, cada “testamento” indignado ajuda a alimentar os sistemas que aprendem com o nosso comportamento. Não significa que cada disparate vá diretamente treinar a próxima IA, mas significa que a nossa produção diária de linguagem, conflito e emoção faz parte de um ecossistema digital onde tudo pode virar sinal, métrica, perfil e recomendação, ou suja, matéria-prima.

Achamos nós que estamos só a ganhar uma discussão na internet, quando na realidade estamos a trabalhar de borla para a fábrica que decide o que nos vai aparecer amanhã.

Péssimo contrato laboral!

E depois ainda há aqui uma reviravolta ainda mais irónica, é que a máquina já não está apenas a aprender e a escrever por nós mas, começa também a escrever em nós.

Estudos recentes sobre a língua inglesa sugerem que palavras muito associadas aos modelos de IA, como delve, meticulous, strategically ou intricate, ganharam presença no falar e no escrever humanos depois da popularização do ChatGPT.

Uma equipa da Florida State University analisou 22,1 milhões de palavras de comunicação espontânea em podcasts de ciência e tecnologia e encontrou uma subida mensurável de vocabulário associado a grandes modelos de linguagem.

Uma investigação ligada ao Max Planck Institute for Human Development, baseada em centenas de milhares de vídeos académicos e episódios de podcast, chegou a uma conclusão muito próxima, em que os humanos também começam a imitar os padrões linguísticos das máquinas.

Convém não dar aqui o salto mortal sem rede, ou seja, isto não prova que a IA esteja sozinha a mudar a língua, nem prova automaticamente o mesmo fenómeno no português.

Mas que o sinal é importante, é inegável.

A máquina aprende connosco e nós começamos a aprender com a máquina, e no meio desta troca vai nascendo um estilo cada vez mais polido, previsível e com aquele cheiro a comunicado institucional, minuta de ministério e post de LinkedIn que descobriu agora a palavra “estratégico”.

Primeiro treinámos a máquina com a nossa linguagem, depois ela devolve-nos uma versão mais arrumadinha e nós, agradecidos, começamos a imitá-la. Isto não é exatamente evolução natural, é mais uma espécie de ginásio linguístico com personal trainer algorítmico.

Então fazemos o quê?

Não, não vais derrotar a colonização algorítmica da língua com um post indignado e três hashtags heroicas. A infraestrutura não vai tremer porque escreveste “facto” com orgulho patriótico.

Mas há pequenas desobediências muito eficazes.

Podes:
não aceitar automaticamente todas as correções da máquina;

escrever na tua variante sempre que ela é adequada;

pedir explicitamente português europeu, brasileiro, angolano, moçambicano ou cabo-verdiano quando usas uma IA;

reclamar quando uma app só oferece “Portuguese (Brazil)” ou um “Portuguese” genérico;

apoiar projetos que criam corpora, dicionários, gramáticas e recursos digitais fora do eixo de sempre;

pelo menos, deixar de tratar a tua forma de falar, a tua identidade, como erro antes de a máquina o fazer por ti!

A língua portuguesa nunca teve um único dono no meio de impérios, escolas, gramáticos, escritores, cantores, migrantes, burocratas, professores, mães, filhos, comerciantes, poetas, youtubers e fiscais de acentos em crise existencial.

Agora tem ainda modelos de IA, plataformas e servidores.

A pergunta já não pode ser apenas “quem manda na língua portuguesa?” mas uma nova que talvez seja ainda mais incómoda:

quando aceitas, sem pensar, o português que a máquina te devolve, estás só a escrever mais depressa ou estás a ensiná-la que a tua forma de falar vale menos?

Para mergulhar nesta salganhada com mais História, mais dados e menos respeito por egos linguísticos, ouve a trilogia da Temporada 2, Ep02 do CRLdaHISTÓRIA: “Colonização 2.0: Quem manda na língua portuguesa?”

Rogério Salvador Marques

CRLdaHISTÓRIA

Continua a viagem…

OUVE A TRILOGIA COLONIZAÇÃO 2.0

FAZ O QUIZ

EXPLORA A LINHA DO CRL

Para saberes mais, mergulha nas fontes

As referências abaixo foram escolhidas por estarem disponíveis para consulta online .

Anderson, B., Galpin, R., & Juzek, T. S. (2025). Model misalignment and language change: Traces of AI-associated language in unscripted spoken English. arXiv. https://doi.org/10.48550/arXiv.2508.00238

Couldry, N., & Mejias, U. A. (2019). Making data colonialism liveable: How might data’s social order be regulated? Internet Policy Review, 8(2). https://doi.org/10.14763/2019.2.1411.

Freitag, R. M. K. (2021). Preconceito linguístico para humanizar as máquinas. Cadernos de Linguística, 2(4), e495.
https://doi.org/10.25189/2675-4916.2021.v2.n4.id495.

Santos, B. de S. (2002). Para uma sociologia das ausências e uma sociologia das emergências. Revista Crítica de Ciências Sociais, 63, 237–280. https://doi.org/10.4000/rccs.1285.

Wilson, F. (2021). Português, língua pluricêntrica: integração de variedades no ensino. Revista Internacional em Língua Portuguesa, 39, 17–31. https://doi.org/10.31492/2184-2043.RILP2021.39/pp.17-31.

Yakura, H., Lopez-Lopez, E., Brinkmann, L., Serna, I., Gupta, P., Soraperra, I., & Rahwan, I. (2025). Empirical evidence of large language model’s influence on human spoken communication [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2409.01754 (PDF completo extensível)

Fonte opcional

Ciberdúvidas da Língua Portuguesa. (2026, 13 de janeiro). A IA já influencia a linguagem humana. E agora? As palavras e o estilo que denunciam a mudança em curso.
https://ciberduvidas.iscte-iul.pt/aberturas/a-ia-ja-influencia-a-linguagem-humana-e-agora/2997#