Nova abordagem usa back-translation para melhorar fluência gramatical e lexical em idiomas além do inglês
A Apple está investindo em novas formas de tornar suas inteligências artificiais mais naturais e eficientes em idiomas além do inglês. Uma pesquisa recente, conduzida em parceria com instituições europeias como a Inria Paris, a École Polytechnique e a Universidade Sapienza de Roma, revela que até mesmo modelos de IA multilíngues apresentam forte viés anglófono, o que impacta a fluência de suas respostas em outros idiomas.
Modelos ainda “pensam” em inglês
De acordo com os pesquisadores:
“Modelos de linguagem atuais são predominantemente projetados com o inglês como idioma principal, e mesmo os que suportam múltiplos idiomas tendem a exibir padrões gramaticais e lexicais centrados no inglês.”
Isso significa que, mesmo quando uma IA responde em francês ou chinês, por exemplo, ela ainda estrutura frases com base na lógica do inglês — o que gera construções artificiais, vocabulário inadequado e até respostas confusas.
Um estudo da Carnegie Mellon, realizado em 2023, já havia mostrado que comandos em línguas não-inglesas podiam até burlar filtros de segurança com mais facilidade, expondo riscos de segurança.
Apple propõe novas métricas e uma solução prática
Para quantificar o problema, a equipe propôs dois novos critérios para medir a fluência nativa das respostas geradas por IA:
- Naturalidade lexical: o vocabulário soa como o de um falante nativo?
- Naturalidade sintática: a estrutura das frases está correta e natural no idioma-alvo?
Os modelos avaliados foram comparados a trechos da Wikipedia escritos por humanos em chinês, francês e inglês. Os resultados confirmaram o viés: até mesmo o modelo Qwen, criado por uma empresa chinesa, apresentou baixa naturalidade — inclusive em chinês. Já o Llama 3.1, da Meta, teve desempenho superior, mas ainda longe do nível humano.
Solução engenhosa com back-translation
A Apple então adotou uma abordagem inovadora: usou back-translation (tradução reversa) para gerar exemplos artificiais com erros sutis. A técnica consistia em:
- Traduzir um texto fluente em chinês para o inglês.
- Traduzir novamente para o chinês.
- O resultado: uma versão “traduzida demais” com padrões gramaticais enviesados, chamada de translationese.
Essas versões “defeituosas” foram usadas como exemplos negativos no treinamento. Já os textos originais, bem escritos, foram usados como exemplos ideais. Ao treinar o modelo para preferir respostas mais naturais, a Apple conseguiu melhorar significativamente a escolha de palavras e estrutura das frases, sem perder desempenho nos benchmarks tradicionais.
Apple mira no futuro da IA realmente global
Com essa nova técnica, a Apple busca desenvolver modelos de linguagem mais inclusivos e adaptáveis, que realmente falem como humanos em diferentes idiomas, sem depender tanto da “lógica do inglês”. A expectativa é que a abordagem ajude a construir uma base sólida para assistentes inteligentes mais eficazes e culturalmente sensíveis.