Imagine estar em um jantar com amigos que falam línguas diferentes — e, mesmo sem entender nenhum desses idiomas, você consegue acompanhar toda a conversa. Esse é o cenário que inspirou o desenvolvimento do Spatial Speech Translation, um sistema inovador de inteligência artificial capaz de traduzir simultaneamente falas de múltiplos interlocutores, em tempo real.
Tradução em tempo real com consciência espacial
Criado por pesquisadores da Universidade de Washington, o sistema utiliza IA para rastrear a origem da voz de cada pessoa ao redor do usuário, permitindo não só identificar quem está falando o quê, mas também traduzir o conteúdo de forma mais natural, preservando o tom e as características vocais.
O professor Shyam Gollakota, um dos responsáveis pelo projeto, acredita que a tecnologia pode ser transformadora, especialmente para pessoas que têm boas ideias, mas são limitadas por barreiras linguísticas. “Minha mãe tem ótimas ideias em Telugu, mas se comunica com dificuldade nos Estados Unidos. Pensamos nesse tipo de pessoa ao desenvolver o projeto”, contou.
Muito além dos tradutores convencionais
Enquanto outras soluções, como os óculos Ray-Ban com IA da Meta, traduzem apenas uma pessoa por vez e utilizam vozes artificiais, o Spatial Speech Translation vai além. Ele foi projetado para funcionar com fones de ouvido com cancelamento de ruído e microfones embutidos, conectados a laptops com chip Apple M2 (o mesmo do Apple Vision Pro).
Apresentado na ACM CHI Conference no Japão, o sistema é composto por dois modelos de inteligência artificial:
- Localização do som: Um modelo que divide o ambiente em pequenas regiões, detecta locutores e determina de onde vêm as vozes.
- Tradução personalizada: Outro modelo traduz francês, alemão ou espanhol para o inglês, preservando características únicas da voz de cada pessoa — como tom e altura — para gerar uma espécie de “voz clonada” na tradução, que parece vir da mesma direção do locutor original.
Desafios técnicos e melhorias em andamento
Segundo especialistas, o sistema já mostra resultados impressionantes em testes controlados, mas ainda enfrenta alguns desafios importantes:
- Redução de latência: A equipe está trabalhando para que o tempo entre a fala original e sua tradução seja inferior a 1 segundo, mantendo o ritmo natural da conversa.
- Precisão vs. velocidade: Traduzir com mais rapidez pode comprometer o entendimento completo, especialmente em línguas como o alemão, que exige o final da frase para interpretação precisa.
- Dados reais de treinamento: Para se tornar um produto comercial viável, será necessário treinar o sistema com mais dados reais, incluindo ruídos ambientais e vozes captadas diretamente pelos fones.
Um passo além da linguagem
A IA abre caminho para conversas multilíngues em tempo real, sem a necessidade de intermediários ou longas pausas entre uma frase e outra. Como destacou a linguista Alina Karakanta, da Universidade de Leiden, “essa aplicação tem enorme potencial para tornar a comunicação mais acessível”.
Se refinada e lançada no mercado, a tecnologia promete transformar reuniões, viagens, eventos internacionais e até mesmo interações cotidianas entre pessoas de diferentes culturas.
Acompanhe o Desenrola Digital para mais novidades sobre o impacto da inteligência artificial na vida real, na tecnologia e na cultura global.