🗣️ A revolução das interfaces de voz
Há alguns anos atrás, quando pensávamos no futuro com IA, as primeiras imagens que vinham à cabeça eram quase sempre cenas de ficção científica: robôs andando lado a lado com humanos, carros voadores cortando os céus ou hologramas complexos. Mas às vezes, a verdadeira revolução da interface pode acontecer através de algo que fazemos desde que nascemos: falar.
Grant Harvey conta que, há alguns dias atrás, viu sua mãe de 64 anos ditar um e-mail perfeito para o seu médico usando AirPods. Só... falando. Enquanto isso, continuamos digitando no teclado como se fosse 1874 — sim, o layout QWERTY foi inventado na época da Guerra Civil americana. Estamos usando tecnologia de 150 anos para nos comunicar com inteligência artificial.
A previsão é ousada: até 2027, metade das suas interações digitais serão por voz. Não porque voz seja perfeita, mas porque finalmente ficou boa o suficiente. E "bom o suficiente" vence "perfeito" quando é 4x mais rápido.
Por que agora?
Três coisas convergiram ao mesmo tempo:
Reconhecimento de voz deixou de ser horrível: O modelo Whisper da OpenAI alcançou precisão humana em 2022, funcionando em mais de 100 idiomas (entendendo sotaques e contextos). A Meta foi ainda mais longe e treinou modelos para 1.100 idiomas usando textos religiosos como a Bíblia (que, aparentemente, é um ótimo dado de treinamento).
Microfones estão em todo lugar: Celular, relógio, fones, carro, TV, geladeira. Estamos cercados de dispositivos que escutam — e finalmente isso está ficando útil, não só assustador.
LLMs tornaram os assistentes de voz bons o suficiente para valer a pena conversar: AIs como ChatGPT e Gemini agora conseguem manter conversas fluidas, não apenas responder comandos robóticos como a antiga Alexa.
O cenário atual
Se voz é o futuro, a pergunta seguinte é: onde vai morar essa voz? A resposta fica dividida em dois times. De um lado, fones de ouvido. Do outro, óculos inteligentes.
O Time Fones (Apple, Amazon) aposta na simplicidade: AirPods são socialmente invisíveis — ninguém sabe que você está falando com IA. A bateria dura o dia inteiro. Perfeito para multitarefa: cozinhar, passear com o cachorro, dirigir, tudo enquanto a IA lê seus e-mails ou responde perguntas.
O Time Óculos (Meta, futura Apple AR) quer tudo de uma vez: Misturam voz com o que você vê (possuem microfone, alto falante e câmera). Podem traduzir placas ou dar direções visuais, mas enfrentam problemas de bateria e privacidade (o fator "esquisito" de ter uma câmera na cara).
Provavelmente vamos usar os dois. Fones para inteligência ambiente do dia a dia, óculos para tarefas visuais específicas. Como celulares e notebooks: ferramentas diferentes para momentos diferentes.
O futuro é Always-On
Imagine uma IA que está sempre pronta para ajudar. Não de um jeito assustador, mas como um assistente que realmente te entende. Saindo de casa: "Não esquece o crachá — você vai precisar no escritório." No meio de uma reunião: "O número do orçamento que mencionaram era 2,3 milhões, não 3,2 milhões." Cozinhando: "Abaixa o fogo, seu molho vai queimar."
A tecnologia está quase lá. Reconhecimento de fala em tempo real já roda no seu celular. Mas os desafios são grandes. Privacidade vira questão séria: você confia em alguma empresa com microfones sempre ligados? O timing de fala também é importante. Se uma IA fica toda hora te interrompendo enquanto você conversa com um amigo, pode ser mega irritante.
Algumas empresas já estão testando assistentes de voz para casos de uso interessantes: o Google tem um recurso que espera na linha do SAC por você e outro que liga para lojas checando estoque e preços. O Copilot da Microsoft lê seus e-mails e te ajuda a responder sem digitar nada.
O assistente always-on é inevitável. A única questão é quem vai acertar o equilíbrio entre útil e invasivo. A empresa que resolver essa equação vai definir como interagimos com tecnologia na próxima década.
Um insight: você fala mais rápido do que digita, mas lê mais rápido do que ouve. Então use voz para dar contexto (em vez de escrever um prompt gigantesco para o ChatGPT, use o microfone), depois leia a resposta como faria com qualquer documento.
🎙️ ElevenLabs: a startup que fatura US$ 300 milhões fazendo você falar com IA
A ElevenLabs nasceu de uma frustração. Na Polônia, filmes estrangeiros são dublados por uma única voz monótona — o mesmo narrador para todos os personagens, homens e mulheres. Uma experiência horrível. Os fundadores pensaram: e se a tecnologia pudesse manter a voz original do ator, com todas as emoções, só trocando o idioma?
Três anos depois, a empresa fatura US$ 300 milhões por ano, tem 350 funcionários e 5 milhões de usuários. O CEO Mati Staniszewski conta como a voz está virando a principal forma de interagir com tecnologia — e mostrou casos de uso que parecem coisa de filme.
De "resolver problema" para "ajudar a vender"
O exemplo mais interessante vem da Meesho, o maior e-commerce da Índia. No começo, eles usavam agentes de voz para o básico: "cadê meu pedido?" e "quero meu dinheiro de volta".
Hoje é diferente. Você entra no site, ativa o assistente de voz e fala: "me ajuda a achar um presente para minha mãe". O agente entende o que você quer, mostra produtos, explica as diferenças e pode até finalizar a compra por você.
A mudança parece pequena, mas é enorme: o agente deixou de ser um custo (apagar incêndio) e virou fonte de receita (ajudar a vender). A Square, empresa de pagamentos, está fazendo o mesmo com restaurantes — o assistente de voz que antes só recebia pedidos agora ajuda o cliente a descobrir o cardápio.
Casos de uso que parecem ficção científica
Alguns exemplos que a ElevenLabs está rodando são impensáveis há alguns anos atrás:
MasterClass + Chris Voss: Chris Voss é o ex-negociador do FBI que escreveu o livro "Never Split the Difference" e tem um curso na MasterClass. Agora, além de assistir às aulas, você pode ligar para ele e treinar uma negociação. O agente responde como o Chris responderia, te provocando e desafiando em tempo real.
Chess.com: Você pode aprender xadrez com a voz do Magnus Carlsen ou Hikaru Nakamura como professor. Não é áudio gravado — é um tutor que reage às suas jogadas e explica de acordo com seu nível.
Fortnite + Darth Vader: A Epic Games colocou Darth Vader no jogo de video game com voz interativa. Milhões de jogadores podem conversar com o personagem ao vivo, dentro do game.
O padrão é claro: conteúdo parado está virando experiência de conversa. Não basta mais assistir — você participa.
O primeiro governo movido a agentes de IA
O caso mais ambicioso é o da Ucrânia. A ElevenLabs está ajudando o governo a criar o que chamam de "governo agêntico" — basicamente, colocar agentes de IA em todos os ministérios.
O que isso significa na prática? Agentes de voz que respondem dúvidas sobre benefícios e burocracia, avisam cidadãos sobre coisas importantes, e até ensinam com tutoria personalizada.
O mais impressionante é a execução: cada ministério tem um líder de tecnologia próprio que cria soluções específicas e conecta tudo a uma estrutura central. É uma reinvenção de como um governo pode funcionar — e está acontecendo em um país em guerra.
O futuro: quando todo mundo tiver a mesma tecnologia
Mati é bem direto sobre o que vem pela frente: em 2 a 4 anos, a qualidade dos modelos de voz vai ficar parecida entre todos os players. Não vai mais ser um diferencial.
O que vai separar os vencedores? Tudo que está em volta: conexão com sistemas de empresas, vozes de celebridades licenciadas, soluções prontas para problemas específicos. Por isso a ElevenLabs investe pesado em parcerias (Epic Games, MasterClass, Chess.com) e numa plataforma flexível.
E qual vai ser o maior uso de voz no futuro? Mati aposta em educação: um professor particular por voz, disponível a qualquer hora, que entende seu ritmo e adapta as explicações. Imagina aprender física com a voz de Einstein te explicando no seu tempo. Isso está a poucos anos de virar realidade.
Enquanto todo mundo debate se a IA vai roubar empregos, a ElevenLabs está mudando algo mais fundamental: como a gente interage com qualquer coisa digital. Daqui a alguns anos, digitar num teclado para pedir comida ou aprender algo pode parecer tão estranho quanto discar um telefone fixo.
⚡ Quick Hits
O Google anunciou tradução em tempo real para videochamadas. Reunião com pessoas de países diferentes, cada um falando seu idioma, todo mundo se entendendo. O futuro das calls internacionais. 🌍🗣️
1 ano de progresso em robôs humanoides: de um salto meio desajeitado para robôs performando em um show ao vivo. A evolução é assustadora. 🤖
Fazenda 100% automatizada na China planta, cultiva e colhe sem humanos. Não é ficção científica — é tecnologia redefinindo a agricultura. 🌾
Usuário usando o Grok (AI do X) em seu Tesla para achar lojas próximas e montar o melhor itinerário.
Pequenos negócios estão usando modelos de vídeo com IA para criar anúncios virais. Uma cafeteria em Miami está bombando com milhões de views usando "fake news broadcasts" gerados por IA. A era do conteúdo caseiro profissional chegou. 🎬
🔧 Cool AI tools
Relay: crie agentes de IA que trabalham para você sem precisar programar. Conecta seus apps (Gmail, Slack, Notion, Google Sheets) e automatiza tarefas complexas — desde qualificar leads até escrever follow-ups de reunião. É tipo um Zapier turbinado com IA, mas com interface muito mais simples e vários templates prontos.
Por hoje é só.
Obrigado por ler o AI Around the Horn.
Perdeu alguma edição? Recupere todos os posts anteriores aqui.




