Transcrição de reunião no Windows: nativa, sem bot
Onze e dez da manhã. Você é da controladoria e tem três calls coladas: a primeira no Teams desktop com o time de compras, a segunda num Zoom que o fornecedor mandou, a terceira num Meet com o jurídico. Cada uma numa janela diferente do mesmo notebook Windows. Na do Teams você até acha a "transcrição ao vivo" no menu, mas ela some quando você pula pro Zoom — porque a transcrição do Zoom é outra, mora noutro lugar, e o resumo dela sai melhor em inglês. No fim das três, você tem um transcript pela metade, um resumo que ninguém leu e duas reuniões sem registro nenhum. O áudio das três, no entanto, passou todo pela mesma placa de som do seu Windows. Existe um jeito de capturar exatamente aí — uma vez, pra qualquer reunião.
A pergunta que traz a maioria das pessoas até aqui é direta: como transcrever uma reunião no Windows sem depender da função de cada plataforma e sem um robô entrando na chamada? A resposta passa por um detalhe do próprio sistema operacional que quase ninguém olha — o áudio que o Windows já está tocando pra você ouvir.
Insights ao vivo, na janela privada. Decisões, tarefas e pontos de atenção aparecem no instante em que surgem — só você vê.
ATA automática pronta. Decisões, tarefas e responsáveis num resumo em PT-BR, num template configurável.
Entrega nos dois tempos: durante e depois.
Transcrição correndo na tela — e, no máximo, notas compartilhadas com todo mundo na call.
Um resumo, quando já acabou. Chega minutos ou horas depois — e quase sempre visível a todos.
O entendimento só chega num tempo: depois.
O detalhe do Windows que muda o jogo: o áudio do sistema
Toda reunião que você ouve no Windows passa por um ponto comum antes de chegar no seu fone. O sistema mistura tudo que está tocando — a voz do fornecedor no Zoom, o colega no Teams, o som de uma aba aberta — numa única saída e manda pro alto-falante. Esse ponto tem nome na documentação da Microsoft: loopback.
A definição é da própria Microsoft, na página de áudio do Windows atualizada em abril de 2025: "In loopback mode, a client of WASAPI can capture the audio stream that is being played by a rendering endpoint device" — em modo loopback, um programa pode capturar o áudio que está sendo tocado pela saída de som (Loopback Recording, Microsoft Learn, abr/2025). E o que ele captura é a mistura completa: "WASAPI loopback by default contains the mix of all audio being played", a soma de todo o áudio em reprodução, não importa de qual programa veio.
É essa a base técnica de transcrever no Windows sem bot. Em vez de pedir permissão pra uma plataforma, ou colocar um convidado a mais na chamada pra ele "ouvir" a reunião, um app de desktop lê o som que o seu próprio computador já está produzindo — o loopback do sistema mais o seu microfone, que é a sua voz. Junta os dois e tem a reunião inteira, os dois lados, sem nada entrar na sala. O Verter é construído exatamente em cima disso: ele capta o áudio do PC localmente e transcreve dali.
Repare no que isso destrava. Como o app ouve a placa de som e não a janela do Teams, ele não liga pra qual aplicativo está tocando. Teams desktop, Zoom, Meet no navegador, uma gravação que alguém te mandou — pro loopback é tudo a mesma mistura. Uma captura, qualquer reunião. É o oposto de aprender a função de transcrição de cada plataforma, uma por uma.
O Windows mistura todo o áudio que toca num único fluxo (o loopback do WASAPI) antes de mandar pro seu fone. Um app de desktop que lê esse fluxo capta qualquer reunião — Teams, Meet, Zoom — sem entrar como participante, porque ele ouve o sistema, não a plataforma (Microsoft Learn, abr/2025).
"Mas o Teams já transcreve" — por que isso não resolve
A objeção mais comum é justa: o Teams tem transcrição ao vivo, o Meet tem, o Zoom tem resumo de IA. Por que instalar outra coisa? Porque cada uma dessas funções carrega uma letra miúda que só aparece quando você precisa dela de verdade.
Primeiro, é uma função por plataforma, e ela não te acompanha quando você troca de app. A transcrição ao vivo do Teams só existe no Teams. E só no Teams de desktop, aliás: a documentação da Microsoft diz que "Live transcription is only available on Teams for desktop" — no celular você só vê o transcript depois que a reunião acaba (View live transcription, Microsoft Support). Na sua manhã de três calls em três plataformas, isso significa configurar e gerenciar três funções diferentes, cada uma com sua regra.
Segundo, a transcrição aparece pra sala inteira. No Teams, "All participants see a notification that the meeting is being transcribed" — todos recebem o aviso (Microsoft Support). No Meet, a função "Take notes for me" do Gemini mostra um ícone de lápis azul e um aviso na tela de todo mundo (Take notes for me, Google Meet Help). É transcrição compartilhada, não uma leitura analítica e privada da conversa — o oposto de uma janela só sua onde você organiza o que ouviu sem ninguém saber.
Terceiro, o resumo de IA puxa pro inglês. A transcrição literal até roda em português nas três — o Meet, por exemplo, lista português entre os idiomas suportados (Supported languages, Google Meet Help). O problema é a camada de inteligência em cima. A documentação da própria Microsoft restringe o recap de vídeo a reuniões em inglês, com lançamento de abril a maio de 2026 só pra quem tem licença do Microsoft 365 Copilot (Intelligent recap, Microsoft Learn). No Zoom, análises de 2026 apontam que o AI Companion resume melhor em inglês e perde qualidade em português e em calls de idioma misto (tl;dv, Zoom AI Companion review 2026).
E o quarto ponto é o que prende tudo: o Copilot em tempo real do Teams, o único que tenta dar algo ao vivo, "requires the Copilot license and is not available with just Teams Premium" — não vem nem no Premium, exige a licença separada de Copilot (Teams Premium vs Microsoft 365 Copilot, University of Iowa, jan/2026). E o Zoom AI Companion só liga pra quem hospeda numa conta paga: "If anyone on your team uses a free Zoom account to host meetings, those meetings won't get summaries" (tl;dv, 2026).
Some tudo: uma função por app, visível pra sala, com a parte inteligente travada atrás de licença e otimizada pra inglês. Para a sua reunião de compras em português, no Windows, isso é registro, não entendimento.
E os apps que "não usam bot"? O detalhe do Windows que eles não pegam
Aqui entra a confusão que mais atrapalha a decisão. Otter e Fireflies anunciam captura sem bot — e é verdade, em parte. Eles têm extensão de Chrome. A extensão da Otter transcreve "qualquer aba com áudio" e funciona com as versões web de Zoom, Teams e Meet (Otter, Chrome Web Store). A do Fireflies capta sem bot, mas só no Google Meet; pra Zoom ou Teams, o próprio guia manda usar o Notetaker bot (Fireflies Chrome Extension, base de conhecimento).
O detalhe que muda tudo: uma extensão de navegador ouve o áudio de uma aba do navegador. Se a reunião está numa aba, ela pega. Se está no app de desktop do Teams ou do Zoom — que é como a maioria das empresas usa, com o cliente instalado — não há aba pra ouvir. Você teria que abrir a reunião pela versão web, no Chrome, só pra extensão funcionar. A documentação da Otter pra Zoom é literal: "Open a Zoom URL in your Chrome browser", abra a URL do Zoom no navegador (Chrome Web Store).
É essa a fronteira real. A extensão de navegador escuta a aba; o app de desktop que lê o loopback escuta a placa de som. No Teams desktop, onde não existe aba, a extensão não tem o que ouvir — o loopback tem, porque o áudio chegou no sistema do mesmo jeito. Por isso "sem bot" não basta como critério: importa onde o app escuta. No Windows, escutar o sistema é o que cobre as três reuniões da sua manhã sem você reabrir nenhuma no navegador.
O loopback do Windows contém a mistura de todo o áudio em reprodução. Quem lê esse fluxo capta qualquer reunião — sem aba, sem bot, sem permissão da plataforma.
Não é detalhe de nicho. O Windows responde por 63,66% do mercado de desktop no mundo, segundo o StatCounter de abril de 2026 (Statcounter Global Stats). A reunião corporativa brasileira acontece, em maioria esmagadora, num PC com Windows e com o Teams ou o Zoom instalados como app — exatamente o cenário em que a captura por aba falha e a captura do sistema funciona.
O que o Verter faz durante a reunião que o registro nativo só faz depois
Captar o áudio do sistema resolve a transcrição. Mas o motivo de o Verter existir não é transcrever — é o que ele faz com o que ouve, enquanto a reunião acontece.
Volte pra call de compras das 11h. O fornecedor diz: "consigo entregar dia 20, mas só se o pedido fechar até sexta". À medida que a frase sai, o Verter já joga na janela lateral "decisão: prazo de entrega dia 20, condicionado a fechar até sexta" e, dois minutos depois, quando o valor é repetido pela terceira vez sem ninguém comentar, "atenção: preço mencionado 3 vezes, possível objeção não dita". Essa janela é privada: só você enxerga, e ela fica fora do compartilhamento de tela, então ninguém na reunião sabe que ela existe. Você corrige o rumo ali — pergunta sobre o preço antes de desligar — em vez de descobrir o ruído lendo a ata no dia seguinte.
A transcrição nativa do Teams ou o resumo do Zoom trabalham no tempo verbal oposto: o passado. Eles organizam e resumem depois que a chamada termina. Mostram texto correndo na tela durante, sim, mas o entendimento — o que foi decidido, o que virou tarefa, o que merece atenção — só nasce quando você já desligou e o momento de agir passou.
Prazo ajustado para quinta-feira — confirmado por ambas as partes.
Orçamento foi mencionado 3 vezes. Pode ser uma objeção não dita.
E o Verter não abandona o "depois". Ao encerrar, ele entrega a ATA pronta em PT-BR, com decisões, tarefas e responsáveis separados num template configurável. Cobre os dois tempos da sua manhã: o insight ao vivo durante cada call e o registro estruturado quando ela acaba — uma vez, pras três plataformas, sem trocar de função.
O resto reforça essa proposta sem ser o centro dela. Como a captura é local, no seu PC, e o Verter é empresa brasileira com dados no país, a reunião do jurídico das 11h não sai do Brasil — o que muda a conversa de conformidade sob a LGPD pra qualquer call com dado sensível. O motor ouve o português como primeira língua, então o "ão" de "decisão" não é exceção a contornar. E o preço é em real, com nota CPF/CNPJ, sem câmbio surpreendendo o financeiro. Tudo isso é músculo a favor — mas o coração, o que faz você fechar o Verter em vez do registro nativo, é ver a decisão na hora em que ela é fechada.
Como transcrever cada reunião no Windows, na prática
O passo a passo é o mesmo pras três plataformas, e essa é a graça de captar o sistema em vez da plataforma.
- No Teams (desktop): entre na reunião pelo app instalado, como sempre. Não precisa ligar a transcrição nativa nem deixar nenhum bot entrar pela agenda. O Verter, aberto em paralelo, capta o áudio do sistema — a voz dos outros, que sai pelo seu alto-falante — somado ao seu microfone.
- No Google Meet: funciona pela aba do navegador ou pelo app, tanto faz, porque o Verter ouve o som que o Windows está tocando, não a aba. Sem o ícone de lápis avisando a sala que há uma IA anotando.
- No Zoom: entre pelo cliente de desktop do Zoom normalmente. Não depende de o anfitrião ter conta paga pra você ter o seu registro e o seu insight ao vivo — a captura é do seu lado.
Em todos, o que aparece na sua tela durante a call é a janela privada com decisões, tarefas e pontos de atenção; o que fica depois é a ata em PT-BR. Se a dúvida é sobre por que captar a saída do sistema é melhor que só o microfone — e quando cada um falha — vale o guia de áudio do sistema vs microfone na transcrição. Se o ponto que mais pesa pra você é não ter convidado estranho na chamada, o caminho pra transcrever sem bot no Zoom, Teams e Meet entra no detalhe de por que os bots viraram problema em 2026. E se você quer o passo a passo da função nativa de cada plataforma — e exatamente onde cada uma trava no Windows — veja a transcrição de reunião no Windows plataforma por plataforma no Teams, Meet e Zoom.
Quando a transcrição nativa do app já basta
Comparação honesta diz onde a função embutida resolve sem você instalar nada. Alguns casos:
- Você vive numa plataforma só e em inglês. Se todas as suas reuniões são no Teams, em inglês, e a empresa já paga a licença de Copilot, o recap nativo entrega bem. É o cenário pra que ele foi desenhado.
- Você só precisa do texto, não do entendimento ao vivo. Se o objetivo é ter um transcript pra buscar uma palavra depois, e ninguém vai agir durante a call, a transcrição nativa do Teams ou do Meet em português cobre o básico — e de graça, dentro do plano que você já tem.
- A transcrição visível pra sala não é problema. Em reunião interna, transparente, onde todo mundo sabe e concorda que há transcrição rolando, o aviso pra todos os participantes não atrapalha. A janela privada do Verter brilha quando você precisa de uma leitura só sua — numa negociação, numa entrevista, numa call com cliente.
- Você não usa Windows. No macOS, o app do Verter ainda está em beta. Se o seu time é todo de Mac, vale conferir o estado antes de adotar.
Se o seu dia é como o das 11h — várias calls, várias plataformas, em português, num PC com Windows, e você precisa entender a conversa enquanto ela acontece sem avisar a sala —, captar o áudio do sistema com o Verter resolve o que nenhuma função embutida foi feita pra resolver. Se é uma plataforma só, em inglês, e basta o texto depois, fique no nativo.
Perguntas frequentes
Como transcrever uma reunião no Windows sem bot na chamada?
Com um app de desktop que capta o áudio do próprio sistema (o loopback do Windows, a mistura de tudo que está tocando) somado ao seu microfone. Ele lê o som que o PC já produz, então não precisa entrar como participante na reunião. Funciona igual no Teams, no Meet e no Zoom porque ouve a placa de som, não a plataforma.
A transcrição nativa do Teams não resolve?
Resolve em parte. A transcrição ao vivo do Teams só existe no desktop, aparece como aviso para todos os participantes e a camada de IA (recap) é otimizada para inglês e exige licença de Copilot. Além disso é uma função por plataforma: não te acompanha quando você troca para o Zoom ou o Meet. Captar o áudio do sistema cobre as três de um jeito só.
O que é o áudio do sistema (loopback) no Windows?
É a mistura de todo o áudio que o Windows está tocando antes de chegar no seu fone, exposta pela API WASAPI. A documentação da Microsoft diz que em modo loopback um programa pode capturar o fluxo de áudio que está sendo reproduzido pela saída de som. Por isso um app que lê esse fluxo capta qualquer reunião, de qualquer app.
A extensão de Chrome da Otter ou do Fireflies não faz o mesmo?
Não no app de desktop. Extensão de navegador ouve o áudio de uma aba do Chrome, então funciona nas versões web do Teams, Meet e Zoom. Se a reunião está no app de desktop instalado (como a maioria usa), não há aba para ouvir e você teria que reabrir a call no navegador. Captar o áudio do sistema funciona com o app de desktop direto.
O Verter mostra alguma coisa durante a reunião ou só transcreve?
Durante. Enquanto a conversa acontece, decisões, tarefas e pontos de atenção aparecem ao vivo numa janela privada que só você vê e que fica fora do compartilhamento de tela. Ao encerrar, ele ainda entrega a ata em PT-BR com decisões, tarefas e responsáveis num template configurável.
Funciona no Zoom mesmo se eu não for o anfitrião?
Sim. O resumo de IA nativo do Zoom depende de o anfitrião ter conta paga, mas a captura do Verter é do seu lado: ele lê o áudio do seu próprio Windows. Você tem o seu registro e o seu insight ao vivo independente do plano de quem abriu a reunião.