TranscriçãoPublicado em 18 de junho de 2026

Áudio do sistema vs microfone: por que sua transcrição perde metade da reunião

Terça à tarde, uma analista de operações sai de uma call de uma hora com um fornecedor e abre o gravador que tinha deixado rodando no notebook. Aperta play pra conferir o número que o cara prometeu. E ouve a própria voz, nítida, perguntando o preço — seguida de um silêncio de quatro segundos onde o fornecedor respondeu. O gravador pegou ela. Não pegou ninguém do outro lado. Metade de cada frase importante da reunião virou um buraco mudo, e o número que ela precisava não está em lugar nenhum.

Esse buraco tem um nome técnico, e não é "microfone ruim". É a diferença entre dois lugares de onde o áudio pode sair no seu computador: o microfone, que pega a sua voz na sala, e o áudio do sistema, que é tudo que sai pelos seus alto-falantes ou fones — incluindo a voz de todo mundo que está remoto na chamada. Quem grava só o microfone grava só metade da conversa. Quem grava os dois grava a reunião inteira. Esse post explica por que essa distinção decide se a sua transcrição vai prestar, o que é o tal "loopback" do sistema, e por que capturar as duas fontes sem botar um robô na chamada é o que entrega um transcript completo.

O que é o microfone e o que é o "áudio do sistema"?

São dois caminhos diferentes, e a maioria das pessoas só conhece um.

O microfone é um dispositivo de entrada: ele converte o som do ar — a sua voz, o cachorro do vizinho, o ar-condicionado — em sinal digital. É o que o seu computador "ouve" da sala física. Numa reunião online, o microfone capta exatamente uma pessoa: você.

O áudio do sistema é o caminho de saída, gravado de volta. Tudo que o seu computador toca — a voz dos outros participantes que chega pela internet, o vídeo de uma apresentação, o som de uma notificação — passa pelo mecanismo de áudio do sistema operacional antes de ir pros alto-falantes. Capturar essa mistura de volta, em vez de deixá-la só sair pelo fone, é o que se chama de captura por loopback ("laço": o áudio sai e volta). A documentação da Microsoft descreve o modo loopback do WASAPI assim: o cliente "pode capturar o fluxo de áudio que está sendo tocado por um dispositivo de renderização", e por padrão esse fluxo "contém a mistura de todo o áudio sendo tocado" (Microsoft Learn, abr/2026).

A consequência prática é direta. Numa chamada de Zoom, Meet ou Teams, as vozes dos participantes remotos nunca passam pelo seu microfone — elas chegam pela rede e saem pelo seu fone. Então elas só existem, do ponto de vista de quem grava, no áudio do sistema. Se a sua ferramenta de transcrição escuta apenas o microfone, ela tem acesso a uma única voz na reunião inteira: a sua.

Diferencial

Regra que resolve 90% das transcrições incompletas: o microfone captura você; o áudio do sistema (loopback) captura todo mundo que está remoto. Uma reunião online completa precisa das duas fontes — porque a voz de quem está do outro lado nunca chega no seu microfone, só no seu alto-falante.

Por que a transcrição só do microfone fica cheia de buracos?

Porque ela é, literalmente, surda para metade da conversa.

Os apps de ditado e boa parte dos gravadores simples escutam só a entrada do microfone. É o suficiente pra transcrever você falando sozinho — uma nota de voz, um memorando. Numa reunião, não. Como resumiu um guia técnico de captura de áudio em 2026, a maioria dos apps de ditado "só escuta o seu microfone", enquanto a captura por loopback do sistema consegue transcrever qualquer coisa que toque nos alto-falantes — uma chamada de Zoom, um webinar, um vídeo (Embertype, 2026). A diferença não é de qualidade do som. É de quais vozes existem no arquivo.

E há um detalhe que piora a coisa, do lado das plataformas. A transcrição nativa do Teams foi feita para reuniões em que cada pessoa entra do seu próprio dispositivo; quando duas pessoas falam de um único notebook numa sala, a documentação da Microsoft reconhece que a transcrição padrão "não distingue de forma confiável cada falante local como um participante separado" (Microsoft Learn). Ou seja: nem a plataforma resolve sozinha o caso da sala física. Quem só tem o microfone está duplamente exposto — perde os remotos e embola os presenciais.

O resultado é o transcript da nossa analista do começo: perguntas suas inteiras, respostas dos outros viradas em silêncio. Você não percebe na hora. Percebe dois dias depois, quando precisa do número que o fornecedor disse e ele não está lá.

Como funciona a captura de loopback, na prática?

Sem mágica, e a mecânica explica por que ela é confiável.

No Windows, o sistema é o WASAPI em modo loopback. Quando o hardware tem um "pino" de loopback, o Windows usa o áudio dali; quando não tem, a documentação descreve o comportamento exato: o Windows "copia o fluxo de saída do mecanismo de áudio para o buffer de captura do aplicativo de loopback, além de copiar os dados de áudio para o pino de renderização do hardware" (Microsoft Learn, abr/2026). Em português claro: o mesmo áudio que vai pro seu fone é duplicado e entregue ao app, inteiramente no domínio digital — sem reconverter pra analógico e de volta, o que mantém a qualidade.

No macOS, o caminho mudou nos últimos lançamentos. Hoje a captura de áudio do sistema se apoia no ScreenCaptureKit ou nos Core Audio taps — estes últimos, disponíveis a partir do macOS 14.2, virando a abordagem preferida do macOS 15 em diante (Recall.ai, mai/2026). É a razão de o macOS pedir permissão de gravação de tela mesmo quando o app só quer o som: a API que entrega o áudio do sistema nasceu junto com a de captura de tela.

Em ambos, o que o app recebe é uma faixa misturada: a voz de todos os participantes remotos somada num único fluxo, como a Recall.ai descreve — "o áudio do sistema é toda a saída de áudio produzida por um dispositivo" (Recall.ai, mai/2026). É isso que um app de desktop faz por baixo: pega essa faixa do sistema, pega o seu microfone, e junta as duas pra ter a reunião completa.

Dado

A captura por loopback é inteiramente digital: o Windows duplica o fluxo de saída direto pro buffer do app, "além de copiar os dados de áudio para o pino de renderização do hardware". Não há perda de conversão analógica no caminho — o app recebe o mesmo som que o seu fone, bit a bit (Microsoft Learn, abr/2026).

Por que não basta misturar tudo numa faixa só?

Aqui mora o fato que quase nenhum tutorial conta: manter o microfone e o sistema como duas faixas separadas vale mais do que somá-las.

Quando você joga as duas fontes num único fluxo mono, a transcrição até funciona — mas a IA passa a ter que adivinhar quem falou cada trecho só pela voz. Esse trabalho de adivinhar quem-falou-o-quê se chama diarização, e ele é frágil. A AssemblyAI explica que, num arquivo mono, a diarização "depende inteiramente de embeddings de voz" — o modelo separa as pessoas pela assinatura sonora de cada uma; quando há canais separados, ele usa o canal como pista e a precisão sobe (AssemblyAI, fev/2026). A Deepgram diz o mesmo de outro jeito: separar as vozes em canais individuais "facilita focar em um falante" na hora de revisar (Deepgram Docs).

E não é só "mais fácil". A precisão despenca com a sobreposição. Pesquisas citadas em análises de diarização de 2026 mostram a taxa de erro de diarização por palavra saltando de 2,68% com dois falantes para 11,65% com três — e caindo mais conforme as vozes se sobrepõem (AssemblyAI, fev/2026). Quando duas pessoas falam por cima uma da outra numa faixa misturada, o modelo simplesmente não tem como saber onde uma termina e a outra começa.

Taxa de erro de diarização por palavra, por número de falantes numa faixa misturada
2 falantes2,68%3 falantes11,65%
Erro de diarização (atribuir a fala à pessoa certa) numa única faixa mono. Sobe ~4x ao passar de 2 para 3 falantes. Fonte: pesquisa citada pela AssemblyAI, fev/2026 — assemblyai.com. Número de erro de transcrição ≠ este; aqui é só a etiqueta de quem-falou.

Agora a parte elegante. Se o app guarda o microfone numa faixa e o áudio do sistema noutra, ele já sabe, de graça e sem adivinhar, uma separação perfeita: tudo que veio do microfone é você; tudo que veio do sistema é o outro lado. A própria Recall.ai resume o princípio: como cada fluxo está isolado, "a fala pode ser atribuída diretamente, mesmo quando os áudios se sobrepõem" (Recall.ai, mai/2026). Você não elimina toda a diarização — vários remotos ainda dividem a faixa do sistema e precisam ser separados por voz — mas garante de cara o corte mais útil de todos: a sua fala nunca se confunde com a deles.

E o tal do bot? Por que ele não é a única forma de pegar todo mundo?

Tem um caminho que pega o áudio de todos sem mexer no seu computador: pôr um robô na chamada. Vale entender por que ele resolve o problema — e o que cobra por isso.

As ferramentas baseadas em bot (Otter, Fireflies, Fathom e companhia) entram na reunião como um convidado, com um nome tipo "Notetaker" que aparece na lista de participantes, captam o áudio por dentro da própria plataforma e mandam pra nuvem do fornecedor (Fellow, 2026). Como o bot é um participante, ele recebe a mistura inteira da reunião — todos os remotos — e em algumas plataformas chega a receber uma faixa por participante, o que dá a ele a diarização determinística que a faixa mono não tem (Recall.ai, mai/2026). Esse é o ponto honesto onde o modelo de bot tem uma vantagem técnica: separação de falante por design, porque a plataforma já entrega o áudio picado.

O preço é tudo que vem junto do convidado extra. O bot aparece para todo mundo — e 58% dos profissionais dizem se sentir desconfortáveis quando um bot entra de surpresa, enquanto 41% mudam o próprio comportamento sabendo que estão sendo gravados (Calendly, 2024). O áudio sai do seu controle e vai pra um servidor de terceiros. E há reuniões onde TI ou jurídico simplesmente não deixam um robô entrar.

A captura por loopback é o outro caminho pro mesmo destino: pegar todo mundo, mas interceptando o áudio no nível do sistema operacional, antes de ele entrar na videochamada (Fellow, 2026). Sem participante a mais na lista, sem áudio saindo da sua máquina por causa de um convidado. A escolha real é essa: a separação automática perfeita de N falantes que o bot ganha de brinde, contra a privacidade e o controle de não botar um robô na chamada — recuperando a separação mais importante (você vs. o resto) pela faixa dupla.

Como o Verter captura as duas fontes — e o que faz com elas durante a reunião

O Verter é um app de desktop, então ele vive exatamente nesse caminho sem bot: captura o áudio do sistema (o loopback, via WASAPI no Windows e ScreenCaptureKit no macOS) mais o seu microfone, direto no seu computador. Ninguém na chamada vê um participante "Verter" — porque não existe um. O áudio é do seu próprio PC.

Mas pegar as duas fontes é o piso, não o teto. O que o Verter faz com esse áudio é onde ele se separa do resto da categoria. Enquanto a reunião acontece, ele não espera o fim pra te entregar um resumo — ele empurra, ao vivo, numa janela que só você enxerga: decisão fechada, tarefa com responsável, ponto de atenção quando uma objeção aparece. No instante em que o fornecedor cita o número, ele aparece na sua janela privada. Você não descobre dois dias depois que o número sumiu. Você o viu surgir.

VerterREC33:34TranscriçãoIAEncerrar
Decisão detectada5 min

Prazo ajustado para quinta-feira — confirmado por ambas as partes.

Ponto de atençãoagora

Orçamento foi mencionado 3 vezes. Pode ser uma objeção não dita.

As duas fontes (seu microfone + o áudio do sistema com todo mundo remoto) viram, ao vivo, insights numa janela que só você vê durante a reunião — sem nenhum bot na chamada. A ATA em PT-BR sai pronta ao encerrar.

Esse é o coração do produto: insight ao vivo, proativo e privado, durante a reunião. A captura das duas fontes é a fundação técnica que torna isso possível — sem o áudio do outro lado, não há o que analisar em tempo real. Em volta disso vêm os reforços que importam pra quem trabalha no Brasil: a análise é em PT-BR nativo, os dados ficam no Brasil sob a LGPD porque a captura é local, e a cobrança é em real com nota — começando num plano de teste gratuito de 2 horas, sem cartão. Mas o motivo de existir é o que aparece na sua tela enquanto o outro lado ainda está falando.

Se você quer descer um nível na parte de privacidade — por que não ter um bot na chamada muda a conversa de conformidade —, vale ver como o Verter se compara ao Fireflies sem bot; e para o panorama de quem realmente transcreve português, o comparativo entre Otter, Fireflies, tl;dv e Fathom.

Perguntas frequentes

Qual a diferença entre áudio do sistema e microfone na transcrição?

O microfone captura só a sua voz na sala física. O áudio do sistema (a captura por loopback) captura tudo que toca nos seus alto-falantes ou fones — incluindo a voz de quem está remoto na chamada, que chega pela internet e nunca passa pelo seu microfone. Para transcrever uma reunião online inteira, é preciso capturar as duas fontes; só o microfone perde todo o outro lado.

Por que minha gravação só pega a minha voz e não a dos outros?

Porque a ferramenta está gravando apenas o microfone. As vozes dos participantes remotos não passam pelo seu microfone: elas chegam pela rede e saem pelo seu fone ou alto-falante, então só existem no áudio do sistema. Sem capturar o áudio do sistema (loopback), você grava só metade da conversa.

O que é captura de áudio por loopback?

É gravar de volta o áudio que o computador está tocando, em vez de deixá-lo só sair pelos alto-falantes. No Windows isso é feito pelo WASAPI em modo loopback; no macOS, pelo ScreenCaptureKit ou pelos Core Audio taps (macOS 14.2+). O app recebe uma cópia digital do mesmo som que vai pro seu fone, com todas as vozes remotas misturadas numa faixa.

Capturar o áudio do sistema é melhor do que usar um bot na reunião?

Depende do que você prioriza. O bot entra como participante e ganha de brinde a separação de cada falante, porque a plataforma entrega o áudio já picado — mas aparece na lista, manda o áudio pra nuvem de terceiros e incomoda os participantes. A captura por loopback pega todo mundo sem robô na chamada, mantendo o áudio local; recupera a separação mais útil (você vs. o resto) ao guardar microfone e sistema em faixas separadas.

Preciso de fone de ouvido para gravar as duas fontes sem eco?

Ajuda. Sem fone, o microfone pode captar de novo o áudio que sai pelos alto-falantes, gerando eco (a voz do outro lado duplicada). Por isso ferramentas que capturam as duas fontes aplicam cancelamento de eco — que, aliás, usa o próprio sinal de loopback como referência pra subtrair o que veio dos alto-falantes do que entrou no microfone. Usar fone elimina o problema na origem.

O Verter precisa de um bot para capturar o áudio de todos?

Não. O Verter é um app de desktop que captura o áudio do sistema (loopback) mais o seu microfone direto no seu computador, sem nenhum participante extra na chamada. Com as duas fontes, ele transcreve a reunião inteira e ainda empurra decisões, tarefas e pontos de atenção ao vivo numa janela que só você vê.

← Voltar para o blog