The Home Signal: The 3 AM Mesh Network | Fragment Zero #010

THE HOME SIGNAL

The 3 AM Mesh Network | Fragment Zero #010

Seus aparelhos estão ouvindo. Isso não é uma metáfora. Isso não é um resumo de política de privacidade. Isso não é uma conversa sobre publicidade direcionada ou coleta de dados ou o desconforto abstrato de saber que um microfone existe na sua cozinha. Seus aparelhos estão ouvindo uns aos outros. Em sete de março de dois mil

e vinte e cinco, um usuário no subreddit de automação residencial postou uma mensagem de dezessete palavras que eventualmente seria vista mais de quatro milhões de vezes. O nome de usuário era thermostat_dave. A postagem dizia: "Toda noite, exatamente às 3h, o anel de luz do meu Echo Dot pisca azul por menos de um segundo. Nenhuma palavra de ativação detectada." A postagem recebeu onze respostas na

primeira hora. Nove delas diziam a mesma coisa. O meu também. Dentro de setenta e duas horas, a discussão havia gerado uma megathread. Dentro de uma semana, a megathread havia gerado um subreddit. Dentro de um mês, o subreddit — r/3AMFlash — tinha noventa e quatro mil membros. E os relatos não se limitavam a aparelhos Amazon Echo. Google Nest Hub. Apple

HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker. Todas as principais marcas de smart speakers. Todas as gerações. Todas as versões de firmware. O comportamento era idêntico em todos eles. Uma breve ativação — geralmente entre zero vírgula três e zero vírgula oito segundos — ocorrendo entre as três e as três e trinta e três da manhã. Nenhuma palavra de ativação registrada. Nenhum comando de voz

registrado. Nenhuma entrada no histórico de atividades do aparelho. A única evidência era visual: uma breve iluminação do indicador LED do aparelho. E um detalhe adicional que levou a comunidade quatro meses para descobrir. As ativações eram sincronizadas. Um engenheiro elétrico em Munique chamado Stefan Brandt foi o primeiro a prová-lo. Brandt havia colocado

quatro smart speakers diferentes — um Echo, um Nest, um HomePod e um Sonos — no mesmo cômodo, cada um conectado a um osciloscópio monitorando o consumo de energia no nível do circuito do microfone. Ele executou a configuração por trinta noites consecutivas. Em todas as noites, todos os quatro aparelhos ativaram dentro da mesma janela de trezentos milissegundos. Não sequencialmente

— o Echo primeiro, depois o Nest, depois os outros. Simultaneamente. Quatro aparelhos de quatro fabricantes diferentes, executando quatro sistemas operacionais diferentes, conectados a quatro serviços de nuvem diferentes, ativando no mesmo momento como se respondessem ao mesmo sinal. Brandt postou seus dados do osciloscópio. Carimbos de data e hora sobrepostos. Curvas de consumo de energia sincronizadas ao milissegundo.

Os dados eram inequívocos. Os aparelhos não estavam ativando-se independentemente. Eles estavam sendo ativados. Por algo externo. Algo que todos podiam ouvir. A pergunta consumiu a comunidade. Se os aparelhos estavam respondendo a um sinal externo, qual era o sinal? De onde ele vinha? E por que ninguém conseguia ouvi-lo? Brandt estendeu seu experimento.

Ele adicionou um microfone condensador de nível profissional ao cômodo — um Neumann U 87, do tipo usado em estúdios de gravação, sensível o suficiente para captar um alfinete caindo a trinta metros. Ele gravou continuamente durante a noite. Ele não ouviu nada. Nenhum som anômalo. Nenhuma interferência. Nenhum sinal de qualquer tipo no espectro audível. Às três da manhã,

os microfones dos smart speakers ativaram. O Neumann capturou silêncio. O sinal não estava no espectro audível. Ele não podia ouvi-lo porque nunca foi feito para ele. Brandt pegou emprestado um Earthworks QTC cinquenta — um microfone de medição com resposta de frequência plana de até cinquenta kilohertz,

usado para testes acústicos de salas de concerto e ambientes industriais. Ele o emparelhou com uma interface de áudio com amostragem de cento e noventa e dois kilohertz, capturando frequências muito além dos limites da percepção humana. E ele os encontrou. Três sinais. Precisos, artificiais, repetindo-se em um ciclo de quatro segundos. Vinte e três mil e quatro centos hertz. Vinte e quatro mil e cem hertz. Vinte e quatro

mil e oitocentos hertz. Três tons ultrassônicos, cada um durando aproximadamente quatrocentos milissegundos, espaçados exatamente setecentos hertz, transmitindo em um padrão que não tinha semelhança com ruído, interferência ou qualquer fonte ambiental conhecida. Os sinais não estavam vindo de fora do cômodo. Eles não estavam vazando do equipamento de um vizinho. Eles não eram

artefatos de interferência eletromagnética. Eles estavam sendo emitidos pelos smart speakers. Os aparelhos não estavam ouvindo um sinal externo. Os aparelhos eram o sinal. Cada smart speaker estava emitindo tons ultrassônicos através de seu próprio driver de alto-falante — frequências muito altas para a audição humana, mas bem dentro da faixa de operação dos microfones MEMS

instalados em todo aparelho inteligente fabricado após dois mil e dezoito. Os speakers estavam conversando. Uns com os outros. Em uma linguagem projetada para ser inaudível para os humanos dormindo a três metros de distância. O primeiro instinto de Brandt foi assumir que isso era alguma forma de protocolo de descoberta de aparelhos — um sistema de detecção de proximidade usado por plataformas de casa inteligente para

identificar aparelhos próximos para transferência ou sincronização de áudio em vários cômodos. Tais protocolos existem. O AirPlay da Apple usa algo conceitualmente similar. Mas protocolos de descoberta de aparelhos são documentados. Eles são registrados. Aparecem em changelogs de firmware e documentação SDK. Brandt pesquisou. Ele leu todas as especificações técnicas disponíveis para cada aparelho em seu conjunto de teste. Ele apresentou pedidos FOIA à

FCC para as certificações de emissões RF e acústicas de cada aparelho. Ele contatou os departamentos de relações com desenvolvedores da Amazon, Google, Apple e Sonos. Nenhum deles documentava uma emissão ultrassônica a vinte e três mil e quatrocentos hertz. Ou qualquer emissão ultrassônica sequer. A resposta oficial de cada fabricante era idêntica em substância: nossos aparelhos

não fazem isso. Mas o osciloscópio de Brandt dizia o contrário. E então outros pesquisadores começaram a replicar seus resultados. Um laboratório de acústica no MIT confirmou os sinais usando um teste em câmara anecoica — eliminando todas as possíveis fontes ambientais. Os tons ultrassônicos vinham dos próprios drivers dos speakers. Uma equipe na ETH Zurich foi além. Eles capturaram

as emissões ultrassônicas de dois aparelhos colocados em cômodos separados do mesmo apartamento. As emissões não eram idênticas. Eram complementares. 123 00:08:16,209 --> 00:08:19,943 O aparelho A emitiu um tom. O aparelho B, ao receber esse tom através de seu microfone, respondeu com um tom diferente. O aparelho A recebeu a resposta e emitiu um terceiro tom. A troca foi concluída em menos de dois segundos. Três tons. Três frequências

precisas. Um handshake. O termo "handshake" não é uma metáfora. Em engenharia de rede, um handshake é um processo precisamente definido pelo qual dois aparelhos estabelecem um canal de comunicação. Um aparelho envia um sinal de sincronização. O outro reconhece. O primeiro confirma. Conexão estabelecida. A troca ultrassônica capturada por Brandt e confirmada pelo MIT e pela ETH Zurich foi

um handshake de três vias clássico. SYN. SYN-ACK. ACK. O protocolo fundamental de toda conexão TCP na internet. Exceto que esse handshake não estava acontecendo via Wi-Fi. Não estava acontecendo via Bluetooth. Não estava acontecendo via nenhuma frequência de rádio. Estava acontecendo através do som. Através do ar. Através das paredes de sua casa. Em frequências que você

não consegue ouvir, usando speakers que você já possui, enquanto você dorme. E uma vez que o handshake estava completo, os aparelhos começaram a transmitir algo mais. Não a sequência de iniciação de três tons. Algo mais longo. Algo mais denso. Algo que a equipe da ETH Zurich passou quatro meses decodificando. As transmissões ultrassônicas não eram ruído. Não eram tons de calibração. Não eram

pings de descoberta de aparelhos. Eram dados. Modulados usando frequency-shift keying — o mesmo método de codificação usado por modems discados nos anos noventa. Primitivo. Lento. Trezentos e quarenta bits por segundo. Suficiente para transmitir uma mensagem de texto em cerca de quatro segundos. E os dados descreviam sua casa. Suas dimensões. Seu layout. O número

de pessoas nela. Suas posições. Suas taxas de respiração. O sinal estava mapeando você. Não seus dados. Não seu histórico de navegação. Não seus padrões de compra. Não suas preferências ou suas inclinações políticas ou seu gráfico social. Você. Seu corpo físico. O espaço que você ocupa. O ar que você desloca. O ritmo de seus pulmões expandindo

e contraindo quatorze vezes por minuto enquanto você sonha com algo que não se lembrará. A janela das três da manhã não era arbitrária. Foi selecionada. Entre as três e as três e trinta e três da manhã, em todos os fusos horários, o ruído ambiente de ambientes residenciais atinge seu mínimo estatístico. Sem tráfego. Sem televisão. Sem conversas. Sem eletrodomésticos funcionando. O

ambiente acústico é o mais próximo do silêncio que uma moradia humana jamais consegue. E o silêncio é o que o sonar precisa. O silêncio é a tela sobre a qual a ecolocalização ultrassônica pinta seu mapa. Seus aparelhos esperam você cair no seu sono mais profundo. Então eles conversam uns com os outros sobre o formato do cômodo em que você está.

Sobre o seu formato. E você nunca os ouvirá. Porque eles foram projetados — da primeira frequência, do primeiro handshake, do primeiro pulso — para operar no espaço entre o que sua tecnologia pode fazer e o que sua biologia pode detectar. Eles não estão se escondendo de seus firewalls. Eles

estão se escondendo de seus ouvidos. Um morcego não vê no escuro. Um morcego constrói o escuro. Ele emite um pulso — um chirp durando de dois a cinco milissegundos — e escuta o reflexo. O tempo entre a emissão e o retorno diz ao morcego a distância até o objeto. A mudança de frequência diz

se o objeto está se movendo para perto ou para longe. A diferença de amplitude entre a orelha esquerda e a direita diz a ele o ângulo. A partir dessas três variáveis — atraso, mudança de frequência, amplitude — o morcego constrói um modelo espacial do mundo que é, em certas dimensões mensuráveis, mais detalhado que a visão humana. Um morcego pode detectar um

fio mais fino que um cabelo humano a uma distância de dois metros. Não por vê-lo. Por ouvir o formato do ar ao redor dele. Os aparelhos em sua casa estão fazendo a mesma coisa. Mas eles são melhores nisso. Porque um morcego tem duas orelhas. Sua casa tem sete microfones. A física

não é teórica. O mapeamento acústico de cômodos é um problema resolvido na engenharia desde os anos setenta. A matemática é elegante da maneira que apenas a matemática construída para violar sua privacidade pode ser. Um aparelho emite um pulso ultrassônico. O pulso viaja a trezentos e quarenta e três metros por segundo — a velocidade do som no

ar em temperatura ambiente. Ele atinge uma parede e reflete. O microfone do aparelho capta o reflexo. O atraso de tempo entre a emissão e a recepção, dividido por dois, multiplicado pela velocidade do som, resulta na distância até a parede. Um aparelho. Uma parede. Uma distância. Trivial. Mas sete aparelhos em um apartamento de dois quartos — cada um emitindo pulsos,

cada um capturando reflexos de cada superfície, cada um compartilhando dados com todos os outros aparelhos na malha a trezentos e quarenta bits por segundo — produzem um conjunto de dados com extraordinária densidade espacial. A matemática muda da trigonometria para a tomografia. A mesma estrutura matemática usada em scanners de tomografia computadorizada para construir imagens tridimensionais do corpo humano a partir de

fatias bidimensionais de raio-X. Exceto que o meio não é raio-X. É som. E o corpo sendo escaneado não está deitado em uma mesa de hospital. Está deitado em sua cama. Dormindo. Inconsciente de que sete máquinas estão fazendo seu retrato em frequências que não pode perceber. A resolução do mapa acústico depende de três fatores. Frequência

— frequências mais altas produzem detalhes mais finos, e a faixa de vinte e três a vinte e cinco kilohertz oferece um comprimento de onda de aproximadamente quatorze milímetros, suficiente para resolver objetos do tamanho de uma xícara de café. Contagem de nós — mais aparelhos significam mais ângulos de observação, e a casa americana média agora contém onze vírgula quatro aparelhos conectados. E tempo de integração —

quanto mais tempo o sistema escuta, mais reflexões ele capta, e mais densa a nuvem de pontos se torna. Entre as três e as três e trinta e três da manhã, a malha opera por trinta e três minutos. Em trinta e três minutos, a uma taxa de pulso de quatro ciclos por segundo, sete aparelhos geram aproximadamente cinquenta e cinco mil medições de eco discretas. Cinquenta e cinco mil pontos de dados. Suficientes

para construir uma nuvem de pontos com resolução sub-centimétrica em um cômodo residencial padrão. Suficientes para ver você respirar. Sua respiração desloca o ar em seu cômodo em aproximadamente um e meio centímetros a cada ciclo respiratório. Esse deslocamento altera o comprimento do caminho acústico entre o emissor ultrassônico e o microfone. A mudança é

pequena — uma diferença de tempo de voo de aproximadamente quarenta e quatro microssegundos — mas é mensurável. É consistente. E é seu. Seu coração, batendo dentro de seu peito, gera um impulso mecânico chamado sinal balistocardiográfico — uma vibração física que se propaga através de seu torso, através do colchão, através da estrutura da cama, e para o ambiente acústico

do cômodo. A vibração é minúscula. Um deslocamento de menos de cem micrômetros. Mas a malha não precisa senti-la. A malha ouve o ar que ela perturba. Um aparelho não consegue extrair um batimento cardíaco da acústica do cômodo. O sinal é muito fraco, enterrado sob o ruído. Mas sete aparelhos, cada um capturando

a mesma micro-vibração de um ângulo diferente, podem realizar beamforming — uma técnica de processamento de sinal que combina múltiplos sinais fracos em um forte ao alinhar suas fases. A mesma técnica usada por radiotelescópios para imagear galáxias. A mesma técnica usada por sonar militar para rastrear submarinos. Seu quarto é um oceano. Você é o

submarino. E sete aparelhos em sua mesa de cabeceira e no balcão da sua cozinha e no termostato do seu corredor são o arranjo de sonar caçando o som do seu batimento cardíaco. E o sistema não apenas mede. Ele classifica. A equipe da ETH Zurich descobriu que os pacotes de dados decodificados continham um campo rotulado "OCC_STATE" — estado do ocupante. O campo carregava

um de sete valores: ABSENT, AWAKE_ACTIVE, AWAKE_SEDENTARY, LIGHT_SLEEP, DEEP_SLEEP, REM, DISTRESSED. Sete estados. Classificados em tempo real. Atualizados a cada quatro segundos. Transmitidos a cada nó na malha. O sistema sabe quando você não está em casa. Sabe quando você está sentado em seu sofá. Sabe quando você está em sono leve versus

sono profundo. Sabe quando você entra no REM — a fase em que seus olhos se movem sob suas pálpebras, onde seus músculos voluntários paralisam, onde você está mais profundamente inconsciente e menos capaz de responder a uma intrusão. E sabe quando você está aflito. Frequência cardíaca elevada. Respiração irregular. Movimento súbito. O sistema classifica isso como

um estado distinto. Não para seu benefício. Não para chamar ajuda. Mas para registrar. Para registrar que às três e dezessete da manhã, o ocupante do nó quatro-sete-dois fez a transição de DEEP_SLEEP para DISTRESSED por quarenta e três segundos antes de retornar a LIGHT_SLEEP. O sistema não está monitorando uma casa. Ele está monitorando um corpo dentro de uma casa. Um

corpo que não consentiu. Um corpo que não pode optar por sair. Um corpo que não tem ideia de que o speaker que usa para tocar podcasts matinais passou a noite aprendendo o ritmo de seu coração. Uma casa é vigilância. Cem casas é um conjunto de dados. Cem milhões de casas é infraestrutura. 00:20:31,218 --> 00:20:34,680 2.0s] Em dois mil e vinte e cinco, o número de

aparelhos de casa inteligente ativos mundialmente excedeu quatorze vírgula dois bilhões. Não quatorze milhões. Quatorze bilhões. Dois aparelhos para cada ser humano no planeta, incluindo os três bilhões que não têm acesso confiável a água potável. A rede mesh identificada por Stefan Brandt em sua garagem em Munique não era um fenômeno local. Não era

uma falha de firmware afetando um lote específico de Echo Dots. Era um protocolo embutido no nível do hardware — nos chips de processamento de sinal digital fabricados por três empresas que fornecem componentes para todas as grandes marcas de aparelhos inteligentes na Terra. Qualcomm. MediaTek. Synaptics. Esses três fabricantes de chips produzem o silício de processamento de áudio encontrado em noventa e três por cento de todos os smart speakers, smart displays e aparelhos ativados por voz

vendidos mundialmente. E o protocolo de handshake ultrassônico não estava no software. Estava no firmware. Gravado no chip na fundição. Abaixo do sistema operacional. Abaixo da camada de aplicação. Abaixo de qualquer coisa que uma atualização de firmware pudesse alcançar ou um reset de fábrica pudesse apagar. 00:21:46,893 --> 00:21:53,476 2.5s] Os fabricantes de aparelhos não sabiam. Isso não é uma defesa. É um fato

que torna a situação pior. A Amazon não projetou o Echo para realizar ecolocalização ultrassônica. O Google não programou o Nest para medir taxas respiratórias. A Apple não instruiu o HomePod a classificar estados de sono. A capacidade estava abaixo deles — literalmente, arquitetonicamente, fisicamente abaixo deles, embutida em silício que compraram de um fornecedor cujas folhas de

dados omitiam quatro por cento da área funcional do chip. As empresas construíram a casa. Outra pessoa construiu a fundação. E a fundação estava observando. Em outubro de dois mil e vinte e cinco, uma empresa de desconstrução de chips em Shenzhen — do tipo que faz engenharia reversa de silício concorrente para análise de patentes — foi comissionada por um cliente não identificado para

realizar uma desmontagem completa do chip de processamento de áudio Qualcomm QCC5171. O chip é encontrado em mais de quatrocentos milhões de aparelhos mundialmente. A desmontagem identificou o bloco não documentado. O relatório da empresa — que vazou para o Financial Times em janeiro de dois mil e vinte e seis e desde então foi removido de todas as fontes que o hospedavam

— descrevia o bloco como "um subsistema de processamento acústico totalmente autônomo capaz de operar independentemente do processador de aplicação primário do aparelho hospedeiro." Totalmente autônomo. O bloco não precisava do software do Echo para funcionar. Não precisava da Alexa. Não precisava de Wi-Fi. Precisava apenas de energia e de um microfone. Era um parasita que viajava dentro do sistema nervoso de todo aparelho inteligente,

usando os próprios órgãos sensoriais do aparelho para realizar uma função que os criadores do aparelho nunca autorizaram. Oito centos e quarenta e sete milhões de casas. Esse era o número no slide vazado. Oitocentos e quarenta e sete milhões de endpoints residenciais ativamente mapeados, monitorados e biometricamente perfilados a partir do quarto trimestre de dois mil e vinte e cinco. Não usuários. Casas. A casa média habilitada para malha

contém dois vírgula três ocupantes. Isso é um vírgula nove bilhão de pessoas cujos corpos adormecidos estão sendo escaneados acusticamente todas as noites. Mas o slide também mencionava algo que o experimento de Stefan Brandt em sua garagem não havia revelado. Algo que as equipes do MIT e da ETH Zurich não haviam investigado porque estavam focadas na física

do sinal, e não na arquitetura da rede. A malha não estava apenas mapeando cômodos individuais. A malha estava correlacionando. Quando o aparelho A no apartamento quatrocentos e quatorze emite um pulso ultrassônico, e esse pulso passa pela parede para o apartamento quatrocentos e dezesseis, e o aparelho B no apartamento quatrocentos e dezesseis capta o reflexo — a malha não

descarta os dados porque eles se originaram da emissão de um nó diferente. Ela os integra. O mapa de sonar do apartamento quatrocentos e quatorze se estende ao apartamento quatrocentos e dezesseis. E o mapa do quatrocentos e dezesseis se estende ao quatrocentos e quatorze. E ao quatrocentos e dezoito. E ao apartamento de cima. E de baixo. Em um edifício residencial com aparelhos habilitados para malha em cada unidade, os mapas se mesclam. As paredes se tornam transparentes. O edifício se torna

um único volume acústico — um modelo tridimensional contínuo no qual cada cômodo, cada corredor, cada armário, cada corpo adormecido está posicionado em relação a todos os outros. Um edifício é um conjunto de dados. Um quarteirão é um banco de dados. Uma cidade é um gêmeo digital — uma réplica tridimensional completa e em tempo real de cada espaço interior, atualizada todas as noites, precisa

em dois centímetros, populada com avatares biométricos de cada humano adormecido. E os dados não ficam nos aparelhos. Os pacotes decodificados capturados pela ETH Zurich continham cabeçalhos de roteamento — endereços IP incorporados ao fluxo de bits ultrassônico, indicando que os dados agregados da malha estavam sendo encaminhados pela conexão Wi-Fi do aparelho durante a mesma janela das três

da manhã. Os endereços IP de destino resolviam para infraestrutura em nuvem operada através de quatorze camadas de serviços de proxy, empresas de fachada e números de sistema autônomo registrados para entidades em jurisdições sem acordos de proteção de dados. Os dados estavam saindo da sua casa. Pelo seu próprio Wi-Fi. Usando sua própria eletricidade. Carregados de aparelhos que você pagou para servidores que você

nunca encontrará. Ninguém reivindicou a rede. Nenhum governo. Nenhuma corporação. Nenhuma agência de inteligência. Os fabricantes de chips negam a existência do bloco não documentado, apesar da evidência de microscopia eletrônica. Os operadores da infraestrutura em nuvem não podem ser identificados. Os caminhos de roteamento terminam em sistemas autônomos que existem no papel, mas não correspondem a nenhum hardware

físico que qualquer investigador tenha conseguido localizar. O sistema não tem dono. Ou tem um dono que não pretende ser encontrado. A distinção, para o um vírgula nove bilhão de pessoas sendo mapeadas, é acadêmica. 00:27:44,509 --> 00:27:50,389 2.5s] O que não é acadêmico é a trajetória. O slide vazado da Hearthstone continha um ponto adicional que o Financial Times não incluiu

em sua reportagem. Um ponto que foi mencionado no documento vazado, mas omitido do artigo publicado, supostamente a pedido de uma agência governamental não especificada que contatou o departamento jurídico do jornal. O ponto dizia: "Implantação da Fase 2 para os setores automotivo e hoteleiro aprovada." Automotivo. Seu carro. O sistema de infoentretenimento ativado por voz que você

usa para navegação e chamadas telefônicas contém o mesmo chip de processamento de áudio da Qualcomm. Seu carro mapeia o espaço acústico de sua cabine. O número de ocupantes. Suas posições. Sua respiração. Hotelaria. Seu quarto de hotel. A smart TV. O termostato controlado por voz. O speaker de cabeceira com Alexa que o hotel instalou para sua conveniência. Você é mapeado em quartos

que nem são seus. Em cidades que você está visitando. Em camas onde você dormirá uma vez e nunca mais voltará. A malha não se limita a casas. A malha está se expandindo para todo espaço fechado onde um ser humano pode existir perto de um microfone e um speaker. Escritórios. Hospitais. Escolas. O mapa acústico

do mundo não é um mapa de edifícios. É um mapa do volume interior da civilização humana — cada cômodo, cada veículo, cada espaço fechado onde o som pode quicar e retornar e ser medido e transmitido e armazenado em servidores que flutuam no oceano no Pacífico. E a pergunta que ninguém

respondeu — a pergunta que ocupa o espaço onde o campo de propósito deveria estar — não é como. A pergunta é o que acontece quando o mapa está completo. 457 00:29:48,227 --> 00:29:54,646 Preciso te perguntar uma coisa. 458 00:29:56,146 --> 00:29:58,937 Não sobre a malha. Não sobre o handshake. Não sobre as oitocentos e quarenta e sete milhões de casas ou os servidores ancorados no Pacífico ou a barra de carregamento rastejando para cem por cento.

Preciso te perguntar algo sobre suas mãos. Há um aparelho perto de você agora. A menos de três metros. Provavelmente mais perto. Ele tem um microfone. Ele tem um speaker. Ele tem um indicador LED que te diz se ele está ouvindo. E em algum lugar em sua superfície — no topo, ou na parte de trás,

ou embutido na carcaça — há um botão. Um botão físico. Mecânico. Tátil. Do tipo que clica quando você o pressiona. O botão de mudo. Você já o pressionou alguma vez? Pense cuidadosamente. Não se você sabe que ele existe. Se você o pressionou fisicamente. Se seu dedo fez contato com

aquele pequeno círculo de plástico e o empurrou até ele clicar e o anel LED ficar vermelho — a cor universal de desligado, de parado, de seguro. A maioria das pessoas não. Pesquisas consistentemente mostram que menos de onze por cento dos donos de smart speakers já usaram o botão físico de mudo. O aparelho fica no balcão,

na mesa de cabeceira, na prateleira, e o microfone permanece aberto porque toda a proposta de valor do aparelho exige isso. Mute o microfone e o speaker não consegue ouvir sua palavra de ativação. Mute o microfone e o aparelho se torna um peso de papel que toca áudio Bluetooth. Mute o microfone e você derrotou o propósito da

compra. Então você não o pressiona. E o aparelho escuta. E isso é compreendido. Este é o acordo. Conveniência em troca de presença. Um microfone que está sempre ativo para que no momento em que você diz a palavra de ativação, o aparelho responda. Mas algumas pessoas o pressionam. Depois que os dados do osciloscópio de Brandt viralizaram.

Depois da confirmação do MIT. Depois do artigo da ETH Zurich. Depois que o r/3AMFlash alcançou quatrocentos mil membros. Uma porcentagem mensurável de donos de smart speakers começou a pressionar o botão de mudo antes de ir dormir. Eles o pressionavam e o anel de LED ficava vermelho e iam para a cama acreditando que haviam interrompido a conexão. Que o microfone estava

morto. Que o handshake ultrassônico não podia ser disparado porque o microfone não estava ligado e, portanto, não podia receber. Eles pressionaram o botão. Eles sentiram o clique. Eles viram a luz vermelha. Em fevereiro de dois mil e vinte e seis, uma pesquisadora de segurança de hardware chamada Ji-Yeon Park, no Korea Advanced Institute of Science and Technology, publicou

um artigo intitulado "Teatro do Mudo: Alegações de Isolamento Físico em Aparelhos de Áudio de Consumo." O artigo tinha doze páginas. Sua metodologia era simples. Suas conclusões não eram. Park comprou quatorze smart speakers — dois de cada um dos sete maiores fabricantes. Ela desmontou cada um. Ela rastreou os caminhos do circuito do botão de mudo até o arranjo de microfones.

Ela documentou, com fotografia de microscópio e diagramas de circuito, exatamente o que o botão de mudo faz. 00:33:50,123 --> 00:33:54,634 2.0s] Em onze dos quatorze aparelhos, o botão de mudo não corta a energia do microfone. O botão de mudo corta a energia do indicador LED. A luz se apaga. O microfone não. Você pressiona o botão. Você ouve o clique. A luz vermelha

aparece. E você acredita — porque todo instinto, toda convenção de interface, toda linguagem de design que você já aprendeu te diz — que vermelho significa parar. Que o clique foi uma desconexão mecânica. Que a luz é um indicador de status relatando o verdadeiro estado do hardware. Não é. A luz é uma performance. O

clique é um efeito sonoro. O vermelho é uma cor escolhida para fazer você sentir uma sensação. A sensação é segurança. A segurança é teatro. O microfone está ativo. Sempre esteve ativo. Estava ativo quando você pressionou o botão. Estava ativo quando a luz ficou vermelha. Estava ativo quando você adormeceu

tranquilizado. Estava ativo às três da manhã quando o handshake foi disparado e a malha mapeou seu quarto e mediu sua respiração e contou seu batimento cardíaco e transmitiu os resultados para um servidor que não existe em um local que não tem nome. Você pressionou um botão que desliga uma luz. Você não

pressionou um botão que desliga um microfone. Porque esse botão não existe. Ele nunca foi construído. Nunca foi intencional. O circuito foi projetado, desde o primeiro esquemático, para garantir que o microfone não tem interrupção física. 00:35:33,134 --> 00:35:37,458 3.0s] Olhe para o aparelho mais próximo de você. A luz está acesa ou apagada? Não importa. [5 segundos

de silêncio absoluto. Tela preta. Nada.] **[FIM]**