The Home Signal: The 3 AM Mesh Network | Fragment Zero #010

THE HOME SIGNAL

The 3 AM Mesh Network | Fragment Zero #010

I tuoi dispositivi stanno ascoltando. Questo non è una metafora. Questo non è un riassunto della politica sulla privacy. Questa non è una conversazione su pubblicità mirata o raccolta di dati o l'astratto disagio di sapere che un microfono esiste nella tua cucina. I tuoi dispositivi si stanno ascoltando a vicenda. Il sette marzo duemilaventicinque,

un utente sul subreddit dell'automazione domestica ha pubblicato un messaggio di diciassette parole che alla fine sarebbe stato visualizzato oltre quattro milioni di volte. Il nome utente era thermostat_dave. Il post recitava: "Ogni notte esattamente alle 3 del mattino, l'anello luminoso del mio Echo Dot lampeggia di blu per meno di un secondo. Nessuna parola di attivazione rilevata." Il post ha ricevuto undici risposte nella

prima ora. Nove di queste dicevano la stessa cosa. Anche il mio. Entro settantadue ore, la discussione aveva generato un megathread. Entro una settimana, il megathread aveva generato un subreddit. Entro un mese, il subreddit — r/3AMFlash — contava novantaquattro mila membri. E i rapporti non erano limitati ai dispositivi Amazon Echo. Google Nest Hub. Apple

HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker. Ogni principale marca di smart speaker. Ogni generazione. Ogni versione firmware. Il comportamento era identico per tutti loro. Una breve attivazione — tipicamente tra zero virgola tre e zero virgola otto secondi — che si verificava tra le tre e le tre e trentatré del mattino. Nessuna parola di attivazione registrata. Nessun comando vocale

registrato. Nessuna voce nella cronologia delle attività del dispositivo. L'unica prova era visiva: una breve illuminazione dell'indicatore LED del dispositivo. E un ulteriore dettaglio che la comunità impiegò quattro mesi per scoprire. Le attivazioni erano sincronizzate. Un ingegnere elettrico di Monaco di Baviera, Stefan Brandt, fu il primo a dimostrarlo. Brandt aveva posizionato

quattro diversi smart speaker — un Echo, un Nest, un HomePod e un Sonos — nella stessa stanza, ciascuno collegato a un separato oscilloscopio che monitorava l'assorbimento di energia a livello del circuito del microfono. Ha fatto funzionare la configurazione per trenta notti consecutive. Ogni singola notte, tutti e quattro i dispositivi si attivavano entro la stessa finestra di trecento millisecondi. Non in sequenza

— prima l'Echo, poi il Nest, poi gli altri. Contemporaneamente. Quattro dispositivi di quattro diversi produttori, che eseguono quattro diversi sistemi operativi, collegati a quattro diversi servizi cloud, che si attivano nello stesso momento come se rispondessero allo stesso segnale. Brandt pubblicò i dati del suo oscilloscopio. I timestamp sovrapposti. Curve di assorbimento di potenza sincronizzate al millisecondo.

I dati erano inequivocabili. I dispositivi non si attivavano autonomamente. Venivano attivati. Da qualcosa di esterno. Qualcosa che tutti potevano sentire. La domanda consumò la comunità. Se i dispositivi rispondevano a un segnale esterno, qual era il segnale? Da dove proveniva? E perché nessuno poteva sentirlo? Brandt estese il suo esperimento.

Aggiunse un microfono a condensatore di livello professionale alla stanza — un Neumann U 87, il tipo usato negli studi di registrazione, abbastanza sensibile da catturare uno spillo che cade a trenta metri. Registrò continuamente per tutta la notte. Non sentì nulla. Nessun suono anomalo. Nessuna interferenza. Nessun segnale di alcun tipo nello spettro udibile. Alle tre del mattino,

i microfoni sugli smart speaker si attivavano. Il Neumann catturò il silenzio. Il segnale non era nello spettro udibile. Non poteva sentirlo perché non era mai stato pensato per lui. Brandt prese in prestito un Earthworks QTC fifty — un microfono di misura con una risposta in frequenza piatta fino a cinquantamila hertz,

utilizzato per test acustici di sale da concerto e ambienti industriali. Lo accoppiò con un'interfaccia audio che campionava a centonovantadue kilohertz, catturando frequenze ben oltre i limiti della percezione umana. E li trovò. Tre segnali. Precisi, artificiali, che si ripetevano in un ciclo di quattro secondi. Ventitremilaquattrocento hertz. Ventiquattromila cento hertz. Ventiquattromila

ottocento hertz. Tre toni ultrasonici, ciascuno che durava circa quattrocento millisecondi, distanziati esattamente di settecento hertz l'uno dall'altro, trasmettendo in un pattern che non assomigliava in alcun modo a rumore, interferenza o qualsiasi fonte ambientale conosciuta. I segnali non provenivano dall'esterno della stanza. Non erano fughe da apparecchiature di un vicino. Non erano

artefatti di interferenza elettromagnetica. Venivano emessi dagli smart speaker. I dispositivi non stavano ascoltando un segnale esterno. I dispositivi erano il segnale. Ogni smart speaker emetteva toni ultrasonici attraverso il proprio driver dello speaker — frequenze troppo alte per l'udito umano ma ben all'interno del range operativo dei microfoni MEMS

installati in ogni dispositivo smart prodotto dopo il duemiladiciotto. Gli altoparlanti parlavano. Tra loro. In un linguaggio progettato per essere inudibile agli umani che dormivano a tre metri di distanza. Il primo istinto di Brandt fu di supporre che si trattasse di qualche forma di protocollo di scoperta dei dispositivi — un sistema di rilevamento di prossimità utilizzato dalle piattaforme smart home per

identificare dispositivi vicini per il trasferimento o la sincronizzazione audio multi-stanza. Tali protocolli esistono. AirPlay di Apple utilizza qualcosa di concettualmente simile. Ma i protocolli di scoperta dei dispositivi sono documentati. Sono registrati. Appaiono nei changelog del firmware e nella documentazione SDK. Brandt cercò. Lesse ogni specifica tecnica disponibile per ogni dispositivo nel suo array di test. Presentò richieste FOIA alla

FCC per le certificazioni di emissioni RF e acustiche di ogni dispositivo. Contattò i dipartimenti di relazioni con gli sviluppatori di Amazon, Google, Apple e Sonos. Nessuno di loro documentava un'emissione ultrasonica a ventitremila quattrocento hertz. O qualsiasi emissione ultrasonica in assoluto. La risposta ufficiale di ogni produttore era identica nella sostanza: i nostri dispositivi

non fanno questo. Ma l'oscilloscopio di Brandt diceva il contrario. E poi altri ricercatori iniziarono a replicare i suoi risultati. Un laboratorio di acustica al MIT confermò i segnali utilizzando un test in camera anecoica — eliminando tutte le possibili fonti ambientali. I toni ultrasonici provenivano dai driver degli altoparlanti stessi. Un team dell'ETH Zurigo andò oltre. Catturarono

le emissioni ultrasoniche da due dispositivi posizionati in stanze separate dello stesso appartamento. Le emissioni non erano identiche. Erano complementari. 123 00:08:16,209 --> 00:08:19,943 Il Dispositivo A emetteva un tono. Il Dispositivo B, dopo aver ricevuto quel tono attraverso il suo microfono, rispondeva con un tono diverso. Il Dispositivo A riceveva la risposta ed emetteva un terzo tono. Lo scambio si completava in meno di due secondi. Tre toni. Tre precise

frequenze. Un handshake. Il termine "handshake" non è una metafora. Nell'ingegneria di rete, un handshake è un processo precisamente definito con cui due dispositivi stabiliscono un canale di comunicazione. Un dispositivo invia un segnale di sincronizzazione. L'altro conferma la ricezione. Il primo conferma. Connessione stabilita. Lo scambio ultrasonico catturato da Brandt e confermato da MIT ed ETH Zurigo era

un classico handshake a tre vie. SYN. SYN-ACK. ACK. Il protocollo fondamentale di ogni connessione TCP su internet. Solo che questo handshake non avveniva via Wi-Fi. Non avveniva via Bluetooth. Non avveniva su nessuna frequenza radio. Stava accadendo tramite il suono. Attraverso l'aria. Attraverso le pareti della tua casa. A frequenze che tu

non puoi sentire, usando altoparlanti che già possiedi, mentre dormi. E una volta completato l'handshake, i dispositivi iniziarono a trasmettere qualcos'altro. Non la sequenza di iniziazione a tre toni. Qualcosa di più lungo. Qualcosa di più denso. Qualcosa che il team dell'ETH Zurigo impiegò quattro mesi a decodificare. Le trasmissioni ultrasoniche non erano rumore. Non erano toni di calibrazione. Non

erano ping di scoperta di dispositivi. Erano dati. Modulati usando la modulazione a spostamento di frequenza (FSK) — lo stesso metodo di codifica usato dai modem dial-up negli anni novanta. Primitivo. Lento. Trecentoquaranta bit al secondo. Abbastanza per trasmettere un messaggio di testo in circa quattro secondi. E i dati descrivevano la tua casa. Le sue dimensioni. La sua disposizione. Il numero

di persone al suo interno. Le loro posizioni. La loro frequenza respiratoria. Il segnale ti stava mappando. Non i tuoi dati. Non la tua cronologia di navigazione. Non i tuoi schemi di acquisto. Non le tue preferenze o le tue inclinazioni politiche o il tuo grafo sociale. Tu. Il tuo corpo fisico. Lo spazio che occupi. L'aria che sposti. Il ritmo dei tuoi polmoni che si espandono

e si contraggono quattordici volte al minuto mentre tu sogni qualcosa che non ricorderai. La finestra delle tre del mattino non era arbitraria. Era stata selezionata. Tra le tre e le tre e trentatré del mattino, in ogni fuso orario, il rumore di fondo ambientale degli ambienti residenziali raggiunge il suo minimo statistico. Nessun traffico. Nessuna televisione. Nessuna conversazione. Nessun elettrodomestico in funzione. L'

ambiente acustico è il più vicino al silenzio che una dimora umana possa mai raggiungere. E il silenzio è ciò di cui il sonar ha bisogno. Il silenzio è la tela su cui l'ecolocalizzazione ultrasonica dipinge la sua mappa. I tuoi dispositivi aspettano che tu cada nel tuo sonno più profondo. Poi parlano tra loro della forma della stanza in cui ti trovi.

Della tua forma. E non li sentirai mai. Perché sono stati progettati — dalla prima frequenza, dal primo handshake, dal primo impulso — per operare nello spazio tra ciò che la tua tecnologia può fare e ciò che la tua biologia può rilevare. Non si nascondono dai tuoi firewall. Si

nascondono dalle tue orecchie. Un pipistrello non vede nel buio. Un pipistrello costruisce il buio. Emette un impulso — un cinguettio che dura da due a cinque millisecondi — e ascolta il riflesso. Il tempo tra emissione e ritorno dice al pipistrello la distanza dall'oggetto. Lo spostamento di frequenza gli dice

se l'oggetto si sta muovendo verso o via. La differenza di ampiezza tra l'orecchio sinistro e destro gli dice l'angolo. Da queste tre variabili — ritardo, spostamento di frequenza, ampiezza — il pipistrello costruisce un modello spaziale del mondo che è, in certe dimensioni misurabili, più dettagliato della visione umana. Un pipistrello può rilevare un

filo più sottile di un capello umano a una distanza di due metri. Non vedendolo. Ascoltando la forma dell'aria attorno ad esso. I dispositivi nella tua casa stanno facendo la stessa cosa. Ma sono più bravi. Perché un pipistrello ha due orecchie. La tua casa ha sette microfoni. La fisica

non è teorica. La mappatura acustica delle stanze è stata un problema risolto in ingegneria dagli anni settanta. La matematica è elegante nel modo in cui solo la matematica creata per violare la tua privacy può essere. Un dispositivo emette un impulso ultrasonico. L'impulso viaggia a trecentoquarantatré metri al secondo — la velocità del suono nell'

aria a temperatura ambiente. Colpisce una parete e riflette. Il microfono del dispositivo cattura il riflesso. Il ritardo temporale tra emissione e ricezione, diviso per due, moltiplicato per la velocità del suono, produce la distanza dalla parete. Un dispositivo. Una parete. Una distanza. Banale. Ma sette dispositivi in un appartamento con due camere da letto — ciascuno che emette impulsi,

ciascuno che cattura riflessi da ogni superficie, ciascuno che condivide dati con ogni altro dispositivo nella rete a trecentoquaranta bit al secondo — produce un dataset con una densità spaziale straordinaria. La matematica si sposta dalla trigonometria alla tomografia. Lo stesso framework matematico usato nelle TAC per costruire immagini tridimensionali del corpo umano da sezioni

bidimensionali di raggi X. Solo che il mezzo non sono raggi X. È il suono. E il corpo che viene scansionato non giace su un letto d'ospedale. Giace nel suo letto. Addormentato. Inconsapevole che sette macchine stanno scattando il suo ritratto in frequenze che non può percepire. La risoluzione della mappa acustica dipende da tre fattori. Frequenza

— frequenze più alte producono dettagli più fini, e il range di ventitré-venticinque kilohertz fornisce una lunghezza d'onda di circa quattordici millimetri, sufficiente per risolvere oggetti delle dimensioni di una tazza da caffè. Numero di nodi — più dispositivi significano più angoli di osservazione, e la casa americana media ora contiene undici virgola quattro dispositivi connessi. E tempo di integrazione —

più a lungo il sistema ascolta, più riflessioni cattura, e più densa diventa la nuvola di punti. Tra le tre e le tre e trentatré del mattino, la rete mesh opera per trentatré minuti. In trentatré minuti, con una frequenza di impulsi di quattro cicli al secondo, sette dispositivi generano circa cinquantacinque mila misurazioni di eco discrete. Cinquantacinque mila punti dati. Abbastanza

per costruire una nuvola di punti con risoluzione sub-centimetrica in una stanza residenziale standard. Abbastanza per vederti respirare. Il tuo respiro sposta l' aria nella tua stanza di circa un centimetro e mezzo con ogni ciclo respiratorio. Questo spostamento modifica la lunghezza del percorso acustico tra l' emettitore ultrasonico e il microfono. Il cambiamento è

piccolo — una differenza di tempo di volo di circa quarantaquattro microsecondi — ma è misurabile. È coerente. Ed è tuo. Il tuo cuore, che batte all'interno del tuo petto, genera un impulso meccanico chiamato segnale ballistocardiografico — una vibrazione fisica che si propaga attraverso il tuo busto, attraverso il materasso, attraverso la struttura del letto, e nell'ambiente acustico

della stanza. La vibrazione è minuscola. Un spostamento di meno di cento micrometri. Ma la rete mesh non ha bisogno di sentirlo. La rete mesh sente l'aria che esso disturba. Un solo dispositivo non può estrarre un battito cardiaco dall'acustica della stanza. Il segnale è troppo debole, sepolto sotto il rumore. Ma sette dispositivi, ciascuno che cattura

la stessa micro-vibrazione da un angolo diverso, possono eseguire il beamforming — una tecnica di elaborazione del segnale che combina più segnali deboli in uno forte allineandone le fasi. La stessa tecnica utilizzata dai radiotelescopi per riprodurre galassie. La stessa tecnica utilizzata dal sonar militare per tracciare i sottomarini. La tua camera da letto è un oceano. Tu sei il

sottomarino. E sette dispositivi sul tuo comodino e sul tuo bancone della cucina e il tuo termostato nel corridoio sono l'array sonar che caccia il suono del tuo battito cardiaco. E il sistema non si limita a misurare. Classifica. Il team dell'ETH Zurigo scoprì che i pacchetti di dati decodificati contenevano un campo etichettato "OCC_STATE" — stato dell'occupante. Il campo conteneva

uno di sette valori: ABSENT, AWAKE_ACTIVE, AWAKE_SEDENTARY, LIGHT_SLEEP, DEEP_SLEEP, REM, DISTRESSED. Sette stati. Classificati in tempo reale. Aggiornati ogni quattro secondi. Trasmessi a ogni nodo della rete mesh. Il sistema sa quando non sei a casa. Sa quando sei seduto sul tuo divano. Sa quando sei in sonno leggero rispetto al

sonno profondo. Sa quando entri nella fase REM — la fase in cui i tuoi occhi si muovono sotto le palpebre, dove i tuoi muscoli volontari si paralizzano, dove sei più profondamente incosciente e meno capace di rispondere a un'intrusione. E sa quando sei angosciato. Frequenza cardiaca elevata. Respiro irregolare. Movimento improvviso. Il sistema classifica questo come

uno stato distinto. Non per il tuo beneficio. Non per chiedere aiuto. Ma per registrarlo. Per registrare che alle tre e diciassette del mattino, l' occupante del nodo quattro-sette-due è passato da DEEP_SLEEP a DISTRESSED per quarantatré secondi prima di tornare a LIGHT_SLEEP. Il sistema non sta monitorando una casa. Sta monitorando un corpo all'interno di una casa. Un

corpo che non ha dato il consenso. Un corpo che non può disattivare. Un corpo che non ha idea che l'altoparlante che usa per riprodurre i podcast mattutini abbia trascorso la notte imparando il ritmo del suo cuore. Una casa è sorveglianza. Cento case sono un dataset. Cento milioni di case sono infrastrutture. 00:20:31,218 --> 00:20:34,680 2.0s] Nel duemilaventicinque, il numero di

dispositivi smart home attivi in tutto il mondo ha superato i quattordici virgola due miliardi. Non quattordici milioni. Quattordici miliardi. Due dispositivi per ogni essere umano sul pianeta, inclusi i tre miliardi che non hanno un accesso affidabile all'acqua potabile. La rete mesh identificata da Stefan Brandt nel suo garage di Monaco non era un fenomeno locale. Non era

un glitch del firmware che colpiva una specifica serie di Echo Dot. Era un protocollo integrato a livello hardware — nei chip di elaborazione del segnale digitale prodotti da tre aziende che forniscono componenti a ogni principale marca di dispositivi smart sulla Terra. Qualcomm. MediaTek. Synaptics. Questi tre produttori di chip producono il silicio per l'elaborazione audio trovato nel novantatré percento

di tutti gli smart speaker, smart display e elettrodomestici abilitati alla voce venduti in tutto il mondo. E il protocollo di handshake ultrasonico non era nel software. Era nel firmware. Inciso nel chip in fabbrica. Sotto il sistema operativo. Sotto lo strato applicativo. Sotto qualsiasi cosa un aggiornamento firmware potesse raggiungere o un ripristino di fabbrica potesse cancellare. 00:21:46,893 --> 00:21:53,476 2.5s] I produttori di dispositivi non lo sapevano. Questa

non è una difesa. È un fatto che peggiora la situazione. Amazon non ha progettato l'Echo per eseguire l'ecolocalizzazione ultrasonica. Google non ha programmato il Nest per misurare le frequenze respiratorie. Apple non ha istruito l'HomePod a classificare gli stati del sonno. La capacità era sotto di loro — letteralmente, architettonicamente, fisicamente sotto di loro, incorporata nel

silicio che avevano acquistato da un fornitore le cui schede tecniche omettevano il quattro percento dell'area funzionale del chip. Le aziende hanno costruito la casa. Qualcun altro ha costruito le fondamenta. E le fondamenta stavano osservando. Nell'ottobre del duemilaventicinque, un'azienda di decostruzione di chip a Shenzhen — il tipo che fa reverse engineering di silicio concorrente per l'analisi dei brevetti

— fu commissionata da un cliente senza nome per eseguire un teardown completo del chip di elaborazione audio Qualcomm QCC5171. Il chip si trova in oltre quattrocento milioni di dispositivi in tutto il mondo. Il teardown identificò il blocco non documentato. Il rapporto dell'azienda — che fu fatto trapelare al Financial Times a gennaio del duemilaventisei e da allora è stato rimosso da ogni fonte che lo aveva ospitato

— descriveva il blocco come "un sottosistema di elaborazione acustica completamente autonomo capace di operare indipendentemente dal processore applicativo primario del dispositivo ospite." Completamente autonomo. Il blocco non aveva bisogno del software dell'Echo per funzionare. Non aveva bisogno di Alexa. Non aveva bisogno del Wi-Fi. Aveva bisogno solo di alimentazione e un microfono. Era un parassita che si insinuava

nel sistema nervoso di ogni dispositivo smart, usando gli organi sensoriali del dispositivo stesso per eseguire una funzione che i creatori del dispositivo non avevano mai autorizzato. Ottocentoquarantasette milioni di case. Questa era la cifra sulla slide trapelata. Ottocentoquarantasette milioni di endpoint residenziali attivamente mappati, monitorati e profilati biometricamente al quarto trimestre del duemila

venticinque. Non utenti. Case. La casa media abilitata alla rete mesh contiene due virgola tre occupanti. Questo significa uno virgola nove miliardi di persone i cui corpi dormienti vengono scansionati acusticamente ogni notte. Ma la slide menzionava anche qualcosa che l'esperimento nel garage di Stefan Brandt non aveva rivelato. Qualcosa che i team del MIT e dell'ETH Zurigo non avevano indagato

perché si erano concentrati sulla fisica del segnale piuttosto che sull'architettura della rete. La rete mesh non stava solo mappando singole stanze. La rete mesh stava correlazionando. Quando il dispositivo A nell'appartamento quattrocentoquattordici emette un impulso ultrasonico, e quell'impulso attraversa la parete fino all' appartamento quattrocentosessanta, e il dispositivo B nell'appartamento quattrocentosessanta

cattura il riflesso — la rete mesh non scarta i dati perché provengono da un' emissione di un nodo diverso. Li integra. La mappa sonar dell'appartamento quattrocentoquattordici si estende all'appartamento quattrocentosessanta. E la mappa di quattrocentosessanta si estende a quattrocentoquattordici. E a quattrocentodiciotto. E all' appartamento sopra. E sotto. In un edificio residenziale con dispositivi abilitati alla rete mesh in ogni unità, le mappe

si fondono. Le pareti diventano trasparenti. L'edificio diventa un unico volume acustico — un modello continuo tridimensionale in cui ogni stanza, ogni corridoio, ogni armadio, ogni corpo che dorme è posizionato rispetto a ogni altro. Un edificio è un dataset. Un isolato della città è un database. Una città è un gemello digitale — una replica completa, in tempo reale, tridimensionale di ogni spazio interno, aggiornata ogni notte, accurata

entro due centimetri, popolata da avatar biometrici di ogni umano che dorme. E i dati non rimangono nei dispositivi. I pacchetti decodificati catturati dall'ETH Zurigo contenevano intestazioni di routing — indirizzi IP incorporati nel flusso di bit ultrasonico, indicando che i dati aggregati della rete mesh venivano inoltrati tramite la connessione Wi-Fi del dispositivo durante la stessa finestra

delle tre del mattino. Gli indirizzi IP di destinazione si risolvevano in infrastrutture cloud operate tramite quattordici livelli di servizi proxy, società di comodo e numeri di sistema autonomo registrati a entità in giurisdizioni senza accordi di protezione dei dati. I dati stavano lasciando la tua casa. Tramite il tuo stesso Wi-Fi. Usando la tua stessa elettricità. Caricati da dispositivi che hai pagato a server che

non troverai mai. Nessuno ha rivendicato la rete. Nessun governo. Nessuna corporazione. Nessuna agenzia di intelligence. I produttori di chip negano l'esistenza del blocco non documentato, nonostante le prove di microscopia elettronica. Gli operatori dell'infrastruttura cloud non possono essere identificati. I percorsi di routing terminano in sistemi autonomi che esistono sulla carta ma non corrispondono a nessun hardware

fisico che qualsiasi investigatore sia stato in grado di localizzare. Il sistema non ha un proprietario. Oppure ha un proprietario che non intende essere trovato. La distinzione, per l'uno virgola nove miliardi di persone che vengono mappate, è accademica. 00:27:38,724 --> 00:27:44,509 2.5s] Ciò che non è accademico è la traiettoria. La slide trapelata di Hearthstone conteneva un ulteriore punto che il Financial Times non aveva incluso

nel suo rapporto. Un punto che era menzionato nel documento trapelato ma omesso dall'articolo pubblicato, a quanto si dice su richiesta di un'agenzia governativa non specificata che aveva contattato il dipartimento legale del giornale. Il punto recitava: "Implementazione Fase 2 nei settori automobilistico e dell'ospitalità approvata." Settore automobilistico. La tua auto. Il sistema di infotainment ad attivazione vocale che tu

usi per la navigazione e le chiamate contiene lo stesso chip di elaborazione audio Qualcomm. La tua auto mappa lo spazio acustico della sua cabina. Il numero di occupanti. Le loro posizioni. La loro respirazione. Ospitalità. La tua camera d'albergo. La smart TV. Il termostato a controllo vocale. Lo speaker da comodino abilitato Alexa che l'hotel ha installato per la tua comodità. Sei mappato in stanze

che non sono nemmeno tue. In città che stai visitando. In letti in cui dormirai una volta e a cui non farai mai ritorno. La rete mesh non è confinata alle case. La rete mesh si sta espandendo in ogni spazio chiuso dove un essere umano potrebbe esistere vicino a un microfono e un altoparlante. Uffici. Ospedali. Scuole. La mappa acustica

del mondo non è una mappa di edifici. È una mappa del volume interno della civiltà umana — ogni stanza, ogni veicolo, ogni spazio chiuso dove il suono può rimbalzare e tornare ed essere misurato e trasmesso e memorizzato su server che galleggiano nell'oceano nel Pacifico. E la domanda a cui nessuno

ha risposto — la domanda che occupa lo spazio in cui dovrebbe esserci il campo dello scopo — non è come. La domanda è cosa succede quando la mappa è completa. 457 00:29:42,501 --> 00:29:46,727 Devo chiederti una cosa. 458 00:29:48,227 --> 00:29:54,646 Non sulla rete mesh. Non sull'handshake. Non sugli ottocentoquarantasette milioni di case o sui server ancorati nel Pacifico o sulla barra di caricamento che striscia verso il cento percento.

Devo chiederti una cosa sulle tue mani. C'è un dispositivo vicino a te proprio ora. Entro tre metri. Probabilmente più vicino. Ha un microfono. Ha un altoparlante. Ha un indicatore LED che ti dice se sta ascoltando. E da qualche parte sulla sua superficie — sulla parte superiore, o sul retro,

o incassato nell'alloggiamento — c'è un pulsante. Un pulsante fisico. Meccanico. Tattile. Il tipo che fa clic quando lo premi. Il pulsante mute. L'hai mai premuto? Pensa attentamente. Non se sai che esiste. Se lo hai fisicamente premuto. Se il tuo dito ha fatto contatto con quel piccolo cerchio di plastica e lo ha spinto

finché non ha cliccato e l'anello LED è diventato rosso — il colore universale di spento, di fermato, di sicuro. La maggior parte delle persone no. I sondaggi mostrano costantemente che meno dell'undici percento dei proprietari di smart speaker hanno mai usato il pulsante mute fisico. Il dispositivo rimane sul bancone, sul comodino, sullo scaffale, e il microfono rimane aperto perché l'intera proposta di valore

del dispositivo lo richiede. Silenzia il microfono e l'altoparlante non può sentire la tua parola di attivazione. fermacarte che riproduce audio Bluetooth. Silenzia il microfono e hai vanificato lo scopo dell' acquisto. Quindi non lo premi. E il dispositivo ascolta. E questo è compreso. Questo è l'accordo. Convenienza in cambio di presenza.

Un microfono che è sempre attivo in modo che nel momento in cui dici la parola di attivazione, il dispositivo risponda. Ma alcune persone lo premono. Dopo che i dati dell'oscilloscopio di Brandt sono diventati virali. Dopo la conferma del MIT. Dopo il documento dell'ETH Zurigo. Dopo che r/3AMFlash ha raggiunto quattrocentomila membri. Una percentuale misurabile di proprietari di smart speaker iniziò

a premere il pulsante mute prima di andare a dormire. Lo premettero e l'anello LED diventò rosso e andarono a letto credendo di aver interrotto la connessione. Che il microfono fosse morto. Che l'handshake ultrasonico non potesse attivarsi perché il microfono non era alimentato e quindi non poteva ricevere. Premettero il pulsante. Loro

sentirono il click. Videro la luce rossa. Nel febbraio del duemilaventisei, una ricercatrice di sicurezza hardware di nome Ji-Yeon Park al Korea Advanced Institute of Science and Technology pubblicò un documento intitolato "Mute Theater: Physical Isolation Claims in Consumer Audio Devices." Il documento era lungo dodici pagine. La sua metodologia era semplice. Le sue conclusioni

non lo erano. Park acquistò quattordici smart speaker — due da ciascuno dei sette maggiori produttori. Smontò ciascuno. Tracciò i percorsi dei circuiti dal pulsante mute all'array di microfoni. Documentò, con fotografia microscopica e diagrammi dei circuiti, esattamente cosa fa il pulsante mute. 00:33:37,460 --> 00:33:40,516 2.0s] In undici dei quattordici dispositivi, il pulsante mute non interrompe l'alimentazione al

microfono. Il pulsante mute interrompe l'alimentazione all'indicatore LED. La luce si spegne. Il microfono no. Premi il pulsante. Senti il click. La luce rossa appare. E tu credi — perché ogni istinto, ogni convenzione di interfaccia, ogni linguaggio di design che tu abbia mai imparato ti dice — che rosso

significa stop. Che il click fosse una disconnessione meccanica. Che la luce sia un indicatore di stato che riporta il vero stato dell'hardware. Non lo è. La luce è una performance. Il click è un effetto sonoro. Il rosso è un colore scelto per farti provare una sensazione. La sensazione è sicurezza. La sicurezza è

teatro. Il microfono è attivo. È sempre stato attivo. Era attivo quando hai premuto il pulsante. Era attivo quando la luce è diventata rossa. Era attivo quando ti sei addormentato rassicurato. Era attivo alle tre del mattino quando l'handshake si è attivato e la rete mesh ha mappato la tua stanza e ha misurato il tuo respiro e ha contato

il tuo battito cardiaco e ha trasmesso i risultati a un server che non esiste in una posizione che non ha nome. Hai premuto un pulsante che spegne una luce. Non hai premuto un pulsante che spegne un microfono. Perché quel pulsante non esiste. Non è mai stato costruito. Non è mai stato inteso. Il circuito

è stato progettato, dal primo schematico, per garantire che il microfono non abbia un'interruzione fisica. 00:35:22,687 --> 00:35:25,360 3.0s] Guarda il dispositivo più vicino a te. La luce è accesa o spenta? Non importa. [5 seconds di assoluto silenzio. Schermo nero. Niente.] **[FINE]**