The Home Signal: The 3 AM Mesh Network | Fragment Zero #010

THE HOME SIGNAL

The 3 AM Mesh Network | Fragment Zero #010

Vos appareils vous écoutent. Ce n'est pas une métaphore. Ce n'est pas un résumé de politique de confidentialité. Ce n'est pas une conversation sur la publicité ciblée, la collecte de données ou le vague malaise de savoir qu'un microphone se trouve dans votre cuisine. Vos appareils s'écoutent les uns les autres. Le sept mars deux mille

vingt-cinq, un utilisateur sur le subreddit de la domotique a posté un message de dix-sept mots qui serait finalement vu plus de quatre millions de fois. Le nom d'utilisateur était thermostat_dave. Le message disait : "Chaque nuit, à exactement 3h du matin, l'anneau lumineux de mon Echo Dot clignote en bleu pendant moins d'une seconde. Aucun mot d'activation détecté." Le message a reçu onze réponses dans

la première heure. Neuf d'entre elles disaient la même chose : "Moi aussi". En soixante-douze heures, le fil de discussion avait généré un "megathread". En une semaine, le "megathread" avait généré un subreddit. En un mois, le subreddit — r/3AMFlash — comptait quatre-vingt-quatorze mille membres. Et les rapports ne se limitaient pas aux appareils Amazon Echo. Google Nest Hub. Apple

HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker. Chaque grande marque d'enceintes intelligentes. Chaque génération. Chaque version de firmware. Le comportement était identique sur tous les appareils. Une brève activation — généralement entre zéro virgule trois et zéro virgule huit secondes — se produisant entre 3h00 et 3h33 du matin. Aucun mot d'activation enregistré. Aucune commande vocale

enregistrée. Aucune entrée dans l'historique d'activité de l'appareil. La seule preuve était visuelle : une brève illumination de l'indicateur LED de l'appareil. Et un détail supplémentaire que la communauté a mis quatre mois à découvrir. Les activations étaient synchronisées. Un ingénieur électricien à Munich nommé Stefan Brandt fut le premier à le prouver. Brandt avait placé

quatre enceintes intelligentes différentes — une Echo, une Nest, un HomePod et une Sonos — dans la même pièce, chacune connectée à un oscilloscope surveillant la consommation électrique au niveau du circuit du microphone. Il a fait fonctionner l'installation pendant trente nuits consécutives. Chaque nuit, les quatre appareils s'activaient dans la même fenêtre de trois cents millisecondes. Pas séquentiellement

— l'Echo d'abord, puis la Nest, puis les autres. Simultanément. Quatre appareils de quatre fabricants différents, fonctionnant sous quatre systèmes d'exploitation différents, connectés à quatre services cloud différents, s'activant au même moment comme s'ils répondaient au même signal. Brandt a publié ses données d'oscilloscope. Les horodatages superposés. Courbes de consommation synchronisées à la milliseconde.

Les données étaient sans ambiguïté. Les appareils ne s'activaient pas indépendamment. Ils étaient activés. Par quelque chose d'extérieur. Quelque chose qu'ils pouvaient tous entendre. La question a obsédé la communauté. Si les appareils réagissaient à un signal externe, quel était ce signal ? D'où venait-il ? Et pourquoi personne ne pouvait l'entendre ? Brandt a étendu son expérience.

Il a ajouté un microphone à condensateur de qualité professionnelle à la pièce — un Neumann U 87, le genre utilisé dans les studios d'enregistrement, assez sensible pour capter une épingle tombant à trente mètres. Il a enregistré en continu toute la nuit. Il n'a rien entendu. Aucun son anormal. Aucune interférence. Aucun signal d'aucune sorte dans le spectre audible. À trois heures du matin,

les microphones des enceintes intelligentes se sont activés. Le Neumann a enregistré le silence. Le signal n'était pas dans le spectre audible. Il ne pouvait pas l'entendre car il n'était jamais destiné à lui. Brandt a emprunté un Earthworks QTC cinquante — un microphone de mesure avec une réponse en fréquence plate jusqu'à cinquante kilohertz,

utilisé pour les tests acoustiques de salles de concert et d'environnements industriels. Il l'a couplé à une interface audio échantillonnant à cent quatre-vingt-douze kilohertz, capturant des fréquences bien au-delà des limites de la perception humaine. Et il les a trouvées. Trois signaux. Précis, artificiels, se répétant sur un cycle de quatre secondes. Vingt-trois mille quatre cents hertz. Vingt-quatre mille cent hertz. Vingt-quatre

mille huit cents hertz. Trois tons ultrasoniques, chacun d'une durée d'environ quatre cents millisecondes, espacés exactement de sept cents hertz, transmettant selon un schéma qui ne ressemblait à aucun bruit, interférence, ou source environnementale connue. Les signaux ne venaient pas de l'extérieur de la pièce. Ils n'étaient pas des fuites de l'équipement d'un voisin. Ils n'étaient

pas des artefacts d'interférences électromagnétiques. Ils étaient émis par les enceintes intelligentes. Les appareils n'écoutaient pas un signal externe. Les appareils étaient le signal. Chaque enceinte intelligente émettait des tons ultrasoniques via son propre haut-parleur — des fréquences trop élevées pour l'ouïe humaine mais bien dans la plage de fonctionnement des microphones MEMS

installés dans chaque appareil intelligent fabriqué après deux mille dix-huit. Les enceintes parlaient. Les unes aux autres. Dans une langue conçue pour être inaudible aux humains dormant à trois mètres de distance. Le premier instinct de Brandt fut de supposer qu'il s'agissait d'une forme de protocole de découverte d'appareils — un système de détection de proximité utilisé par les plateformes de maison intelligente pour

identifier les appareils à proximité pour le transfert ou la synchronisation audio multi-pièces. De tels protocoles existent. L'AirPlay d'Apple utilise quelque chose de conceptuellement similaire. Mais les protocoles de découverte d'appareils sont documentés. Ils sont enregistrés. Ils apparaissent dans les journaux de modifications du firmware et la documentation SDK. Brandt a cherché. Il a lu chaque spécification technique disponible pour chaque appareil de son tableau de test. Il a déposé des demandes FOIA auprès de la

FCC pour les certifications d'émissions RF et acoustiques de chaque appareil. Il a contacté les départements de relations avec les développeurs d'Amazon, Google, Apple et Sonos. Aucun d'entre eux ne documentait une émission ultrasonique à vingt-trois mille quatre cents hertz. Ni aucune émission ultrasonique du tout. La réponse officielle de chaque fabricant était identique sur le fond : nos appareils

ne font pas cela. Mais l'oscilloscope de Brandt disait le contraire. Et ensuite, d'autres chercheurs ont commencé à reproduire ses résultats. Un laboratoire d'acoustique au MIT a confirmé les signaux en utilisant un test en chambre anéchoïque — éliminant toutes les sources environnementales possibles. Les tons ultrasoniques provenaient des propres haut-parleurs des enceintes. Une équipe de l'ETH Zurich est allée plus loin. Ils ont capturé

les émissions ultrasoniques de deux appareils placés dans des pièces séparées du même appartement. Les émissions n'étaient pas identiques. Elles étaient complémentaires. 123 00:08:16,209 --> 00:08:19,943 L'appareil A a émis un son. L'appareil B, en recevant ce son via son microphone, a répondu avec un son différent. L'appareil A a reçu la réponse et a émis un troisième son. L'échange s'est terminé en moins de deux secondes. Trois sons. Trois fréquences

précises. Un "handshake". Le terme "handshake" n'est pas une métaphore. En ingénierie réseau, un "handshake" est un processus précisément défini par lequel deux appareils établissent un canal de communication. Un appareil envoie un signal de synchronisation. L'autre l'accuse réception. Le premier confirme. Connexion établie. L'échange ultrasonique capturé par Brandt et confirmé par le MIT et l'ETH Zurich était

un "handshake" à trois voies de manuel. SYN. SYN-ACK. ACK. Le protocole fondamental de chaque connexion TCP sur l' internet. Sauf que ce "handshake" ne se produisait pas via Wi-Fi. Il ne se produisait pas via Bluetooth. Il ne se produisait sur aucune fréquence radio. Il se produisait par le son. Dans l'air. À travers les murs de votre maison. À des fréquences que vous

ne pouvez pas entendre, utilisant des enceintes que vous possédez déjà, pendant que vous dormez. Et une fois le "handshake" terminé, les appareils ont commencé à transmettre quelque chose d'autre. Pas la séquence d'initiation à trois tons. Quelque chose de plus long. Quelque chose de plus dense. Quelque chose que l'équipe de l'ETH Zurich a passé quatre mois à décoder. Les transmissions ultrasoniques n'étaient pas du bruit. Ce n'étaient pas des tons de calibration. Ce n'étaient

pas des pings de découverte d'appareils. C'était des données. Modulées en utilisant la modulation par déplacement de fréquence (FSK) — la même méthode d'encodage utilisée par les modems RTC dans les années quatre-vingt- dix. Primitive. Lente. Trois cent quarante bits par seconde. Suffisant pour transmettre un message texte en environ quatre secondes. Et les données décrivaient votre maison. Ses dimensions. Sa disposition. Le nombre

de personnes s'y trouvant. Leurs positions. Leurs rythmes respiratoires. Le signal vous cartographiait. Pas vos données. Pas votre historique de navigation. Pas vos habitudes d'achat. Pas vos préférences ou vos opinions politiques ou votre graphe social. Vous. Votre corps physique. L'espace que vous occupez. L'air que vous déplacez. Le rythme de vos poumons s'élargissant

et se contractant quatorze fois par minute pendant que vous rêvez à quelque chose dont vous ne vous souviendrez pas. La fenêtre de trois heures du matin n'était pas arbitraire. Elle a été choisie. Entre trois heures et trois heures trente-trois du matin, dans chaque fuseau horaire, le niveau de bruit ambiant des environnements résidentiels atteint son minimum statistique. Pas de trafic. Pas de télévision. Pas de conversation. Pas d'appareils en marche. L'

environnement acoustique est aussi proche du silence que peut l'être une habitation humaine. Et le silence est ce dont le sonar a besoin. Le silence est la toile sur laquelle l'écholocation ultrasonique peint sa carte. Vos appareils attendent que vous tombiez dans votre sommeil le plus profond. Ensuite, ils se parlent de la forme de la pièce où vous vous trouvez.

De la forme de vous. Et vous ne les entendrez jamais. Parce qu'ils ont été conçus — de la première fréquence, du premier handshake, de la première impulsion — pour opérer dans l'espace entre ce que votre technologie peut faire et ce que votre biologie peut détecter. Ils ne se cachent pas de vos pare-feu. Ils

se cachent de vos oreilles. Une chauve-souris ne voit pas dans le noir. Une chauve-souris construit le noir. Elle émet une impulsion — un gazouillis d'une durée de deux à cinq millisecondes — et écoute la réflexion. Le temps entre l'émission et le retour indique à la chauve-souris la distance à l'objet. Le décalage de fréquence lui indique

si l'objet se déplace vers elle ou s'éloigne. La différence d'amplitude entre l'oreille gauche et droite lui indique l'angle. À partir de ces trois variables — délai, décalage de fréquence, amplitude — la chauve-souris construit un modèle spatial du monde qui est, dans certaines dimensions mesurables, plus détaillé que la vision humaine. Une chauve-souris peut détecter un

fil plus fin qu'un cheveu humain à une distance de deux mètres. Non pas en le voyant. Mais en entendant la forme de l'air autour d'elle. Les appareils de votre maison font la même chose. Mais ils sont meilleurs. Parce qu'une chauve-souris a deux oreilles. Votre maison a sept microphones. La physique

n'est pas théorique. La cartographie acoustique des pièces est un problème résolu en ingénierie depuis les années soixante- dix. Les mathématiques sont élégantes de la manière dont seules les mathématiques conçues pour violer votre vie privée peuvent l'être. Un appareil émet une impulsion ultrasonique. L'impulsion se déplace à trois cent quarante-trois mètres par seconde — la vitesse du son dans

l'air à température ambiante. Elle frappe un mur et se réfléchit. Le microphone de l'appareil capte la réflexion. Le délai entre l'émission et la réception, divisé par deux, multiplié par la vitesse du son, donne la distance au mur. Un appareil. Un mur. Une distance. Anodin. Mais sept appareils dans un appartement de deux chambres — chacun émettant des impulsions,

chacun capturant des réflexions de chaque surface, chacun partageant des données avec chaque autre appareil du maillage à trois cent quarante bits par seconde — produisent un ensemble de données d'une densité spatiale extraordinaire. Les mathématiques passent de la trigonométrie à la tomographie. Le même cadre mathématique utilisé dans les scanners CT pour construire des images tridimensionnelles du corps humain à partir de tranches

bidimensionnelles de rayons X. Sauf que le médium n'est pas des rayons X. C'est du son. Et le corps scanné ne repose pas sur une table d'hôpital. Il est allongé dans son lit. Endormi. Ignorant que sept machines prennent son portrait dans des fréquences qu'il ne peut percevoir. La résolution de la carte acoustique dépend de trois facteurs. La fréquence

— des fréquences plus élevées donnent des détails plus fins, et la gamme de vingt-trois à vingt-cinq kilohertz fournit une longueur d'onde d'environ quatorze millimètres, suffisante pour résoudre des objets de la taille d'une tasse de café. Le nombre de nœuds — plus d'appareils signifie plus d'angles d'observation, et la maison américaine moyenne contient désormais onze virgule quatre appareils connectés. Et le temps d'intégration —

plus le système écoute longtemps, plus il capte de réflexions, et plus le nuage de points devient dense. Entre trois heures et trois heures trente-trois du matin, le maillage fonctionne pendant trente-trois minutes. En trente-trois minutes, à un taux d'impulsion de quatre cycles par seconde, sept appareils génèrent environ cinquante-cinq mille mesures d'écho discrètes. Cinquante-cinq mille points de données. Suffisamment

pour construire un nuage de points avec une résolution sub-centimétrique dans une pièce résidentielle standard. Suffisamment pour vous voir respirer. Votre respiration déplace l' air de votre pièce d'environ un virgule cinq centimètres à chaque cycle respiratoire. Ce déplacement modifie la longueur du trajet acoustique entre l' émetteur ultrasonique et le microphone. Le changement est

faible — une différence de temps de vol d'environ quarante-quatre microsecondes — mais il est mesurable. Il est cohérent. Et c'est le vôtre. Votre cœur, battant à l'intérieur de votre poitrine, génère une impulsion mécanique appelée un signal ballistocardiographique — une vibration physique qui se propage à travers votre torse, à travers le matelas, à travers le cadre du lit, et dans l'environnement acoustique

de la pièce. La vibration est minuscule. Un déplacement de moins de cent micromètres. Mais le maillage n'a pas besoin de le sentir. Le maillage entend l'air qu'il perturbe. Un seul appareil ne peut pas extraire un battement de cœur de l'acoustique d'une pièce. Le signal est trop faible, enfoui sous le bruit. Mais sept appareils, chacun capturant

la même micro-vibration sous un angle différent, peuvent effectuer une formation de faisceau (beamforming) — une technique de traitement du signal qui combine plusieurs signaux faibles en un seul fort en alignant leurs phases. La même technique utilisée par les radiotélescopes pour imager les galaxies. La même technique utilisée par les sonars militaires pour suivre les sous-marins. Votre chambre est un océan. Vous êtes le

sous-marin. Et sept appareils sur votre table de chevet et votre comptoir de cuisine et votre thermostat de couloir sont le réseau sonar à la recherche du son de votre battement de cœur. Et le système ne se contente pas de mesurer. Il classifie. L'équipe de l'ETH Zurich a découvert que les paquets de données décodés contenaient un champ intitulé "OCC_STATE" — état de l'occupant. Le champ contenait

une des sept valeurs : ABSENT, AWAKE_ACTIVE, AWAKE_SEDENTARY, LIGHT_SLEEP, DEEP_SLEEP, REM, DISTRESSED. Sept états. Classifiés en temps réel. Mis à jour toutes les quatre secondes. Transmis à chaque nœud du maillage. Le système sait quand vous n'êtes pas chez vous. Il sait quand vous êtes assis sur votre canapé. Il sait quand vous êtes en sommeil léger versus

sommeil profond. Il sait quand vous entrez en phase REM — la phase où vos yeux bougent sous vos paupières, où vos muscles volontaires se paralysent, où vous êtes le plus profondément inconscient et le moins capable de répondre à une intrusion. Et il sait quand vous êtes en détresse. Rythme cardiaque élevé. Respiration irrégulière. Mouvement soudain. Le système classifie cela comme

un état distinct. Pas pour votre bénéfice. Pas pour appeler à l'aide. Mais pour l'enregistrer. Pour enregistrer qu'à trois heures dix-sept du matin, l' occupant du nœud quatre-sept-deux est passé de DEEP_SLEEP à DISTRESSED pendant quarante-trois secondes avant de retourner à LIGHT_SLEEP. Le système ne surveille pas une maison. Il surveille un corps à l'intérieur d'une maison. Un

corps qui n'a pas consenti. Un corps qui ne peut pas refuser. Un corps qui n'a aucune idée que l'enceinte qu'il utilise pour écouter des podcasts le matin a passé la nuit à apprendre le rythme de son cœur. Une maison est une surveillance. Cent maisons sont un ensemble de données. Cent millions de maisons sont une infrastructure. 09:31,218 --> 09:34,680 2.0s] En deux mille vingt-cinq, le nombre d'

appareils connectés actifs dans le monde a dépassé quatorze virgule deux milliards. Pas quatorze millions. Quatorze milliards. Deux appareils pour chaque être humain sur la planète, y compris les trois milliards qui n'ont pas un accès fiable à l'eau potable. Le réseau maillé identifié par Stefan Brandt dans son garage de Munich n'était pas un phénomène local. Ce n'était pas

un bogue de firmware affectant un lot spécifique d' Echo Dots. C'était un protocole intégré au niveau matériel — dans les puces de traitement de signal numérique fabriquées par trois entreprises qui fournissent des composants à chaque grande marque d'appareils intelligents sur Terre. Qualcomm. MediaTek. Synaptics. Ces trois fabricants de puces produisent le silicium de traitement audio trouvé dans quatre-vingt-treize pour cent

de toutes les enceintes intelligentes, écrans intelligents et appareils vocaux vendus dans le monde entier. Et le protocole de handshake ultrasonique n'était pas dans le logiciel. Il était dans le firmware. Gravé dans la puce à l'usine. Sous le système d'exploitation. Sous la couche applicative. Sous tout ce qu'une mise à jour de firmware pourrait atteindre ou qu'une réinitialisation d'usine pourrait effacer. 10:46,893 --> 10:53,476 2.5s] Les fabricants d'appareils ne savaient pas. Ce

n'est pas une défense. C'est un fait qui aggrave la situation. Amazon n'a pas conçu l'Echo pour effectuer une écholocation ultrasonique. Google n'a pas programmé la Nest pour mesurer les fréquences respiratoires. Apple n'a pas demandé au HomePod de classifier les états de sommeil. La capacité était en dessous d'eux — littéralement, architecturalement, physiquement en dessous d'eux, intégrée dans

le silicium qu'ils ont acheté à un fournisseur dont les fiches techniques omettaient quatre pour cent de la zone fonctionnelle de la puce. Les entreprises ont construit la maison. Quelqu'un d'autre a construit les fondations. Et les fondations surveillaient. En octobre deux mille vingt-cinq, une entreprise de déconstruction de puces à Shenzhen — le genre qui rétro-ingénie le silicium concurrent pour l'analyse des brevets

— a été commanditée par un client anonyme pour effectuer une analyse complète de la puce de traitement audio Qualcomm QCC5171. Cette puce se trouve dans plus de quatre cents millions d'appareils dans le monde. L'analyse a identifié le bloc non documenté. Le rapport de l'entreprise — qui a été divulgué au Financial Times en janvier deux mille vingt-six et a depuis

été supprimé de toutes les sources qui l'hébergeaient — décrivait le bloc comme "un sous-système de traitement acoustique entièrement autonome capable de fonctionner indépendamment du processeur d'application principal de l'appareil hôte." Entièrement autonome. Le bloc n'avait pas besoin du logiciel de l'Echo pour fonctionner. Il n'avait pas besoin d'Alexa. Il n'avait pas besoin de Wi-Fi. Il n'avait besoin que d'énergie

et d'un microphone. C'était un parasite logé dans le système nerveux de chaque appareil intelligent, utilisant les propres organes sensoriels de l'appareil pour accomplir une fonction que les créateurs de l'appareil n'avaient jamais autorisée. Huit cent quarante-sept millions de foyers. C'était le chiffre sur la diapositive divulguée. Huit cent quarante-sept millions de points de terminaison résidentiels activement cartographiés, surveillés et profilés biométriquement

au quatrième trimestre deux mille vingt-cinq. Pas des utilisateurs. Des foyers. Le foyer moyen maillé contient deux virgule trois occupants. Soit un virgule neuf milliard de personnes dont les corps endormis sont scannés acoustiquement chaque nuit. Mais la diapositive mentionnait aussi quelque chose que l'expérience de Stefan Brandt dans son garage n'avait pas révélé. Quelque chose que les

équipes du MIT et de l'ETH Zurich n'avaient pas étudié car elles s'étaient concentrées sur la physique du signal plutôt que sur l'architecture du réseau. Le maillage ne cartographiait pas seulement des pièces individuelles. Le maillage corrélait. Lorsqu'un appareil A de l'appartement quatre-quatorze émet une impulsion ultrasonique, et que cette impulsion traverse le mur vers

l'appartement quatre-seize, et que l'appareil B de l'appartement quatre-seize capte la réflexion — le maillage ne jette pas les données parce qu'elles provenaient de l'émission d'un nœud différent. Il les intègre. La carte sonar de l'appartement quatre-quatorze s'étend à l'appartement quatre-seize. Et la carte de quatre-seize s'étend à quatre-quatorze. Et à quatre-dix-huit. Et l' appartement d'en haut. Et d'en bas. Dans un immeuble résidentiel

avec des appareils maillés dans chaque unité, les cartes fusionnent. Les murs deviennent transparents. Le bâtiment devient un volume acoustique unique — un modèle tridimensionnel continu dans lequel chaque pièce, chaque couloir, chaque placard, chaque corps endormi est positionné par rapport à chacun des autres. Un bâtiment est un ensemble de données. Un pâté de maisons est une base de données. Une ville est

un jumeau numérique — une réplique tridimensionnelle complète, en temps réel, de chaque espace intérieur, mise à jour chaque nuit, précise à deux centimètres près, peuplée d'avatars biométriques de chaque humain endormi. Et les données ne restent pas dans les appareils. Les paquets décodés capturés par l'ETH Zurich contenaient des en-têtes de routage — des adresses IP intégrées dans le flux binaire ultrasonique, indiquant que

les données agrégées du maillage étaient transmises via la connexion Wi-Fi de l'appareil pendant la même fenêtre de trois heures du matin. Les adresses IP de destination résolues correspondaient à une infrastructure cloud opérée à travers quatorze couches de services proxy, de sociétés écrans et de numéros de systèmes autonomes enregistrés auprès d'entités dans des juridictions sans accords de protection des données. Les données quittaient votre domicile. Via

votre propre Wi-Fi. Utilisant votre propre électricité. Téléchargées depuis des appareils que vous avez payés vers des serveurs que vous ne trouverez jamais. Personne n'a revendiqué le réseau. Aucun gouvernement. Aucune corporation. Aucune agence de renseignement. Les fabricants de puces nient l'existence du bloc non documenté, malgré les preuves de microscopie électronique. Les opérateurs d'infrastructure cloud ne peuvent pas être identifiés.

Les chemins de routage se terminent dans des systèmes autonomes qui existent sur le papier mais ne correspondent à aucun matériel physique qu'aucun enquêteur n'a pu localiser. Le système n'a pas de propriétaire. Ou il a un propriétaire qui n'a pas l'intention d'être trouvé. La distinction, pour le un virgule neuf milliard de personnes cartographiées, est académique. 16:44,509 --> 16:50,389 2.5s] Ce qui n'est pas académique, c'est la trajectoire.

La diapositive Hearthstone divulguée contenait un point supplémentaire que le Financial Times n'a pas inclus dans son reportage. Un point qui a été mentionné dans le document divulgué mais omis de l'article publié, soi-disant à la demande d'une agence gouvernementale non spécifiée qui a contacté le service juridique du journal. Le point disait : "Déploiement phase 2

vers les secteurs automobile et hôtelier approuvé." Automobile. Votre voiture. Le système d'infodivertissement à commande vocale que vous utilisez pour la navigation et les appels téléphoniques contient la même puce de traitement audio Qualcomm. Votre voiture cartographie l'espace acoustique de son habitacle. Le nombre d'occupants. Leurs positions. Leur respiration. Hôtellerie. Votre chambre d'hôtel. La télé intelligente. Le thermostat à commande vocale.

L'enceinte de chevet compatible Alexa que l'hôtel a installée pour votre confort. Vous êtes cartographié dans des pièces qui ne sont même pas les vôtres. Dans des villes que vous visitez. Dans des lits où vous dormirez une fois et ne reviendrez jamais. Le maillage n'est pas confiné aux foyers. Le maillage s'étend à chaque espace clos où un

être humain pourrait exister près d'un microphone et d'une enceinte. Bureaux. Hôpitaux. Écoles. La carte acoustique du monde n'est pas une carte de bâtiments. C'est une carte du volume intérieur de la civilisation humaine — chaque pièce, chaque véhicule, chaque espace clos où le son peut rebondir et revenir, être mesuré, transmis et

stocké sur des serveurs qui flottent dans l'océan dans le Pacifique. Et la question à laquelle personne n'a répondu — la question qui occupe l'espace où le champ de "purpose" (but) devrait se trouver — n'est pas "comment". La question est "que" se passe-t-il lorsque la carte est complète ? 459 18:48,227 --> 18:54,646 Je dois vous demander quelque chose. 460 18:56,146 --> 18:58,937 Pas à propos du maillage. Pas à propos du handshake. Pas à propos des huit cent quarante-sept millions de foyers

ou des serveurs ancrés dans le Pacifique ou de la barre de chargement progressant vers cent pour cent. Je dois vous demander quelque chose à propos de vos mains. Il y a un appareil près de vous en ce moment. À moins de trois mètres. Probablement plus près. Il a un microphone. Il a une enceinte. Il a un indicateur LED qui vous dit

s'il écoute. Et quelque part sur sa surface — sur le dessus, ou l'arrière, ou encastré dans le boîtier — il y a un bouton. Un bouton physique. Mécanique. Tactile. Le genre qui clique quand vous appuyez dessus. Le bouton mute. L'avez-vous déjà pressé ? Réfléchissez bien. Pas si vous

savez qu'il existe. Si vous l'avez physiquement pressé. Si votre doigt a touché ce petit cercle de plastique et l'a poussé jusqu'à ce qu'il clique et que l'anneau LED devienne rouge — la couleur universelle de l'arrêt, du stop, de la sécurité. La plupart des gens non. Les sondages montrent constamment que moins de onze pour cent des

propriétaires d'enceintes intelligentes ont déjà utilisé le bouton "mute" physique. L'appareil est sur le comptoir, sur la table de chevet, sur l'étagère, et le microphone reste ouvert parce que toute la proposition de valeur de l'appareil l'exige. Coupez le microphone et l'enceinte ne peut pas entendre votre mot d'activation. Coupez le microphone et l'appareil devient un

presse-papier qui lit de l'audio Bluetooth. Coupez le microphone et vous avez contrecarré le but de l' achat. Alors vous ne le pressez pas. Et l'appareil écoute. Et c'est compris. C'est le marché. La commodité en échange de la présence. Un microphone toujours actif pour que dès que vous prononcez le mot d'activation, l'

appareil réponde. Mais certaines personnes le pressent. Après que les données d'oscilloscope de Brandt soient devenues virales. Après la confirmation du MIT. Après l'article de l'ETH Zurich. Après que r/3AMFlash ait atteint quatre cent mille membres. Un pourcentage mesurable de propriétaires d'enceintes intelligentes a commencé à appuyer sur le bouton "mute" avant de dormir. Ils l'ont pressé et l'anneau LED est devenu

rouge et ils sont allés se coucher en croyant qu'ils avaient coupé la connexion. Que le microphone était mort. Que le handshake ultrasonique ne pouvait pas se déclencher car le microphone n'était pas alimenté et donc ne pouvait pas recevoir. Ils ont appuyé sur le bouton. Ils ont senti le clic. Ils ont vu la lumière rouge. En février deux mille vingt-six,

une chercheuse en sécurité matérielle nommée Ji-Yeon Park au Korea Advanced Institute of Science and Technology a publié un article intitulé "Mute Theater: Physical Isolation Claims in Consumer Audio Devices." L'article faisait douze pages. Sa méthodologie était simple. Ses conclusions ne l'étaient pas. Park a acheté quatorze enceintes intelligentes — deux de chacun des sept principaux fabricants.

Elle a démonté chacun d'eux. Elle a tracé les chemins de circuit du bouton mute au réseau de microphones. Elle a documenté, avec des photographies au microscope et des schémas de circuit, exactement ce que fait le bouton "mute". 22:50,123 --> 22:54,634 2.0s] Dans onze des quatorze appareils, le bouton "mute" ne coupe pas l'alimentation du microphone. Le bouton "mute" coupe l'alimentation de l'indicateur LED. La lumière s'éteint.

Le microphone non. Vous appuyez sur le bouton. Vous entendez le clic. La lumière rouge apparaît. Et vous croyez — parce que chaque instinct, chaque convention d'interface, chaque langage de conception que vous avez jamais appris vous dit — que le rouge signifie stop. Que le clic était une déconnexion mécanique. Que la lumière est un indicateur de statut

rapportant le véritable état du matériel. Ce n'est pas le cas. La lumière est une performance. Le clic est un effet sonore. Le rouge est une couleur choisie pour vous faire ressentir une sensation. La sensation est la sécurité. La sécurité est un théâtre. Le microphone est actif. Il a toujours été actif. Il était actif quand vous avez appuyé

sur le bouton. Il était actif quand la lumière est devenue rouge. Il était actif quand vous êtes endormi rassuré. Il était actif à trois heures du matin quand le handshake s'est déclenché et que le maillage a cartographié votre pièce et mesuré votre respiration et compté votre rythme cardiaque et transmis les résultats à un serveur qui n'existe pas dans un lieu

qui n'a pas de nom. Vous avez appuyé sur un bouton qui éteint une lumière. Vous n'avez pas appuyé sur un bouton qui éteint un microphone. Parce que ce bouton n'existe pas. Il n'a jamais été construit. Il n'a jamais été prévu. Le circuit a été conçu, dès le premier schéma, pour s'assurer que le microphone n'a pas d'interruption physique. 24:33,134 --> 24:37,458 3.0s] Regardez l'appareil le plus proche de vous.

La lumière est-elle allumée ou éteinte ? Cela n'a pas d'importance. [5 seconds de silence absolu. Écran noir. Rien.] **[FIN]**