0.0
Vos appareils vous écoutent. Ce n'est
8.053
pas une métaphore. Ce n'est pas un résumé de politique
10.126
de confidentialité. Ce n'est pas une conversation sur
12.957
la publicité ciblée, la collecte de données ou le vague
16.27
malaise de savoir qu'un microphone se trouve dans
19.171
votre cuisine. Vos appareils s'écoutent les uns
23.769
les autres. Le sept mars deux mille
40.463
vingt-cinq, un utilisateur sur le subreddit de la domotique
44.104
a posté un message de dix-sept mots qui serait finalement
48.069
vu plus de quatre millions de fois. Le nom d'utilisateur était
51.387
thermostat_dave. Le message disait : "Chaque nuit, à exactement
55.271
3h du matin, l'anneau lumineux de mon Echo Dot
57.779
clignote en bleu pendant moins d'une seconde. Aucun mot
60.126
d'activation détecté." Le message a reçu onze réponses dans
65.201
la première heure. Neuf d'entre elles disaient la
67.644
même chose : "Moi aussi". En soixante-douze heures, le
75.064
fil de discussion avait généré un "megathread". En une semaine,
78.887
le "megathread" avait généré un subreddit. En un
82.8
mois, le subreddit — r/3AMFlash — comptait quatre-vingt-quatorze
86.804
mille membres. Et les rapports ne se limitaient
90.718
pas aux appareils Amazon Echo. Google Nest Hub. Apple
96.36
HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker.
102.714
Chaque grande marque d'enceintes intelligentes. Chaque génération. Chaque
108.702
version de firmware. Le comportement était identique sur tous
114.53
les appareils. Une brève activation — généralement entre
117.497
zéro virgule trois et zéro virgule huit secondes
120.316
— se produisant entre 3h00 et 3h33
123.579
du matin. Aucun mot d'activation enregistré. Aucune commande vocale
126.101
enregistrée. Aucune entrée dans l'historique d'activité de l'appareil.
129.439
La seule preuve était visuelle : une brève illumination
132.628
de l'indicateur LED de l'appareil. Et un détail
136.981
supplémentaire que la communauté a mis quatre mois à
139.177
découvrir. Les activations étaient synchronisées. Un
148.561
ingénieur électricien à Munich nommé Stefan Brandt fut
152.491
le premier à le prouver. Brandt avait placé
155.311
quatre enceintes intelligentes différentes — une Echo, une
158.301
Nest, un HomePod et une Sonos — dans
160.522
la même pièce, chacune connectée à un
163.598
oscilloscope surveillant la consommation électrique au niveau du circuit du microphone.
168.126
Il a fait fonctionner l'installation pendant trente nuits
171.458
consécutives. Chaque nuit, les quatre appareils
175.58
s'activaient dans la même fenêtre de trois cents millisecondes. Pas séquentiellement
179.812
— l'Echo d'abord, puis la Nest, puis
181.652
les autres. Simultanément. Quatre appareils de quatre fabricants
184.903
différents, fonctionnant sous quatre systèmes d'exploitation différents, connectés à
188.706
quatre services cloud différents, s'activant au même
191.528
moment comme s'ils répondaient au même signal.
195.236
Brandt a publié ses données d'oscilloscope. Les horodatages
202.247
superposés. Courbes de consommation synchronisées à la milliseconde.
206.627
Les données étaient sans ambiguïté. Les appareils ne
209.85
s'activaient pas indépendamment. Ils étaient activés. Par quelque
214.643
chose d'extérieur. Quelque chose qu'ils pouvaient tous entendre. La question
219.985
a obsédé la communauté. Si les appareils réagissaient
224.045
à un signal externe, quel était ce signal ?
227.154
D'où venait-il ? Et pourquoi personne ne pouvait
289.918
l'entendre ? Brandt a étendu son expérience.
234.938
Il a ajouté un microphone à condensateur de qualité professionnelle à la
239.373
pièce — un Neumann U 87, le genre
241.501
utilisé dans les studios d'enregistrement, assez sensible pour capter
245.67
une épingle tombant à trente mètres. Il a enregistré
248.951
en continu toute la nuit. Il n'a rien entendu. Aucun
256.163
son anormal. Aucune interférence. Aucun signal d'aucune
259.353
sorte dans le spectre audible. À trois heures du matin,
261.95
les microphones des enceintes intelligentes se sont activés. Le
265.288
Neumann a enregistré le silence. Le signal n'était
272.374
pas dans le spectre audible. Il
278.608
ne pouvait pas l'entendre car il n'était jamais
280.371
destiné à lui. Brandt a emprunté un
286.597
Earthworks QTC cinquante — un microphone de mesure avec
289.533
une réponse en fréquence plate jusqu'à cinquante kilohertz,
292.208
utilisé pour les tests acoustiques de salles de concert et
294.752
d'environnements industriels. Il l'a couplé à une interface
297.622
audio échantillonnant à cent quatre-vingt-douze kilohertz, capturant
301.406
des fréquences bien au-delà des limites de la perception humaine.
305.973
Et il les a trouvées. Trois signaux. Précis, artificiels,
310.66
se répétant sur un cycle de quatre secondes. Vingt-trois mille quatre
316.88
cents hertz. Vingt-quatre mille cent hertz. Vingt-quatre
321.373
mille huit cents hertz. Trois tons ultrasoniques, chacun
326.656
d'une durée d'environ quatre cents millisecondes, espacés exactement de sept
331.13
cents hertz, transmettant selon un schéma qui
334.305
ne ressemblait à aucun bruit, interférence, ou source
337.408
environnementale connue. Les signaux ne venaient
344.316
pas de l'extérieur de la pièce. Ils n'étaient
346.642
pas des fuites de l'équipement d'un voisin. Ils n'étaient
349.419
pas des artefacts d'interférences électromagnétiques. Ils étaient
354.759
émis par les enceintes intelligentes. Les appareils
359.549
n'écoutaient pas un signal externe. Les appareils
362.591
étaient le signal. Chaque enceinte intelligente émettait
365.632
des tons ultrasoniques via son propre haut-parleur —
368.747
des fréquences trop élevées pour l'ouïe humaine mais bien
371.714
dans la plage de fonctionnement des microphones MEMS
374.904
installés dans chaque appareil intelligent fabriqué après deux
378.39
mille dix-huit. Les enceintes parlaient. Les unes aux
383.13
autres. Dans une langue conçue pour être inaudible
385.723
aux humains dormant à trois mètres de distance. Le premier
390.24
instinct de Brandt fut de supposer qu'il s'agissait d'une
392.992
forme de protocole de découverte d'appareils — un système
396.137
de détection de proximité utilisé par les plateformes de maison intelligente pour
399.36
identifier les appareils à proximité pour le transfert ou la synchronisation
403.134
audio multi-pièces. De tels protocoles existent. L'AirPlay d'Apple utilise quelque chose
408.009
de conceptuellement similaire. Mais les protocoles de découverte d'appareils sont documentés.
412.804
Ils sont enregistrés. Ils apparaissent dans les journaux de modifications du firmware
416.578
et la documentation SDK. Brandt a cherché. Il a lu chaque
421.829
spécification technique disponible pour chaque appareil de son
426.017
tableau de test. Il a déposé des demandes FOIA auprès de la
429.033
FCC pour les certifications d'émissions RF et acoustiques
432.803
de chaque appareil. Il a contacté les départements de relations avec les développeurs
436.572
d'Amazon, Google, Apple et Sonos. Aucun
441.843
d'entre eux ne documentait une émission ultrasonique à vingt-trois
445.01
mille quatre cents hertz. Ni aucune émission ultrasonique
448.05
du tout. La réponse officielle de
455.26
chaque fabricant était identique sur le fond : nos appareils
458.697
ne font pas cela. Mais l'oscilloscope de Brandt disait
461.326
le contraire. Et ensuite, d'autres chercheurs ont commencé à reproduire
464.628
ses résultats. Un laboratoire d'acoustique au MIT a confirmé
468.813
les signaux en utilisant un test en chambre anéchoïque —
471.476
éliminant toutes les sources environnementales possibles. Les tons ultrasoniques
475.867
provenaient des propres haut-parleurs des enceintes. Une
480.102
équipe de l'ETH Zurich est allée plus loin. Ils ont capturé
482.961
les émissions ultrasoniques de deux appareils placés dans
486.186
des pièces séparées du même appartement. Les émissions
489.41
n'étaient pas identiques. Elles étaient complémentaires. 123 00:08:16,209 --> 00:08:19,943 L'appareil A a émis un son. L'appareil B, en
499.943
recevant ce son via son microphone, a répondu avec
505.893
un son différent. L'appareil A a reçu la réponse
510.677
et a émis un troisième son. L'échange s'est terminé
515.461
en moins de deux secondes. Trois sons. Trois fréquences
520.245
précises. Un "handshake". Le terme "handshake" n'est pas
525.958
une métaphore. En ingénierie réseau, un "handshake" est
528.816
un processus précisément défini par lequel deux appareils
531.541
établissent un canal de communication. Un appareil envoie un
534.598
signal de synchronisation. L'autre l'accuse réception. Le premier confirme.
538.586
Connexion établie. L'échange ultrasonique capturé par Brandt
544.841
et confirmé par le MIT et l'ETH Zurich était
547.69
un "handshake" à trois voies de manuel. SYN. SYN-ACK. ACK. Le
551.874
protocole fondamental de chaque connexion TCP sur l'
555.879
internet. Sauf que ce "handshake" ne se produisait pas via
560.063
Wi-Fi. Il ne se produisait pas via Bluetooth. Il
563.534
ne se produisait sur aucune fréquence radio. Il
568.458
se produisait par le son. Dans l'air. À travers
571.45
les murs de votre maison. À des fréquences que vous
573.726
ne pouvez pas entendre, utilisant des enceintes que vous possédez déjà, pendant
576.522
que vous dormez. Et une fois le "handshake"
582.54
terminé, les appareils ont commencé à transmettre quelque
585.668
chose d'autre. Pas la séquence d'initiation à trois tons. Quelque chose de plus long.
589.476
Quelque chose de plus dense. Quelque chose que l'équipe de l'ETH Zurich
592.536
a passé quatre mois à décoder. Les transmissions ultrasoniques n'étaient
597.703
pas du bruit. Ce n'étaient pas des tons de calibration. Ce n'étaient
4200.486
pas des pings de découverte d'appareils. C'était des données.
4204.772
Modulées en utilisant la modulation par déplacement de fréquence (FSK) — la même méthode d'encodage
4208.246
utilisée par les modems RTC dans les années quatre-vingt-
4210.835
dix. Primitive. Lente. Trois cent quarante bits
4214.104
par seconde. Suffisant pour transmettre un message texte
4216.693
en environ quatre secondes. Et les données décrivaient
4221.171
votre maison. Ses dimensions. Sa disposition. Le nombre
4224.893
de personnes s'y trouvant. Leurs positions. Leurs rythmes
4228.615
respiratoires. Le signal vous cartographiait.
4236.886
Pas vos données. Pas votre historique de navigation. Pas
4239.256
vos habitudes d'achat. Pas vos préférences ou vos
4242.063
opinions politiques ou votre graphe social. Vous. Votre
4246.387
corps physique. L'espace que vous occupez. L'air
4249.351
que vous déplacez. Le rythme de vos poumons s'élargissant
4252.636
et se contractant quatorze fois par minute pendant que vous
4256.161
rêvez à quelque chose dont vous ne vous souviendrez pas. La
4260.933
fenêtre de trois heures du matin n'était pas arbitraire. Elle a été
4263.505
choisie. Entre trois heures et trois heures trente-trois du matin, dans
4268.88
chaque fuseau horaire, le niveau de bruit ambiant des
4271.988
environnements résidentiels atteint son minimum statistique. Pas de trafic.
4277.342
Pas de télévision. Pas de conversation. Pas d'appareils en marche. L'
4281.746
environnement acoustique est aussi proche du silence que
4285.113
peut l'être une habitation humaine. Et le silence est
4290.007
ce dont le sonar a besoin. Le silence est la toile sur
4293.105
laquelle l'écholocation ultrasonique peint sa carte. Vos appareils
4298.919
attendent que vous tombiez dans votre sommeil le plus profond.
4301.099
Ensuite, ils se parlent de
4303.56
la forme de la pièce où vous vous trouvez.
4305.389
De la forme de vous. Et
4320.513
vous ne les entendrez jamais. Parce qu'ils ont été
4323.485
conçus — de la première fréquence, du premier
4326.622
handshake, de la première impulsion — pour
4329.511
opérer dans l'espace entre ce que votre technologie
4332.98
peut faire et ce que votre biologie peut détecter.