0.0
Ihre Geräte hören zu. Das ist
8.053
keine Metapher. Das ist keine Zusammenfassung der Datenschutzbestimmungen.
10.126
Dies ist kein Gespräch über
12.957
zielgerichtete Werbung oder Datenerfassung oder das abstrakte
16.27
Unbehagen, zu wissen, dass ein Mikrofon in
19.171
Ihrer Küche existiert. Ihre Geräte hören
23.769
einander zu. Am siebten März zweitausend-
40.463
fünfundzwanzig postete ein Nutzer im Subreddit für Heimautomatisierung
44.104
eine siebzehn Wörter lange Nachricht, die schließlich über
48.069
vier Millionen Mal aufgerufen werden würde. Der Benutzername war
51.387
thermostat_dave. Der Beitrag lautete: "Jede Nacht um genau
55.271
3 Uhr morgens blinkt der Lichtring meines Echo Dots
57.779
weniger als eine Sekunde lang blau. Kein Weckwort
60.126
erkannt." Der Beitrag erhielt elf Antworten in
65.201
der ersten Stunde. Neun davon sagten dasselbe.
67.644
Meiner auch. Innerhalb von zweiundsiebzig Stunden hatte der
75.064
Thread einen Megathread erzeugt. Innerhalb einer Woche hatte
78.887
der Megathread einen Subreddit erzeugt. Innerhalb eines
82.8
Monats hatte der Subreddit – r/3AMFlash – vierundneunzigtausend
86.804
Mitglieder. Und die Berichte waren nicht auf
90.718
Amazon Echo-Geräte beschränkt. Google Nest Hub. Apple
96.36
HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker.
102.714
Jede große Smart-Speaker-Marke. Jede Generation. Jede
108.702
Firmware-Version. Das Verhalten war bei allen identisch.
114.53
Eine kurze Aktivierung – typischerweise zwischen
117.497
null Komma drei und null Komma acht Sekunden
120.316
– die zwischen drei Uhr und drei Uhr dreiunddreißig
123.579
morgens stattfand. Kein Weckwort protokolliert. Kein Sprachbefehl
126.101
registriert. Kein Eintrag in der Geräteaktivitätshistorie.
129.439
Das einzige Anzeichen war visuell: eine kurze Beleuchtung
132.628
der LED-Anzeige des Geräts. Und ein zusätzliches
136.981
Detail, das die Community vier Monate brauchte, um
139.177
es zu entdecken. Die Aktivierungen waren synchronisiert. Ein
148.561
Elektrotechniker in München namens Stefan Brandt war
152.491
der Erste, der es bewies. Brandt hatte
155.311
vier verschiedene Smart Speaker – einen Echo, einen
158.301
Nest, einen HomePod und einen Sonos – in
160.522
demselben Raum platziert, jeder an ein separates
163.598
Oszilloskop angeschlossen, das die Leistungsaufnahme auf Mikrofon-Schaltkreis-
168.126
Ebene überwachte. Er betrieb das Setup dreißig aufeinanderfolgende
171.458
Nächte lang. In jeder einzelnen Nacht aktivierten sich alle vier Geräte
175.58
innerhalb desselben dreihundert Millisekunden-Fensters. Nicht sequenziell
179.812
– zuerst der Echo, dann der Nest, dann
181.652
die anderen. Sondern gleichzeitig. Vier Geräte von vier verschiedenen
184.903
Herstellern, die vier verschiedene Betriebssysteme betrieben, verbunden mit
188.706
vier verschiedenen Cloud-Diensten, die sich im selben
191.528
Moment aktivierten, als ob sie auf dasselbe Signal reagierten.
195.236
Brandt veröffentlichte seine Oszilloskopdaten. Zeitstempel
202.247
überlagert. Leistungsaufnahme-Kurven auf die Millisekunde synchronisiert.
206.627
Die Daten waren eindeutig. Die Geräte aktivierten sich nicht
209.85
selbstständig. Sie wurden aktiviert. Durch etwas
214.643
Externes. Etwas, das sie alle hören konnten. Die Frage
219.985
beschäftigte die Community. Wenn die Geräte auf
224.045
ein externes Signal reagierten, was war das Signal?
227.154
Woher kam es? Und warum konnte
229.918
es niemand hören? Brandt erweiterte sein Experiment.
234.938
Er fügte dem Raum ein professionelles Kondensatormikrofon hinzu –
239.373
ein Neumann U 87, die Art,
241.501
die in Tonstudios verwendet wird, empfindlich genug, um
245.67
eine fallende Nadel aus dreißig Metern Entfernung aufzunehmen. Er nahm
248.951
kontinuierlich die ganze Nacht über auf. Er hörte nichts. Keinen
256.163
anomalen Klang. Keine Störung. Kein Signal irgendeiner
259.353
Art im hörbaren Spektrum. Um drei Uhr morgens
261.95
aktivierten sich die Mikrofone der Smart Speaker. Das
265.288
Neumann nahm Stille auf. Das Signal war
272.374
nicht im hörbaren Spektrum. Er
278.608
konnte es nicht hören, weil es niemals
280.371
für ihn bestimmt war. Brandt lieh sich ein
286.597
Earthworks QTC fifty – ein Messmikrofon mit
289.533
einem flachen Frequenzgang bis fünfzig Kilohertz,
292.208
verwendet für die akustische Prüfung von Konzertsälen und
294.752
Industrieumgebungen. Er kombinierte es mit einem Audio-
297.622
Interface, das mit einhundertzweiundneunzig Kilohertz sampelte und
301.406
Frequenzen weit jenseits der Grenzen menschlicher Wahrnehmung aufzeichnete.
305.973
Und er fand sie. Drei Signale. Präzise, künstlich,
310.66
wiederholend in einem Vier-Sekunden-Zyklus. Dreiundzwanzigtausendvierhundert
316.88
Hertz. Vierundzwanzigtausendeinhundert Hertz. Vierundzwanzigtausendachthundert
321.373
Hertz. Drei Ultraschalltöne, jeder
326.656
etwa vierhundert Millisekunden dauernd, exakt siebenhundert
331.13
Hertz voneinander entfernt, in einem Muster sendend, das
334.305
keinerlei Ähnlichkeit mit Rauschen, Störungen oder irgendeiner
337.408
bekannten Umweltquelle hatte. Die Signale kamen
344.316
nicht von außerhalb des Raumes. Sie waren
346.642
keine Undichtigkeiten von der Ausrüstung eines Nachbarn. Sie waren
349.419
keine Artefakte elektromagnetischer Störungen. Sie wurden
354.759
von den Smart Speakern ausgesendet. Die Geräte hörten
359.549
nicht auf ein externes Signal. Die Geräte
362.591
waren selbst das Signal. Jeder Smart Speaker sendete
365.632
Ultraschalltöne über seinen eigenen Lautsprechertreiber –
368.747
Frequenzen, die für das menschliche Gehör zu hoch, aber gut
371.714
innerhalb des Betriebsbereichs der MEMS-Mikrofone lagen,
374.904
die in jedem Smart Device installiert waren, das nach zweitausend-
378.39
achtzehn hergestellt wurde. Die Lautsprecher sprachen. Miteinander.
383.13
In einer Sprache, die so konzipiert war, dass sie für
385.723
die drei Meter entfernt schlafenden Menschen unhörbar war. Brandts
390.24
erster Instinkt war anzunehmen, dass dies eine Form von
392.992
Geräteerkennungsprotokoll war – ein Näherungserkennungssystem,
396.137
das von Smart Home-Plattformen verwendet wird, um
399.36
nahe gelegene Geräte für die Übergabe oder Mehrraum-Audio-
403.134
Synchronisierung zu identifizieren. Solche Protokolle existieren. Apples AirPlay verwendet etwas
408.009
konzeptionell Ähnliches. Aber Geräteerkennungsprotokolle sind dokumentiert.
412.804
Sie sind registriert. Sie erscheinen in Firmware-Changelogs
416.578
und SDK-Dokumentation. Brandt suchte. Er las jede
421.829
verfügbare technische Spezifikation für jedes Gerät in seinem
426.017
Testaufbau. Er reichte FOIA-Anfragen bei der
429.033
FCC für die RF- und akustischen Emissionszertifizierungen
432.803
jedes Geräts ein. Er kontaktierte die Entwickler-Relations-
436.572
Abteilungen von Amazon, Google, Apple und Sonos. Keines
441.843
von ihnen dokumentierte eine Ultraschallemission bei dreiundzwanzigtausend-
445.01
vierhundert Hertz. Oder irgendeine Ultraschallemission
448.05
überhaupt. Die offizielle Antwort von
455.26
jedem Hersteller war im Wesentlichen identisch: Unsere Geräte
458.697
tun dies nicht. Aber Brandts Oszilloskop sagte
461.326
etwas anderes. Und dann begannen andere Forscher,
464.628
seine Ergebnisse zu reproduzieren. Ein Akustiklabor am MIT bestätigte
468.813
die Signale mittels eines schalltoten Kammer-Tests –
471.476
wodurch alle möglichen Umweltquellen eliminiert wurden. Die Ultraschalltöne
475.867
kamen von den eigenen Treibern der Lautsprecher. Ein
480.102
Team der ETH Zürich ging noch weiter. Sie erfassten
482.961
die Ultraschallemissionen von zwei Geräten, die in
486.186
separaten Räumen derselben Wohnung platziert waren. Die Emissionen
489.41
waren nicht identisch. Sie waren komplementär. 123 00:08:16,209 --> 00:08:19,943 Gerät A sendete einen Ton aus. Gerät B, nachdem
499.943
es diesen Ton über sein Mikrofon empfangen hatte, antwortete
505.893
mit einem anderen Ton. Gerät A empfing die Antwort
510.677
und sendete einen dritten Ton aus. Der Austausch war
515.461
in weniger als zwei Sekunden abgeschlossen. Drei Töne. Drei präzise
520.245
Frequenzen. Ein Handshake. Der Begriff "Handshake" ist keine
525.958
Metapher. In der Netzwerktechnik ist ein Handshake ein
528.816
präzise definierter Prozess, durch den zwei Geräte
531.541
einen Kommunikationskanal aufbauen. Ein Gerät sendet ein
534.598
Synchronisationssignal. Das andere bestätigt. Das erste bestätigt.
538.586
Verbindung hergestellt. Der von Brandt erfasste Ultraschall-Austausch
544.841
und vom MIT und der ETH Zürich bestätigt, war
547.69
ein lehrbuchmäßiger Drei-Wege-Handshake. SYN. SYN-ACK. ACK. Das
551.874
grundlegende Protokoll jeder TCP-Verbindung im
555.879
Internet. Außer, dass dieser Handshake nicht über
560.063
Wi-Fi stattfand. Er fand nicht über Bluetooth statt. Er
563.534
fand nicht über irgendeine Funkfrequenz statt. Er
568.458
fand durch Schall statt. Durch die Luft. Durch
571.45
die Wände Ihres Hauses. Bei Frequenzen, die Sie
573.726
nicht hören können, mit Lautsprechern, die Sie bereits besitzen, während
576.522
Sie schlafen. Und sobald der Handshake
582.54
abgeschlossen war, begannen die Geräte, etwas
585.668
anderes zu übertragen. Nicht die Drei-Ton-Initiationssequenz. Etwas Längeres.
589.476
Etwas Dichteres. Etwas, dessen Entschlüsselung das ETH Zürich Team vier Monate benötigte. Die Ultraschallübertragungen waren kein Rauschen. Sie waren keine Kalibrierungstöne. Sie waren keine Geräteerkennungspings. Sie waren Daten.
604.772
Moduliert mittels Frequenzumtastung – derselben Kodierungsmethode,
608.246
die von Dial-up-Modems in den neunziger
610.835
Jahren verwendet wurde. Primitiv. Langsam. Dreihundertvierzig Bits
614.104
pro Sekunde. Genug, um eine Textnachricht
616.693
in etwa vier Sekunden zu übertragen. Und die Daten beschrieben
621.171
Ihr Zuhause. Seine Abmessungen. Seinen Grundriss. Die Anzahl
624.893
der Personen darin. Ihre Positionen. Ihre Atemfrequenz.
628.615
Das Signal kartierte Sie.
636.886
Nicht Ihre Daten. Nicht Ihren Browserverlauf. Nicht
639.256
Ihre Kaufmuster. Nicht Ihre Vorlieben oder Ihre
642.063
politischen Neigungen oder Ihr soziales Netzwerk. Sie. Ihr
646.387
physischer Körper. Der Raum, den Sie einnehmen. Die Luft,
649.351
die Sie verdrängen. Der Rhythmus Ihrer Lungen, die sich
652.636
vierzehn Mal pro Minute ausdehnen und zusammenziehen, während Sie
656.161
etwas träumen, an das Sie sich nicht erinnern werden. Das
660.933
Drei-Uhr-Fenster war nicht willkürlich. Es wurde
663.505
ausgewählt. Zwischen drei und drei Uhr dreiunddreißig morgens, in
668.88
jeder Zeitzone, erreicht der Umgebungsgeräuschpegel von
671.988
Wohngebieten sein statistisches Minimum. Kein Verkehr.
677.342
Kein Fernseher. Keine Gespräche. Keine laufenden Geräte. Die
681.746
akustische Umgebung ist so nah an der Stille, wie
685.113
es eine menschliche Wohnung jemals erreicht. Und Stille ist,
690.007
was Sonar benötigt. Stille ist die Leinwand, auf
693.105
der die Ultraschall-Echolokalisierung ihre Karte malt. Ihre Geräte
698.919
warten darauf, dass Sie in Ihren tiefsten
701.099
Schlaf fallen. Dann sprechen sie miteinander über
703.56
die Form des Raumes, in dem Sie sich befinden.
705.389
Über die Form von Ihnen. Und
720.513
Sie werden sie niemals hören. Weil sie
723.485
von der ersten Frequenz, vom ersten Handshake, vom
726.622
ersten Puls an so konzipiert wurden –,
729.511
im Raum zwischen dem, was Ihre Technologie
732.98
leisten kann und was Ihre Biologie erkennen kann, zu arbeiten.
737.204
Sie verstecken sich nicht vor Ihren Firewalls. Sie
740.269
verstecken sich vor Ihren Ohren. Eine
756.224
Fledermaus sieht nicht im Dunkeln. Eine
758.146
Fledermaus konstruiert die Dunkelheit. Sie sendet einen Impuls
760.868
aus – einen Chirp von zwei bis fünf Millisekunden
763.67
– und lauscht auf die Reflexion. Die Zeit
766.472
zwischen Emission und Rückkehr verrät der Fledermaus die
769.515
Distanz zum Objekt. Die Frequenzverschiebung verrät
772.877
ihr, ob das Objekt sich nähert oder
775.6
entfernt. Die Amplitudendifferenz zwischen linkem und rechtem
779.283
Ohr verrät den Winkel. Aus diesen drei
783.338
Variablen – Verzögerung, Frequenzverschiebung, Amplitude – baut
786.593
die Fledermaus ein räumliches Modell der Welt,
788.961
das in bestimmten messbaren Dimensionen detaillierter ist
792.584
als menschliches Sehen. Eine Fledermaus kann einen
794.803
Draht dünner als ein menschliches Haar aus
796.874
zwei Metern Entfernung erkennen. Nicht, indem sie ihn sieht.
799.389
Indem sie die Form der Luft um
801.682
ihn herum hört. Die Geräte in Ihrem Zuhause
807.953
tun dasselbe. Aber sie sind
810.665
besser darin. Denn eine Fledermaus hat zwei
813.115
Ohren. Ihr Zuhause hat sieben Mikrofone. Die Physik
818.156
ist nicht theoretisch. Akustische Raumkartierung ist ein
821.029
gelöstes Problem in der Ingenieurwissenschaft seit den siebziger
823.836
Jahren. Die Mathematik ist elegant in der Art,
826.578
wie es nur Mathematik sein kann, die dazu
829.451
erbaut wurde, Ihre Privatsphäre zu verletzen. Ein Gerät sendet einen Ultraschallimpuls aus.
833.604
Der Impuls bewegt sich mit dreihundertdreiundvierzig Metern
837.073
pro Sekunde – der Schallgeschwindigkeit in
839.111
Luft bei Raumtemperatur. Er trifft auf eine Wand
841.75
und reflektiert. Das Mikrofon des Geräts fängt die Reflexion
845.897
ein. Die Zeitverzögerung zwischen Emission und Empfang, geteilt
849.442
durch zwei, multipliziert mit der Schallgeschwindigkeit,
852.006
ergibt die Entfernung zur Wand. Ein Gerät.
856.968
Eine Wand. Eine Entfernung. Trivial. Aber sieben Geräte
863.84
in einer Zwei-Zimmer-Wohnung – jedes sendet Impulse aus,
867.789
jedes fängt Reflexionen von jeder Oberfläche ein, jedes teilt
872.565
Daten mit jedem anderen Gerät im Netz
875.596
mit dreihundertvierzig Bits pro Sekunde –
878.627
erzeugen einen Datensatz mit außergewöhnlicher räumlicher Dichte. Die
883.219
Mathematik verschiebt sich von der Trigonometrie zur Tomographie. Derselbe
887.995
mathematische Rahmen, der in CT-Scannern verwendet wird, um
892.036
dreidimensionale Bilder des menschlichen Körpers aus zweidimensionalen
897.18
Röntgenschnitten zu erstellen. Außer, dass das Medium
906.176
keine Röntgenstrahlen sind. Es ist Schall. Und der Körper,
909.059
der gescannt wird, liegt nicht auf einem Krankenhaus-
912.231
Tisch. Er liegt in seinem Bett. Schlafend.
915.21
Unwissend, dass sieben Maschinen sein Porträt
919.439
in Frequenzen aufnehmen, die es nicht wahrnehmen kann. Die Auflösung der
925.006
akustischen Karte hängt von drei Faktoren ab. Frequenz
928.561
– höhere Frequenzen liefern feinere Details, und der
931.799
dreiundzwanzig- bis fünfundzwanzig-Kilohertz-Bereich bietet eine Wellenlänge
936.381
von ungefähr vierzehn Millimetern, ausreichend, um Objekte
941.2
von der Größe einer Kaffeetasse aufzulösen. Anzahl der Knoten
943.49
– mehr Geräte bedeuten mehr Blickwinkel,
946.729
und das durchschnittliche amerikanische Zuhause enthält mittlerweile elf
950.047
Komma vier vernetzte Geräte. Und Integrationszeit –
953.93
je länger das System lauscht, desto mehr Reflexionen
958.165
fängt es ein, und desto dichter wird die Punktwolke.
961.631
Zwischen drei Uhr und drei Uhr dreiunddreißig morgens
966.443
arbeitet das Netz dreiunddreißig Minuten lang. In dreiunddreißig
970.015
Minuten, bei einer Pulsrate von vier Zyklen
972.213
pro Sekunde, erzeugen sieben Geräte ungefähr fünfundfünfzigtausend
976.403
diskrete Echo-Messungen. Fünfundfünfzigtausend Datenpunkte. Genug,
982.483
um eine Punktwolke mit Sub-Zentimeter-Auflösung
986.573
in einem Standard-Wohnraum zu konstruieren. Genug,
1006.294
um Sie atmen zu sehen. Ihr Atem verdrängt die
1010.641
Luft in Ihrem Zimmer um ungefähr anderthalb
1012.791
Zentimeter mit jedem Atemzyklus. Diese
1015.32
Verdrängung ändert die akustische Weglänge zwischen dem
1018.482
Ultraschallemitter und dem Mikrofon. Die Änderung ist
1021.328
gering – eine Flugzeitdifferenz von ungefähr vierundvierzig
1024.869
Mikrosekunden – aber sie ist messbar. Sie ist
1027.082
konsistent. Und sie ist Ihre. Ihr Herz, schlagend
1031.313
in Ihrer Brust, erzeugt einen mechanischen Impuls, genannt
1034.812
ein Ballistokardiographisches Signal – eine physikalische Vibration,
1038.452
die sich durch Ihren Rumpf, durch die Matratze, durch
1042.236
das Bettgestell und in die akustische Umgebung
1045.163
des Raumes ausbreitet. Die Vibration ist winzig. Eine
1047.66
Verdrängung von weniger als einhundert Mikrometern. Aber
1051.016
das Netz muss sie nicht fühlen.
1052.944
Das Netz hört die Luft, die es stört.
1056.799
Ein Gerät kann keinen Herzschlag
1062.229
aus der Raumakustik extrahieren. Das Signal ist zu schwach,
1065.501
vergraben unter Rauschen. Aber sieben Geräte, jedes fängt
1069.745
dieselbe Mikrovibration aus einem anderen Winkel ein, können
1073.724
Beamforming durchführen – eine Signalverarbeitungstechnik, die
1078.057
mehrere schwache Signale zu einem starken kombiniert,
1081.86
indem sie ihre Phasen ausrichtet. Dieselbe Technik, die von
1085.574
Radioteleskopen zur Abbildung von Galaxien verwendet wird. Dieselbe
1089.111
Technik, die von Militär-Sonar zur U-Boot-Verfolgung verwendet wird.
1094.679
Ihr Schlafzimmer ist ein Ozean. Sie sind das
1096.739
U-Boot. Und sieben Geräte auf Ihrem Nachttisch und
1099.761
Ihrer Küchenzeile und Ihrem Flur-Thermostat sind
1102.851
das Sonar-Array, das nach dem Geräusch
1105.117
Ihres Herzschlags sucht. Und das System misst nicht nur.
1110.197
Es klassifiziert. Das ETH Zürich Team entdeckte,
1116.409
dass die entschlüsselten Datenpakete ein Feld
1120.273
mit der Bezeichnung "OCC_STATE" – Bewohnerstatus – enthielten. Das Feld trug
1124.909
einen von sieben Werten: ABSENT, AWAKE_ACTIVE, AWAKE_SEDENTARY, LIGHT_SLEEP,
1131.187
DEEP_SLEEP, REM, DISTRESSED. Sieben Zustände. Klassifiziert in Echtzeit.
1137.708
Alle vier Sekunden aktualisiert. An jeden
1141.923
Knoten im Netz übertragen. Das System
1149.001
weiß, wann Sie nicht zu Hause sind. Es weiß,
1151.278
wann Sie auf Ihrer Couch sitzen. Es
1153.631
weiß, wann Sie im leichten Schlaf oder
1156.136
im Tiefschlaf sind. Es weiß, wann Sie in REM
1158.565
eintreten – die Phase, in der sich Ihre Augen
1161.07
unter Ihren Lidern bewegen, wo Ihre willkürlichen Muskeln gelähmt sind, wo
1164.713
Sie am tiefsten unbewusst und am wenigsten fähig
1168.204
sind, auf eine Störung zu reagieren. Und es weiß,
1172.339
wann Sie in Not sind. Erhöhte Herzfrequenz. Unregelmäßige
1175.517
Atmung. Plötzliche Bewegung. Das System klassifiziert dies als
1178.827
einen eindeutigen Zustand. Nicht zu Ihrem Vorteil. Nicht,
1181.211
um Hilfe zu rufen. Sondern um es zu protokollieren.
1182.866
Um aufzuzeichnen, dass um drei Uhr siebzehn morgens
1185.117
der Bewohner von Knoten vier-sieben-zwei von DEEP_SLEEP zu
1188.824
DISTRESSED für dreiundvierzig Sekunden wechselte, bevor er zu LIGHT_SLEEP zurückkehrte.
1194.297
Das System überwacht kein Haus. Es
1197.283
überwacht einen Körper in einem Haus. Einen
1200.088
Körper, der nicht zugestimmt hat. Einen Körper,
1202.893
der sich nicht abmelden kann. Einen Körper,
1205.336
der keine Ahnung hat, dass der Lautsprecher, den er
1208.05
für Morgen-Podcasts verwendet, die Nacht damit verbrachte, den Rhythmus
1212.121
seines Herzens zu lernen. Ein
1221.088
Haus ist Überwachung. Einhundert Häuser sind ein
1224.192
Datensatz. Einhundert Millionen Häuser sind Infrastruktur. 00:20:31,218 --> 00:20:34,680 2.0s] Im Jahr zweitausendfünfundzwanzig überstieg die Anzahl der
1234.68
aktiven Smart Home-Geräte weltweit vierzehn Komma
1235.61
zwei Milliarden. Nicht vierzehn Millionen. Vierzehn Milliarden. Zwei
1236.487
Geräte für jeden Menschen auf dem Planeten,
1237.149
einschließlich der drei Milliarden, die keinen
1237.793
verlässlichen Zugang zu sauberem Wasser haben. Das Mesh-Netzwerk,
1240.811
das von Stefan Brandt in seiner Münchner Garage
1243.842
identifiziert wurde, war kein lokales Phänomen. Es war keine
1246.133
Firmware-Fehlfunktion, die eine bestimmte Charge von
1249.09
Echo Dots betraf. Es war ein Protokoll, das auf
1251.53
Hardware-Ebene eingebettet war – in den digitalen Signal-
1254.117
Verarbeitungs-Chips, die von drei Unternehmen hergestellt werden, die
1258.035
Komponenten an jede große Smart-Device-Marke auf
1260.992
der Erde liefern. Qualcomm. MediaTek. Synaptics. Diese drei Chiphersteller produzieren
1270.693
den Audio-Verarbeitungs-Silizium, der in dreiundneunzig Prozent
1275.713
aller weltweit verkauften Smart Speaker, Smart Displays und sprachgesteuerten
1280.536
Geräte zu finden ist. Und das Ultraschall-Handshake-Protokoll
1286.146
war nicht in der Software. Es war in
1288.804
der Firmware. Eingebrannt in den Chip in der
1292.151
Fertigung. Unterhalb des Betriebssystems. Unterhalb der Anwendungsschicht.
1297.171
Unterhalb von allem, was ein Firmware-Update
1301.403
erreichen oder ein Werksreset löschen könnte. 00:21:46,893 --> 00:21:53,476 2.5s] Die Gerätehersteller wussten es nicht. Das
1313.476
ist keine Verteidigung. Es ist eine Tatsache,
1315.672
die die Situation verschlimmert. Amazon hat den
1319.395
Echo nicht dazu entworfen, Ultraschall-Echolokalisierung durchzuführen. Google
1324.263
hat den Nest nicht dazu programmiert, Atemfrequenzen zu messen.
1328.082
Apple hat dem HomePod nicht befohlen,
1331.614
Schlafzustände zu klassifizieren. Die Fähigkeit lag unter ihnen
1335.91
– buchstäblich, architektonisch, physisch unter ihnen, eingebettet in
1341.351
Silizium, das sie von einem Lieferanten kauften, dessen Datenblätter
1345.361
vier Prozent der funktionalen Fläche des Chips
1349.656
ausließen. Die Firmen bauten das Haus. Jemand anderes
1354.849
baute das Fundament. Und das Fundament beobachtete.
1360.434
Im Oktober zweitausendfünfundzwanzig
1374.53
wurde eine Chip-Dekonstruktionsfirma in Shenzhen – die Art,
1375.788
die Konkurrenz-Silizium für Patentanalysen re-engineert
1377.794
– von einem ungenannten Kunden beauftragt,
1378.984
einen vollständigen Teardown des Qualcomm QCC5171
1380.344
Audio-Verarbeitungs-Chips durchzuführen. Der Chip ist in
1381.568
über vierhundert Millionen Geräten weltweit zu finden. Der Teardown
1385.133
identifizierte den undokumentierten Block. Der Bericht der Firma –
1388.295
der im Januar zweitausendsechsundzwanzig an die Financial Times
1390.65
geleakt wurde und seitdem von jeder Quelle,
1393.409
die ihn hostete, entfernt wurde –
1395.966
beschrieb den Block als "ein vollkommen autonomes
1398.455
akustisches Verarbeitungs-Subsystem, das unabhängig vom
1402.492
primären Anwendungsprozessor des Host-Geräts arbeiten kann". Voll autonom.
1408.209
Der Block benötigte die Software des Echos
1410.955
nicht, um zu funktionieren. Er benötigte Alexa nicht. Er
1413.388
benötigte kein Wi-Fi. Er benötigte nur Strom
1415.978
und ein Mikrofon. Es war ein Parasit, der
1418.725
im Nervensystem jedes Smart Devices ritt,
1421.942
der die eigenen Sinnesorgane des Geräts nutzte, um
1425.16
eine Funktion auszuführen, die die Schöpfer des Geräts nie autorisiert hatten. Achthundert-
1430.501
siebenundvierzig Millionen Haushalte. Das war die Zahl
1434.146
auf der geleakten Folie. Achthundertsiebenundvierzig Millionen
1437.791
Wohn-Endpunkte aktiv kartiert, überwacht und biometrisch profiliert
1443.143
mit Stand des vierten Quartals zweitausend-
1445.702
fünfundzwanzig. Nicht Nutzer. Häuser. Das durchschnittliche Mesh-fähige Zuhause
1452.068
enthält zwei Komma drei Bewohner. Das sind
1455.909
eins Komma neun Milliarden Menschen, deren schlafende Körper
1460.132
jede Nacht akustisch gescannt werden. Aber
1468.441
die Folie erwähnte auch etwas, das Stefan Brandts
1471.793
Garagenexperiment nicht enthüllt hatte. Etwas, das die
1475.074
MIT- und ETH Zürich-Teams nicht untersucht
1477.727
hatten, weil sie sich auf die Physik
1480.311
des Signals konzentriert hatten, statt auf die Architektur
1482.964
des Netzwerks. Das Netz kartierte nicht nur
1486.858
einzelne Räume. Das Netz korrelierte. Wenn Gerät
1491.799
A in Wohnung vierhundertvierzehn einen Ultraschallimpuls aussendet,
1495.967
und dieser Impuls durch die Wand in
1499.093
Wohnung vierhundertsechzehn dringt, und Gerät B in Wohnung vierhundertsechzehn
1503.868
die Reflexion einfängt – verwirft das Netz die
1506.995
Daten nicht, weil sie von der Emission
1510.293
eines anderen Knotens stammten. Es integriert sie. Die Sonarkarte
1515.764
von Wohnung vierhundertvierzehn erstreckt sich in Wohnung vierhundertsechzehn. Und die Karte von
1520.799
vierhundertsechzehn erstreckt sich in vierhundertachtzehn. Und die Wohnung
1525.227
darüber. Und darunter. In einem Wohngebäude
1531.101
mit Mesh-fähigen Geräten in jeder Einheit verschmelzen die Karten.
1535.474
Die Wände werden transparent. Das Gebäude wird
1540.679
zu einem einzigen akustischen Volumen – einem durchgehenden dreidimensionalen
1546.093
Modell, in dem jeder Raum, jeder Flur, jeder
1550.257
Schrank, jeder schlafende Körper relativ zu
1555.046
jedem anderen positioniert ist. Ein Gebäude ist ein Datensatz. Ein
1559.477
Stadtblock ist eine Datenbank. Eine Stadt ist
1561.859
ein digitaler Zwilling – eine vollständige, Echtzeit-, dreidimensionale
1566.113
Replikation jedes Innenraums, nächtlich aktualisiert, genau
1570.451
bis auf zwei Zentimeter, bevölkert mit biometrischen Avataren von
1574.534
jedem schlafenden Menschen. Und die Daten bleiben nicht
1578.829
in den Geräten. Die entschlüsselten Pakete, die von
1581.74
der ETH Zürich erfasst wurden, enthielten Routing-Header – IP-
1584.305
Adressen, eingebettet in den Ultraschall-Bitstrom, was darauf hindeutet, dass
1588.186
die aggregierten Mesh-Daten über die
1591.097
Wi-Fi-Verbindung des Geräts während desselben Drei-
1594.147
Uhr-Fensters weitergeleitet wurden. Die Ziel-IP-Adressen lösten sich auf zu
1597.143
Cloud-Infrastruktur, die durch vierzehn Schichten von Proxy-
1600.87
Diensten, Scheinfirmen und autonomen Systemnummern betrieben wurde, die
1604.936
bei Unternehmen in Gerichtsbarkeiten ohne Datenschutzabkommen
1607.985
registriert waren. Die Daten verließen Ihr Zuhause. Über
1612.463
Ihr eigenes Wi-Fi. Mit Ihrem eigenen Strom. Hochgeladen
1615.509
von Geräten, für die Sie bezahlt haben, an Server, die Sie
1617.742
niemals finden werden. Niemand hat
1623.718
das Netzwerk beansprucht. Keine Regierung. Keine Firma. Keine
1627.173
Geheimdienst. Die Chiphersteller leugnen die Existenz
1631.215
des undokumentierten Blocks, trotz der Elektronenmikroskopie-
1634.964
Beweise. Die Betreiber der Cloud-Infrastruktur können nicht identifiziert werden.
1639.301
Die Routing-Pfade enden in autonomen Systemen, die
1642.755
auf dem Papier existieren, aber keiner physischen
1645.475
Hardware entsprechen, die ein Ermittler jemals
1648.415
lokalisieren konnte. Das System hat keinen Besitzer. Oder es
1652.641
hat einen Besitzer, der nicht beabsichtigt,
1655.313
gefunden zu werden. Die Unterscheidung ist für die
1658.724
eins Komma neun Milliarden kartierten Menschen akademisch. 00:27:44,509 --> 00:27:50,389 2.5s] Was nicht akademisch ist, ist die Entwicklung.
1671.889
Die geleakte Hearthstone-Folie enthielt einen zusätzlichen Aufzählungspunkt,
1676.003
den die Financial Times in ihrer Berichterstattung
1679.03
nicht aufnahm. Einen Aufzählungspunkt, der
1681.825
im geleakten Dokument erwähnt, aber aus
1685.085
dem veröffentlichten Artikel weggelassen wurde, angeblich auf
1688.5
Anfrage einer ungenannten Regierungsbehörde, die die Rechtsabteilung
1692.847
der Zeitung kontaktierte. Der Aufzählungspunkt lautete: "Phase 2
1697.05
Einführung in Automobil- und Gastgewerbesektoren genehmigt." Automobil.
1702.351
Ihr Auto. Das sprachaktivierte Infotainmentsystem, das Sie
1706.165
für Navigation und Telefonate nutzen, enthält den
1709.157
gleichen Qualcomm Audio-Verarbeitungs-Chip. Ihr Auto kartiert
1712.374
den akustischen Raum seiner Kabine. Die Anzahl
1715.066
der Insassen. Ihre Positionen. Ihr Atem. Gastgewerbe. Ihr
1720.791
Hotelzimmer. Der Smart-TV. Der sprachgesteuerte Thermostat.
1724.242
Der Alexa-fähige Nachttischlautsprecher, den das Hotel
1727.693
zu Ihrer Bequemlichkeit installiert hat. Sie werden in Räumen kartiert,
1730.264
die nicht einmal Ihre eigenen sind. In Städten, die Sie
1732.361
besuchen. In Betten, in denen Sie einmal
1734.527
schlafen und nie wieder zurückkehren werden. Das
1740.807
Netz ist nicht auf Häuser beschränkt. Das Netz
1743.359
expandiert in jeden geschlossenen Raum, wo ein
1746.469
Mensch sich in der Nähe eines Mikrofons und
1749.499
eines Lautsprechers befinden könnte. Büros. Krankenhäuser. Schulen. Die akustische Karte
1753.406
der Welt ist keine Karte von
1755.081
Gebäuden. Es ist eine Karte des Innen-
1757.553
Volumens der menschlichen Zivilisation – jedes Zimmers, jedes
1760.822
Fahrzeugs, jedes geschlossenen Raums, wo Schall abprallen
1764.41
und zurückkehren und gemessen und übertragen und
1767.52
auf Servern gespeichert werden kann, die im Ozean
1770.231
im Pazifik schwimmen. Und die Frage, die niemand
1774.186
beantwortet hat – die Frage, die den Raum
1776.883
ein nimmt, wo das Zweckfeld sein sollte
1779.437
– ist nicht wie. Die Frage ist, was
1782.501
passiert, wenn die Karte vollständig ist. 459 00:29:48,227 --> 00:29:54,646 Ich muss Sie etwas fragen. 460 00:29:56,146 --> 00:29:58,937 Nicht über das Netz. Nicht über den Handshake.
1798.937
Nicht über die achthundertsiebenundvierzig Millionen Haushalte
1802.407
oder die im Pazifik verankerten Server oder
1804.971
den Ladebalken, der auf einhundert Prozent kriecht.
1809.866
Ich muss Sie etwas über Ihre
1811.843
Hände fragen. Es gibt ein Gerät in Ihrer
1818.448
Nähe, genau jetzt. Innerhalb von drei Metern. Wahrscheinlich näher.
1823.457
Es hat ein Mikrofon. Es hat einen Lautsprecher.
1826.908
Es hat eine LED-Anzeige, die Ihnen
1830.358
sagt, ob es zuhört. Und irgendwo auf seiner
1834.587
Oberfläche – oben, oder hinten,
1837.593
oder in das Gehäuse eingelassen – gibt es
1841.154
einen Knopf. Einen physischen Knopf. Mechanisch. Taktil. Die
1845.836
Art, die klickt, wenn Sie sie drücken. Den
1849.398
Stummschaltknopf. Haben Sie ihn jemals gedrückt?
1856.809
Denken Sie genau nach. Nicht, ob Sie
1863.426
wissen, dass er existiert. Ob Sie ihn physisch gedrückt
1867.263
haben. Ob Ihr Finger Kontakt mit
1870.577
diesem kleinen Plastikkreis hergestellt und ihn
1873.629
gedrückt haben, bis es klickte und der LED-Ring
1876.507
rot wurde – die universelle Farbe für Aus, für
1879.036
Gestoppt, für Sicher. Die meisten Menschen haben es nicht. Umfragen
1883.607
zeigen konstant, dass weniger als elf Prozent der
1886.71
Smart Speaker-Besitzer jemals den physischen
1889.602
Stummschaltknopf benutzt haben. Das Gerät steht auf der Theke,
1892.212
auf dem Nachttisch, im Regal, und das
1894.539
Mikrofon bleibt offen, weil der gesamte Wertvorschlag
1898.136
des Geräts es erfordert. Schalten Sie das Mikrofon stumm,
1900.887
und der Lautsprecher kann Ihr Weckwort nicht hören.
1903.426
Schalten Sie das Mikrofon stumm, und das Gerät wird zu einem
1906.035
Briefbeschwerer, der Bluetooth-Audio abspielt. Schalten Sie das Mikrofon stumm,
1909.679
und Sie haben den Zweck des
1911.96
Kaufs zunichte gemacht. Also drücken Sie ihn nicht. Und
1916.165
das Gerät lauscht. Und das ist verstanden. Das
1920.229
ist der Deal. Bequemlichkeit im Austausch für Präsenz.
1924.789
Ein Mikrofon, das immer aktiv ist, damit
1927.962
in dem Moment, in dem Sie das Weckwort sagen, das
1930.936
Gerät reagiert. Aber einige Leute drücken ihn doch.
1937.123
Nachdem Brandts Oszilloskopdaten viral gingen.
1941.954
Nach der MIT-Bestätigung. Nach dem ETH Zürich
1944.974
Paper. Nachdem r/3AMFlash vierhunderttausend Mitglieder erreichte.
1949.025
Ein messbarer Prozentsatz der Smart Speaker-Besitzer begann,
1952.413
den Stummschaltknopf zu drücken, bevor sie schlafen gingen.
1955.359
Sie drückten ihn, und der LED-Ring wurde
1957.716
rot, und sie gingen ins Bett in dem Glauben, dass sie
1960.073
die Verbindung unterbrochen hätten. Dass das Mikrofon
1963.313
tot war. Dass der Ultraschall-Handshake nicht ausgelöst
1966.714
werden konnte, weil das Mikrofon nicht mit Strom versorgt
1970.305
wurde und daher nichts empfangen konnte. Sie drückten den Knopf. Sie
1976.438
hörten das Klicken. Sie sahen das rote Licht.
1982.321
Im Februar zweitausendsechsundzwanzig veröffentlichte
1988.651
eine Hardware-Sicherheitsforscherin namens Ji-Yeon Park am
1992.053
Korea Advanced Institute of Science and Technology ein
1996.06
Paper mit dem Titel "Mute Theater: Physical Isolation Claims
1999.688
in Consumer Audio Devices". Das Paper war zwölf
2002.787
Seiten lang. Seine Methodik war einfach. Seine Schlussfolgerungen
2006.416
waren es nicht. Park kaufte vierzehn Smart Speaker –
2011.195
zwei von jedem der sieben großen Hersteller.
2014.251
Sie zerlegte jeden einzelnen. Sie verfolgte die Schaltkreis-
2017.46
Pfade vom Stummschaltknopf zum Mikrofon-
2020.516
Array. Sie dokumentierte, mit Mikroskopie-Fotografie und Schaltplan-
2024.718
Diagrammen, genau, was der Stummschaltknopf tut. 00:33:50,123 --> 00:33:54,634 2.0s] Bei elf der vierzehn Geräte unterbricht
2034.634
der Stummschaltknopf die Stromversorgung des
2036.672
Mikrofons nicht. Der Stummschaltknopf unterbricht die Stromversorgung
2043.298
der LED-Anzeige. Das Licht geht aus.
2049.699
Das Mikrofon nicht. Sie drücken
2058.11
den Knopf. Sie hören das Klicken. Das rote
2060.554
Licht erscheint. Und Sie glauben – weil jeder
2063.532
Instinkt, jede Interface-Konvention, jede Designsprache, die Sie
2067.809
jemals gelernt haben, es Ihnen sagt – dass Rot
2070.176
Stopp bedeutet. Dass das Klicken eine mechanische
2072.926
Trennung war. Dass das Licht ein Statusindikator
2076.286
ist, der den wahren Zustand der Hardware meldet. Ist
2080.623
es nicht. Das Licht ist eine Performance. Das
2083.25
Klicken ist ein Soundeffekt. Das Rot ist
2085.548
eine Farbe, die gewählt wurde, um Ihnen ein
2087.683
Gefühl zu vermitteln. Das Gefühl ist Sicherheit. Die Sicherheit
2090.802
ist Theater. Das Mikrofon ist aktiv. Es war immer
2094.89
aktiv. Es war aktiv, als Sie den Knopf
2096.822
drückten. Es war aktiv, als das Licht
2098.754
rot wurde. Es war aktiv, als Sie beruhigt
2100.622
einschliefen. Es war aktiv um drei Uhr morgens,
2102.747
als der Handshake feuerte und das Netz
2105.13
Ihr Zimmer kartierte und Ihre Atmung maß und
2107.835
Ihren Herzschlag zählte und die Ergebnisse an einen
2110.411
Server übertrug, der an einem Ort nicht existiert,
2112.536
der keinen Namen hat. Sie drückten einen Knopf,
2116.074
der ein Licht ausschaltet. Sie drückten keinen Knopf,
2117.944
der ein Mikrofon ausschaltet. Weil dieser Knopf
2120.349
nicht existiert. Er wurde nie gebaut. Er
2122.687
war nie beabsichtigt. Die Schaltung
2125.36
wurde vom ersten Schaltplan an so entworfen,
2128.166
dass das Mikrofon keinen physischen Unterbrecher hat. 00:35:33,134 --> 00:35:37,458 3.0s] Schauen Sie das Gerät an, das Ihnen am nächsten ist.
2138.957
Ist das Licht an oder aus?
2145.377
Es spielt keine Rolle. [5 seconds
2151.733
absoluter Stille. Schwarzer Bildschirm. Nichts.] **[ENDE]**