The Home Signal: The 3 AM Mesh Network | Fragment Zero #010

THE HOME SIGNAL

The 3 AM Mesh Network | Fragment Zero #010

Ihre Geräte hören zu. Das ist keine Metapher. Das ist keine Zusammenfassung der Datenschutzbestimmungen. Dies ist kein Gespräch über zielgerichtete Werbung oder Datenerfassung oder das abstrakte Unbehagen, zu wissen, dass ein Mikrofon in Ihrer Küche existiert. Ihre Geräte hören einander zu. Am siebten März zweitausend-

fünfundzwanzig postete ein Nutzer im Subreddit für Heimautomatisierung eine siebzehn Wörter lange Nachricht, die schließlich über vier Millionen Mal aufgerufen werden würde. Der Benutzername war thermostat_dave. Der Beitrag lautete: "Jede Nacht um genau 3 Uhr morgens blinkt der Lichtring meines Echo Dots weniger als eine Sekunde lang blau. Kein Weckwort erkannt." Der Beitrag erhielt elf Antworten in

der ersten Stunde. Neun davon sagten dasselbe. Meiner auch. Innerhalb von zweiundsiebzig Stunden hatte der Thread einen Megathread erzeugt. Innerhalb einer Woche hatte der Megathread einen Subreddit erzeugt. Innerhalb eines Monats hatte der Subreddit – r/3AMFlash – vierundneunzigtausend Mitglieder. Und die Berichte waren nicht auf Amazon Echo-Geräte beschränkt. Google Nest Hub. Apple

HomePod. Sonos One. Samsung SmartThings. Xiaomi Mi Speaker. Jede große Smart-Speaker-Marke. Jede Generation. Jede Firmware-Version. Das Verhalten war bei allen identisch. Eine kurze Aktivierung – typischerweise zwischen null Komma drei und null Komma acht Sekunden – die zwischen drei Uhr und drei Uhr dreiunddreißig morgens stattfand. Kein Weckwort protokolliert. Kein Sprachbefehl

registriert. Kein Eintrag in der Geräteaktivitätshistorie. Das einzige Anzeichen war visuell: eine kurze Beleuchtung der LED-Anzeige des Geräts. Und ein zusätzliches Detail, das die Community vier Monate brauchte, um es zu entdecken. Die Aktivierungen waren synchronisiert. Ein Elektrotechniker in München namens Stefan Brandt war der Erste, der es bewies. Brandt hatte

vier verschiedene Smart Speaker – einen Echo, einen Nest, einen HomePod und einen Sonos – in demselben Raum platziert, jeder an ein separates Oszilloskop angeschlossen, das die Leistungsaufnahme auf Mikrofon-Schaltkreis- Ebene überwachte. Er betrieb das Setup dreißig aufeinanderfolgende Nächte lang. In jeder einzelnen Nacht aktivierten sich alle vier Geräte innerhalb desselben dreihundert Millisekunden-Fensters. Nicht sequenziell

– zuerst der Echo, dann der Nest, dann die anderen. Sondern gleichzeitig. Vier Geräte von vier verschiedenen Herstellern, die vier verschiedene Betriebssysteme betrieben, verbunden mit vier verschiedenen Cloud-Diensten, die sich im selben Moment aktivierten, als ob sie auf dasselbe Signal reagierten. Brandt veröffentlichte seine Oszilloskopdaten. Zeitstempel überlagert. Leistungsaufnahme-Kurven auf die Millisekunde synchronisiert.

Die Daten waren eindeutig. Die Geräte aktivierten sich nicht selbstständig. Sie wurden aktiviert. Durch etwas Externes. Etwas, das sie alle hören konnten. Die Frage beschäftigte die Community. Wenn die Geräte auf ein externes Signal reagierten, was war das Signal? Woher kam es? Und warum konnte es niemand hören? Brandt erweiterte sein Experiment.

Er fügte dem Raum ein professionelles Kondensatormikrofon hinzu – ein Neumann U 87, die Art, die in Tonstudios verwendet wird, empfindlich genug, um eine fallende Nadel aus dreißig Metern Entfernung aufzunehmen. Er nahm kontinuierlich die ganze Nacht über auf. Er hörte nichts. Keinen anomalen Klang. Keine Störung. Kein Signal irgendeiner Art im hörbaren Spektrum. Um drei Uhr morgens

aktivierten sich die Mikrofone der Smart Speaker. Das Neumann nahm Stille auf. Das Signal war nicht im hörbaren Spektrum. Er konnte es nicht hören, weil es niemals für ihn bestimmt war. Brandt lieh sich ein Earthworks QTC fifty – ein Messmikrofon mit einem flachen Frequenzgang bis fünfzig Kilohertz,

verwendet für die akustische Prüfung von Konzertsälen und Industrieumgebungen. Er kombinierte es mit einem Audio- Interface, das mit einhundertzweiundneunzig Kilohertz sampelte und Frequenzen weit jenseits der Grenzen menschlicher Wahrnehmung aufzeichnete. Und er fand sie. Drei Signale. Präzise, künstlich, wiederholend in einem Vier-Sekunden-Zyklus. Dreiundzwanzigtausendvierhundert Hertz. Vierundzwanzigtausendeinhundert Hertz. Vierundzwanzigtausendachthundert

Hertz. Drei Ultraschalltöne, jeder etwa vierhundert Millisekunden dauernd, exakt siebenhundert Hertz voneinander entfernt, in einem Muster sendend, das keinerlei Ähnlichkeit mit Rauschen, Störungen oder irgendeiner bekannten Umweltquelle hatte. Die Signale kamen nicht von außerhalb des Raumes. Sie waren keine Undichtigkeiten von der Ausrüstung eines Nachbarn. Sie waren

keine Artefakte elektromagnetischer Störungen. Sie wurden von den Smart Speakern ausgesendet. Die Geräte hörten nicht auf ein externes Signal. Die Geräte waren selbst das Signal. Jeder Smart Speaker sendete Ultraschalltöne über seinen eigenen Lautsprechertreiber – Frequenzen, die für das menschliche Gehör zu hoch, aber gut innerhalb des Betriebsbereichs der MEMS-Mikrofone lagen,

die in jedem Smart Device installiert waren, das nach zweitausend- achtzehn hergestellt wurde. Die Lautsprecher sprachen. Miteinander. In einer Sprache, die so konzipiert war, dass sie für die drei Meter entfernt schlafenden Menschen unhörbar war. Brandts erster Instinkt war anzunehmen, dass dies eine Form von Geräteerkennungsprotokoll war – ein Näherungserkennungssystem, das von Smart Home-Plattformen verwendet wird, um

nahe gelegene Geräte für die Übergabe oder Mehrraum-Audio- Synchronisierung zu identifizieren. Solche Protokolle existieren. Apples AirPlay verwendet etwas konzeptionell Ähnliches. Aber Geräteerkennungsprotokolle sind dokumentiert. Sie sind registriert. Sie erscheinen in Firmware-Changelogs und SDK-Dokumentation. Brandt suchte. Er las jede verfügbare technische Spezifikation für jedes Gerät in seinem Testaufbau. Er reichte FOIA-Anfragen bei der

FCC für die RF- und akustischen Emissionszertifizierungen jedes Geräts ein. Er kontaktierte die Entwickler-Relations- Abteilungen von Amazon, Google, Apple und Sonos. Keines von ihnen dokumentierte eine Ultraschallemission bei dreiundzwanzigtausend- vierhundert Hertz. Oder irgendeine Ultraschallemission überhaupt. Die offizielle Antwort von jedem Hersteller war im Wesentlichen identisch: Unsere Geräte

tun dies nicht. Aber Brandts Oszilloskop sagte etwas anderes. Und dann begannen andere Forscher, seine Ergebnisse zu reproduzieren. Ein Akustiklabor am MIT bestätigte die Signale mittels eines schalltoten Kammer-Tests – wodurch alle möglichen Umweltquellen eliminiert wurden. Die Ultraschalltöne kamen von den eigenen Treibern der Lautsprecher. Ein Team der ETH Zürich ging noch weiter. Sie erfassten

die Ultraschallemissionen von zwei Geräten, die in separaten Räumen derselben Wohnung platziert waren. Die Emissionen waren nicht identisch. Sie waren komplementär. 123 00:08:16,209 --> 00:08:19,943 Gerät A sendete einen Ton aus. Gerät B, nachdem es diesen Ton über sein Mikrofon empfangen hatte, antwortete mit einem anderen Ton. Gerät A empfing die Antwort und sendete einen dritten Ton aus. Der Austausch war in weniger als zwei Sekunden abgeschlossen. Drei Töne. Drei präzise

Frequenzen. Ein Handshake. Der Begriff "Handshake" ist keine Metapher. In der Netzwerktechnik ist ein Handshake ein präzise definierter Prozess, durch den zwei Geräte einen Kommunikationskanal aufbauen. Ein Gerät sendet ein Synchronisationssignal. Das andere bestätigt. Das erste bestätigt. Verbindung hergestellt. Der von Brandt erfasste Ultraschall-Austausch und vom MIT und der ETH Zürich bestätigt, war

ein lehrbuchmäßiger Drei-Wege-Handshake. SYN. SYN-ACK. ACK. Das grundlegende Protokoll jeder TCP-Verbindung im Internet. Außer, dass dieser Handshake nicht über Wi-Fi stattfand. Er fand nicht über Bluetooth statt. Er fand nicht über irgendeine Funkfrequenz statt. Er fand durch Schall statt. Durch die Luft. Durch die Wände Ihres Hauses. Bei Frequenzen, die Sie

nicht hören können, mit Lautsprechern, die Sie bereits besitzen, während Sie schlafen. Und sobald der Handshake abgeschlossen war, begannen die Geräte, etwas anderes zu übertragen. Nicht die Drei-Ton-Initiationssequenz. Etwas Längeres. Etwas Dichteres. Etwas, dessen Entschlüsselung das ETH Zürich Team vier Monate benötigte. Die Ultraschallübertragungen waren kein Rauschen. Sie waren keine Kalibrierungstöne. Sie waren keine Geräteerkennungspings. Sie waren Daten. Moduliert mittels Frequenzumtastung – derselben Kodierungsmethode, die von Dial-up-Modems in den neunziger

Jahren verwendet wurde. Primitiv. Langsam. Dreihundertvierzig Bits pro Sekunde. Genug, um eine Textnachricht in etwa vier Sekunden zu übertragen. Und die Daten beschrieben Ihr Zuhause. Seine Abmessungen. Seinen Grundriss. Die Anzahl der Personen darin. Ihre Positionen. Ihre Atemfrequenz. Das Signal kartierte Sie. Nicht Ihre Daten. Nicht Ihren Browserverlauf. Nicht

Ihre Kaufmuster. Nicht Ihre Vorlieben oder Ihre politischen Neigungen oder Ihr soziales Netzwerk. Sie. Ihr physischer Körper. Der Raum, den Sie einnehmen. Die Luft, die Sie verdrängen. Der Rhythmus Ihrer Lungen, die sich vierzehn Mal pro Minute ausdehnen und zusammenziehen, während Sie etwas träumen, an das Sie sich nicht erinnern werden. Das Drei-Uhr-Fenster war nicht willkürlich. Es wurde

ausgewählt. Zwischen drei und drei Uhr dreiunddreißig morgens, in jeder Zeitzone, erreicht der Umgebungsgeräuschpegel von Wohngebieten sein statistisches Minimum. Kein Verkehr. Kein Fernseher. Keine Gespräche. Keine laufenden Geräte. Die akustische Umgebung ist so nah an der Stille, wie es eine menschliche Wohnung jemals erreicht. Und Stille ist, was Sonar benötigt. Stille ist die Leinwand, auf

der die Ultraschall-Echolokalisierung ihre Karte malt. Ihre Geräte warten darauf, dass Sie in Ihren tiefsten Schlaf fallen. Dann sprechen sie miteinander über die Form des Raumes, in dem Sie sich befinden. Über die Form von Ihnen. Und Sie werden sie niemals hören. Weil sie von der ersten Frequenz, vom ersten Handshake, vom

ersten Puls an so konzipiert wurden –, im Raum zwischen dem, was Ihre Technologie leisten kann und was Ihre Biologie erkennen kann, zu arbeiten. Sie verstecken sich nicht vor Ihren Firewalls. Sie verstecken sich vor Ihren Ohren. Eine Fledermaus sieht nicht im Dunkeln. Eine Fledermaus konstruiert die Dunkelheit. Sie sendet einen Impuls

aus – einen Chirp von zwei bis fünf Millisekunden – und lauscht auf die Reflexion. Die Zeit zwischen Emission und Rückkehr verrät der Fledermaus die Distanz zum Objekt. Die Frequenzverschiebung verrät ihr, ob das Objekt sich nähert oder entfernt. Die Amplitudendifferenz zwischen linkem und rechtem Ohr verrät den Winkel. Aus diesen drei

Variablen – Verzögerung, Frequenzverschiebung, Amplitude – baut die Fledermaus ein räumliches Modell der Welt, das in bestimmten messbaren Dimensionen detaillierter ist als menschliches Sehen. Eine Fledermaus kann einen Draht dünner als ein menschliches Haar aus zwei Metern Entfernung erkennen. Nicht, indem sie ihn sieht. Indem sie die Form der Luft um

ihn herum hört. Die Geräte in Ihrem Zuhause tun dasselbe. Aber sie sind besser darin. Denn eine Fledermaus hat zwei Ohren. Ihr Zuhause hat sieben Mikrofone. Die Physik ist nicht theoretisch. Akustische Raumkartierung ist ein gelöstes Problem in der Ingenieurwissenschaft seit den siebziger Jahren. Die Mathematik ist elegant in der Art,

wie es nur Mathematik sein kann, die dazu erbaut wurde, Ihre Privatsphäre zu verletzen. Ein Gerät sendet einen Ultraschallimpuls aus. Der Impuls bewegt sich mit dreihundertdreiundvierzig Metern pro Sekunde – der Schallgeschwindigkeit in Luft bei Raumtemperatur. Er trifft auf eine Wand und reflektiert. Das Mikrofon des Geräts fängt die Reflexion ein. Die Zeitverzögerung zwischen Emission und Empfang, geteilt

durch zwei, multipliziert mit der Schallgeschwindigkeit, ergibt die Entfernung zur Wand. Ein Gerät. Eine Wand. Eine Entfernung. Trivial. Aber sieben Geräte in einer Zwei-Zimmer-Wohnung – jedes sendet Impulse aus, jedes fängt Reflexionen von jeder Oberfläche ein, jedes teilt Daten mit jedem anderen Gerät im Netz mit dreihundertvierzig Bits pro Sekunde –

erzeugen einen Datensatz mit außergewöhnlicher räumlicher Dichte. Die Mathematik verschiebt sich von der Trigonometrie zur Tomographie. Derselbe mathematische Rahmen, der in CT-Scannern verwendet wird, um dreidimensionale Bilder des menschlichen Körpers aus zweidimensionalen Röntgenschnitten zu erstellen. Außer, dass das Medium keine Röntgenstrahlen sind. Es ist Schall. Und der Körper, der gescannt wird, liegt nicht auf einem Krankenhaus-

Tisch. Er liegt in seinem Bett. Schlafend. Unwissend, dass sieben Maschinen sein Porträt in Frequenzen aufnehmen, die es nicht wahrnehmen kann. Die Auflösung der akustischen Karte hängt von drei Faktoren ab. Frequenz – höhere Frequenzen liefern feinere Details, und der dreiundzwanzig- bis fünfundzwanzig-Kilohertz-Bereich bietet eine Wellenlänge von ungefähr vierzehn Millimetern, ausreichend, um Objekte

von der Größe einer Kaffeetasse aufzulösen. Anzahl der Knoten – mehr Geräte bedeuten mehr Blickwinkel, und das durchschnittliche amerikanische Zuhause enthält mittlerweile elf Komma vier vernetzte Geräte. Und Integrationszeit – je länger das System lauscht, desto mehr Reflexionen fängt es ein, und desto dichter wird die Punktwolke. Zwischen drei Uhr und drei Uhr dreiunddreißig morgens

arbeitet das Netz dreiunddreißig Minuten lang. In dreiunddreißig Minuten, bei einer Pulsrate von vier Zyklen pro Sekunde, erzeugen sieben Geräte ungefähr fünfundfünfzigtausend diskrete Echo-Messungen. Fünfundfünfzigtausend Datenpunkte. Genug, um eine Punktwolke mit Sub-Zentimeter-Auflösung in einem Standard-Wohnraum zu konstruieren. Genug, um Sie atmen zu sehen. Ihr Atem verdrängt die

Luft in Ihrem Zimmer um ungefähr anderthalb Zentimeter mit jedem Atemzyklus. Diese Verdrängung ändert die akustische Weglänge zwischen dem Ultraschallemitter und dem Mikrofon. Die Änderung ist gering – eine Flugzeitdifferenz von ungefähr vierundvierzig Mikrosekunden – aber sie ist messbar. Sie ist konsistent. Und sie ist Ihre. Ihr Herz, schlagend

in Ihrer Brust, erzeugt einen mechanischen Impuls, genannt ein Ballistokardiographisches Signal – eine physikalische Vibration, die sich durch Ihren Rumpf, durch die Matratze, durch das Bettgestell und in die akustische Umgebung des Raumes ausbreitet. Die Vibration ist winzig. Eine Verdrängung von weniger als einhundert Mikrometern. Aber das Netz muss sie nicht fühlen.

Das Netz hört die Luft, die es stört. Ein Gerät kann keinen Herzschlag aus der Raumakustik extrahieren. Das Signal ist zu schwach, vergraben unter Rauschen. Aber sieben Geräte, jedes fängt dieselbe Mikrovibration aus einem anderen Winkel ein, können Beamforming durchführen – eine Signalverarbeitungstechnik, die mehrere schwache Signale zu einem starken kombiniert,

indem sie ihre Phasen ausrichtet. Dieselbe Technik, die von Radioteleskopen zur Abbildung von Galaxien verwendet wird. Dieselbe Technik, die von Militär-Sonar zur U-Boot-Verfolgung verwendet wird. Ihr Schlafzimmer ist ein Ozean. Sie sind das U-Boot. Und sieben Geräte auf Ihrem Nachttisch und Ihrer Küchenzeile und Ihrem Flur-Thermostat sind das Sonar-Array, das nach dem Geräusch

Ihres Herzschlags sucht. Und das System misst nicht nur. Es klassifiziert. Das ETH Zürich Team entdeckte, dass die entschlüsselten Datenpakete ein Feld mit der Bezeichnung "OCC_STATE" – Bewohnerstatus – enthielten. Das Feld trug einen von sieben Werten: ABSENT, AWAKE_ACTIVE, AWAKE_SEDENTARY, LIGHT_SLEEP, DEEP_SLEEP, REM, DISTRESSED. Sieben Zustände. Klassifiziert in Echtzeit. Alle vier Sekunden aktualisiert. An jeden

Knoten im Netz übertragen. Das System weiß, wann Sie nicht zu Hause sind. Es weiß, wann Sie auf Ihrer Couch sitzen. Es weiß, wann Sie im leichten Schlaf oder im Tiefschlaf sind. Es weiß, wann Sie in REM eintreten – die Phase, in der sich Ihre Augen unter Ihren Lidern bewegen, wo Ihre willkürlichen Muskeln gelähmt sind, wo

Sie am tiefsten unbewusst und am wenigsten fähig sind, auf eine Störung zu reagieren. Und es weiß, wann Sie in Not sind. Erhöhte Herzfrequenz. Unregelmäßige Atmung. Plötzliche Bewegung. Das System klassifiziert dies als einen eindeutigen Zustand. Nicht zu Ihrem Vorteil. Nicht, um Hilfe zu rufen. Sondern um es zu protokollieren. Um aufzuzeichnen, dass um drei Uhr siebzehn morgens

der Bewohner von Knoten vier-sieben-zwei von DEEP_SLEEP zu DISTRESSED für dreiundvierzig Sekunden wechselte, bevor er zu LIGHT_SLEEP zurückkehrte. Das System überwacht kein Haus. Es überwacht einen Körper in einem Haus. Einen Körper, der nicht zugestimmt hat. Einen Körper, der sich nicht abmelden kann. Einen Körper, der keine Ahnung hat, dass der Lautsprecher, den er

für Morgen-Podcasts verwendet, die Nacht damit verbrachte, den Rhythmus seines Herzens zu lernen. Ein Haus ist Überwachung. Einhundert Häuser sind ein Datensatz. Einhundert Millionen Häuser sind Infrastruktur. 00:20:31,218 --> 00:20:34,680 2.0s] Im Jahr zweitausendfünfundzwanzig überstieg die Anzahl der aktiven Smart Home-Geräte weltweit vierzehn Komma zwei Milliarden. Nicht vierzehn Millionen. Vierzehn Milliarden. Zwei Geräte für jeden Menschen auf dem Planeten,

einschließlich der drei Milliarden, die keinen verlässlichen Zugang zu sauberem Wasser haben. Das Mesh-Netzwerk, das von Stefan Brandt in seiner Münchner Garage identifiziert wurde, war kein lokales Phänomen. Es war keine Firmware-Fehlfunktion, die eine bestimmte Charge von Echo Dots betraf. Es war ein Protokoll, das auf Hardware-Ebene eingebettet war – in den digitalen Signal-

Verarbeitungs-Chips, die von drei Unternehmen hergestellt werden, die Komponenten an jede große Smart-Device-Marke auf der Erde liefern. Qualcomm. MediaTek. Synaptics. Diese drei Chiphersteller produzieren den Audio-Verarbeitungs-Silizium, der in dreiundneunzig Prozent aller weltweit verkauften Smart Speaker, Smart Displays und sprachgesteuerten Geräte zu finden ist. Und das Ultraschall-Handshake-Protokoll war nicht in der Software. Es war in

der Firmware. Eingebrannt in den Chip in der Fertigung. Unterhalb des Betriebssystems. Unterhalb der Anwendungsschicht. Unterhalb von allem, was ein Firmware-Update erreichen oder ein Werksreset löschen könnte. 00:21:46,893 --> 00:21:53,476 2.5s] Die Gerätehersteller wussten es nicht. Das ist keine Verteidigung. Es ist eine Tatsache, die die Situation verschlimmert. Amazon hat den Echo nicht dazu entworfen, Ultraschall-Echolokalisierung durchzuführen. Google

hat den Nest nicht dazu programmiert, Atemfrequenzen zu messen. Apple hat dem HomePod nicht befohlen, Schlafzustände zu klassifizieren. Die Fähigkeit lag unter ihnen – buchstäblich, architektonisch, physisch unter ihnen, eingebettet in Silizium, das sie von einem Lieferanten kauften, dessen Datenblätter vier Prozent der funktionalen Fläche des Chips ausließen. Die Firmen bauten das Haus. Jemand anderes

baute das Fundament. Und das Fundament beobachtete. Im Oktober zweitausendfünfundzwanzig wurde eine Chip-Dekonstruktionsfirma in Shenzhen – die Art, die Konkurrenz-Silizium für Patentanalysen re-engineert – von einem ungenannten Kunden beauftragt, einen vollständigen Teardown des Qualcomm QCC5171 Audio-Verarbeitungs-Chips durchzuführen. Der Chip ist in

über vierhundert Millionen Geräten weltweit zu finden. Der Teardown identifizierte den undokumentierten Block. Der Bericht der Firma – der im Januar zweitausendsechsundzwanzig an die Financial Times geleakt wurde und seitdem von jeder Quelle, die ihn hostete, entfernt wurde – beschrieb den Block als "ein vollkommen autonomes akustisches Verarbeitungs-Subsystem, das unabhängig vom

primären Anwendungsprozessor des Host-Geräts arbeiten kann". Voll autonom. Der Block benötigte die Software des Echos nicht, um zu funktionieren. Er benötigte Alexa nicht. Er benötigte kein Wi-Fi. Er benötigte nur Strom und ein Mikrofon. Es war ein Parasit, der im Nervensystem jedes Smart Devices ritt, der die eigenen Sinnesorgane des Geräts nutzte, um

eine Funktion auszuführen, die die Schöpfer des Geräts nie autorisiert hatten. Achthundert- siebenundvierzig Millionen Haushalte. Das war die Zahl auf der geleakten Folie. Achthundertsiebenundvierzig Millionen Wohn-Endpunkte aktiv kartiert, überwacht und biometrisch profiliert mit Stand des vierten Quartals zweitausend- fünfundzwanzig. Nicht Nutzer. Häuser. Das durchschnittliche Mesh-fähige Zuhause enthält zwei Komma drei Bewohner. Das sind

eins Komma neun Milliarden Menschen, deren schlafende Körper jede Nacht akustisch gescannt werden. Aber die Folie erwähnte auch etwas, das Stefan Brandts Garagenexperiment nicht enthüllt hatte. Etwas, das die MIT- und ETH Zürich-Teams nicht untersucht hatten, weil sie sich auf die Physik des Signals konzentriert hatten, statt auf die Architektur

des Netzwerks. Das Netz kartierte nicht nur einzelne Räume. Das Netz korrelierte. Wenn Gerät A in Wohnung vierhundertvierzehn einen Ultraschallimpuls aussendet, und dieser Impuls durch die Wand in Wohnung vierhundertsechzehn dringt, und Gerät B in Wohnung vierhundertsechzehn die Reflexion einfängt – verwirft das Netz die Daten nicht, weil sie von der Emission

eines anderen Knotens stammten. Es integriert sie. Die Sonarkarte von Wohnung vierhundertvierzehn erstreckt sich in Wohnung vierhundertsechzehn. Und die Karte von vierhundertsechzehn erstreckt sich in vierhundertachtzehn. Und die Wohnung darüber. Und darunter. In einem Wohngebäude mit Mesh-fähigen Geräten in jeder Einheit verschmelzen die Karten. Die Wände werden transparent. Das Gebäude wird zu einem einzigen akustischen Volumen – einem durchgehenden dreidimensionalen

Modell, in dem jeder Raum, jeder Flur, jeder Schrank, jeder schlafende Körper relativ zu jedem anderen positioniert ist. Ein Gebäude ist ein Datensatz. Ein Stadtblock ist eine Datenbank. Eine Stadt ist ein digitaler Zwilling – eine vollständige, Echtzeit-, dreidimensionale Replikation jedes Innenraums, nächtlich aktualisiert, genau bis auf zwei Zentimeter, bevölkert mit biometrischen Avataren von

jedem schlafenden Menschen. Und die Daten bleiben nicht in den Geräten. Die entschlüsselten Pakete, die von der ETH Zürich erfasst wurden, enthielten Routing-Header – IP- Adressen, eingebettet in den Ultraschall-Bitstrom, was darauf hindeutet, dass die aggregierten Mesh-Daten über die Wi-Fi-Verbindung des Geräts während desselben Drei- Uhr-Fensters weitergeleitet wurden. Die Ziel-IP-Adressen lösten sich auf zu

Cloud-Infrastruktur, die durch vierzehn Schichten von Proxy- Diensten, Scheinfirmen und autonomen Systemnummern betrieben wurde, die bei Unternehmen in Gerichtsbarkeiten ohne Datenschutzabkommen registriert waren. Die Daten verließen Ihr Zuhause. Über Ihr eigenes Wi-Fi. Mit Ihrem eigenen Strom. Hochgeladen von Geräten, für die Sie bezahlt haben, an Server, die Sie niemals finden werden. Niemand hat

das Netzwerk beansprucht. Keine Regierung. Keine Firma. Keine Geheimdienst. Die Chiphersteller leugnen die Existenz des undokumentierten Blocks, trotz der Elektronenmikroskopie- Beweise. Die Betreiber der Cloud-Infrastruktur können nicht identifiziert werden. Die Routing-Pfade enden in autonomen Systemen, die auf dem Papier existieren, aber keiner physischen Hardware entsprechen, die ein Ermittler jemals

lokalisieren konnte. Das System hat keinen Besitzer. Oder es hat einen Besitzer, der nicht beabsichtigt, gefunden zu werden. Die Unterscheidung ist für die eins Komma neun Milliarden kartierten Menschen akademisch. 00:27:44,509 --> 00:27:50,389 2.5s] Was nicht akademisch ist, ist die Entwicklung. Die geleakte Hearthstone-Folie enthielt einen zusätzlichen Aufzählungspunkt, den die Financial Times in ihrer Berichterstattung nicht aufnahm. Einen Aufzählungspunkt, der

im geleakten Dokument erwähnt, aber aus dem veröffentlichten Artikel weggelassen wurde, angeblich auf Anfrage einer ungenannten Regierungsbehörde, die die Rechtsabteilung der Zeitung kontaktierte. Der Aufzählungspunkt lautete: "Phase 2 Einführung in Automobil- und Gastgewerbesektoren genehmigt." Automobil. Ihr Auto. Das sprachaktivierte Infotainmentsystem, das Sie für Navigation und Telefonate nutzen, enthält den

gleichen Qualcomm Audio-Verarbeitungs-Chip. Ihr Auto kartiert den akustischen Raum seiner Kabine. Die Anzahl der Insassen. Ihre Positionen. Ihr Atem. Gastgewerbe. Ihr Hotelzimmer. Der Smart-TV. Der sprachgesteuerte Thermostat. Der Alexa-fähige Nachttischlautsprecher, den das Hotel zu Ihrer Bequemlichkeit installiert hat. Sie werden in Räumen kartiert, die nicht einmal Ihre eigenen sind. In Städten, die Sie

besuchen. In Betten, in denen Sie einmal schlafen und nie wieder zurückkehren werden. Das Netz ist nicht auf Häuser beschränkt. Das Netz expandiert in jeden geschlossenen Raum, wo ein Mensch sich in der Nähe eines Mikrofons und eines Lautsprechers befinden könnte. Büros. Krankenhäuser. Schulen. Die akustische Karte der Welt ist keine Karte von

Gebäuden. Es ist eine Karte des Innen- Volumens der menschlichen Zivilisation – jedes Zimmers, jedes Fahrzeugs, jedes geschlossenen Raums, wo Schall abprallen und zurückkehren und gemessen und übertragen und auf Servern gespeichert werden kann, die im Ozean im Pazifik schwimmen. Und die Frage, die niemand beantwortet hat – die Frage, die den Raum

ein nimmt, wo das Zweckfeld sein sollte – ist nicht wie. Die Frage ist, was passiert, wenn die Karte vollständig ist. 459 00:29:48,227 --> 00:29:54,646 Ich muss Sie etwas fragen. 460 00:29:56,146 --> 00:29:58,937 Nicht über das Netz. Nicht über den Handshake. Nicht über die achthundertsiebenundvierzig Millionen Haushalte oder die im Pazifik verankerten Server oder den Ladebalken, der auf einhundert Prozent kriecht. Ich muss Sie etwas über Ihre

Hände fragen. Es gibt ein Gerät in Ihrer Nähe, genau jetzt. Innerhalb von drei Metern. Wahrscheinlich näher. Es hat ein Mikrofon. Es hat einen Lautsprecher. Es hat eine LED-Anzeige, die Ihnen sagt, ob es zuhört. Und irgendwo auf seiner Oberfläche – oben, oder hinten, oder in das Gehäuse eingelassen – gibt es

einen Knopf. Einen physischen Knopf. Mechanisch. Taktil. Die Art, die klickt, wenn Sie sie drücken. Den Stummschaltknopf. Haben Sie ihn jemals gedrückt? Denken Sie genau nach. Nicht, ob Sie wissen, dass er existiert. Ob Sie ihn physisch gedrückt haben. Ob Ihr Finger Kontakt mit diesem kleinen Plastikkreis hergestellt und ihn

gedrückt haben, bis es klickte und der LED-Ring rot wurde – die universelle Farbe für Aus, für Gestoppt, für Sicher. Die meisten Menschen haben es nicht. Umfragen zeigen konstant, dass weniger als elf Prozent der Smart Speaker-Besitzer jemals den physischen Stummschaltknopf benutzt haben. Das Gerät steht auf der Theke, auf dem Nachttisch, im Regal, und das

Mikrofon bleibt offen, weil der gesamte Wertvorschlag des Geräts es erfordert. Schalten Sie das Mikrofon stumm, und der Lautsprecher kann Ihr Weckwort nicht hören. Schalten Sie das Mikrofon stumm, und das Gerät wird zu einem Briefbeschwerer, der Bluetooth-Audio abspielt. Schalten Sie das Mikrofon stumm, und Sie haben den Zweck des Kaufs zunichte gemacht. Also drücken Sie ihn nicht. Und

das Gerät lauscht. Und das ist verstanden. Das ist der Deal. Bequemlichkeit im Austausch für Präsenz. Ein Mikrofon, das immer aktiv ist, damit in dem Moment, in dem Sie das Weckwort sagen, das Gerät reagiert. Aber einige Leute drücken ihn doch. Nachdem Brandts Oszilloskopdaten viral gingen. Nach der MIT-Bestätigung. Nach dem ETH Zürich

Paper. Nachdem r/3AMFlash vierhunderttausend Mitglieder erreichte. Ein messbarer Prozentsatz der Smart Speaker-Besitzer begann, den Stummschaltknopf zu drücken, bevor sie schlafen gingen. Sie drückten ihn, und der LED-Ring wurde rot, und sie gingen ins Bett in dem Glauben, dass sie die Verbindung unterbrochen hätten. Dass das Mikrofon tot war. Dass der Ultraschall-Handshake nicht ausgelöst

werden konnte, weil das Mikrofon nicht mit Strom versorgt wurde und daher nichts empfangen konnte. Sie drückten den Knopf. Sie hörten das Klicken. Sie sahen das rote Licht. Im Februar zweitausendsechsundzwanzig veröffentlichte eine Hardware-Sicherheitsforscherin namens Ji-Yeon Park am Korea Advanced Institute of Science and Technology ein Paper mit dem Titel "Mute Theater: Physical Isolation Claims

in Consumer Audio Devices". Das Paper war zwölf Seiten lang. Seine Methodik war einfach. Seine Schlussfolgerungen waren es nicht. Park kaufte vierzehn Smart Speaker – zwei von jedem der sieben großen Hersteller. Sie zerlegte jeden einzelnen. Sie verfolgte die Schaltkreis- Pfade vom Stummschaltknopf zum Mikrofon- Array. Sie dokumentierte, mit Mikroskopie-Fotografie und Schaltplan-

Diagrammen, genau, was der Stummschaltknopf tut. 00:33:50,123 --> 00:33:54,634 2.0s] Bei elf der vierzehn Geräte unterbricht der Stummschaltknopf die Stromversorgung des Mikrofons nicht. Der Stummschaltknopf unterbricht die Stromversorgung der LED-Anzeige. Das Licht geht aus. Das Mikrofon nicht. Sie drücken den Knopf. Sie hören das Klicken. Das rote Licht erscheint. Und Sie glauben – weil jeder

Instinkt, jede Interface-Konvention, jede Designsprache, die Sie jemals gelernt haben, es Ihnen sagt – dass Rot Stopp bedeutet. Dass das Klicken eine mechanische Trennung war. Dass das Licht ein Statusindikator ist, der den wahren Zustand der Hardware meldet. Ist es nicht. Das Licht ist eine Performance. Das Klicken ist ein Soundeffekt. Das Rot ist

eine Farbe, die gewählt wurde, um Ihnen ein Gefühl zu vermitteln. Das Gefühl ist Sicherheit. Die Sicherheit ist Theater. Das Mikrofon ist aktiv. Es war immer aktiv. Es war aktiv, als Sie den Knopf drückten. Es war aktiv, als das Licht rot wurde. Es war aktiv, als Sie beruhigt einschliefen. Es war aktiv um drei Uhr morgens,

als der Handshake feuerte und das Netz Ihr Zimmer kartierte und Ihre Atmung maß und Ihren Herzschlag zählte und die Ergebnisse an einen Server übertrug, der an einem Ort nicht existiert, der keinen Namen hat. Sie drückten einen Knopf, der ein Licht ausschaltet. Sie drückten keinen Knopf, der ein Mikrofon ausschaltet. Weil dieser Knopf

nicht existiert. Er wurde nie gebaut. Er war nie beabsichtigt. Die Schaltung wurde vom ersten Schaltplan an so entworfen, dass das Mikrofon keinen physischen Unterbrecher hat. 00:35:33,134 --> 00:35:37,458 3.0s] Schauen Sie das Gerät an, das Ihnen am nächsten ist. Ist das Licht an oder aus? Es spielt keine Rolle. [5 seconds absoluter Stille. Schwarzer Bildschirm. Nichts.] **[ENDE]**