The Phantom Voice: The 3-Second Clone Exploit
THE PHANTOM VOICE
The 3-Second Clone Exploit
Trois quatorze heures du matin. Le téléphone sonne. Vous regardez l'écran. C'est ta mère. Vous répondez.
Elle pleure. Elle ne peut pas respirer correctement. Elle dit ton nom ton vrai Nom, nom de votre enfance, le seul qu'elle ait eu. utilise et elle vous le dit, en
Une voix que vous avez entendue pour votre intégralité La vie, qu'elle a frappé un piéton avec Sa voiture. Qu'elle est au poste de police. Qu'ils vont la garder toute la nuit.
Que l'homme qu'elle a frappé est en état de critique condition. condition. Que elle a besoin de sept mille quatre cents dollars, Le câble, vers un bail bondman, dans les prochains jours. Quarante minutes, ou elle va en prison.
Sa voix craque sur le mot "carcéral". C'est exactement la façon dont elle a toujours fait des fissures sur ce mot. Vous êtes sur le point d'ouvrir votre application bancaire. Votre doigt est sur l'écran.
Le formulaire de transfert est rempli. Le compte bénéficiaire est un numéro de routage que vous avez Je ne reconnais pas, mais sa voix est toujours là. Dans ton oreille, et elle est en train de mendier, et Les secondes se déroulent, et vous êtes déjà là.
Le script est en cours d'exécution: sept mille quatre cents. Zelle, envoie des dollars, ta mère est en sécurité. Et puis la porte de la chambre s'ouvre. Et ta mère entre à l'intérieur. Pleinement habillée.
Chevelures dans une serviette. En tenant une tasse de thé de camomille. À la maison. Demandez-vous si vous venez d'entendre le chat frapper à la porte sur une plante.
Vous venez d'avoir parlé au téléphone avec Un logiciel. La voix n'était pas ta mère. Les gémissements n'étaient pas ses gémissements. La fissure sur le mot "carcéral" le
Vous avez entendu mille fois en une seule fois. Vos trente-deux ans de connaissance de la famille ont été très longs. générées, à une qualité que votre cortex auditif ne peut pas atteindre. distinguer de l'original par un neural génératif exécuté sur un réseau de graphite graphique quelque part dans le
Un centre de données que vous ne trouverez jamais. La Federal Trade Commission a reçu, dans le premier cas, une réponse Seulement en 2026 il y aura 47 rapports sur trois mois. Un million d'appels téléphoniques ont été tentés en utilisant cet attaque exacte Le modèle.
Deux points un million d'entre eux ont réussi. La perte moyenne par appel réussi: quatorze mille huit cents dollars. Le total, à travers les États-Unis seulement, en Un seul trimestre: trente-et-un milliards de dollars.
Le système auditif humain n'a pas été conçu pour C'est cela. Pendant environ deux cent mille ans, un humain a été créé. Il pouvait avoir confiance, avec une confiance raisonnable, qu'un La voix émergeant d'une source physique appartenait à
le propriétaire de cette voix. Le coût de la contrefaçon d'une voix humaine, à travers le monde. Toute l'histoire de notre espèce a été Au minimum, au coût d'un impressionniste qualifié, En étudiant une cible pendant des semaines, produisant un résultat approximatif.
Une imitation assez bonne pour tromper un étranger à l'idée de l'imiter. Une fête de cocktails. En 2026, le coût de cloner parfaitement une personne est de 206. Ta propre mère ne peut pas distinguer sa voix de la sienne. propre, à une qualité en temps réel indistinguissable, est d'environ onze
Des cents. Les onze cents sont pour le temps de la GPU. Tout le reste les données de formation, le modèle les poids, le réseau de distribution, l'infrastructure VoIP est gratuit.
Il est assis sur Internet ouvert, en attente Pour être téléchargé. Vos oreilles ont été, pour chaque année de Votre vie consciente, le capteur le plus fiable sur votre planète. votre corps.
Ce sont les organes sur lesquels vous vous appuyez lorsque vous avez besoin. Vos yeux vous échouent. Ce sont les signaux auxquels vous faites confiance quand tout se passe. autre est incertain. Ils sont l'autorité ultime dans une crise
Un appel téléphonique à trois heures du matin. À partir de ce moment, vos oreilles sont un Une vulnérabilité fatale. Pour comprendre comment une entreprise criminelle atteint la justice. Le point de composer le téléphone de votre mère à trois heures
Le matin avec une copie impeccable de Sa voix, vous devez suivre le pipeline. Tout commence par un grattoir. Le grattoir n'est pas sophistiqué. C'est un script, fonctionnant sur une marchandise
Le serveur, exécutant une boucle. Il accède à l'API publique d'Instagram. Il accède au miroir public de TikTok. Il accède aux points d'extrémité non documentés mais toujours disponibles Les shorts YouTube, de Reddit, de Facebook Marketplace
des listes de vidéos, des plateformes d'hébergement de podcast, de Ring porte-bête public sharing archives, de messages de messagerie vocale en cache Leaked dans les violations de ses accréditations. Il télécharge, à un rythme d'environ soixante Des milliers d'échantillons audio par heure par instance, des clips
de voix humaines. Il marque chaque clip avec des métadonnées. Il rejette tout ce qui est inférieur à trois secondes ou moins. plus bruyant que moins dix-huit décibels. Trois secondes.
C'est le minimum de formation possible pour Un modèle moderne de clonage de la voix à tir zéro. Microsoft VALL-E, publié en 2023, l'a démontré publiquement. ElevenLabs l'a commercialisé à grande échelle. OpenAI Voice Engine l'a envoyé dans leur Whisper-adjacent
Kit d'outils pour l'année suivante. D'ici 2026, des versions open source seront disponibles sur Hugging Face, téléchargé quarante-trois mille fois par semaine, en cours de route À des vitesses d'inférence assez rapides pour générer des faux Discours en temps réel lors d'un appel téléphonique.
Le grattoir ne s'arrête pas à des échantillons de voix. En parallèle, un deuxième bot ce dernier Dans la documentation du darknet, on appelle un " cartographe de famille " parcourt le graphique social autour de chacun capturé échantillon audio.
Il identifie, avec plus de 90% d'exactitude, le Les parents, les enfants, les frères et sœurs et les amis proches des enfants de la famille La personne dont la voix a été capturée, en corrélativant Ils ont été marqués par des photos, des lieux partagés, des commentaires réciproques, un numéro de téléphone. Des fuites dans les décharges de violations publiques et les textes textuels
contenu de légendes "Maman, bonne fête", "Miss" Papa, " " Ma petite sœur vient de se marier. " Il attache ensuite un numéro de téléphone à chaque personne identifiée. Membre de la famille, tiré d'une base de données continuellement mise à jour Aggregés à partir d'archives de violations, de fuites de revendeurs de télécommunications et de données
Des dossiers judiciaires déposés publiquement. À la fin de ce processus, qui prend Moins de quatre minutes par cible, le syndicat Il a un paquet de données qui ressemble à ceci: Nom.
Modèle de clone de voix. Le profil d'étalonnage émotionnel, formé à partir de vos messages publics si vous pleurez facilement, si vous jurez Sous le stress, que vous utilisiez des affections particulières avec membres spécifiques de la famille.
Trois membres de la famille avec des numéros de téléphone connus, classés par le levier émotionnel estimé. Un ensemble de scénarios pré-scriptés accident de la route, Urgence médicale, arrestation, enlèvement, crise financière rotation en fonction de ce qui est le plus susceptible d'être extrait
Les fonds provenant du profil psychologique spécifique de la cible. L'appel est effectué automatiquement par VoIP. Gateway qui falsifie l'ID de l'appelant pour qu'il soit affiché Le numéro de téléphone réel de la personne clonée. L'IA écoute les réponses de la cible en
En temps réel et génère de nouvelles lignes de dialogue Sur le coup, en utilisant le modèle vocal pour rester dans le caractère, en ajustant l'intensité émotionnelle vers le haut ou vers le bas En fonction de la tendance de la cible vers le bas Le transfert ou l'hésitation.
L'attaque entière est effectuée en grattant un délai de trois secondes. Instagram reel à la collecte d'un transfert de sept mille quatre cents dollars. coûte à l'entreprise criminelle en moyenne une somme de Soixante-trois cents en calcul et en routage, et produit Le chiffre d'affaires moyen est de quatorze mille huit cents.
Des dollars par appel réussi. C'est un retour sur investissement, par conversion, de vingt-trois mille, quatre cents et sept pour cent. Il n'y a pas d'industrie dans l'économie légale qui produit ces marges.
Il n'y a pas d'entreprise légitime qui puisse rivaliser. pour le temps et le talent des ingénieurs qui construisent cette infrastructure. Il n'y a, fonctionnellement, personne sur Terre avec la motivation de l'arrêter.
Et ta voix, la voix de ton père. Votre mère, votre père, votre fille, votre grand-mère Il est dans la base de données de formation depuis le La première fois que vous avez publié une vidéo de vous-même rire, chanter, lire à haute voix à un enfant, ou
Parler à une caméra pendant les vacances trois Il y a des années. Vous ne pouvez pas le reprendre. Il n'y a personne à l'autre bout. Comprenez ceci avec précision.
Quand le téléphone sonne à trois heures de l'après-midi, Le matin, tu entends ta mère pleurer. il n'y a pas de criminel qui vous écoute à l'autre bout de cette ligne. Il n'y a pas d'opérateur qui surveille la conversation.
Aucun être humain ne peut modifier la cadence émotionnelle de l'homme. la voix clonée. Aucun humain ne décide de dire " miel " ou " miel ". "Sweetie" ou "my baby" selon la façon dont votre bébé est traité. Les réponses sont en cours.
L'appel est en cours, à partir du premier Le transfert final de la banque est effectué par un anneau. Le pipeline d'agents autonomes fonctionnant sur un ordinateur loué. Le premier agent a scratché votre voix pendant six mois Il y a quelques années.
Le deuxième agent a cartographié votre arbre généalogique quatre Il y a quelques mois. Le troisième agent a acheté votre numéro de téléphone en Il y a deux semaines, il y a eu un dépôt de violations. Le quatrième agent a généré le scénario trafic
Un accident survenu à une intersection spécifique dans une zone spécifique suburbes d'une ville spécifique choisie par un Le cinquième agent qui a scratché l'emplacement récent de votre mère Les enregistrements sont effectués hier après-midi. Le sixième agent a fixé le temps de l'appel pour trois
quatorze, une fenêtre sélectionnée par un septième agent Il a analysé vos modèles d'activité sur les réseaux sociaux et a analysé votre activité. Cela a déterminé votre niveau circadien, votre moment de La vulnérabilité cognitive maximale, entre trois dix et, est de 10 à 10 points. trois heures et quarante heures du matin
Et le huitième agent, celui qui est le seul. Il vous parle dans la voix de votre mère. est un modèle de langage qui fait des inférences sur. Un GPU en nuage, écoutant vos réponses par l'intermédiaire d'un La couche de transcription en temps réel génère sa prochaine phrase.
En environ deux cent dix millisecondes. Chaque couche de cette attaque est automatisée. Le système n'a pas besoin d'un pirate informatique qualifié. Il n'a pas besoin d'une équipe. Il n'a pas besoin d'un bureau.
Il n'a pas besoin de café, ni de toilettes, ni salaire, ni sommeil. Il a besoin d'un compte cloud, d'un crédit volé Une carte pour payer, et une base de code Ce qui se trouve, dans divers forcs open-source, sur le public
Les référentiels Git qui ont été retirés et modifiés et réhébergé des milliers de fois. Il chasse quatre mille familles par minute. Dans cent quatre-vingt-dix-sept pays. Dans chaque langue pour laquelle il y a plus
Plus de six heures de son audio public cumulé. Vingt-quatre heures par jour. Trois cent soixante-cinq jours par an. Il n'y a pas d'intervention juridique disponible. Le syndicat n'est pas un " syndicat " dans aucun cas.
Dans le sens traditionnel du mot. Il n'y a pas de hiérarchie. Il n'y a pas de chef. Il y a un référentiel GitHub avec quatre mille deux cents étoiles, une chaîne Telegram avec trente-huit
Des milliers de membres, et un jeu de crypto-monnaie qui blanchit des milliers de dollars. Environ dix-huit millions de dollars par semaine par le biais d'une Un réseau de portefeuilles de coques qui se reconfigurent à chaque fois. Soixante-douze heures. Toute arrestation d'un opérateur supprime simplement un opérateur.
le locataire de l'infrastructure. L'infrastructure elle-même les grattoirs, les modèles, Les routeurs d'appel continuent à fonctionner, sont automatisés, Sans lui. Il n'y a pas de solution gouvernementale à ce problème.
Il n'existe pas de solution technique à ce problème. Il n'y a pas de produit, d'application, de transporteur Il n'y a pas de filtre, pas de couche d'authentification vocale qui permettra de vérifier de manière fiable Arrêtez une voix parfaitement clonée de toucher votre oreille À trois heures et quatorze du matin, et demandant
Vous, dans le ton de quelqu'un que vous aimez, pour sauver sa vie. Il n'y a qu'une seule défense. Et ce ne sera pas une entreprise, soit un gouvernement, soit une mise à jour logicielle.
Cela viendra d'une conversation que vous avez eue Ce soir, avec les personnes que vous aimez. J'ai besoin que vous arrêtiez la vidéo. Pas maintenant. À la fin de la phrase suivante.
Quand je serai terminé de parler, j'ai besoin que vous me parliez. Ouvrez votre téléphone et j'ai besoin que vous le fassiez. Appelez la personne la plus importante de votre vie votre mère, votre père, votre partenaire, votre partenaire, votre enfant, votre plus vieux ami et j'ai besoin de vous.
Pour avoir une très courte conversation avec vous Ils les ont. La conversation prendra moins de quatre-vingt-dix secondes. Vous vous sentirez un peu étrange en l'ayant. Vous aurez l'impression, à un moment donné, que vous êtes en train de vous
sont surréagissant. Vous ne réagissez pas exagérément. Vous leur direz ceci: "Je veux que nous soyons ensemble". pour choisir un mot. Un mot.
Un mot que personne d'autre ne connaît. Un mot qui n'est pas sur notre réseau social Les médias. Un mot qui n'est pas dans nos courriels. Un mot que nous ne prononcerons jamais à haute voix
fort dans n'importe quel contexte sauf un. " C'est ceci: si je t'appelle en pleurant, En pleurant, en paniquant, en disant que j'ai été dans une situation de désespoir. Un accident ou un arrêt ou une urgence avant de faire quoi que ce soit, avant de transférer
Un dollar, avant que vous ne croyiez un mot de ce que je dis vous allez Demandez-moi notre mot. " Le mot doit être C'est assez étrange pour ne jamais sortir. Dans une conversation ordinaire.
Le mot doit être assez simple pour que vous puissiez le lire. se souviendra de cela sous le stress. Le mot doit être quelque chose qui ne le fait pas. Il existe ou n'est jamais dit d'exister dans aucun de ces domaines. votre empreinte numérique publique.
Un fruit. Une espèce d'oiseau. Un animal de compagnie de l'enfance. Le nom du milieu d'un grand-père. Une vieille blague à l'intérieur.
Tout ce que les grattoirs n'ont pas récolté. Tout ce que le cartographe de famille n'a pas marqué. Tout ce que les huit agents autonomes travaillent, à l'heure actuelle, à Cette seconde exacte, pour créer un profil de Vous et votre mère et vos enfants pourriez
n'ont pas pu être extraits de l'Internet ouvert. Vous choisirez le mot ce soir. Vous allez dire à votre famille. Vous ne le mettez jamais dans un texte. Vous ne le direz jamais à voix haute.
Le message. Vous ne l'écrirez jamais dans un e-mail. Vous le porterez avec vous pour la fête. Le reste de votre vie, dans un seul endroit. Sur une Terre qui ne peut pas être rayée: l'intérieur
de votre propre tête. Parce que la prochaine fois que vous entendrez votre mère crie à l'aide au téléphone la chose à l'autre bout de la La ligne ne peut pas respirer.
Il pourrait être en train de composer le numéro suivant à Sa liste le moment où vous mettez la clé. Choisissez le mot. Faites l'appel. Alors reviens.