The Phantom Voice: The 3-Second Clone Exploit
THE PHANTOM VOICE
The 3-Second Clone Exploit
सुबह तीन चौदह बजे। फोन बज रहा है। आप स्क्रीन को देखते हैं। यह आपकी माँ है। आप जवाब देते हैं।
वह रो रही है। वह ठीक से सांस नहीं ले सकती है। वह आपका नाम कह रही है आपका असली नाम, आपका बचपन का नाम, केवल वह एक है उपयोग करता है और वह आपको बता रही है, में
आपने अपनी पूरी आवाज के लिए जो आवाज सुनी है वह है जीवन, कि उसने एक पैदल यात्री को मार दिया है उसकी कार। कि वह एक पुलिस स्टेशन पर है। कि वे उसे रात भर पकड़ लेंगे।
कि जिस व्यक्ति को उसने मारा है वह गंभीर स्थिति में है condition. condition. उसे सात हजार चार सौ डॉलर की जरूरत है, तारों से, एक जमानत बॉन्डमैन के लिए, अगले दिन चालीस मिनट, या वह जेल जाएगी।
उसकी आवाज "जेल" शब्द पर फटती है। यह वह तरीका है जिस तरह से वह हमेशा से फटती रही है उस शब्द पर। आप अपना बैंकिंग ऐप खोलने वाले हैं। आपकी उंगली स्क्रीन पर है।
स्थानांतरण फॉर्म भरा हुआ है। लाभार्थी खाता एक रूटिंग नंबर है जिसे आप मैं उसे पहचान नहीं सकता, लेकिन उसकी आवाज अभी भी है आपके कान में, और वह भीख मांग रही है, और सेकंड टिक रहे हैं, और आप पहले से ही हैं
स्क्रिप्ट चल रही है सात हजार चार सौ डॉलर, ज़ेल, प्रेस भेजें, आपकी माँ सुरक्षित है। और फिर बेडरूम का दरवाजा खुलता है। और आपकी माँ अंदर आ जाती है। पूरी तरह से कपड़े पहने हुए।
एक तौलिया में बाल। एक कप चम्मच चाय के साथ। घर पर। यह पूछना कि क्या आपने अभी बिल्ली के खटखटाते हुए सुना है? एक पौधे के ऊपर।
आप अभी फोन पर थे सॉफ्टवेयर का एक टुकड़ा। आवाज आपकी मां नहीं थी। रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए रोने के लिए नहीं थे। "जेल" शब्द पर दरार the
आपने एक में एक हजार बार सुना है आपके तीस-दो साल के साथ उसे जानने के लिए था उत्पन्न, एक गुणवत्ता पर आपके श्रवण कोर्टेक्स नहीं कर सकता मूल से, एक जनरेटिव न्यूरल द्वारा अलग करें कहीं न कहीं GPU क्लस्टर नेटवर्क पर चल रहा है
एक डेटा सेंटर जिसे आप कभी नहीं ढूंढ पाएंगे। फेडरल ट्रेड कमीशन को पहली बार प्राप्त हुआ था। अकेले 2026 के तीन महीनों में, 47 रिपोर्ट्स आई हैं। इस सटीक हमले का उपयोग करके एक मिलियन से अधिक फोन कॉल की कोशिश की गई पैटर्न।
उनमें से दो अंक एक मिलियन सफल रहे। प्रति सफल कॉल औसत हानिः चौदह हजार आठ सौ डॉलर। अकेले संयुक्त राज्य अमेरिका में, कुल में, एक ही तिमाहीः 31 अरब डॉलर।
मानव श्रवण प्रणाली के लिए नहीं बनाया गया था यह। यह। लगभग दो सौ हजार वर्षों से, एक मानव वह विश्वास कर सकता था, उचित विश्वास के साथ, कि एक भौतिक स्रोत से उभरती हुई आवाज का संबंध था
उस आवाज के मालिक। मानव आवाज का नकलीकरण करने की लागत, पारदर्शी रूप से। हमारे प्रजाति के इतिहास की पूरी अवधि में, यह था कम से कम एक प्रशिक्षित प्रभावकार की कीमत पर, सप्ताहों तक लक्ष्य का अध्ययन करते हुए, एक कच्चे पैमाने पर उत्पादन करना
अनुकरण एक अजनबी को धोखा देने के लिए पर्याप्त अच्छा है। एक कॉकटेल पार्टी। 2026 में, एक क्लोनिंग की लागत पूरी तरह से बढ़ जाएगी। आपकी माँ अपनी आवाज से अलग नहीं कर सकती है। अपने, वास्तविक समय की गुणवत्ता पर, लगभग ग्यारह है
सेंट। ग्यारह सेंट GPU समय के लिए है। बाकी सब कुछ प्रशिक्षण डेटा, मॉडल वजन, वितरण नेटवर्क, वीओआईपी बुनियादी ढांचे यह मुफ़्त है।
यह खुले इंटरनेट पर बैठा है, इंतजार कर रहा है। डाउनलोड करने के लिए। आपके कानों में, हर साल के लिए, आपका सचेत जीवन, दुनिया का सबसे विश्वसनीय सेंसर आपका शरीर।
वे उस अंग हैं जिस पर आप भरोसा करते हैं जब आप आपकी आँखें आपको विफल कर देती हैं। वे संकेत हैं जिन पर आप भरोसा करते हैं जब सब कुछ होता है अन्य कुछ अनिश्चित है। वे संकट में अंतिम प्राधिकरण हैं
सुबह तीन बजे फोन कॉल। इस क्षण से, आपके कान एक हैं घातक कमजोरियां। यह समझने के लिए कि एक आपराधिक उद्यम कैसे अपराधियों तक पहुंचता है तीन बजे अपनी मां के फोन को डायल करने का बिंदु
सुबह के समय एक त्रुटिहीन प्रति के साथ उसकी आवाज, आपको पाइपलाइन का पालन करना होगा। यह एक स्क्रैपर से शुरू होता है। स्क्रैपर परिष्कृत नहीं है। यह एक स्क्रिप्ट है, जो एक वस्तु पर चल रही है
सर्वर, एक लूप निष्पादित करना। यह इंस्टाग्राम के सार्वजनिक एपीआई तक पहुंचता है। यह TikTok के सार्वजनिक दर्पण तक पहुंचता है। यह बिना दस्तावेजों के लेकिन लगातार उपलब्ध अंत बिंदुओं तक पहुंचता है YouTube Shorts, Reddit, Facebook Marketplace के लिए
सूचीबद्ध, पॉडकास्ट होस्टिंग प्लेटफार्मों, रिंग के वीडियो के बारे में ढोका बजता है सार्वजनिक साझा करना अभिलेखागार, कैश किए गए वॉयसमेल ग्रीटिंग्स का क्रेडेंशियल उल्लंघन में लीक हुआ। यह लगभग साठ डाउनलोडों की दर से डाउनलोड करता है। प्रति उदाहरण प्रति घंटे हजारों ऑडियो नमूने, क्लिप
मानव आवाजों की। यह प्रत्येक क्लिप को मेटाडेटा के साथ टैग करता है। यह तीन सेकंड या उससे कम समय में कुछ भी फेंक देता है। शून्य से अठारह डेसिबल से अधिक शोर। तीन सेकंड।
यह प्रशिक्षण के लिए न्यूनतम व्यवहार्य विंडो है एक आधुनिक शून्य-शॉट आवाज क्लोनिंग मॉडल। Microsoft VALL-E, जो 2023 में प्रकाशित हुआ था, ने इसे सार्वजनिक रूप से प्रदर्शित किया। ElevenLabs ने इसे बड़े पैमाने पर वाणिज्यिक बनाया। OpenAI Voice Engine ने इसे अपने Whisper-adjacent में शिप किया है
अगले साल टूलकिट। 2026 तक, Hugging पर ओपन-सोर्स संस्करण उपलब्ध होंगे। फेस, प्रति सप्ताह चालीस तीन हजार बार डाउनलोड किया गया, चल रहा है अनुमानित गति पर अनुमान लगाने की गति नकली उत्पन्न करने के लिए पर्याप्त तेजी से होती है। फोन पर बात करते समय वास्तविक समय में भाषण।
स्क्रैपर आवाज के नमूनों पर नहीं रुकता है। इसके साथ ही एक दूसरा बॉट भी आया। डार्कनेट दस्तावेज में, एक "परिवार मैपर" कहा जाता है प्रत्येक कैप्चर के आसपास सामाजिक ग्राफ को क्रॉल करता है ऑडियो नमूना।
यह 90 प्रतिशत से अधिक सटीकता के साथ, पहचानता है माता-पिता, बच्चे, भाई-बहन और करीबी मित्रों के साथ जिस व्यक्ति की आवाज को कैप्चर किया गया है, उसे संबद्ध करके टैग किए गए तस्वीरें, साझा स्थान, टिप्पणी प्रतिस्परात्मकता, फोन नंबर सार्वजनिक उल्लंघन डंप में लीक, और टेक्स्टल
कैप्शन की सामग्री "हैप्पी बर्थडे मॉम," "मिस" "पिताजी," "मेरी छोटी बहन ने अभी स्नातक किया है। फिर प्रत्येक पहचाने गए व्यक्ति के लिए एक फोन नंबर संलग्न करता है परिवार के सदस्य, एक लगातार ताज़ा डेटाबेस से निकाले गए हैं यह डेटा उल्लंघन अभिलेखागार, दूरसंचार पुनर्विक्रेता लीक और अन्य डेटा से एकत्रित किया गया है।
सार्वजनिक रूप से दायर अदालत के रिकॉर्ड। इस प्रक्रिया के अंत में, जो लेता है प्रति लक्ष्य चार मिनट से भी कम समय के लिए, संघ इसमें एक डेटा पैकेज है जो इस तरह दिखता हैः नाम.
आवाज क्लोन मॉडल। भावनात्मक माप प्रोफ़ाइल, आपके सार्वजनिक पोस्ट से प्रशिक्षित चाहे आप आसानी से रोएं, चाहे आप कसम खाएं तनाव के तहत, चाहे आप विशेष स्नेह का उपयोग के साथ करते हों। परिवार के विशिष्ट सदस्य।
तीन परिवार के सदस्य जिनके पास ज्ञात फोन नंबर हैं, क्रमबद्ध हैं अनुमानित भावनात्मक लाभ द्वारा। एक सेट पूर्व-स्क्रिप्टेड परिदृश्य ट्रैफिक दुर्घटना, चिकित्सा आपातकाल, गिरफ्तारी, अपहरण, वित्तीय संकट घुमावदार यह इस बात पर आधारित है कि क्या निकालने की सबसे अधिक संभावना है
लक्ष्य के विशिष्ट मनोवैज्ञानिक प्रोफ़ाइल से धनराशि। कॉल स्वचालित रूप से वीओआईपी के माध्यम से किया जाता है। एक गेटवे जो कॉलर आईडी को प्रदर्शित करने के लिए बनावट करता है क्लोन किए गए व्यक्ति का वास्तविक फोन नंबर। एआई लक्ष्य की प्रतिक्रियाओं को सुनता है
वास्तविक समय में और संवाद की नई लाइनें उत्पन्न करता है मौके पर, आवाज मॉडल का उपयोग करके चरित्र में बने रहने के लिए, भावनात्मक तीव्रता को ऊपर या नीचे समायोजित करें। नीचे की ओर यह देखते हुए कि लक्ष्य झुका हुआ है या नहीं स्थानांतरण या संकोच की ओर।
पूरे हमले को तीन सेकंड के स्क्रैपिंग से किया गया था। इंस्टाग्राम रील को सात हजार चार सौ डॉलर के वायर ट्रांसफर को इकट्ठा करने के लिए तैयार किया गया है। अपराध उद्यम को औसतन का खर्च आता है कंप्यूटिंग और रूटिंग में साठ-तीन सेंट, और उत्पादन औसतन चौदह हजार आठ सौ की आय
डॉलर प्रति सफल कॉल। यानी प्रति रूपांतरण निवेश पर रिटर्न, चौबीस हजार, चार सौ और सात प्रतिशत। कानूनी अर्थव्यवस्था में कोई उद्योग नहीं है जो इन मार्जिन का उत्पादन करता है।
कोई वैध व्यवसाय नहीं है जो प्रतिस्पर्धा कर सके इंजीनियरों के समय और प्रतिभा के लिए जो इस बुनियादी ढांचे का निर्माण करते हैं। पृथ्वी पर कोई भी व्यक्ति नहीं है जो कार्यशील रूप से के साथ हो। इसे रोकने के लिए प्रेरणा।
और आपकी आवाज आपकी आवाज आपकी माँ, आपका पिता, आपकी बेटी, आपकी दादी प्रशिक्षण डेटाबेस में तब से है जब से पहली बार जब आपने खुद का एक वीडियो पोस्ट किया हंसना, गाना, बच्चे को जोर से पढ़ना या
छुट्टी पर तीनों के साथ कैमरे से बात करना कई साल पहले। आप इसे वापस नहीं ले सकते। दूसरी तरफ कोई नहीं है। इसे सही ढंग से समझें।
जब फोन तीन पर बजता है तो चौदह बजता है। सुबह उठकर आप अपनी माँ को रोते सुनाते हैं। कोई अपराधी आपकी बात नहीं सुन रहा है उस रेखा के दूसरे छोर पर। बातचीत की निगरानी करने वाला कोई ऑपरेटर नहीं है।
किसी भी इंसान को भावुकता की गति को समायोजित करने में कोई कमी नहीं है। क्लोन की गई आवाज। कोई भी इंसान यह तय नहीं कर रहा है कि "मधु" या "मद" कहना है या नहीं। "मीठा" या "मेरे बच्चे" इस बात के आधार पर कि आपका बच्चा कैसे है। प्रतिक्रियाएं चल रही हैं।
कॉल पहली बार से ही चल रही है। अंतिम हस्तांतरण के लिए रिंग, द्वारा एक किराए पर कम्प्यूटर पर चलने वाले स्वायत्त एजेंटों की पाइपलाइन। पहले एजेंट ने छह महीने तक आपकी आवाज को स्क्रैप किया ago.
दूसरे एजेंट ने आपके परिवार के पेड़ को चार का नक्शा बनाया। महीनों पहले। तीसरे एजेंट ने आपके फोन नंबर को में खरीदा था। दो सप्ताह पहले एक ब्रेक डंप। चौथे एजेंट ने परिदृश्य उत्पन्न किया ट्रैफ़िक
एक विशिष्ट चौराहे पर एक विशिष्ट दुर्घटना किसी विशिष्ट शहर के उपनगर का चयन एक द्वारा किया गया है पांचवें एजेंट ने आपकी मां के हालिया स्थान को स्क्रैप किया चेक-इन कल दोपहर में हुआ था। छठे एजेंट ने तीन के लिए कॉल का समय निर्धारित किया
चौदह, एक विंडो जो सातवें एजेंट द्वारा चुनी गई है जो आपके सोशल मीडिया गतिविधि पैटर्न का विश्लेषण करता है और यह निर्धारित करता है कि आपका सर्कडियन ट्रॉग, आपका समय अधिकतम संज्ञानात्मक कमजोरता तीन से दस के बीच होती है। तीन चालीस बजे
और आठवें एजेंट एक आपकी माँ की आवाज में आपसे बात कर रहा है। एक भाषा मॉडल है जो पर inference चलाना है। एक क्लाउड जीपीयू, एक के माध्यम से आपकी प्रतिक्रियाओं को सुनने के लिए। वास्तविक समय में प्रतिलेखन परत, और इसके अगले वाक्य को उत्पन्न करना
लगभग दो सौ दस मिलीसेकंड में। इस हमले की हर परत स्वचालित है। सिस्टम को कुशल हैकर की आवश्यकता नहीं है। इसके लिए टीम की जरूरत नहीं है। इसके लिए कार्यालय की जरूरत नहीं है।
उसे कॉफी या बाथरूम ब्रेक की जरूरत नहीं है। या वेतन, या नींद। इसके लिए क्लाउड अकाउंट, चोरी का क्रेडिट चाहिए। इसके लिए भुगतान करने के लिए कार्ड, और एक कोडबेस विभिन्न ओपन-सोर्स कांटे में, यह सार्वजनिक रूप से बैठता है
Git भंडार जो खींचे गए और संशोधित किए गए हैं और हजारों बार फिर से होस्ट किया गया। यह प्रति मिनट चार हजार परिवारों का शिकार करता है। एक सौ नौ सौ सात देशों में। हर भाषा में जिसके लिए अधिक है
कुल मिलाकर छह घंटे की सार्वजनिक ऑडियो से अधिक। दिन में चौबीस घंटे। वर्ष में तीन सौ साठ-पांच दिन। कोई कानूनी हस्तक्षेप उपलब्ध नहीं है। सिंडिकेट किसी भी तरह से "सिंडिकेट" नहीं है।
शब्द के पारंपरिक अर्थ में। कोई पदानुक्रम नहीं है। कोई बॉस नहीं है। चार हजार के साथ एक GitHub भंडार है दो सौ सितारे, एक टेलीग्राम चैनल जिसमें 38 हैं
हजारों सदस्यों और एक क्रिप्टोक्यूरेंसी टम्बलर जो लॉन्डर्स करता है एक सप्ताह के माध्यम से लगभग अठारह मिलियन डॉलर प्रति सप्ताह। शेल वॉलेट का नेटवर्क जो हर बार खुद को रीसेट करता है सत्तर दो घंटे। किसी भी ऑपरेटर का कोई भी गिरफ्तारी केवल एक को हटा देता है
बुनियादी ढांचे के किरायेदार। बुनियादी ढांचा स्वयं स्क्रैपर, मॉडल, कॉल रूटर चलना जारी रखते हैं, स्वचालित होते हैं, उसके बिना। इस समस्या का कोई सरकारी समाधान नहीं है।
इस समस्या का कोई तकनीकी समाधान नहीं है। कोई उत्पाद नहीं, कोई ऐप नहीं, कोई वाहक नहीं कोई फ़िल्टर नहीं, कोई आवाज प्रमाणीकरण परत नहीं है जो विश्वसनीय रूप से होगा एक पूरी तरह से क्लोन की गई आवाज को अपने कान तक पहुंचने से रोकें सुबह तीन बजे चौदह बजे और पूछते हुए
आप, किसी ऐसे व्यक्ति के स्वर में जो आप प्यार करते हैं, उसके जीवन को बचाने के लिए। केवल एक ही रक्षा है। और यह किसी निगम से नहीं आएगा, या सरकार, या सॉफ्टवेयर अपडेट।
यह आपके द्वारा की गई बातचीत से आएगा आज रात आप अपने प्रियजनों के साथ रहना चाहते हैं। मुझे यह वीडियो बंद करने की आवश्यकता है। अब नहीं। अगले वाक्य के अंत में।
जब मैं बोलना समाप्त कर दूंगा, तो मुझे आपकी आवश्यकता है अपना फोन खोलें, और मुझे आपकी आवश्यकता है अपने जीवन में सबसे महत्वपूर्ण व्यक्ति को कॉल करें आपकी माँ, आपका पिता, आपका साथी, आपका साथी, आपका बच्चा, आपका सबसे पुराना दोस्त और मुझे इसकी आवश्यकता है
आपके साथ बहुत ही कम बातचीत करने के लिए उन्हें। बातचीत में 90 सेकंड से भी कम समय लगेगा। आपको यह होने से थोड़ा अजीब महसूस होगा। आपको कभी-कभी ऐसा महसूस होगा कि आप खुद को
वे अत्यधिक प्रतिक्रिया कर रहे हैं। आप अतिरंजित नहीं हैं। आप उन्हें यह कहेंगेः "मैं हमें चाहता हूं एक शब्द चुनने के लिए। एक शब्द।
एक ऐसा शब्द जो किसी और को नहीं पता। एक ऐसा शब्द जो हमारे सोशल मीडिया पर नहीं है मीडिया। एक ऐसा शब्द जो हमारे ईमेल में नहीं है। एक ऐसा शब्द जो हम कभी नहीं बोलेंगे
किसी भी संदर्भ में जोर से, एक को छोड़कर। यह हैः अगर मैं कभी भी आपको बुलाता हूं, रोता हूं, डरते, घबराते, कहते कि मैं एक संकट में था। दुर्घटना या गिरफ्तारी या आपात स्थिति इससे पहले कि आप कुछ भी करें, इससे पहले कि आप स्थानांतरित हों
एक डॉलर, इससे पहले कि आप एक शब्द भी विश्वास करें मैं जो कह रहा हूं आप करेंगे हमसे अपना शब्द पूछो" शब्द होना चाहिए यह इतना अजीब था कि यह कभी सामने नहीं आया। सामान्य बातचीत में।
शब्द इतना सरल होना चाहिए कि आप इसे समझ सकें। तनाव के दौरान याद रखें। शब्द कुछ ऐसा होना चाहिए जो नहीं करता है में से किसी में मौजूद हैं, या कभी नहीं कहा जाता है, आपके सार्वजनिक डिजिटल पदचिह्न।
एक फल। एक पक्षी प्रजाति। बचपन का पालतू जानवर। दादा-दादी का दूसरा नाम। यह एक पुराना अंदर का मजाक है।
जो भी स्क्रैपर ने नहीं कटा है। वह कुछ भी जो परिवार के मैपर ने टैग नहीं किया है। जो भी आठ स्वायत्त एजेंट काम करते हैं, वह इस सटीक सेकंड में, का प्रोफ़ाइल बनाने के लिए आप और आपकी मां और आपके बच्चे
संभवतः खुले इंटरनेट से नहीं निकाला गया है। आज रात आप शब्द चुनेंगे। आप अपने परिवार को यह बात बताएंगे। आप इसे कभी भी एक पाठ में नहीं डालेंगे। आप इसे कभी भी एक आवाज़ में नहीं कहेंगे
संदेश। आप इसे कभी भी ईमेल में नहीं लिखेंगे। आप इसे अपने साथ ले जाएंगे अपने जीवन के बाकी हिस्सों के लिए, एक ही स्थान पर पृथ्वी पर जो नहीं खटाया जा सकता हैः अंदर
अपने सिर से। क्योंकि अगली बार जब आप अपनी मां को सुनेंगे फोन पर मदद के लिए चिल्लाएं के दूसरे छोर पर मौजूद चीज़ लाइन सांस नहीं ले रही हो सकती है।
यह अगले नंबर पर डायल कर सकता है जब आप इसे बंद कर देते हैं तो इसकी सूची समाप्त हो जाती है। शब्द चुनें। कॉल करें। फिर वापस आ जाओ।