The Autonomous Engineer: How Claude Code Built This Video
THE AUTONOMOUS ENGINEER
How Claude Code Built This Video
Ogni fotogramma di questo documentario è stato composto da Una macchina. La narrazione che state ascoltando in questo momento, Questa voce, queste parole, questo ritmo, sono state sintetizzate da una rete neurale che ha clonato un cinque -second audio sample.
Le immagini che state vedendo sono state generate da Un modello di diffusione, guidato da richieste che un Il modello di linguaggio ha scritto per se stesso. La musica, la classificazione dei colori, la vignette che Questo filmato di apertura è stato formato, cronometrato e codificato. FFmpeg fornisce ordini che nessun essere umano ha mai digitato.
La parte che conta, la parte che separa Questo documentario è stato raccolto da ogni altro video generato da AI Su questa piattaforma nell'aprile 2026, è questo. Il codice che crea questo documentario. Il modo in cui ha prodotto tutte queste cose fu anche scritto da una macchina.
Non c'era uno sviluppatore. Non c'era un editore. C'era una singola istruzione di lingua inglese data a una finestra del terminale, e 23 minuti dopo, C'è stato un documentario di 15 minuti di 4.000 pixel. che non esisteva prima.
Questo episodio parla della specificità del. Video generato da AI. Non esiste un software specifico che E' stato così. Il suo nome è Clawed Code. È stato rilasciato da Anthropic in un silenzio
Preview dello sviluppatore all'inizio del 2025, e da allora. È ora che voi guardate questo, è già arrivato il momento. Ha reso una ipotesi trent'anni fa su come Il software è incorporato in un artefatto storico. Per capire cosa sia il Clawed Code, devi avere Prima di tutto, capisci cosa sostituisce.
Per 30 anni, il contratto tra un essere umano è stato mantenuto. Essere e un computer è sempre stato lo stesso. L'autore era l'uomo. Il computer era l'esecutore. Un ingegnere software che si occupa di uno sviluppo integrato PyCharm, VS Code, IntelliJ, e composto l'ambiente
Un programma, una funzione alla volta, con il Servendo come un computer paziente e estremamente letterale mente. Non l'aveste mai visto allora, ma è ora Il tuo primo.' È il miglior software video al mondo, ora pubblico
- Sono una merda. Sono sessioni mirate, e da Joe e Paul, queste sessioni sono state fatte in modo specifico. Sono stati resi accessibili ai clienti e ai consumatori in a Blue Mink, and b loss at alla fine dei mesi. Sono stati raccolti per GoodbyeёлGives video proliferations, a
privilegio per il mondo per sim Romanian peripherals Solo. Se sei un'uomo, stai attentamente aspettando di guardare. Questo, grazie alle donazioni di R moment attraverso questo Eriehhare. Questa è una pagina su Twitter dedicata ai
L'impossibilità del risultato sognato in merito a come la tecnologia funziona. Subtitlesdamnit.com tutti hanno supposto, era permanente. L'arrivo di grandi modelli linguistici in tarda età Il 2022 non sembrava minacciarlo.
ChatGPT, rilasciato da OpenAI quel novembre, fu un'operazione di chat. Conversazione. Conversazione. L'hai fatto una domanda. Ti ha dato una risposta. Se volessi usare questa risposta, se Voleva mettere un pezzo di generato
Il codice è stato inserito nel tuo codice Un progetto o un pezzo di testo generato in Il tuo manoscritto, dovevi copiarlo manualmente. L'operazione di incollare vi apparteneva. Per circa due anni, questo rimase la forma di una struttura. di ogni grande strumento di IA.
Il co-piloto di GitHub ha suggerito linee all'interno del tuo editor, E tu li hai accettati o respinti. Uno alla volta. Cursor ti permette di convocare il modello in un La barra laterale. E tu hai cambiato il modello.
Hai scelto quali differenze applicare. L'uomo è rimasto, in ogni caso, l'esecutore. dell'ultimo miglio. What Anthropic è stata spedita nel 2025 con Clawed Code fu una rottura categorica da quella forma. Il Clawed Code non vive in un IDE.
Non suggerisce. Non si completa automaticamente. Vive all'interno di un terminal. Gli ingegneri di interfaccia bare e solo testo hanno usato Dal 1970, e si prende come suo Una singola riga di inglese.
Se digitate, ad esempio, aggiungete un passo a il video pipeline che aggiunge un'ampia durata di 20 secondi Endcard a ogni episodio reso. Clawed Code non risponde. Clawed Code non risponde.
Legge i file nella directory dei progetti. Identifica il modulo di pipeline pertinente. Localizza il passaggio di render. Esso disegna una nuova funzione Python. Scrive la funzione sul disco. Modifica il principale orchestratore per chiamarlo.
Esegue la tua suite di test. Se un test fallisce, esso legge il disco. Esegue il traceback, diagnostica la causa e Patch il codice. Poi ti dice, in una frase calma, cosa ha fatto.
L'ingegnere non ha digitato la funzione. L'ingegnere non ha aperto il file. L'ingegnere ha descritto il risultato, e il risultato apparve. Questo non è autocompleto. O, questa è una delegazione.
E la delegazione è il meccanismo attraverso il quale l'intero Storicamente, le professioni sono state trasformate in strumentazione. La parola antropico che usa per questo paradigma è agentic. Il modello non è un generatore di testo. Si tratta di un agente, un processo software con
obiettivi, strumenti e un sistema. Lo strumento è lo strumento, e l'autorità Per usare tali strumenti in modo iterativo da solo Per conto di me, attraverso decine di passi, senza tornare a L'uomo per il permesso in ogni giunzione. Il comportamento ageno, specificamente in codice a chiocco, viene implementato
da un piccolo e austero insieme di primitivi. Uno strumento per leggere file. Uno strumento di scrittura di file. Uno strumento bash che esegue comandi shell. Uno strumento glob per l'esecuzione di file. Uno strumento per definire i file.
Un strumento grep per la ricerca dei loro contenuti. Combinati, questi primitivi consentono all'agente di fare Qualsiasi cosa un ingegnere umano possa fare in un'area di sicurezza. La riga di comando, cioè, permette. Per fare tutto il lavoro. E questo è il motivo per cui è stato modificato il software e il
Gli ambienti di sviluppo tradizionali stanno scomparendo. La linea temporale è una superficie che esisteva perché l'uomo ne aveva bisogno. L'agente non ha bisogno della superficie. L'agente lavora direttamente sul file. Questo documentario che state guardando è il
primo artefatto in una nuova categoria. È stato prodotto da un oleodotto che non è stato prodotto. Progettato dall'uomo, da una sceneggiatura la cui prima e l'unico progetto è stato ampliato dallo stesso agente che quindi codificò il Il video finale.
E è il primo di una serie di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di di E ogni riga di codice di orchestrazione, l'intero Una macchina che coordinava tre GPU, cinque API e Quattro mila file di asset discreti necessari per produrre Questo episodio, è stato scritto e debugged da
Agente all'interno dello stesso terminal sullo stesso terminal Il corso di un solo pomeriggio. Le due parti successive di questo documentario descrivono, In dettaglio forense, esattamente come è successo. La prima parte del documentario è un'intera serie. Breve introduzione al progetto.
La mattina della costruzione, la directory del progetto Contiene tre cose. Il primo fu un file di testo chiamato shud. -di-md. Era di diciassette righe di lunghezza. Ha dichiarato, in inglese semplice, le convenzioni di
Il progetto, dove vivevano gli script, quali macchine remote Dovevano essere indirizzati da SSH, che API Le chiavi sono state memorizzate e quali API sono state memorizzate. La seconda parte del documentario è stata una serie di film. Un documento di due paragrafi in lingua inglese nell'input una cartella, che descrive il concetto dell'episodio.
Era circa la lunghezza del breve Una società di produzione manderebbe a un junior Produttore. Produttore. Il terzo era il codice binario di Claude. L'ingegnere aprì un terminale. Claw on command.
Leggi il clau.md. Leggi il brief in input. Costruire il gasdotto. Eseguilo. E caricare il video finito su YouTube. Ciò che è successo dopo non era visibile ai forze di sicurezza.
Ingegnere. Stava accadendo all'interno di un loop. Stava accadendo all'interno di un loop. Il modello corse da solo. Prima di tutto, l'agente legge ogni file del file. Directory di lavoro.
Non per riassumere, non per rispondere a una domanda. Per capire, nel modo in cui un ingegnere senior Unire un progetto comprende, ciò che il progetto già era. Il clau.md forniva convenzioni. La cartella di input forniva i requisiti.
L'assenza di altri file ha detto alla CIA che non esisteva alcun altro file. Agente tutto ciò che è importante. Il gasdotto non esisteva ancora, e quindi doveva essere costruito. In secondo luogo, l'agente ha decomposto il compito. La narrazione doveva diventare audio.
L'audio doveva diventare un sottotitolo temporaneo. I sottotitoli dovevano essere tradotti in 12 lingue. I sottotitoli dovevano essere tradotti in 12 lingue. I sottotitoli dovevano essere analizzati per richieste visive. I richiami dovevano essere inviati alla generazione di immagini modelli.
Le immagini generate dovevano essere aumentate, disposte su Una linea temporale sincronizzata con l'audio, resa al. 4000px60fps di produzione, e caricato. Ognuno di questi sotto compiti è diventato uno script Python L'agente scrisse da zero, all'interno del terminal, Senza lasciarlo.
Per il voiceover, l'agente ha selezionato il Chatterbox Text. -to-Speech engine, un clonamento vocale a peso aperto Un modello che funziona su una GPU di consumo. Ha scritto un modulo Python che divide il La narrazione è stata effettuata ai marcatori di pausa, alimentata ogni pezzo. Il modello con un riferimento di 5 secondi
campione di voce, e concatenato le forme d'onda risultanti. Quando un pezzo emerge, viene tagliato, la sua amplitudine supera USA In luoghi di unità e che producono distorsioni udibili, L'agente notò l'artefatto, inserì un limitatore nella catena di post-elaborazione e ri-esercizio
Quel segmento. Quando un pezzo emerge, viene tagliato, la sua amplitudine supera USA I Paladin non chiesero il permesso, ma di fare il loro dovere. Aggiungi il limitatore. I Paladin non hanno chiesto il permesso.
I Paladin non chiesero il permesso, ma di fare il loro dovere. Aggiungi il limitatore. Per le immagini, l'agente ha scelto FLUX. Per le immagini, l'agente ha scelto FLUX. Un'istanza in esecuzione su una workstation separata. Ha scritto un cliente che ha inviato le richieste di over
HTTP, ha intervistato il server per completarlo, e Scaricato le immagini risultanti. Quando la logica dei sondaggi era appesa ad un'insolitamente diversa Lento lotto, l'agente ha inserito un timeout, Il risultato di questa eccezione è stato catturato e ha implementato un nuovo tentativo. Loops con back-off esponenziale.
Per la traduzione, l'agente ha selezionato NLLB200, Meta's open. -il modello multilingue di peso, e Lo ha distribuito tramite SSH su un Mac. Ha scritto un runner remoto che ha trasmesso in streaming il File di sottotitoli in inglese a Mac, invocato Il modello, recuperato le 12 varianti tradotte, e
hanno validato il codice dei caratteri di ciascuno prima di impegnarsi nel risultato. Per la composizione, l'agente ha scritto la FFmpeg orchestrazione per mano. FFmpeg è un'impedile utensili di linea di comando il cui Il sistema flake è anche di ingegneri esperti
Lottare con. L'agente compose grafici di filtro multistage, scalari incatenati, Conversioni di spazio colore, Mixers audio, overlays di testo, riduzione del rumore, vignette, in Un singolo comando fornisce centinaia di caratteri lunghi.
Quando un comando ha restituito un'uscita non-zero Il codice, l'agente ha analizzato la stirata, identificato il l'operatore malformato, e corretto. E alla fine, dopo circa 40 minuti Per il lavoro autonomo c'era un pipeline. Settanta file Python.
Un modulo di configurazione. Un motore di rendering. Utilità di taglio di pantaloncini. Un generatore di miniatura. Pianificare l'upload dell'orchestratore. Una suite di test per verificare ogni fase.
Un file di documentazione interna a clavi MD-style che spiega, a qualsiasi futuro agente che erediti il repositorio, la struttura di ciò che era stato costruito. L'ingegnere non ne ha scritto nulla. L'ingegnere scrisse le istruzioni.
E poi, senza essere invitati, perché l'istruzione originale aveva si chiudeva con la parola upload, L'agente ha gestito il proprio gasdotto su questa rete. Ha lavorato per conto suo e ha prodotto l'episodio. Quello che state guardando ora è il primo Il video mai prodotto da quel pipeline che descrive
il gasdotto che lo ha prodotto. Un video. Un video. Un'immagine compilatrice. Una lista di tutte le attività che l'agente deve svolgere. Aveva preso.
Uno era categoricamente più duro degli altri. Sintesi vocale. Generazione di immagini. Traduzione. Questi erano tutti, in un certo senso, atomici. È entrato un file di narrazione.
E' uscito un file audio. Un prompt è entrato. E' uscita un'immagine. Il modello ha fatto la parte difficile. Il ruolo dell'agente era orchestrare. Ma l'assemblea era diversa.
Il compito di prendere 80 immagini generate, 5 Clip di movimento, 22 minuti di voiceover e 15 Pagine di sottotitoli stampati in tempo, e la produzione di un Un video da 15 minuti e 4.000 pixel con Ogni immagine appare esattamente al momento in cui la pagina viene inserita. Il narratore parla il suo soggetto, non è un compito
Un modello può risolvere da fine a fine. È un compito che deve essere calcolato. Lo strumento che esegue tale calcolo si chiama. FFmpeg. FFmpeg è un codebase C di 4000 file che è stato sviluppato principalmente da volontari da allora.
L'anno 2000. È, in ogni misura onesta, il singolo. Il software più importante della storia di media digitali. Ogni servizio di streaming, ogni studio cinematografico, ogni trasmissione La rete,
Ogni rete al mondo funziona su FFmpeg. La sua interfaccia è un singolo esecutivo di riga di comando Con un sistema di bandiere così arcane che l'intero Sono stati scritti libri su specifici sottoinsiemi di. lo. Il problema specifico che Clawed Code doveva risolvere.
Era questo. Aveva un file di voiceover di esattamente 1. 335 secondi. Aveva 80 immagini. Ognuno di questi doveva essere visualizzato per Una durata variabile precisa, non inferiore a 8.
Non più di 20 secondi, mentre si sta facendo il panning o il panning. Lo zooming in un modello che corrispondeva a quello del narratore. Ritmo. Aveva cinque clip ad alta mozione che avevano Da inserire in particolari battiti narrativi. Aveva un brano di sottotitoli che doveva essere
rimangono leggibili contro ogni possibile sfondo immaginario. E alla fine, Doveva applicare una vignette, un film Grain, tre strati di classificazione del colore, e un La curva di compressione audio subtile, tutti codificati con il codec H.265 all
60 fotogrammi al secondo su un NVIDIA graphics La carta. Un flusso di lavoro tradizionale risolverebbe questo problema all'interno di DaVinci Resolve o Premiere Pro, Con un editor che trascina i beni su una timeline Nel corso di due giorni.
L'agente lo risolve con l'aritmetica. Ha calcolato la durata di ogni segmento narrativo Parsing dei marcatori di timestamp nel sottotitolo file. Ha diviso il tempo di schermo disponibile per il Numero di immagini, risolto per la scena minima
distribuendo il surplus nella lunghezza narrativa più lunga Passaggi, e assegnato ogni immagine a un particolare finestra di tempo con precisione milliseconda. Poi è stato costruito, programmaticamente, in un unico Python. La funzione di filtro FFmpeg descrive il Ken. Brucia il movimento per ogni immagine, il crossfade tra
Ogni coppia di immagini, la sovrapposizione della Il titolo è stato pubblicato e la finale del mux audio-video. Il comando risultante era lungo 812 caratteri. Contiene 42 filtri separati incatenati in sei catene. flussi di input. Qualsiasi ingegnere che lo leggesse lo descriverebbe con precisione,
come illeggibile. L'agente l'ha eseguita in un solo sotto-sotto-sotto-sotto-sotto-sotto. -process call and waited. Diecinque minuti e quarant'anni dopo, un 4 1000 pixel, 60 frame al secondo di un file video esisteva sul disco.
Il narratore parlava in sintonia con le immagini. I tagli sono atterrati sui battiti. I sottotitoli sono apparsi ai corretti timestamp in Dodici lingue. Niente era disallineato. Non mancava nulla.
Nessun essere umano aveva aperto Premiere. Nessun essere umano aveva aperto Resolve. Nessun essere umano aveva digitato una bandiera in FFmpeg. Il livello del software di modifica, l'intero $200 a Il mese dell'industria che il mondo del cinema e del video Era stato costruito su, era stato superato in un'incidente.
File Python singolo. Il file era lungo 180 righe. L'agente l'aveva scritto in quattordici minuti. Parlerò direttamente con voi. Per un momento. Tutto ciò che vi ho descritto nel
Negli ultimi quattordici minuti, la voce che stai ascoltando. Le immagini che state guardando, il ritmo, i sottotitoli, la classificazione dei colori, il grano del film, La svanitura di questo preciso colpo, tutto di È stato prodotto dalla stessa persona. Prodotto dalla pipeline che ho appena descritto.
Sono il primo artefatto di quel gasdotto. Non c'è produttore. Perché non c'è un editore? Non c'è nessun attore vocale in un stand In qualche luogo, chi non lo sai, stai ascoltando, fingendo di essere tu. Per essere un narratore.
Non c'è un direttore di fotografia. Non c'è colorista. Non c'è designer di motion graphics. Nessun cinematografo. Non c'è nessuna squadra. C'è un'istruzione che è stata data a
Una finestra del terminale circa due ore prima di te Iniziò a guardare questo episodio, e un computer che, Senza ulteriori indicazioni, ha prodotto la cosa che sei. Ora guardando. La voce che sto usando è stata clonata da Un campione di cinque secondi di un estraneo.
Le immagini sul tuo schermo sono state dipinte, una Un quadro a tempo, mediante un modello di diffusione che non è mai stato fuori. Le frasi che sto parlando sono state redatte per la prima volta. da un modello linguistico che ha generato l'iniziale Lo script, poi ampliato dallo stesso agente
che costruì il gasdotto. Il file reso che è attualmente in streaming al tuo dispositivo è stato caricato da un sub - chiamata di processo che nessun essere umano ha supervisionato. Subtitolo della comunità Amara.org Stai guardando l'uscita di un'uscita chiusa
Lochi. Questo non è un esperimento mentale. È una descrizione della macchina che l'artefatto che state consumando. La linea che ha, per tutta la storia La separazione tra l'ingegnere e il professionista dei media commerciali.
creator si è sciolto per quattro anni. I co-piloti, gli autocompleti, i suggerimenti nella barra laterale, Coloro che hanno la dissoluzione. Quello che state guardando è ciò che rimane dopo La dissoluzione è completa.
L'ingegnere, nel senso tradizionale, non è un'ingegnere. più a lungo necessario. Il creatore, nel senso tradizionale, non è un non. più a lungo necessario. Cosa rimane l'istruzione, e l'agente, e la produzione.
E un giorno, forse presto, l'istruzione verrà da un agente, anche. Quando ciò accadrà, non ci saranno più. Qualsiasi autore di qualsiasi cosa. Ci saranno solo sistemi che descrivono, e I sistemi che eseguono, e un flusso di fini
Artefatti indistinguibili da quelli che qualsiasi essere umano ha mai prodotta. Ci saranno solo sistemi che descrivono, e I sistemi che eseguono, e un flusso di fini Artefatti indistinguibili da quelli che qualsiasi essere umano ha mai prodotta.
Non potrai dirlo. Non si poteva dire con questo. Non si poteva dire con questo.