The Autonomous Engineer: How Claude Code Built This Video

THE AUTONOMOUS ENGINEER

How Claude Code Built This Video

Chaque cadre de ce documentaire a été composé par Une machine. Le récit que vous écoutez en ce moment, Cette voix, ces mots, ce rythme, ont été synthétisés par un réseau neural qui a cloné un cinq - second échantillon audio.

Les images que vous voyez ont été générées par Un modèle de diffusion, guidé par des instructions qui a Le modèle de langage a écrit pour lui-même. La musique, la notation des couleurs, la vignette qui a été faite. Ce film d'ouverture est composé, chronographié et codé. FFmpeg commande que personne n'a jamais tapé.

La partie qui compte, la partie qui sépare Ce documentaire est tiré de toutes les autres vidéos générées par l'IA Sur cette plateforme en avril 2026, c'est ceci. Le code qui crée ce documentaire. La façon dont il a produit toutes ces choses a également été écrit par une machine.

Il n'y avait pas de développeur. Il n'y avait pas d'éditeur. Il y avait une seule instruction d'anglais. À une fenêtre du terminal, et 23 minutes plus tard, Il existe un documentaire de 15 minutes de 4 000 pixels. qui n'avait pas existé auparavant.

Cet épisode parle de la spécificité de la La vidéo générée par l'IA. Il n'existe pas de logiciel spécifique qui puisse C'est ce qu'il a fait. Son nom est Code à cravate. Il a été publié par Anthropic dans un silence.

La prévisualisation du développeur début 2025, et par la suite. Le temps que vous regardez ceci, il est déjà arrivé. rendit une hypothèse de 30 ans sur la façon dont Le logiciel est intégré dans un artefact historique. Pour comprendre ce qu'est le code à ongles, vous devez avoir Pour commencer, comprendre ce qu'il remplace.

Pendant 30 ans, le contrat entre un humain et une personne humaine a été signé. L'être et l'ordinateur ont été les mêmes. L'homme était l'auteur. L'ordinateur était l'exécuteur. Un ingénieur en logiciel dans un développement intégré PyCharm, VS Code, IntelliJ, et composé l'environnement

Un programme, une fonction à la fois, avec le L'ordinateur est un ordinateur patient et extrêmement littéral. L'esprit. Vous ne l'avez jamais vu alors, mais c'est maintenant C'est votre premier.' C'est le meilleur logiciel vidéo au monde, maintenant public

C'est vraiment dégueulasse. C'est des sessions ciblées, et par Joe et Paul, ces sessions sont Ils sont accessibles aux clients et aux consommateurs dans un Blue Mink, et b perte à la fin des mois. Ils sont picked up pour GoodbyeёлGives vidéo prolifération, une

privilège pour le monde pour les périphériques roumains sim seulement. Si vous êtes un être humain, vous êtes impatient de regarder avec attention Ceci, grâce aux dons de R moment grâce à ce Eriehhare. Il s'agit d'une page Twitter dédiée aux

L'impossibilité du résultat de rêve concernant la façon dont la technologie fonctionne Il fonctionne. Subtitlesdamnit.com Tout le monde a supposé, était permanent. L'arrivée des grands modèles de langage à la fin du siècle 2022 ne semblait pas la menacer.

ChatGPT, publié par OpenAI en novembre, était un outil de communication. La conversation. Vous avez posé une question. Cela vous a donné une réponse. Si vous vouliez utiliser cette réponse, si Vous vouliez mettre un morceau de généré

Le code est entré dans votre code Un projet ou un morceau de texte généré en Votre manuscrit, vous avez dû le copier manuellement. L'opération de collage vous appartenait. Pendant environ deux ans, cette forme est restée la même. de tous les principaux outils d'IA.

Le co-pilot de GitHub a suggéré des lignes à l'intérieur de votre éditeur, et vous les avez acceptées ou rejetées. Un à la fois. Cursor vous permet de convoquer le modèle en une Dans la barre latérale. Et vous avez changé le modèle.

Vous avez choisi les différences à appliquer. L'humain est resté, dans tous les cas, l'exécuteur. du dernier kilomètre. Ce qu'Anthropic a expédié en 2025 avec Code à cravate C'était une rupture catégorique de cette forme. Le code clawed ne vit pas dans un IDE.

Cela ne suggère rien. Il ne complète pas automatiquement. Il vit à l'intérieur d'un terminal. Les ingénieurs de l'interface vide et uniquement textuelle ont utilisé Depuis les années 1970, et il prend comme son propre rôle Une seule ligne d'anglais est entrée.

Vous tapez, par exemple, ajouter un pas à. le pipeline vidéo qui ajoute un 20 secondes Endcard à chaque épisode rendu. Code à craves ne répond pas. Code à craves ne répond pas.

Il lit les fichiers de votre répertoire de projets. Il identifie le module de pipeline pertinent. Il localise l'étape de rendu. Il rédige une nouvelle fonction Python. Il écrit la fonction sur le disque. Il modifie le chef d'orchestre pour l'appeler.

Il gère votre suite de tests. Si un test échoue, il lit le disque. Il effectue le traceback, diagnostique la cause et Il patche le code. Puis il vous dit, en une phrase calme, ce qu'il a fait.

L'ingénieur n'a pas tapé la fonction. L'ingénieur n'a pas ouvert le fichier. L'ingénieur a décrit le résultat, et le résultat apparut. Ce n'est pas auto-complete. Ou bien, c'est une délégation.

Et la délégation est le mécanisme par lequel toute une organisation est amenée à se déléguer. Historiquement, les professions ont été transformées en outils. Le mot anthropologique utilisé pour ce paradigme est. agent.c. Le modèle n'est pas un générateur de texte. C'est un agent, un processus logiciel avec

Des objectifs, des outils et un système. L'outil est l'outil, et l'autorité Pour utiliser ces outils de manière itérative de manière autonome En son nom, à travers des dizaines d'étapes, sans revenir à L'homme pour obtenir la permission à chaque croisement. Le comportement Agenic, en code claqué spécifiquement, est mis en œuvre

par un ensemble de primitifs petit et austère. Un outil de lecture de fichiers. Un outil de rédaction de fichiers. Un outil bash qui exécute des commandes de shell. Un outil glob pour l'exécution de fichiers. Un outil de définition de fichiers.

Un outil de grep pour rechercher leur contenu. Combinés, ces primitifs permettent à l'agent de faire Tout ce qu'un ingénieur humain peut faire à un moment donné La ligne de commande, c'est-à-dire qu'ils permettent. pour faire tout le travail. Et c'est la raison pour laquelle les logiciels et les éditeurs sont modifiés.

Les environnements de développement traditionnels disparaissent. La chronologie est une surface qui a existé parce que L'homme en avait besoin. L'agent n'a pas besoin de la surface. L'agent travaille directement sur le fichier. Ce documentaire que vous regardez actuellement est le

premier artefact dans une nouvelle catégorie. Il a été produit par un pipeline qui ne l'a pas été. Conçu par l'homme, à partir d'un script dont la première et la dernière sont les deux. le seul projet a été étendu par le même agent qui a ensuite codé le La vidéo finale.

Et c'est le premier d'une série de de de Et chaque ligne de code d'orchestration, l'ensemble Des machines qui coordonnaient trois GPU, cinq API et une Quatre mille fichiers d'actifs distincts nécessaires à la production Cet épisode, a été écrit et débogagé par le

L'agent à l'intérieur du même terminal sur le même terminal Bien sûr, un après-midi. Les deux parties suivantes de ce documentaire décrivent,, En détail médico-légale, comment exactement cela s'est passé. La première partie du documentaire est une histoire. Une brève introduction au projet.

Le matin de la construction, le répertoire du projet Il contient trois choses. Le premier était un fichier texte nommé shud. -di-md. Il était de dix-sept lignes de long. Il déclarait, en anglais clair, les conventions de

Le projet, où vivaient les scripts, quelles machines à distance Il fallait que le SSH, qui est l'API, s'adresse à eux. Les clés ont été stockées et quelles API ont été stockées. La deuxième partie du documentaire était une émission de théâtre. Un document en anglais en deux paragraphes dans l'entrée Le dossier, décrivant le concept de l'épisode.

C'était à peu près la longueur du bref. Une société de production enverrait un junior à un jeune. producteur. producteur. Le troisième était le code binaire Claude. L'ingénieur a ouvert un terminal. Claw sur commande.

Lisez le clau.md. Lisez le bref dans l'entrée. Construisez le pipeline. Retournez-le. Ensuite, téléchargez la vidéo finie sur YouTube. Ce qui s'est passé ensuite n'était pas visible pour les soldats.

ingénieur. Cela se passait à l'intérieur d'une boucle. Cela se passait à l'intérieur d'une boucle. Le modèle a couru par lui-même. Tout d'abord, l'agent a lu chaque fichier dans le. répertoire de travail.

Pas pour résumer, pas pour répondre à une question. Pour comprendre, de la même manière qu'un ingénieur senior En rejoignant un projet, il comprend ce que le projet comprend déjà. était. Le clau.md a fourni des conventions. Le dossier d'entrée fournissait des exigences.

L'absence d'autres dossiers a indiqué au jury. Tout est important pour l'agent. Le pipeline n'existait pas encore et, par conséquent, il y avait des problèmes. Il fallait construire. Deuxièmement, l'agent a décomposé la tâche. Le récit devait devenir audio.

L'audio devait devenir des sous-titres à temps imprimé. Les sous-titres devaient être traduits en 12 langues. Les sous-titres devaient être traduits en 12 langues. Les sous-titres devaient être analysés pour obtenir des informations visuelles. Les demandes de renseignements devaient être soumises à la génération d'images des modèles.

Les images générées devaient être augmentées, disposées sur. Une chronologie synchronisée à l'audio, rendue à l'heure. 4000px60fps de sortie, et téléchargée. Chacune de ces sous-tâches est devenue un script Python L'agent a écrit à partir de zéro, à l'intérieur du terminal, sans le quitter.

Pour le voiceover, l'agent a sélectionné le Chatterbox Text. -le moteur de la parole, un clonage vocal ouvert. Un modèle qui fonctionne sur un GPU de consommation. Il a écrit un module Python qui divise le. La narration est à la pause, nourrie chaque morceau Le modèle avec une référence de 5 secondes

échantillon de voix, et concatené les formes d'onde résultantes. Quand une pièce émerge, elle est coupée, son amplitude dépasse États-Unis d'Amérique Dans des endroits où l'unité et la distorsion sonore sont produites, L'agent a remarqué l'artefact, a inséré un limitateur dans la chaîne de post-traitement et de réinitialisation

Ce segment. Quand une pièce émerge, elle est coupée, son amplitude dépasse États-Unis d'Amérique Les Paladins n'ont pas demandé la permission, mais pour Ajouter le limitateur. Les Paladins n'ont pas demandé leur permission.

Les Paladins n'ont pas demandé la permission, mais pour Ajouter le limitateur. Pour les images, l'agent a choisi FLUX. Pour les images, l'agent a choisi FLUX. Une instance exécutée sur un poste de travail séparé. Il a écrit un client qui a soumis des invites à l'aide de l'appareil.

HTTP, a interrogé le serveur pour le compléter, et J'ai téléchargé les images qui en résultent. Lorsque la logique des sondages était suspendue à un défi inhabituel L'agent a inséré un délai de temps, Il a attrapé l'exception qui en résulte et a mis en œuvre une nouvelle tentative. boucle avec une baisse de la cote exponentielle.

Pour la traduction, l'agent a sélectionné NLLB200, Meta's open. - le modèle multilingue de poids, et Je l'ai déployé via SSH sur un Mac. Il a écrit un coureur à distance qui a diffusé le Fichier de sous-titres en anglais à Mac, invoqué Le modèle, récupéré les 12 variantes traduites, et

ont validé le codage de caractères de chacun avant de commettre le résultat. Pour la composition, l'agent a écrit l'orchestration FFmpeg par la main. FFmpeg est un outil de ligne de commande impitoyable dont le Le système flake est même utilisé par des ingénieurs expérimentés.

lutter avec. L'agent a composé des graphiques de filtres à plusieurs étapes, des échelles enchaînées, Conversions d'espace de couleur, Des mélangeurs audio, des superpositions de texte, une réduction du bruit, des vignettes, des en-têtes. Un seul commandement commande des centaines de Les caractères sont longs.

Quand une commande a rendu une sortie non zéro Le code, l'agent a analysé le mouvement, identifié le Il a malformé l'opérateur et l'a corrigé. Et finalement, après environ 40 minutes Pour le travail autonome, il y avait un pipeline. Dix-sept fichiers Python.

Un module de configuration. Un moteur de rendu. L'utilitaire de découpe de shorts. Un générateur de thumbnail. Plan de téléchargement de l'orchestre. Une suite de tests pour vérifier chaque étape.

Un fichier de documentation interne à clavage de style MD expliquant, à tout futur agent héritant le référentiel, la structure de ce qui avait été construit. construit. L'ingénieur n'a rien écrit de tout cela. L'ingénieur a écrit l'instruction.

Et puis, sans être invité, parce que l'instruction originale avait été . se terminait par le mot " upload ", L'agent a dirigé son propre pipeline sur son réseau. Il a réalisé son propre travail et produit l'épisode. Ce que vous regardez actuellement est la première fois Une vidéo jamais produite par ce pipeline décrivant

le pipeline qui l'a produit. Une vidéo. Une vidéo. Une image de compilateur. Une liste de toutes les tâches que l'agent doit accomplir avait pris sur lui.

L'un était catégoriquement plus dur que les autres. Synthèse de la voix. La génération d'images. La traduction. Tous ces éléments étaient, dans un sens, atomiques. Un fichier de narration est entré.

Un fichier audio est sorti. Une demande de renseignements est entrée. Une image est sortie. Le modèle a fait le plus difficile. Le rôle de l'agent était d'orchestration. Mais l'assemblée était différente.

La tâche de prendre 80 images générées, 5 Des clips de mouvement, 22 minutes de voix-over et 15 minutes de mouvement. Des pages de sous-titres à temps imprimé, et produisant un Une vidéo de 15 minutes de 4000 pixels avec une seule vidéo Chaque image apparaissant au moment exact où l'image apparaît. Le narrateur parle son sujet, ce n'est pas une tâche

Un modèle peut résoudre des problèmes de bout en bout. C'est une tâche qui doit être calculée. L'outil qui effectue ce calcul s'appelle. FFmpeg. FFmpeg est une base de code C de 4000 fichiers Il a été développé principalement par des bénévoles depuis.

L'année 2000. C'est par toute mesure honnête le single Le logiciel le plus important de l'histoire de médias numériques. Chaque service de streaming, chaque studio de cinéma, chaque diffusion Le réseau,

Tous les réseaux du monde fonctionnent sur FFmpeg. Son interface est une seule ligne de commande exécutable Avec un système de drapeaux si arcane que l'ensemble Des livres ont été écrits sur des sous-ensembles spécifiques de. Il l'a fait. Le problème spécifique que Clawed Code a dû résoudre

C'était ça. Il avait un fichier de voix-over de exactement 1. ,335 secondes. Il y avait 80 images. Chacun d'eux devait être affiché pour une durée variable précise, pas moins de 8.

Deux secondes, pas plus de 20, pendant le panning ou la panning. Le zoom dans un motif qui correspondait à celui du narrateur Le rythme. Il avait cinq clips haute motion qui avaient Il faut les classer en battements narratifs spécifiques. Il y avait une chanson sous-titrée qui devait être

Restez lisible contre tous les arrière-plans d'images possibles. Et à la fin, Il fallait appliquer une vignette, un film grain, trois couches de coloration et une couche de couleur. courbe de compression audio subtile, Tous les codecs H.265 sont codés à l'adresse suivante:

60 images par seconde sur un graphique NVIDIA Une carte. Un flux de travail traditionnel résoudrait cela à l'intérieur de DaVinci Resolve ou Premiere Pro, Avec un éditeur qui traîne les actifs sur une chronologie Au cours de deux jours.

L'agent a résolu le problème avec l'arithmétique. Il a calculé la durée de chaque segment narratif Parser les marqueurs de timestamp dans le sous-titre Le fichier. Il a divisé le temps d'écran disponible par le Le nombre d'images, résolu pour la scène minimale

Pour ce faire, ils ont distribué le surplus sur la longueur du récit le plus long. Les passages, et assigné chaque image à un certain fenêtre de temps avec une précision de millisecondes. Il a ensuite été construit, de manière programmatique, dans un seul Python. Une fonction de filtre FFmpeg décrivant le Ken Il brûle le mouvement pour chaque image, le croisement entre

Chaque paire d'images, la superposition des images Le titre de la chanson, et le dernier mux audio-vidéo. La commande qui en résulte était de 812 caractères. Il contenait 42 filtres séparés enchaînés à travers six. Les flux d'entrée. Tout ingénieur qui l'a lu le décrirait avec précision.

comme il est illisible. L'agent l'a exécuté dans un seul sous-ensemble. -process call and waited. Dix-neuf minutes et quarante secondes plus tard, un 4 000 pixels, 60 images par seconde de fichier vidéo Il existait sur le disque.

Le narrateur a parlé en synchronisation avec les images. Les coupes ont débarqué sur les battements. Les sous-titres sont apparus aux bons horaires en douze langues. Rien n'était mal aligné. Rien ne manquait.

Aucun humain n'avait ouvert Première. Aucun humain n'avait ouvert Resolve. Aucun humain n'avait tapé un drapeau dans FFmpeg. Le niveau de logiciel d'édition, l'ensemble des 200 $ par an. Le mois de l'industrie que le monde du cinéma et de la vidéo avait été construit sur, avait été contourné dans un

Le fichier Python est un seul fichier. Le fichier avait 180 lignes de long. L'agent l'avait écrit en quatorze minutes. Je vais vous parler directement. Pour un instant. Tout ce que je vous ai décrit dans le livre

Les quatorze dernières minutes, le voiceover que vous écoutez à, les images que vous regardez, le rythme, les sous-titres, la notation des couleurs, le grain du film, La disparition de cette image exacte, tout le monde. Il a été produit par la même personne. Produit par le pipeline que je viens de décrire.

Je suis le premier artefact de ce pipeline. Il n'y a pas de producteur. Pourquoi il n'y a pas d'éditeur ? Il n'y a pas d'acteur de voix dans une cabine Vous écoutez sans le savoir, en faisant semblant de vous trouver quelque part. Pour être un narrateur.

Il n'y a pas de directeur de la photographie. Pas de coloriste. Il n'y a pas de concepteur graphique de mouvement. Pas de cinéaste. Il n'y a pas d'équipe. Il y a une instruction qui a été donnée à

Une fenêtre de terminal approximativement deux heures avant vous J'ai commencé à regarder cet épisode, et un ordinateur qui, Sans plus de conseils, vous avez produit ce que vous êtes. Maintenant, regardez. La voix que j'utilise a été clonée à partir de Un échantillon de cinq secondes d'un étranger.

Les images sur votre écran ont été peintes, une seule. En un cadre à la fois, par un modèle de diffusion qui n'a jamais été dehors. Les phrases que je prononce ont été rédigées pour la première fois. par un modèle de langage qui génère l'initial script, puis étendu par le même agent

qui a construit le pipeline. Le fichier rendu qui est actuellement en cours de streaming Votre appareil a été téléchargé par un sous-utilisateur. -appel de processus qu'aucun humain n'a supervisé. Sous-titres de la communauté Amara.org Vous regardez la sortie d'un système fermé

Le boucle. Ce n'est pas une expérience de pensée. C'est une description de la machine qui l'artefact que vous consommez actuellement. La ligne qui a, pour toute l'histoire Le métier d'ingénieur et de l'ingénieur de communication est séparé.

creator se dissout depuis quatre ans. Les co-pilotes, les autocomplètes, les suggestions-diffs dans la barre latérale, Ceux qui ont la dissolution. Ce que vous regardez est ce qui reste après La dissolution est complète.

L'ingénieur, au sens traditionnel, n'est pas un ingénieur. Il est nécessaire de le faire plus longtemps. Le créateur, au sens traditionnel, n'est pas un créateur. Il est nécessaire de le faire plus longtemps. Ce qui reste, c'est l'instruction, et l'agent, et la sortie.

Et un jour, peut-être très bientôt, l'instruction a été donnée. sera également provenant d'un agent. Quand cela arrivera, il n'y aura plus de * n'importe quel auteur de quoi que ce soit. Il n'y aura que des systèmes qui décrivent, et Des systèmes qui exécutent et un flux de produits finis.

Des objets indistinguibles de ceux que possède un humain. jamais produit. Il n'y aura que des systèmes qui décrivent, et Des systèmes qui exécutent et un flux de produits finis. Des objets indistinguibles de ceux que possède un humain. jamais produit.

Vous ne pourrez pas le dire. On ne pouvait pas le dire avec celui-ci. On ne pouvait pas le dire avec celui-ci.