The Autonomous Engineer: How Claude Code Built This Video

THE AUTONOMOUS ENGINEER

How Claude Code Built This Video

Jedes Bild dieses Dokumentarfilms wurde von zusammengesetzt. Eine Maschine. Die Erzählung, die Sie gerade hören, Diese Stimme, diese Worte, dieses Tempo wurden synthetisiert durch ein neuronales Netzwerk, das eine Fünf-Klon geklont hat. -second Audio Sample.

Die Bilder, die Sie sehen, wurden von Ein Diffusionsmodell, das von Anfragen geführt wird, die eine Diffusion vornehmen. Das Sprachenmodell schrieb für sich selbst. Die Musik, die Farbbewertung, die Vignette, die sie ausmacht. Dieser Eröffnungsschuss ist in Form von Rahmen, zusammengesetzt, zeitlich und kodiert FFmpeg gibt Kommandos, die kein Mensch jemals eingegeben hat.

Der Teil, der zählt, der Teil, der sich trennt Dieser Dokumentarfilm ist von jedem anderen KI-generierten Video entstanden Auf dieser Plattform im April 2026 ist dies. Der Code, der diesen Dokumentarfilm erstellt. Die Art und Weise, wie es all diese Dinge produzierte wurde auch von einer Maschine geschrieben.

Es gab keinen Entwickler. Es gab keinen Redakteur. Es gab nur eine einzige englische Sprache-Anleitung gegeben zu einem Terminalfenster, und 23 Minuten später, Es gab einen 15-minütigen 4,000-Pixel-Dokumentarfilm. Das gab es vorher nicht.

Diese Episode handelt von der Besonderheit der Video, das von KI generiert wurde. Es gibt kein spezifisches Software-System, das Das taten sie. Sein Name ist Clawed Code. Es wurde von Anthropic in einem ruhigen Moment veröffentlicht

Entwicklervorführung Anfang 2025, und durch die Die Zeit, dass Sie das sehen, ist schon gekommen. Er stellte eine 30-jährige Annahme darüber dar, wie Die Software ist in ein historisches Artefakt eingebaut. Um zu verstehen, was Knöpfe Code ist, müssen Sie haben Zuerst müssen wir verstehen, was er ersetzt.

30 Jahre lang war der Vertrag zwischen einem Menschen Sein und Computer waren immer das gleiche. Der Mensch war der Autor. Der Computer war der Vollstrecker. Ein Softwareingenieur, der in einer integrierten Entwicklung eingesetzt ist PyCharm, VS Code, IntelliJ, und komponierte die Umwelt

Ein Funktion nach der anderen, mit dem Programm. Der Computer dient als ein patienter und extrem buchstäblicher Computer. Der Geist. Sie haben es damals nie gesehen, aber es ist jetzt Das ist dein erstes.' Es ist die weltweit beste Video-Software, die jetzt öffentlich ist

Das ist so was. Es sind gezielte Sitzungen, und von Joe und Paul, diese Es wird für Kunden und Verbraucher zugänglich gemacht in a Blue Mink, und b Verlust bei Das Ende der Monate. Sie sind für GoodbyeёлGives aufgehoben, ein Video zur Verbreitung von Waffen.

Privilege für die Welt für sim rumänische Peripheriegeräte Nur. Wenn du bist, dann schaust du dich schon sehr darauf ab, zu sehen Dies, dank R Moment Spenden durch diese Eriehhare. Dies ist eine TWITTER-Seite, die dem gewidmet ist.

Unmöglichkeit des Traumergebnisses bezüglich der Art und Weise, wie Technologie funktioniert. Subtitlesdamnit.com alle angenommen, war dauerhaft. Die Ankunft großer Sprachmodelle in später Zeit 2022 schien es nicht zu bedrohen.

ChatGPT, das im November von OpenAI veröffentlicht wurde, war ein Gespräch. Gespräch. Sie haben es mit einer Frage gestellt. Es gab dir eine Antwort. Wenn Sie diese Antwort verwenden möchten, wenn Sie wollten ein Stück von generated

Sie haben Ihren Code in Ihren Code eingegeben Ein Projekt oder ein Stück Text, der in generiert wurde. Ihr Manuskript, Sie mussten es manuell kopieren. Die Pfeifenoperation gehörte Ihnen. Ungefähr zwei Jahre lang blieb dies die Form. von jedem großen KI-Tool.

GitHub co-pilot vorgeschlagenen Linien innerhalb Ihres Redakteurs, Und Sie akzeptierten oder ablehnten sie. Einer nach dem anderen. Cursor lässt dich das Modell in eine einberufen. Die Seitenleiste. Und Sie haben das Modell geändert.

Sie haben gewählt, welche Differenzen zu verwenden sind. Der Mensch blieb in jedem Fall der Vollstrecker. Die letzte Meile. Was Anthropic 2025 mit Klauencode verschifft hat Es war ein kategorischer Bruch von dieser Form. Clawed Code lebt nicht in einem IDE.

Das schlägt nicht vor. Es vollendet sich nicht selbst. Es lebt in einem Terminal. Die Bare-Text-Nur-Interface-Ingenieure haben verwendet Seit den 1970er Jahren, und es nimmt als seine Ein einziges Zeil Englisch.

Sie geben beispielsweise ein Schritt hinzu zu. Die Videopipeline, die eine 20-Sekunden-Pieplung ergänzt Endkarte Endkarte zu jedem dargestellten Episode. Clawed Code antwortet nicht. Clawed Code antwortet nicht.

Es liest die Dateien in Ihrem Projektverzeichnis. Es identifiziert das relevante Pipeline-Modul. Es lokalisiert den Render-Schritt. Es entwirft eine neue Python-Funktion. Es schreibt die Funktion auf die Festplatte. Es ändert den Hauptorkestrator, um ihn zu nennen.

Es führt Ihre Testsuite aus. Wenn ein Test versagt, liest er die Festplatte. Es führt die Rückverfolgung durch, diagnostiziert die Ursache und Patches den Code. Dann sagt es dir in einem ruhigen Satz: was es getan hat.

Der Ingenieur hat die Funktion nicht eingegeben. Der Ingenieur öffnete die Datei nicht. Der Ingenieur beschrieb das Ergebnis und das Ergebnis erschien. Dies ist nicht automatisch abgeschlossen. Oder das ist eine Delegation.

Und Delegierung ist der Mechanismus, durch den das Ganze Berufe sind historisch in Werkzeugarbeit zusammengebrochen. Das Wort anthropisch verwendet für dieses Paradigma ist. Agentisch. Das Modell ist kein Textgenerator. Es ist ein Agent, ein Software-Prozess mit

Ziele, Werkzeuge und ein System. Das Werkzeug ist das Werkzeug, und die Autorität Diese Tools können sich selbst iterativ nutzen Im Namen von Dutzenden von Schritten, ohne zu kehren, um zu Der Mensch erlaubt sich an jeder Kreuzung. Agenisches Verhalten, in Clawed Code speziell, wird implementiert

durch eine kleine und austere Gruppe von Primitivern. Ein Lesendatei-Tool. Ein write-file-Tool. Ein Bash-Tool, das Shell-Befehle ausführt. Ein glob-tool für die datei-ausführung. Ein Tool zur Definition von Dateien.

Ein grep-tool für die suche nach ihrem inhalt. Kombiniert erlauben diese Primitivs dem Agenten zu tun. Alles, was ein menschlicher Ingenieur in einer Art und Weise tun kann. Die Befehlszeile, d.h. sie erlauben. Es ist, um den ganzen Job zu erledigen. Und das ist der Grund, warum ich Software und Software bearbeiten und bearbeiten muss.

Die traditionellen Entwicklungsumgebungen verschwinden. Die Zeitlinie ist eine Oberfläche, die existierte, weil Der Mensch brauchte es. Der Agent braucht die Oberfläche nicht. Der Agent arbeitet direkt an der Datei. Dieser Dokumentarfilm, den Sie gerade sehen, ist der

Erster Artefakt in einer neuen Kategorie. Es wurde durch eine Pipeline produziert, die keine Menschentworfen, aus einem Skript, dessen erste und nur Draft wurde von demselben Agenten erweitert Das dann die kodierte. Das letzte Video.

Und es ist das erste in einer Reihe Von von von Und jede Zeile des Orchestrierungskodes, die ganze Maschinen, die drei GPUs, fünf APIs und koordinierten. Viertausend diskrete Asset-Dateien, die erforderlich sind, um zu produzieren Dieser Episode wurde von der geschrieben und abgebaut.

Agent innerhalb des gleichen Terminals über demselben Terminal Das war ein einziger Nachmittag. Die nächsten beiden Teile des Dokumentarfilms beschreiben, in forensischem Detail, wie genau das passiert ist. Der erste Teil des Dokumentarfilms ist ein . Eine kurze Einführung in das Projekt.

Am Morgen des Baus, des Projektverzeichnisses Es enthielt drei Dinge. Die erste war eine Textdatei namens shud. -di-md. Es war siebzehn Zeilen lang. Es erklärte in einfacher Englisch die Konventionen von

Das Projekt, wo die Drehbücher lebten, welche Fernmaschinen Diese sollten von SSH adressiert werden, welches API Die Schlüssel wurden gespeichert und welche APIs gespeichert wurden. Der zweite Teil des Dokumentarfilms war ein Ein zweipunktiges englischsprachiges Dokument im Eingang Ein Ordner, der das Konzept der Episode beschreibt.

Es war ungefähr die Länge der Kurzschrift. Ein Produktionsunternehmen würde einen Junior schicken Produzent. Produzent. Das dritte war der Claude-Code binär. Der Ingenieur öffnete ein Terminal. Klaw auf Befehl.

Lesen Sie den clau.md. Lesen Sie den Brief in der Eingabe. Bauen Sie die Pipeline. Laufen Sie es. Und laden Sie das fertige Video auf YouTube hoch. Was als Nächstes passierte, war den Anfängern nicht sichtbar.

Ingenieur. Es geschah in einer Schleife. Es geschah in einer Schleife. Das Modell lief mit sich selbst. Zuerst las der Agent jede Datei in der . Das Arbeitsverzeichnis.

Nicht um eine Zusammenfassung zu machen, nicht um eine Frage zu beantworten. Um zu verstehen, auf die Art und Weise, wie ein Senior-Ingenieur Wenn man sich einem Projekt anschließt, versteht man, was das Projekt bereits ist. war. Die clau.md bereitete Konventionen. Der Eingabeordner stellte Anforderungen.

Das Fehlen anderer Dateien sagte dem Alles wichtiges ist für den Agenten. Die Pipeline existierte noch nicht und daher Es musste gebaut werden. Zweitens, der Agent zerlegte die Aufgabe. Die Erzählung musste zum Audio werden.

Audio musste zu zeitgemachten Untertiteln werden. Die Untertitel mussten in 12 Sprachen übersetzt werden. Die Untertitel mussten in 12 Sprachen übersetzt werden. Untertitel mussten auf visuelle Anfragen analysiert werden. Anfragen mussten der Bildgenerierung übermittelt werden Modelle.

Erzeugte Bilder mussten aufhöht werden, auf angeordnet werden. Eine Zeitlinie, die mit dem Audio synchronisiert ist, wird bei wiedergegeben. 4000px60fps Ausgang und hochgeladen. Jede dieser Unteraufgaben wurde zu einem Python-Skript. Der Agent schrieb von Grund auf, im Terminal, Ohne es zu verlassen.

Für die Voiceover-Version hat der Agent den Chatterbox Text ausgewählt. -to-Speech Engine, eine Open-Weight-Sprachklonung Ein Modell, das auf einem Konsum-GPU läuft. Es schrieb ein Python-Modul, das den aufteilte. Erzählung an den Pausenmarkern, gefüttert jedes Stück Das Modell mit einem 5-Sekunden-Referenz

Stimmprobe und konzentrierte die daraus resultierenden Wellenformen. Wenn ein Stück entstanden ist, wird es geklippt, und seine Amplitude übersteigt Die USA sind An Orten der Einheit und der Produktion von Hörverzerrungen, Der Agent bemerkte das Artefakt und stellte einen Begrenzer ein. in die Nachverarbeitungskette und wieder auflaufen

Dieses Segment. Wenn ein Stück entstanden ist, wird es geklippt, und seine Amplitude übersteigt Die USA sind Die Paladiner haben nicht um Erlaubnis gebeten, um zu gehen. hinzufügen der Begrenzer. Die Paladins haben keine Erlaubnis gefragt.

Die Paladiner haben nicht um Erlaubnis gebeten, um zu gehen. hinzufügen der Begrenzer. Für Bilder wählte der Agent FLUX. Für Bilder wählte der Agent FLUX. Eine Instanz, die auf einer separaten Workstation läuft. Es schrieb einen Client, der Anfragen über eine Überprüfung eingereicht hat.

HTTP, befragte den Server für den Abschluss und Die ergebenden Bilder heruntergeladen. Als die Wahllogik an einem ungewöhnlichen Anschluss hing, Langsamer Satz, der Agent ein Timeout eingefügt, Die daraus resultierende Ausnahme erwischte und ein erneutes Versuch durchführte. Schleife mit exponentiellem Backoff.

Für die Übersetzung wählte der Agent NLLB200, Meta's open. -gewichtes mehrsprachiges Modell und Sie wurde über SSH auf einen Mac bereitgestellt. Es schrieb einen Remote-Runner, der den streamed. Englischuntertiteldatei zum Mac, aufgerufen Das Modell, die 12 übersetzten Varianten, und

die Zeichencodierung jedes einzelnen bestätigt bevor man das Ergebnis ausführt. Für die Komposition schrieb der Agent die FFmpeg-Orchesterung. Hand an Hand. FFmpeg ist ein unverzeihliches Kommandozeilen-Tool, dessen Flake System sogar erfahrene Ingenieure

mit dem Kampf zu kämpfen. Der Agent komponierte Multistage-Filtergraphen, Ketten-Skalare, Farbraumkonversionen, Audio-Mixer, Textüberlagerungen, Lärmreduktion, Vignetten, Intra Ein einzelner Befehl gibt Hunderte von Die Zeichen sind lang.

Wenn ein Befehl einen nicht-Null-Ausgang zurückgab Der Code, der Agent analysierte die Aufregung, identifizierte die malformed operator, und korrigierte es. Und am Ende, nach etwa 40 Minuten Von autonomen Arbeit, gab es eine Pipeline. Siebzehn Python-Dateien.

Ein Konfigurationsmodul. Eine Rendering-Engine. Shorts-Clipping-Dienst. Ein Thumbnail-Generator. Planen Sie den Upload des Orchestrators. Eine Testsuite, um jede Stufe zu überprüfen.

Eine geknackte MD-Stil-Internendokumentation, die erklärt, zu jedem zukünftigen Agenten, der sie erbt Das Repository, die Struktur dessen, was gewesen war gebaut. Der Ingenieur hat nichts davon geschrieben. Der Ingenieur schrieb die Anweisung.

Und dann, unerwünscht, weil die ursprüngliche Anweisung hatte beendet mit dem Wort upload, Der Agent lief seine eigene Pipeline auf seiner Sie haben ihre eigene Arbeit geleistet und die Episode produziert. Was Sie gerade sehen, ist die erste Video, das jemals von dieser Pipeline produziert wurde, das beschreibt

Die Pipeline, die sie produzierte. Ein Video. Ein Video. Ein Kompilatortitelbild. Eine Liste aller Aufgaben, die der Agent zu erfüllen hat. hatte sich übernommen.

Einer war kategorisch härter als die anderen. Stimmsynthese. Bildgenerierung. Übersetzung. All diese waren in gewissem Sinne atomar. Eine Erzähldatei ging ein.

Eine Audiodatei kam heraus. Ein Anruf ging ein. Ein Bild kam heraus. Das Modell hat den schwierigen Teil getan. Die Rolle des Agenten war die Orchestrierung. Aber die Versammlung war anders.

Die Aufgabe, 80 erzeugte Bilder zu machen, 5 Die Filme sind 22 Minuten Voiceover und 15 Minuten Bewegung. Zeitstempelte Untertitel und eine -Produktion. Ein 15-minütiges, 4000-Pixel-Video mit Jedes Bild erscheint genau im Moment, in dem es sich um die handelt. Der Erzähler spricht sein Thema, ist keine Aufgabe

Ein Modell kann end-to-end lösen. Es ist eine Aufgabe, die berechnet werden muss. Das Werkzeug, das diese Berechnung durchführt, wird genannt. FFmpeg. FFmpeg ist eine 4,000-Datei C-Codebase Das wurde seit vor allem von Freiwilligen entwickelt.

Das Jahr 2000. Es ist in jedem ehrlichen Maßstab die Single Das wichtigste Software-Spiel in der Geschichte von digitalen Medien. Jeder Streaming-Dienst, jedes Filmstudio, jede Sendung Netzwerk, Netzwerk,

Jedes Netzwerk der Welt läuft auf FFmpeg. Seine Schnittstelle ist ein einziges Befehlszeilen-Ausführbar Mit einem Flaggensystem, das so geheimnisvoll ist, dass das ganze Es wurden über bestimmte Untergruppen von Bücher geschrieben. Es ist es. Das spezifische Problem, das Clawed Code lösen musste

Das war es. Es hatte eine Voiceover-Datei von genau 1. 335 Sekunden. Es hatte 80 Bilder. Jedes von ihnen musste für angezeigt werden. Eine genaue variable Dauer, nicht weniger als 8

Nicht mehr als 20 Sekunden, während der Panne oder das Das Zoomen in einem Muster, das dem Erzähler entspricht Rhythmus. Es hatte fünf High-Motion-Clips, die Es wird in spezifische Erzählschläge eingeteilt. Es hatte einen Untertitel-Track, der zu

Sie bleiben vor jedem möglichen Bildhintergrund lesbar. Und am Ende, Es musste eine Vignette, einen Film, anbringen Korn, drei Schichten der Farbbewertung und eine subtile Audio-Komprimierungskurve, Alle sind mit dem H.265 Codec am verschlüsselt.

60 Bilder pro Sekunde auf einer NVIDIA Grafik Eine Karte. Ein traditioneller Workflow würde dies innerhalb von DaVinci lösen Resolve oder Premiere Pro, Mit einem Editor ziehen Sie die Assets auf eine Zeitlinie Im Laufe von zwei Tagen.

Der Agent löste es mit Arithmetik. Es berechnete die Dauer jedes Erzählsegments Durch das Parsieren der Zeitschirme in den Untertiteln Die Datei. Es teilte die verfügbare Bildschirmzeit durch die Anzahl der Bilder, die für die minimale Szene gelöst werden

Die Überschüsse wurden über die längste Erzähllänge verteilt. Passagen und zugewiesen jedes Bild zu einem bestimmten Zeitfenster mit Millisekundenpräzision. Es konstruierte dann programmatisch in einem einzigen Python. Eine FFmpeg-Filtergrafik, die die Ken-Funktion beschreibt. Brennt Bewegung für jedes Bild, die Kreuzung zwischen

Jedes Bildpaar, die Überlagerung der Untertitel-Track und der endgültige Audio-Video mux. Der resultierende Befehl war 812 Zeichen lang. Es enthielt 42 separate Filter, die über sechs Ketten gekettet waren. Input-Streams. Jeder Ingenieur, der es liest, würde es genau beschreiben,

als unlesbar. Der Agent hat es in einem einzigen Sub ausgeführt. -prozess-anruf und erwartet. Neunzehn Minuten und vierzig Sekunden später kam ein 4 000 Pixel, 60 Bilder pro Sekunde Videodatei existierte auf der Festplatte.

Der Erzähler sprach in Synchronisation mit den Bildern. Die Schnitte landeten auf den Schlägen. Die Untertitel erschienen in den richtigen Zeithöfen in. Zwei Sprachen. Nichts war falsch ausgerichtet. Nichts fehlte.

Kein Mensch hatte Premiere geöffnet. Kein Mensch hatte Resolve geöffnet. Kein Mensch hatte eine Flagge in FFmpeg eingegeben. Die Bearbeitungssoftware-Tier, die gesamte $200 pro Tag. Der Monat der Industrie, den der Film- und Videoexport weltweit verzeichnet war auf gebaut worden, in einem

Python-Datei. Ein einzelnes Datei. Die Datei war 180 Zeilen lang. Der Agent hatte es in vierzehn Minuten geschrieben. Ich werde direkt mit dir sprechen Für einen Moment. Alles, was ich Ihnen in der beschrieben habe, ist in der

Die letzten vierzehn Minuten, die Stimme, die du hörst zu den Bildern, die Sie sehen, dem Tempo, Die Untertitel, die Farbbewertung, das Filmkorn, Die Verschwinden bis zu diesem genauen Schuss, alle von Es wurde von derselben Person produziert. Er wird von der Pipeline produziert, die ich gerade beschrieben habe.

Ich bin das erste Artefakt dieser Pipeline. Es gibt keinen Produzenten. Warum gibt es keinen Editor? Es gibt keinen Stimmgespieler in einem Stand Irgendwo, wo man unwissentlich zuhört und so tut, als ob man es tut. Um ein Erzähler zu sein.

Es gibt keinen Direktor für Fotografie. Keine Farbmuster. Keine Motion Graphics Designer. Kein Künstler. Es gibt kein Team. Es gibt eine Anweisung, die an gegeben wurde

Ein Terminalfenster etwa zwei Stunden vor Ihnen Ich begann, diese Episode zu sehen, und ein Computer, das, Ohne weitere Anleitung produzierte man das, was man ist. Jetzt schauen. Die Stimme, die ich benutze, wurde von geklont. Eine fünf Sekunden-Sampel eines Fremden.

Die Bilder auf Ihrem Bildschirm wurden malen, ein Ein Frame zu einem Zeitpunkt, durch ein Diffusionsmodell Das war noch nie draußen. Die Sätze, die ich spreche, wurden zuerst erstellt durch ein Sprachmodell, das den Anfangs erzeugte. Das Skript und dann von demselben Agenten erweitert

Das baute die Pipeline. Die dargestellte Datei, die derzeit gestreamt wird auf Ihr Gerät wurde von einem Sub hochgeladen. -prozess-aufruf, der kein menschlicher beaufsichtigt wird. Untertitel von der Amara.org-Community Sie beobachten die Ausgabe eines geschlossenen

Ein Schleife. Dies ist kein Gedankenexperiment. Es ist eine Beschreibung der Maschine, die Das Artefakt, das Sie derzeit konsumieren, produziert. Die Linie, die für die gesamte Geschichte Die Verteilung der kommerziellen Medien trennte den Ingenieur von der

Seit vier Jahren löst sich creator auf. Die Co-Piloten, die Autokompleten, Die suggestiven Diffs in der Seitenleiste, Diejenigen mit der Auflösung. Was Sie sehen, ist das, was nach dem Tod bleibt Die Auflösung ist vollständig.

Der Ingenieur im traditionellen Sinne ist kein Ingenieur. Es ist länger notwendig. Der Schöpfer im traditionellen Sinne ist kein . Es ist länger notwendig. Was bleibt, ist die Anweisung und der Agent, und der Ausgang.

Und eines Tages, vielleicht bald, wurde die Anweisung gegeben. wird auch von einem Agenten kommen. Wenn das geschieht, wird es keine mehr geben Jeder Autor von irgendetwas überhaupt. Es wird nur Systeme geben, die beschreiben, und Systeme, die ausgeführt werden, und ein Strom von fertigen

Artefakte, die nicht von denen unterschieden werden können, die jeder Mensch besitzt. jemals produziert. Es wird nur Systeme geben, die beschreiben, und Systeme, die ausgeführt werden, und ein Strom von fertigen Artefakte, die nicht von denen unterschieden werden können, die jeder Mensch besitzt. jemals produziert.

Sie werden es nicht sagen können. Mit diesem konnte man es nicht erkennen. Mit diesem konnte man es nicht erkennen.