The Autonomous Engineer: How Claude Code Built This Video

THE AUTONOMOUS ENGINEER

How Claude Code Built This Video

Cada marco de este documental fue compuesto por Una máquina. La narración que estás escuchando ahora mismo, Esta voz, estas palabras, este ritmo, fue sintetizado Por una red neuronal que clonó un cinco -segunda muestra de audio.

Las imágenes que está viendo fueron generadas por Un modelo de difusión, guiado por las instrucciones que un El modelo de lenguaje escribió por sí mismo. La música, la calificación de color, la vignette que se hizo. Esta toma de apertura se enmarca, compone, cronograma y codifica FFmpeg hace que ningún ser humano escriba.

La parte que importa, la parte que separa Este documental de todos los demás videos generados por IA En esta plataforma en abril de 2026, es esto. El código que crea este documental. La forma en que produjo todas esas cosas También fue escrito por una máquina.

No había desarrollador. No había editor. Se dio una sola instrucción de inglés a una ventana de terminal, y 23 minutos después, Existe un documental de 15 minutos de 4,000 píxeles. que no había existido antes.

Este episodio trata sobre la especificidad de la El video generado por IA. No hay un software específico que pueda hacer que se haga algo. Eso lo hizo. Su nombre es Código Arrascado. Fue lanzado por Anthropic en un silencio.

La vista previa del desarrollador a principios de 2025, y por el momento. El tiempo que estáis viendo esto ya ha llegado. Rendered una suposición de 30 años sobre cómo El software está incorporado en un artefacto histórico. Para entender lo que es el Código Arrascado, tienes que tener Primero, entender lo que reemplaza.

Durante 30 años, el contrato entre un ser humano y un hombre El ser y la computadora han sido lo mismo. El hombre fue el autor. El ordenador fue el ejecutor. Un ingeniero de software que trabaja en un desarrollo integrado. PyCharm, VS Code, IntelliJ, y compuso el entorno

Un programa, una función a la vez, con el programa. Servían como una computadora paciente y extremadamente literal La mente. Nunca lo viste entonces, pero es ahora Es tu primera.' Es el mejor software de vídeo del mundo, ahora público

Es una mierda. Son sesiones dirigidas, y por Joe y Paul, estas sesiones son Se está haciendo accesible a los clientes y consumidores en un Blue Mink, y b pérdida en al final de los meses. Se recogieron para GoodbyeёлGives video proliferación, una

El privilegio para el mundo para sim Romanian periféricos Sólo. Si lo estás, estás ansioso por ver con mucho cuidado Esto, gracias a las donaciones de momento R a través de esto Eriehhare. Esta es una página de Twitter dedicada al

La imposibilidad del resultado de ensueño en cuanto a cómo la tecnología funciona. Subtitlesdamnit.com Todo el mundo asumió que era permanente. La llegada de grandes modelos de lenguaje a finales de 2022 no parecía amenazarlo.

ChatGPT, lanzado por OpenAI en noviembre de ese año, fue un éxito. conversación. conversación. Usted le hizo una pregunta. Te dio una respuesta. Si quisieras usar esa respuesta, si Querías poner un pedazo de generado

En tu código Un proyecto o un texto generado en un proyecto o un texto generado en un proyecto. Tu manuscrito, tuviste que copiarlo manualmente. La operación de pegar le perteneció a usted. Durante aproximadamente dos años, este se mantuvo en la forma. de todas las herramientas principales de IA.

El co-piloto de GitHub sugirió líneas dentro de su editor, Y usted las aceptó o las rechazó. Uno a la vez. Cursor te permite convocar el modelo en una En la barra lateral. Y cambiaste el modelo.

Usted eligió cuáles diferencias aplicar. El humano permaneció, en todos los casos, el ejecutor. de la última milla. What Anthropic envió en 2025 con código clavado Fue una ruptura categórica de esa forma. El código clavado no vive en un IDE.

No sugiere. No se completa automáticamente. Vive dentro de una terminal. Los ingenieros de la interfaz de texto solo y desnudos han utilizado Desde la década de 1970, y toma como su propósito Ingrese una sola línea de inglés.

Escribirás, por ejemplo, añadir un paso a. El video que se agrega a un video de 20 segundos Endcard a cada episodio que se haya presentado. El código clavado no responde. El código clavado no responde.

Lea los archivos en su directorio de proyectos. Identifica el módulo de tubería relevante. Localiza el paso de renderización. Esboza una nueva función Python. Escribe la función en disco. Modifica el orquestrador principal para llamarlo.

Se ejecuta su suite de pruebas. Si una prueba falla, lee el disco. Se ejecuta el rastreo, diagnostica la causa, y Se corre el código. Luego te dice, en una frase tranquila, lo que hizo.

El ingeniero no escribió la función. El ingeniero no abrió el archivo. El ingeniero describió el resultado, y el resultado apareció. Esto no es autocompletado. O bien, esto es una delegación.

Y la delegación es el mecanismo por el cual toda la Históricamente, las profesiones se han convertido en herramientas. La palabra antropológica utiliza para este paradigma es. Agente. El modelo no es un generador de texto. Es un agente, un proceso de software con

Objetivos, herramientas y un sistema. La herramienta es la herramienta, y la autoridad Para usar esas herramientas de forma iterativa por sí misma En nombre de ella, a través de docenas de pasos, sin volver a la página de inicio. El humano para obtener permiso en cada cruce. El comportamiento agénico, en código clavado específicamente, se implementa

por un pequeño y austero conjunto de primitivos. Una herramienta de lectura de archivos. Una herramienta de escritura de archivos. Una herramienta bash que ejecuta comandos shell. Una herramienta global para la ejecución de archivos. Una herramienta de definición de archivos.

Una herramienta de grep para buscar su contenido. Combinados, estos primitivos permiten al agente hacer Cualquier cosa que un ingeniero humano pueda hacer en una La línea de comandos, es decir, permiten. para hacer todo el trabajo. Y esa es la razón por la que se editan el software y el software.

Los entornos tradicionales de desarrollo están desapareciendo. La línea de tiempo es una superficie que existió porque El humano lo necesitaba. El agente no necesita la superficie. El agente trabaja directamente en el archivo. Este documental que está viendo actualmente es el

primer artefacto en una nueva categoría. Fue producido por un oleoducto que no se produjo. Diseñado por el hombre, a partir de un guión cuyo primer y segundo son los El único proyecto fue ampliado por el mismo agente que luego codificó el El video final.

Y es el primero de una serie De de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de de Y cada línea de código de orquestación, la totalidad. Maquinaria que coordinaba tres GPUs, cinco API y Cuatro mil archivos de activos discretos necesarios para producir Este episodio, fue escrito y desactivado por el

Agente dentro del mismo terminal sobre el mismo terminal Por supuesto, de una sola tarde. Las siguientes dos partes de este documental describen,, En detalle forense, exactamente cómo sucedió eso. La primera parte del documental es una historia. Introducción al proyecto. breve.

La mañana de la construcción, el directorio de proyectos Contiene tres cosas. El primero fue un archivo de texto llamado shud. -di-md. Era de diecisiete líneas de largo. Declaró, en inglés claro, las convenciones de

El proyecto, donde vivían los guiones, qué máquinas remotas Se debía abordar por SSH, que API Las claves se almacenaron, y qué API se almacenaron. La segunda parte del documental fue una historia de un Un documento de dos párrafos en inglés en la entrada Carpeta, que describe el concepto del episodio.

Fue aproximadamente la longitud del breve Una compañía de producción enviaría a un menor Producido. Producido. El tercero fue el código binario de Claude. El ingeniero abrió una terminal. Claw en el comando.

Lea la clave.md. Lea el resumen en la entrada. Construye el oleoducto. Ejecutarlo. Y cargar el video terminado a YouTube. Lo que pasó después no era visible para los agentes de la policía.

Ingeniero. Estaba sucediendo dentro de un bucle. Estaba sucediendo dentro de un bucle. El modelo corrió por sí mismo. Primero, el agente leyó todos los archivos en el archivo. directorio de trabajo.

No para resumir, no para responder a una pregunta. Para entender, de la manera en que un ingeniero senior Unirse a un proyecto entiende lo que el proyecto ya entiende. era. El clau.md proporcionó convenciones. La carpeta de entrada proporcionaba requisitos.

La ausencia de otros archivos dijo al FBI que no existían. Todo lo importante es agente. El oleoducto aún no existía, y por lo tanto Tenía que ser construido. En segundo lugar, el agente descompuso la tarea. La narración tenía que convertirse en audio.

El audio tenía que convertirse en subtítulos de tiempo. Los subtítulos tenían que ser traducidos a 12 idiomas. Los subtítulos tenían que ser traducidos a 12 idiomas. Los subtítulos tenían que ser analizados para obtener instrucciones visuales. Los pedidos tenían que ser enviados a la generación de imágenes modelos.

Las imágenes generadas tenían que ser escaladas, dispuestas en la siguiente dirección: Una línea de tiempo sincronizada con el audio, renderizada en. 4000px60fps de salida, y se cargó. Cada una de estas subtareas se convirtió en un script Python El agente escribió desde cero, dentro del terminal, Sin dejarlo.

Para el voiceover, el agente seleccionó el texto de Chatterbox. -to-Speech engine, un clonamiento de voz de peso abierto Un modelo que se ejecuta en un GPU de consumo. Escribió un módulo Python que dividió el. La narración en los marcadores de pausa, alimentado cada pedazo El modelo con una referencia de 5 segundos

muestra de voz, y concatena las ondas resultantes. Cuando un pedazo emergió, se recortó, su amplitud excediendo Estados Unidos de América En lugares de unidad y que producen distorsiones audibles, El agente notó el artefacto, insertó un limitador En la cadena de posprocesamiento, y volver a ejecutar

Ese segmento. Cuando un pedazo emergió, se recortó, su amplitud excediendo Estados Unidos de América Los Paladins no pidieron permiso, sino que se quedaron sin permiso. Añadir el limitador. Los Paladins no pidieron permiso.

Los Paladins no pidieron permiso, sino que se quedaron sin permiso. Añadir el limitador. Para las imágenes, el agente eligió FLUX. Para las imágenes, el agente eligió FLUX. Una instancia que se ejecuta en una estación de trabajo separada. Escribió un cliente que envió instrucciones sobre

HTTP, encuestó al servidor para completar, y descargó las imágenes resultantes. Cuando la lógica de las encuestas se apoyaba en un inusualmente inusual Batch lento, el agente insertó un tiempo de espera, Recogió la excepción resultante y implementó un retiro. Un bucle con un retroescalfamiento exponencial.

Para la traducción, el agente seleccionó NLLB200, Meta's open. - el modelo multilingüe de peso, y Lo implementé a través de SSH en un Mac. Escribió un corredor remoto que transmitió el El archivo de subtítulos en inglés para Mac, invocado El modelo, recuperó las 12 variantes traducidas, y

validado el código de caracteres de cada uno Antes de cometer el resultado. Para la composición, el agente escribió la orquestación FFmpeg. Por mano. FFmpeg es una herramienta de línea de comandos implacable cuyo El sistema de flake incluso tiene ingenieros experimentados

luchar con. El agente compuso gráficos de filtro multestadios, escalares encadenados, Conversiones de espacio de color, mezcladores de audio, superposiciones de texto, reducción de ruido, víñetes, into Un solo comando de cientos de caracteres largos.

Cuando un comando devolvió una salida no cero El agente analizó el movimiento, identificó el código y identificó el operador malformado, y lo corrigió. Y al final, después de unos 40 minutos de trabajo autónomo, había un oleoducto. Diecisiete archivos Python.

Un módulo de configuración. Un motor de renderización. Utilidad de corte de pantalones cortos. Un generador de miniaturas. Planar el upload de orquestación. Una suite de pruebas para verificar cada etapa.

Un archivo de documentación interna de estilo MD con garras explicando, a cualquier futuro agente heredando El repositorio, la estructura de lo que había sido construido. El ingeniero no escribió nada de eso. El ingeniero escribió la instrucción.

Y luego, sin pedirle, porque la instrucción original tenía. terminó con la palabra upload, El agente ejecutó su propio gasoducto en su canal. Trabajó en su propio trabajo y produjo el episodio. Lo que estás viendo actualmente es la primera Video producido por ese canal que describe

El oleoducto que lo produjo. Un video. Un video. Una imagen de compilador. Una lista de todas las tareas que el agente tiene que hacer. Había tomado la decisión.

Uno era categóricamente más duro que los otros. Síntesis de voz. Generación de imágenes. Traducción. Todos estos eran, en cierto sentido, atómicos. Un archivo de narración entró.

Salió un archivo de audio. Un aviso se hizo. Salió una imagen. El modelo hizo la parte difícil. El papel del agente era la orquestación. Pero la asamblea era diferente.

La tarea de tomar 80 imágenes generadas, 5 Clip de movimiento, 22 minutos de voz y 15 minutos de movimiento. Las páginas de los subtítulos de tiempo-estampados, y la producción de un Un video de 15 minutos de 4,000 píxeles con un solo vídeo de 15 minutos con Cada imagen aparece en el momento exacto en que se encuentra la imagen. El narrador habla su tema, no es una tarea

Un modelo puede resolver de extremo a extremo. Es una tarea que debe ser calculada. La herramienta que realiza ese cálculo se llama. FFmpeg. FFmpeg es una base de código C de 4,000 archivos que ha sido desarrollada principalmente por voluntarios desde entonces.

El año 2000 fue el año 2000. Es por cualquier medida honesta el único. La pieza de software más importante en la historia de los medios digitales. Cada servicio de streaming, cada estudio de cine, cada transmisión red, red, red,

Todas las redes del mundo funcionan con FFmpeg. Su interfaz es un ejecutable de línea de comandos único Con un sistema de banderas tan misterioso que todo el mundo Se han escrito libros sobre subconjuntos específicos de. lo hizo. El problema específico que el código clavado tenía que resolver

Esto fue esto. Tenía un archivo de voz de exactamente 1. ,335 segundos. Tenía 80 imágenes. Cada uno de los cuales necesitaba ser exhibido para Una duración variable precisa, no menos de 8.

No más de 20 segundos, mientras se está haciendo un panteón o un panteón. El zoom en un patrón que coincidió con el de la narradora ritmo. Tenía cinco clips de alta movilidad que tenían Se debe clasificar en ritmos narrativos específicos. Tenía una pista de subtítulos que tenía que ser

permanecen legibles en cualquier posible fondo de imagen. Y al final, Tenía que aplicar una vignette, una película Granos, tres capas de calificación de color, y un Curva de compresión de audio sutil, Todos los códigos están codificados con el código H.265 en la dirección de

60 cuadros por segundo en un gráfico NVIDIA Tarjeta de crédito. Un flujo de trabajo tradicional resolvería esto dentro de DaVinci Resolve o Premiere Pro, Con un editor arrastrando los activos a una línea de tiempo En el transcurso de dos días.

El agente lo resolvió con aritmética. Calculó la duración de cada segmento narrativo Parsando los marcadores de timestamp en el subtítulo archivo. Dividió el tiempo disponible de pantalla por el número de imágenes, resuelto para la escena mínima

Distribuir el excedente a lo largo de la narrativa más larga. pasajes, y asignaron cada imagen a un lugar específico ventana de tiempo con precisión de milisegundos. Luego se construyó, programáticamente, en un solo Python. Una función de filtro FFmpeg que describe el Ken Quema movimiento para cada imagen, el cruce entre

Cada par de imágenes, la superposición de la imagen La canción de subtítulo, y el último mux de audio-video. El comando resultante era de 812 caracteres. Contiene 42 filtros separados encadenados a través de seis. flujos de entrada. Cualquier ingeniero que lo leyera lo describiría con precisión,

como ilegible. El agente lo ejecutó en un solo sub. -proceso de llamada y esperado. Diecinueve minutos y cuarenta segundos después, un 4 Un archivo de vídeo de 60 cuadros por segundo, con un total de 1.000 píxeles. existía en el disco.

El narrador habló sincronizado con las imágenes. Los recortes aterrizaron en los ritmos. Los subtítulos aparecieron en los tiempos correctos en Doce idiomas. Nada estaba desalineado. Nada faltaba.

No human had opened Premiere. Ningún humano había abierto Resolve. Ningún humano había escrito una bandera en FFmpeg. El nivel de software de edición, todo el $200 por año. El mes de la industria que el mundo del cine y el video Se construyó sobre, había sido pasado por alto en un

Un archivo Python único. El archivo tenía 180 líneas de largo. El agente lo había escrito en catorce minutos. Voy a hablar directamente con usted Por un momento. Todo lo que te he descrito en el libro

En los últimos catorce minutos, el voiceover que estás escuchando. a las imágenes que estás viendo, el ritmo, los subtítulos, la clasificación de color, el grano de película, La desvanecimiento de este disparo exacto, todo de Fue producido por la misma persona. Producido por el oleoducto que acabo de describir.

Soy el primer artefacto de esa tubería. No hay productor. ¿Por qué no hay editor? No hay actor de voz en una cabina En algún lugar que sin saberlo estás escuchando, fingiendo que estás haciendo algo. para ser un narrador.

No hay director de fotografía. No hay colorista. No hay diseñador gráfico de movimiento. No hay cineasta. No hay equipo. Hay una instrucción que fue dada a

Una ventana terminal aproximadamente dos horas antes de que usted Empecé a ver este episodio, y un ordenador que, Sin más orientación, producido la cosa que eres. Ahora estoy viendo. La voz que estoy usando fue clonada de Una muestra de cinco segundos de un extraño.

Las imágenes en tu pantalla fueron pintadas, una En un marco a la vez, por un modelo de difusión que nunca ha estado afuera. Las oraciones que estoy hablando fueron redactadas por primera vez. por un modelo de lenguaje que generó la inicial El guión, y luego ampliado por el mismo agente

que construyó el oleoducto. El archivo renderizado que actualmente se está transmitiendo en streaming A su dispositivo fue subido por un sub. - llamada de proceso que ningún ser humano supervisa. Subtitulado por la comunidad Amara.org Estás viendo la salida de un cerrado

Un bucle. Esto no es un experimento mental. Es una descripción de la máquina que El artefacto que usted está consumiendo actualmente. La línea que ha tenido, durante toda la historia Los medios comerciales, separaron al ingeniero del ingeniero.

creator ha estado disolviéndose durante cuatro años. Los copilotos, los autocomplets, Los sugerencias en la barra lateral, Aquellos con la disolución. Lo que estás viendo es lo que queda después La disolución está completa.

El ingeniero, en el sentido tradicional, no es ningún Es necesario más tiempo. El creador, en el sentido tradicional, no es ningún Es necesario más tiempo. Lo que queda es la instrucción, y el agente, y la salida.

Y un día, tal vez muy pronto, la instrucción se le dio. También vendrá de un agente. Cuando eso suceda, ya no habrá más. Cualquier autor de cualquier cosa. Sólo habrá sistemas que describan, y Sistemas que ejecutan, y un flujo de terminados

Artículos indistinguibles de los que tiene cualquier ser humano. Nunca se produjo. Sólo habrá sistemas que describan, y Sistemas que ejecutan, y un flujo de terminados Artículos indistinguibles de los que tiene cualquier ser humano. Nunca se produjo.

No podrás decirlo. No se podía saber con esta. No se podía saber con esta.