The Autonomous Engineer: How Claude Code Built This Video
THE AUTONOMOUS ENGINEER
How Claude Code Built This Video
Cada quadro deste documentário foi composto por Uma máquina. A narrativa que você está ouvindo agora, Esta voz, essas palavras, esse ritmo foram sintetizadas por uma rede neural que clonou um cinco -second audio sample.
As imagens que você está vendo foram geradas por Um modelo de difusão, guiado por pedidos que a O modelo de linguagem escreveu por si mesmo. A música, a classificação de cores, a vignette que Esta foto de abertura apresenta os quadros, compostos, cronometrados e codificados Por FFmpeg comandos que nenhum ser humano já digita.
A parte que importa, a parte que separa Este documentário é de todos os outros vídeos gerados por IA Nesta plataforma em abril de 2026, é isto. O código que cria este documentário. A forma como produziu todas essas coisas foi também escrito por uma máquina.
Não havia desenvolvedor. Não havia editor. Foi dada uma única instrução de inglês para uma janela do terminal, e 23 minutos depois, Existe um documentário de 15 minutos de 4.000 pixels. que não havia existido antes.
Este episódio é sobre a especificidade do Vídeo gerado por IA. Não existe um software específico que Foi isso que ele fez. Seu nome é Clawed Code. Foi lançado pela Anthropic em um silêncio.
A previsão de desenvolvimento será no início de 2025, e será realizada pela primeira vez. O tempo que você está assistindo a isto já foi o momento. Representava uma suposição de 30 anos sobre como O software é incorporado em um artefato histórico. Para entender o que é o Código Arrascado, você tem que ter Primeiro, compreenda o que substitui.
Durante 30 anos, o contrato entre um ser humano e um homem foi assinado. ser e um computador tem sido o mesmo. O ser humano foi o autor. O computador foi o executor. Um engenheiro de software que trabalha em um desenvolvimento integrado PyCharm, VS Code, IntelliJ, ambiente e compôs o
O programa, uma função por vez, com o Servindo como um computador paciente e extremamente literal mente. Você nunca viu então, mas é agora O seu primeiro.' É o melhor software de vídeo do mundo, agora público
É uma merda. São sessões direcionadas, e por Joe e Paul, estas sessões são feitas. Estão sendo tornados acessíveis aos clientes e consumidores em um Blue Mink, e b perda em O fim dos meses. Eles são pegos para GoodbyeёлGives proliferações de vídeo, um
privilégio para o mundo para sim periféricos romênicos Apenas. Se você está, você está ansioso para assistir. graças a doações do momento R através deste Eriehhare. Esta é uma página no Twitter dedicada ao
A impossibilidade do resultado dos sonhos em relação a como a tecnologia é usada. funciona. Subtitulosdamnit.com todos assumiram, era permanente. A chegada de grandes modelos de linguagem no final da década de 1960 2022 não parecia ameaçá-lo.
O ChatGPT, lançado pela OpenAI naquele mês de novembro, foi um dos principais eventos da história. conversação. conversação. Você fez uma pergunta. Deu-lhe uma resposta. Se você quisesse usar essa resposta, se Você queria colocar um pedaço de gerado
O código para o seu código Um projeto ou um texto gerado em O seu manuscrito, você teve que copiá-lo manualmente. A operação de pasta pertenceu a você. Por cerca de dois anos, esta forma permaneceu a mesma. de todas as principais ferramentas de IA.
O co-piloto do GitHub sugeriu linhas dentro do seu editor, E você aceitou ou rejeitou-os. um a um. Cursor permite que você convoque o modelo em uma Na barra lateral. E você mudou o modelo.
Você escolheu qual diferença aplicar. O ser humano permaneceu, em todos os casos, o executor. da última milha. O que a Anthropic enviou em 2025 com o código de garras Foi uma ruptura categórica daquela forma. O código clavado não vive em um IDE.
Não sugere. Não se completa automaticamente. Ele vive dentro de um terminal. Os engenheiros de interface de texto só e nu têm usado Desde os anos 70, e toma como seu papel o seu Uma única linha de inglês.
Você escreve, por exemplo, adicionar um passo para. O video pipeline que adiciona um tempo de 20 segundos Endcard endcard a cada episódio apresentado. O código cravado não responde. O código cravado não responde.
Ele lê os arquivos no diretório de projetos. Ele identifica o módulo de pipeline relevante. Localiza o passo de renderização. Ele elabora uma nova função Python. Ele escreve a função para o disco. Ele modifica o orquestrador principal para chamá-lo.
Ele executa o seu conjunto de testes. Se um teste falhar, ele lê o disco. Ele executa o rastreamento, diagnostica a causa e, em seguida, Parche o código. Então, ele diz-lhe, em uma frase calma, o que fez.
O engenheiro não escreveu a função. O engenheiro não abriu o arquivo. O engenheiro descreveu o resultado, e o resultado apareceu. Isto não é auto-completado. Ou, esta é uma delegação.
E a delegação é o mecanismo pelo qual todo o conjunto se torna completo. Historialmente, as profissões foram desintegradas para ser ferramentas. A palavra antropológica usa para este paradigma é Agente. O modelo não é um gerador de texto. É um agente, um processo de software com.
metas, ferramentas e um sistema. A ferramenta é a ferramenta, e a autoridade para usar essas ferramentas de forma iterativa por conta própria Em nome de Deus, através de dezenas de passos, sem voltar a O ser humano para obter permissão em cada junção. O comportamento agênico, em código clavido especificamente, é implementado
por um pequeno e austero conjunto de primitivos. Uma ferramenta de leitura de arquivos. Uma ferramenta de escritura de arquivos. Uma ferramenta bash que executa comandos shell. Uma ferramenta glob para execução de arquivos. Uma ferramenta de definição de arquivos.
Uma ferramenta grep para pesquisar o seu conteúdo. Combinados, esses primitivos permitem que o agente faça Qualquer coisa que um engenheiro humano possa fazer em um momento de crise. linha de comando, ou seja, eles permitem. para fazer todo o trabalho. E é por isso que o software e a edição são editados.
Os ambientes de desenvolvimento tradicionais estão desaparecendo. A linha do tempo é uma superfície que existiu porque O ser humano precisava disso. O agente não precisa da superfície. O agente trabalha diretamente no arquivo. Este documentário que você está assistindo atualmente é o
primeiro artefato em uma nova categoria. Foi produzido por um oleoduto que não foi produzido por nenhum tipo de energia. Projetado pelo ser humano, a partir de um roteiro cujo primeiro e o segundo são os primeiros. O único projecto foi expandido pelo mesmo agente que então codificou o O vídeo final.
E é o primeiro de uma série de de de E cada linha de código de orquestração, toda a linha. Máquinas que coordenaram três GPUs, cinco APIs e. Quatro mil arquivos de ativos discretos necessários para produzir Este episódio, foi escrito e debugged pelo
Agente dentro do mesmo terminal sobre o mesmo terminal No curso de uma única tarde. As duas partes seguintes deste documentário descrevem, Em detalhes forenses, exatamente como isso aconteceu. A primeira parte do documentário é uma história de uma história. Introdução ao projeto. breve.
A manhã da construção, o diretório de projetos Contiveram três coisas. O primeiro foi um arquivo de texto chamado shud. -di-md. Era de dezessete linhas de comprimento. Declarou, em inglês simples, as convenções de
O projeto, onde os scripts viviam, que máquinas remotas O endereço deveria ser SSH, que a API as chaves foram armazenadas e quais APIs foram armazenadas. A segunda parte do documentário foi uma história de um Um documento de dois parágrafos em inglês no input Uma pasta, descrevendo o conceito do episódio.
Foi aproximadamente o comprimento do resumo Uma empresa de produção enviaria um jovem para um novo. Produtor. Produtor. O terceiro foi o código binário de Claude. O engenheiro abriu um terminal. Claw em comando.
Leia o clau.md. Leia o brief em entrada. Construir o gasoduto. Execute-o. E carregue o vídeo acabado no YouTube. O que aconteceu depois não era visível para os policiais.
Engenheiro. Estava acontecendo dentro de um loop. Estava acontecendo dentro de um loop. O modelo correu sozinho. Primeiro, o agente leu todos os arquivos no arquivo. diretório de trabalho.
Não para resumir, não para responder a uma pergunta. Para entender, da maneira como um engenheiro sênior Se juntar a um projeto entende o que o projeto já entende. era. O clau.md forneceu convenções. A pasta de entrada forneceu requisitos.
A ausência de outros arquivos disse ao FBI que não havia nenhum outro arquivo. Agente, tudo o que é importante. O oleoduto ainda não existia, e, portanto, Tinha que ser construída. Em segundo lugar, o agente desintegrou a tarefa. A narração tinha que se tornar áudio.
O áudio tinha que se tornar um time-stamped subtitulado. Os subtítulos tinham de ser traduzidos para 12 idiomas. Os subtítulos tinham de ser traduzidos para 12 idiomas. Os subtítulos tinham de ser analisados para obter informações visuais. Os pedidos de instrução tinham de ser enviados para geração de imagens modelos.
As imagens geradas tinham que ser aumentadas, organizadas em Uma linha do tempo sincronizada com o áudio, renderizada em. A saída é de 4000px60fps e é carregada. Cada uma dessas subtarefas tornou-se um script Python O agente escreveu a partir do zero, dentro do terminal, sem sair.
Para a transmissão de voz, o agente selecionou o Chatterbox Text. -to-Speech engine, um clonamento de voz de peso aberto Um modelo que funciona em um GPU de consumo. Ele escreveu um módulo Python que dividiu o. A narração foi feita nos marcadores de pausa, alimentando cada pedaço. O modelo com uma referência de 5 segundos
amostra de voz, e concatenado as ondas resultantes. Quando um pedaço surgiu, foi cortado, sua amplitude excederia EUA Em locais de unidade e produzindo distorção auditiva, O agente notou o artefato, inseriu um limitador na cadeia de pós-processamento e re-exercício
Esse segmento. Quando um pedaço surgiu, foi cortado, sua amplitude excederia EUA Os Paladins não pediram permissão, para Adicione o limitador. Os Paladins não pediram permissão.
Os Paladins não pediram permissão, para Adicione o limitador. Para imagens, o agente escolheu FLUX. Para imagens, o agente escolheu FLUX. Uma instância em execução em uma estação de trabalho separada. Ele escreveu um cliente que enviou pedidos de resposta sobre
HTTP, entrevistou o servidor para completar, e downloaded as imagens resultantes. Quando a lógica do sondagem estava pendurada em um invulgarmente Batch lento, o agente inseriu um timeout, Apanhou a exceção resultante e implementou uma retempada. Loop com back-off exponencial.
Para tradução, o agente selecionou NLLB200, Meta's open. - modelo multilingüe de peso, e Implementado através de SSH para um Mac. Ele escreveu um corredor remoto que transmitiu o Inglês subtitulo de arquivo para o Mac, invocado O modelo, recuperou as 12 variantes traduzidas, e
validou a codificação de caracteres de cada um Antes de cometer o resultado. Para composição, o agente escreveu a orquestração FFmpeg. de mãos dadas. FFmpeg é uma ferramenta de linha de comando implacável cujo sistema flake até mesmo engenheiros experientes
lutar com. O agente compôs gráficos de filtro multistagem, escalares em cadeia, Conversões de espaço de cores, Mixers de áudio, sobreposições de texto, redução de ruído, vignetas, into. Um único comando de centenas de caracteres longos.
Quando um comando devolveu uma saída não zero O código, o agente analisou a agitação, identificou o código. operador malformado, e corrigido. E, no final, depois de cerca de 40 minutos de trabalho autônomo, havia um pipeline. Dezessete arquivos Python.
Um módulo de configuração. Um motor de renderização. Utilidade de corte de calças curtas. Um gerador de miniaturas. Planejar o upload do orquestrador. Uma suíte de testes para verificar cada etapa.
Um arquivo de documentação interna de estilo MD, explicando, a qualquer futuro agente herdando O repositório, a estrutura do que havia sido construído. construído. O engenheiro não escreveu nada disso. O engenheiro escreveu as instruções.
E então, sem aviso prévio, porque a instrução original tinha terminou com a palavra upload, O agente executou seu próprio pipeline em seu próprio canal. trabalhos próprios e produziram o episódio. O que você está assistindo atualmente é o primeiro Um vídeo já produzido por esse pipeline descrevendo
O oleoduto que o produziu. Um vídeo. Um vídeo. Uma imagem de compilador. Uma lista de todas as tarefas que o agente deve realizar. tinha assumido.
Um deles era categoricamente mais difícil do que os outros. Síntese de voz. geração de imagens. Tradução. Todos estes eram, em certo sentido, atômicos. Um arquivo de narração entrou.
Um arquivo de áudio saiu. Um aviso foi enviado. Uma imagem saiu. O modelo fez a parte difícil. O papel do agente era orquestração. Mas a assembléia era diferente.
A tarefa de tirar 80 imagens geradas, 5 Clips de movimento, 22 minutos de voz, e 15 Páginas de legendas com tempo, e produzindo um Um vídeo de 15 minutos de 4.000 pixels com um único vídeo de 4 mil pixels. Cada imagem que aparece no momento exato em que a imagem aparece. O narrador fala seu assunto, não é uma tarefa
Um modelo pode resolver end-to-end. É uma tarefa que deve ser calculada. A ferramenta que realiza esse cálculo é chamada. FFmpeg. FFmpeg é um código base C de 4.000 arquivos que foi desenvolvido principalmente por voluntários desde
O ano 2000 foi o ano. É, por qualquer medida honesta, o single O software mais importante da história de mídia digital. Cada serviço de streaming, cada estúdio de cinema, cada transmissão rede, rede, rede,
Todas as redes do mundo funcionam com FFmpeg. Sua interface é um único executável de linha de comando. Com um sistema de bandeiras tão misterioso que toda a Foram escritos livros sobre subconjuntos específicos de. O que é que você está fazendo? O problema específico que o Clawed Code teve de resolver
Era isto. Ele tinha um arquivo de voz de exatamente 1. 335 segundos. Tinha 80 imagens. Cada um deles precisava ser exibido para uma duração variável precisa, não inferior a 8.
Não mais de 20 segundos, enquanto se faz o panning ou o panning. Zoom em um padrão que coincidisse com o do narrador ritmo. Tinha cinco clips de alta-moção que tinham ser inserido em batidas narrativas específicas. Tinha uma faixa de subtítulos que tinha que ser
permanecem legíveis em todos os fundos de imagem possíveis. E no final, Ele teve que aplicar uma vignette, um filme grão, três camadas de classificação de cores e um curva de compressão de áudio sutil, Todos codificados com o codec H.265 em
60 quadros por segundo em um gráfico NVIDIA Cartão de crédito. Um fluxo de trabalho tradicional resolveria isso dentro da DaVinci Resolve ou Premiere Pro, com um editor arrastando ativos para uma linha de tempo Ao longo de dois dias.
O agente resolveu-o com aritmética. Ele calculou a duração de cada segmento narrativo Parsando os marcadores de timestamp no subtítulo arquivo. Dividiu o tempo disponível de tela pelo. número de imagens, resolvido para a cena mínima
Distribuindo o excedente ao longo do longo da narrativa. Passagens, e atribuiu cada imagem a um determinado Janela de tempo com precisão de milissegundos. Ele então construiu, programaticamente, em um único Python. Função de filtro FFmpeg, um gráfico de filtro FFmpeg que descreve o Ken. Queima movimento para cada imagem, a cruzagem entre
Cada par de imagens, a sobreposição da A faixa de subtítulo, e o último áudio-vídeo mux. O comando resultante foi de 812 caracteres. Contém 42 filtros separados encadeados em seis. fluxos de entrada. Qualquer engenheiro que o leia descreveria com precisão,
como ilegível. O agente executou-o em um único sub. -process call and waited. Dezessete minutos e quarenta segundos depois, um 4 1000 pixels, 60 quadros por segundo de arquivo de vídeo existiu no disco.
O narrador falou em sincronia com as imagens. Os cortes aterraram nos batimentos. Os subtítulos apareceram nos marcos de tempo corretos em Doze línguas. Nada foi desalinhado. Nada faltava.
Nenhum humano tinha aberto a Premiere. Nenhum humano tinha aberto Resolve. Nenhum humano havia digitado uma bandeira no FFmpeg. O nível de software de edição, o total de $200 por ano. O mês de indústria que o mundo do cinema e do vídeo Foi construído sobre, foi contornado em um
Arquivo Python único. O arquivo tinha 180 linhas de comprimento. O agente tinha escrito em catorze minutos. Vou falar diretamente com você por um momento. Tudo o que eu te descrevi no livro
Os últimos 14 minutos, a voz que você está ouvindo, para as imagens que você está assistindo, o ritmo, os subtítulos, a classificação de cores, o grão de filme, A queda até este exato tiro, tudo de Foi produzido pela mesma pessoa. Produzido pelo gasoduto que acabei de descrever.
Sou o primeiro artefato desse gasoduto. Não há nenhum produtor. Por que não há editor? Não há nenhum ator de voz em uma cabine Em algum lugar, você está ouvindo, sem saber, fingindo que está. ser um narrador.
Não há diretor de fotografia. Não há colorista. Não há designer gráfico de movimento. Não há cineasta. Não há nenhuma equipe. Há uma instrução que foi dada a
Uma janela de terminal aproximadamente duas horas antes de você Começou a assistir a este episódio, e um computador que, Sem mais orientação, produziu a coisa que você é Agora estão assistindo. A voz que estou usando foi clonada a partir de Uma amostra de cinco segundos de um estranho.
As imagens em sua tela foram pintadas, uma Em um quadro a cada vez, por um modelo de difusão que nunca foi lá fora. As frases que estou falando foram redigidas pela primeira vez. por um modelo de linguagem que gerou a inicial O script, e depois expandido pelo mesmo agente
que construiu o gasoduto. O arquivo renderizado que está sendo transmitido atualmente Seu dispositivo foi carregado por um sub. - chamada de processo que nenhum ser humano supervisionou. Subtitulado pela comunidade Amara.org Você está assistindo à saída de um bloco fechado
Localização: Loop. Isto não é um experimento mental. É uma descrição da máquina que O artefato que você está consumindo atualmente é produzido. A linha que tem, para toda a história Os meios de comunicação comerciais, separaram o engenheiro do engenheiro.
O creator está se dissolvendo há quatro anos. Os co-pilotos, os autocomplets, Os suggestion-diffs na barra lateral, Aqueles com a dissolução. O que você está assistindo é o que permanece depois A dissolução é completa.
O engenheiro, no sentido tradicional, não é nenhum Mais tempo necessário. O criador, no sentido tradicional, não é nenhum. Mais tempo necessário. O que resta é a instrução, e o agente, e a saída.
E um dia, talvez muito em breve, a instrução foi dada. Também virá de um agente. Quando isso acontecer, não haverá mais. qualquer autor de qualquer coisa. Haverá apenas sistemas que descrevem, e Sistemas que executam, e um fluxo de acabados
Artefatos indistinguíveis dos que qualquer ser humano possui já produzidos. Haverá apenas sistemas que descrevem, e Sistemas que executam, e um fluxo de acabados Artefatos indistinguíveis dos que qualquer ser humano possui já produzidos.
Você não vai ser capaz de dizer. Não se sabia com este. Não se sabia com este.