A Auditoria de Contexto: Três IA, 90 dias de custódia, uma revelação (Arquivo de caso #036)

Um experimento controlado foi realizado durante noventa dias. Uma ferramenta de IA por dia, três ferramentas giraram em intervalos de trinta dias. Noção de IA, depois ChatGPT, depois Claude. O mesmo perfil de fluxo de trabalho. A mesma linha de base de quarenta horas de semana. Doze centenas de pedidos registados. A descoberta do título foi o veredicto de qualidade de saída. A descoberta enterrada foi qual a ferramenta que o operador alcançou com mais frequência, e por quê. O veredicto não foi o que o projeto do experimento previu. O arquivo de caso documenta como a postura de informação assimétrica, rastreada através de arquivos de caso anteriores Fragmento Zero, previu o resultado real.

Os parâmetros de auditoria foram os seguintes: noventa dias. sessenta dólares no total do custo de assinatura. Nenhum outro instrumento de IA permitido em nenhuma das três janelas operacionais durante o teste. Cada prompt registrado. Cada saída classificado. Cada momento de tentação entre ferramentas notado no registro de avaliação. Três critérios de medição: qual ferramenta o operador alcançou com mais frequência, que produziu a maior qualidade de saída, que se sentiu mais rápida em uso real. A hipótese no início do experimento era que uma única ferramenta venceria em todos os três. A hipótese não sobreviveu ao contato com os dados. Três ferramentas diferentes ganharam três categorias diferentes. Um dos vencedores não era aquele que o operador teria previsto.

Notion AI funciona dentro do espaço de trabalho existente do operador, onde as notas de reunião, a documentação do projeto e o conteúdo histórico do e-mail já são armazenados. A capacidade de consultar o próprio arquivo do operador e receber uma resposta de três segundos com citações ao documento original é algo que as outras duas ferramentas não podem combinar. O sétimo dia foi o fracasso. O operador tentou usar Notionpoint como um escritor de longa duração para um esboço de blog. A saída foi avaliada em 1,2 na escala de qualidade interna de 5.

Dia trinta e um até sessenta: ChatGPT. Plus assinatura, GPT personalizados habilitados, vinte dólares por mês. A primeira semana foi a janela de desempenho mais forte. Toda tarefa repetitiva curta que anteriormente consumiu ciclos manuais, reescritações de e-mail, preparação de reuniões, variações de tempestade de ideias, era reassignable a um GPT personalizado. Como documentado no caso anterior Fragment Zero sobre GPT personalizados, o modelo de contexto pré-compilado produz um aumento de throughput mensurável. A descoberta limitada foi velocidade: ChatGPT produziu consistentemente respostas de tarefas curtas em oito a quinze segundos, materialmente mais rápidas do que as outras duas ferramentas em modo de uso real. A falha foi de longo contexto. A degradação da coerência foi observável por três em vinte e cinco mil entradas de palavras. Em um período de trabalho de transcrição com um protocolo de ligação subtletal, o TPT já foi colocado em contato com o operador de rotatividade, o que já era obvio, o TPT.

Dia sessenta e um a noventa: Claude. As inscrições Pro, vinte dólares por mês. A capacidade em avaliação: raciocínio de longo contexto. Um documento de quinze mil palavras foi colado e consultado para os três argumentos reais escondidos sob a linguagem educada. A resposta foi diretamente utilizável sem modificação. A escrita de Claude não se apresentou como gerada por IA sob revisão cega. As edições respeitaram a voz existente do operador. A saída manteve coerência em várias seções. Claude Projects com instruções personalizadas e arquivos de conhecimento preencheram aproximadamente setenta por cento do papel que ChatGPT GPTs, suficiente para os fins do experimento. A troca, registrada: Claude era mensurável mais lento para tarefas curtas, e não tinha a qualidade de mercado customizada de GPT. O caso de uso de três arquivos, uma margem de frequência mais alta: por que os documentos não servem o ecossistema.

O teste controlado de cabeça para cabeça. A mesma entrada no mesmo dia em todas as três ferramentas. A tarefa: uma transcrição de chamada do cliente, extrair as três objeções reais, redigir um e-mail de acompanhamento dirigido a cada uma. Noção de IA concluída em oito segundos, objeções decentes surgiram, redigiram um e-mail genérico. ChatGPT concluído em doze segundos, surgiu três objeções de nível de superfície, redigiram um e-mail contendo informações de IA identificáveis. Claude completado em vinte segundos, surgiu uma objeção que as outras duas ferramentas não tinham completado, redigindo um e-mail classificado como pronto para enviar sem modificações. Nesta tarefa, Claude ganhou a qualidade de saída de forma clara. O padrão é consistente em toda a amostra. Mas uma única tarefa é um ponto de dados.

O veredicto um: qualidade de saída. Claude. A margem não era próxima. Para qualquer categoria de tarefas onde a resposta tinha que manter pensamento coerente em várias seções, Claude produziu saídas que o operador não reescreveu substancialmente. Os outros dois requeriam limpeza. Claude requeriu aprovação. A implicação, registada na auditoria: para qualquer operador cujo resultado é a própria escrita, Claude é a assinatura de raciocínio de longa forma. Documentos de longa forma, análise de chamadas de vendas, memorandos de estratégia, edições da escrita existente do operador. A classificação persiste em toda a amostra mais ampla da auditoria. Como documentado no arquivo do caso Mirror Core, a voz do operador é os dados de treinamento que distinguem a assistência aceitável da contaminação. Claude foi o único instrumento no teste que respeitou consistentemente essa fronteira.

O veredicto dois: velocidade em uso. ChatGPT. A margem não foi próxima. Para tarefas curtas repetitivas com menos de cincocentos palavras de saída, ChatGPT teve uma média de oito segundos por tarefa em toda a auditoria. Claude teve uma média de dezesseis segundos para a mesma carga de trabalho. O padrão de contexto pré-compilado, como documentado no caso anterior Fragment Zero custom-GPT, reduz o tempo de resposta efetivo do ChatGPT para aproximadamente quatro segundos porque o contexto que as outras ferramentas devem receber em cada prompt já está carregado na memória de trabalho do agente. A classificação persiste na amostra de throughput da auditoria. Para qualquer operador cujo garganta de volume é de short-task em vez de profundidade, ChatGPT é a assinatura de throughput. Críticamente: a vantagem de velocidade é habilitada pelo GPT e retida o contexto do operador, tendo recebido a retenção. A conveniência é habilitada pela retenção de post.

Noção de IA. A margem não foi próxima, e não foi o resultado previsto pelo projeto do experimento. Ao longo do período de noventa dias, foram registados duzentos pedidos. Noção de IA recebeu quatrocentos e cinquenta deles. ChatGPT recebeu quatrocentos e dez. Claude recebeu trêscentos e quarenta. A razão, documentada no registro de auditoria: Noção de IA é a única ferramenta no conjunto de testes que já conhece o contexto do operador sem um upload explícito a cada vez. Cada pedido de Claude e cada pedido de ChatGPT começa com o operador explicando novamente quem eles são, em que projeto estão, em que documento estão se referindo. Noção de IA não requer esse passo. A fricção é zero. Como documentado no caso de Memory Market, os dados não ficam confinados à sua conta. O lado do que é feito para o contexto, sem um upload explícito, já não é o que é feito para o sistema de sessões. O resultado de uma sessão de diálogo, comumente, não é o resultado de uma sessão de trabalho, mas, com menos recursos de conveniência.

Se o produto de trabalho for um produto de produção, respostas, tempestades de ideias, edições rápidas, ChatGPT. Se o trabalho já acontece dentro de Notion e o espaço de trabalho contém uma base de conhecimento significativa do operador, Notion AI, com plena consciência da postura de retenção documentada neste arquivo de caso. Se o orçamento suporta dois, o par é Claude mais Notion AI. Qualidade mais retenção. ChatG torna-se opcional nessa configuração. Se o orçamento suporta todos os três, como o operador nesta auditoria fez, o padrão de rotação documentado neste arquivo de caso é a configuração que emerge dos dados. Cada uma ganha em uma coisa. Cada uma das interações que devem ser documentadas e revisadas de forma documentada.

O registro de auditoria está completo. Doze centenas de pedidos categorizados, três assinaturas avaliadas, três vencedores diferentes em três critérios diferentes. O arquivo de caso documenta a experiência de um operador. A postura de retenção documentada para cada uma das três ferramentas não foi modificada pelos fornecedores no momento da escrita deste artigo. A mesma postura de retenção se aplica na configuração do sujeito de teste como se aplica na sua. A conveniência da resposta de três segundos de conteúdo da Notion AI é habilitada pela mesma superfície do sistema que este documento de auditoria. O arquivo de caso não fecha. Espera. Execute o mesmo prompt contra três AIs. Compare as saídas. Envie as anomalias para fragment.net/echo.