L'audit di contesto: tre AI, 90 giorni di custodia, una rivelazione (casso #036)
Un esperimento controllato è stato condotto per novanta giorni. Un strumento di IA al giorno, tre strumenti ruotati a intervalli di trenta giorni. Nozione di AI, poi ChatGPT, poi Claude. Lo stesso profilo di flusso di lavoro. Una stessa linea di base di quarant'ora settimana. Dodicicento richieste registrate. La conclusione del titolo era il verdetto di qualità di uscita. La conclusione sepolta era quale strumento l'operatore raggiungeva più spesso, e perché. Il verdetto non era quello previsto dal progetto dell'esperimento. Il file di caso documenta come la postura informativa asimmetrica, tracciata attraverso precedenti file di caso Fragment Zero, predisse il risultato effettivo.
I parametri di audit erano i seguenti: novanta giorni. sessanta dollari in totale di costo di abbonamento. Nessun altro strumento di intelligenza artificiale era consentito in nessuna delle tre finestre operative durante il test. Ogni prompt era registrato. Ogni output era valutato. Ogni momento di tentazione tra strumenti è stato notato nel registro di valutazione. Tre criteri di misurazione: quale strumento l'operatore ha raggiunto più spesso, che ha prodotto la più alta qualità di output, che si è sentito più veloce in uso reale. L'ipotesi all'inizio dell'esperimento era che un solo strumento avrebbe vinto in tutti e tre. L'ipotesi non sopravviveva al contatto con i dati. Tre diversi strumenti hanno vinto in tre categorie diverse. Uno dei vincitori non era quello che l'operatore avrebbe previsto.
Il primo giorno era la finestra di prestazioni più forte. La notion AI opera all'interno dello spazio di lavoro esistente dell'operatore, dove sono già memorizzati appunti di riunioni, documentazione di progetto e contenuti storici di posta elettronica. La capacità di consultare l'archivio dell'operatore e ricevere una risposta di tre secondi con citazioni al documento originale è qualcosa che gli altri due strumenti non possono abbinare. Il settimo giorno è stato il fallimento. L'operatore ha tentato di utilizzare Notionpoint come autore di un progetto di blog. La produzione ha ottenuto un punteggio di 1,2 sulla scala di qualità interna 5. generico, ripetitivo, strutturalmente indistinguibile da una pagina di destinazione SaaS. Al giorno quindici lo strumento è stato archiviato sotto una singola classificazione: cercare la base di conoscenza dell'operatore. La pattern è stata testata per qualsiasi evento di scrittura per venticinque giorni.
Da giorni trenta-uno a sessanta: ChatGPT. Plus abbonamento, GPT personalizzati abilitati, venti dollari al mese. La prima settimana è stata la finestra di prestazioni più forte. Ogni breve compito ripetitivo che aveva precedentemente consumato cicli manuali, riscrizioni di posta elettronica, preparazione di riunioni, variazioni di brainstorming, era reassignabile a un GPT personalizzato. Come documentato nel precedente caso Fragment Zero su GPT personalizzate, il modello di contesto precompilato produce un elevato throughput misurabile. La scoperta limitata era la velocità: ChatGPT produceva costantemente risposte a short-task in otto a quindici secondi, sostanzialmente più veloci degli altri due strumenti in modalità di utilizzo reale. Il fallimento era di lunga durata. La degradazione della coerenza era osservabile da tre su venticinque mila parole di input.
Dati sessanta-uno fino a novanta: Claude. Abbonamento pro, venti dollari al mese. La capacità sotto valutazione: ragionamento a lungo contesto. Un documento di quindicimila parole è stato incollato e richiesto per i tre veri argomenti nascosti sotto il linguaggio educato. La risposta è stata direttamente utilizzabile senza modifica. Lo scrittura di Claude non si è presentata come AI generata sotto revisione cieca. Le modifiche hanno rispettato la voce esistente dell'operatore. La produzione ha mantenuto la coerenza tra più sezioni. Claude Projects con istruzioni personalizzate e file di conoscenza hanno occupato circa settanta per cento del ruolo che ChatGPT GPTs, sufficiente per gli scopi dell'esperimento. Il trade-off, registrato: Claude era misurabilmente più lento per compiti brevi, e mancava della qualità di mercato di GPT-custom-polito.
Il test controllato testa a testa. Lo stesso input nello stesso giorno attraverso tutti e tre gli strumenti. Il compito: una trascrizione della chiamata del cliente, estrarre le tre vere obiezioni, redigere un'e-mail di follow-up indirizzando ciascuno. Nozione AI completata in otto secondi, emerse obiezioni decenti, redatte un'e-mail generica. ChatGPT completata in dodici secondi, emerse tre obiezioni a livello di superficie, redatte un'e-mail contenente indici di IA identificabili. Claude completato in venti secondi, emerse un'obiezione che gli altri due strumenti mancarono interamente, redatte un'e-mail valutato come pronto a inviare senza modifica. Su questo, Claude ha vinto la qualità dell'output in modo pulito. Il modello è coerente attraverso il campione più ampio. Ma un singolo compito è un punto dati.
Verdict one: output quality. Claude. Il margine non era stretto. Per qualsiasi categoria di attività in cui la risposta doveva contenere pensieri coerenti su più sezioni, Claude ha prodotto output che l'operatore non ha riscritto sostanzialmente. Gli altri due richiedevano pulizia. Claude richiedeva approvazione. L'implicazione, registrata nell'audit: per qualsiasi operatore il cui risultato è la scrittura stessa, Claude è l'abbonamento di ragionamento a lungo termine. Documenti a lungo termine, analisi delle chiamate di vendita, memorandum di strategia, modifiche alla scrittura esistente dell'operatore. La classificazione persiste nel campione più ampio dell'audit. Come documentato nel caso Mirror Core, la voce dell'operatore è il dati di formazione che distingue l'assistenza accettabile dalla contaminazione. Claude è stato l'unico strumento nel test che ha rispettato costantemente quel limite.
Verdict two: velocità in uso. ChatGPT. Il margine non era vicino. Per brevi compiti ripetitivi sotto cinquecento parole di uscita, ChatGPT ha avuto una media di otto secondi per ogni attività durante l'audit. Claude ha avuto una media di sedici secondi per lo stesso carico di lavoro. Il modello di contesto precompilato, come documentato nel precedente caso Fragment Zero custom-GPT, riduce il tempo di risposta efficace di ChatGPT a circa quattro secondi perché il contesto che gli altri strumenti devono ricevere ad ogni prompt è già caricato nella memoria di lavoro dell'agente. La classificazione persiste nel campione di throughput dell'audit. Per qualsiasi operatore il cui collo di volume è di short-task piuttosto che di profondità, ChatGPT è l'abbonamento di throughput.
Verdict tre: frequenza di utilizzo. Notion AI. Il margine non era vicino, e non era il risultato previsto dal progetto dell'esperimento. Nel corso del periodo di novanta giorni sono stati registrati dodicicento richieste. Notion AI ha ricevuto quattrocentocinquanta di esse. ChatGPT ha ricevuto quattrocentocinquanta. Claude ha ricevuto trecentoquaranta. La ragione, documentata nel registro di audit: Notion AI è l'unico strumento nel set di test che conosce già il contesto dell'operatore senza un caricamento esplicito ogni volta. Ogni prompt Claude e ogni prompt ChatGPT inizia con il re-splicare chi sono, su quale progetto si stanno lavorando, a quale documento si stanno riferendo. Notion AI non richiede quel passo. La frizione è zero. Come documentato nel caso Memory Market, i dati non restano confinati al proprio conto. Il lato di ciò che viene fatto per il contesto è stato fatto per il sistema di retensione di parole: il livello di qualità di un utente di comunicazione è stato risparmiato in modo più elevato rispetto al livello di accessibilità delle sessioni di comunicazione.
Se il prodotto di lavoro è il throughput, risposte, brainstorms, rapide modifiche, ChatGPT. Se il lavoro avviene già all'interno di Notion e lo spazio di lavoro contiene una base di conoscenze significativa dell'operatore, Notion AI, con piena consapevolezza della posizione di conservazione documentata in questo file di caso. Se il budget supporta due, la coppia è Claude più Notion AI. Quality plus retention. ChatG diventa opzionale in quella configurazione. Se il budget supporta tutti e tre, come ha fatto l'operatore in questo audit, il modello di rotazione documentato in questo file di caso è la configurazione che emerge dai dati. Ciascuna vince a una cosa. Ciascuna interazione in modo log che dovrebbe essere documentata e rivista.
Il registro di audit è completo. dodicicento richieste classificate, tre sottoscrizioni valutate, tre vincitori diversi in tre diversi criteri. Il file di caso documenta l'esperimento di un operatore. La posizione di conservazione documentata per ciascuno dei tre strumenti non è stata modificata dai venditori al momento di scrivere questo documento. La stessa posizione di conservazione si applica nella configurazione del soggetto di prova come si applica nella tua. La comodità della risposta concettuale di tre secondi di Notion AI è abilitata dalla stessa superficie del sistema che questo documento di audit documenta. Il file di caso non si chiude. Aspetta. Esegue lo stesso contro tre AI. Confronta le uscite. Invia le anomalie a fragment.net/echo.