L'audit contextuel: trois IA, 90 jours de garde, une révélation (Fichier de cas #036)

Une expérience contrôlée a été menée sur une période de quatre-vingt-dix jours. Un outil d'IA par jour, trois outils tournés à intervalles de trente jours. Notion AI, puis ChatGPT, puis Claude. Le même profil de flux de travail. La même baseline de quarante heures par semaine. Douze cents demandes enregistrées. La conclusion de titre était le verdict de qualité de sortie. La conclusion enterrée était quel outil l'opérateur atteignait le plus souvent, et pourquoi. Le verdict n'était pas celui que le design de l'expérience avait prédit. Le dossier de cas documente comment la posture asymétrique de l'information, tracée à travers les fichiers de cas précédents Fragment Zero, prédisait le résultat réel.

Les paramètres d'audit étaient les suivants: quatre-vingt-dix jours. Soixante dollars en coût total de l'abonnement. Aucun autre outil d'IA n'était autorisé dans aucune des trois fenêtres d'exploitation pendant le test. Chaque prompt était enregistré. Chaque sortie était notée. Chaque moment de tentation croisée entre outils était noté dans le journal d'évaluation. Trois critères de mesure: quel outil l'opérateur atteignait le plus souvent, ce qui produisait la plus haute qualité de sortie, ce qui se sentait le plus rapide dans l'utilisation réelle. L'hypothèse au début de l'expérience était qu'un seul outil gagnerait sur les trois. L'hypothèse ne survécut pas au contact avec les données. Trois outils différents ont remporté trois catégories différentes. L'un des gagnants n'était pas celui que l'opérateur aurait prédit.

Jour un à trente: Notion AI. Plus de niveau avec l'add-on AI, vingt dollars par mois. Jour un était la fenêtre de performance la plus forte. Notion AI fonctionne à l'intérieur de l'espace de travail existant de l'opérateur, où les notes de réunion, la documentation du projet et le contenu historique du courrier électronique sont déjà stockés. La possibilité de consulter l'archive du propriétaire de l'opérateur et de recevoir une réponse de trois secondes avec des citations au document original est quelque chose que les deux autres outils ne peuvent pas correspondre. Jour sept a été l'échec. L'opérateur a tenté d'utiliser Notionpoint AI comme rédacteur de long format pour un projet de blog. La sortie a été notée 1.2 sur l'échelle de qualité interne de 5.

Jour trente-un à soixante: ChatGPT. Plus abonnement, GPT personnalisés activés, vingt dollars par mois. La première semaine a été la fenêtre de performance la plus forte. Chaque courte tâche répétitive qui avait consommé précédemment des cycles manuels, des réécrits de courrier électronique, des préparations de réunion, des variations de brainstorming, était réaffectée à une GPT personnalisée. Comme le documenté dans le précédent dossier de cas Fragment Zero sur les GPT personnalisés, le modèle de contexte précompilé produit un débit de débit mesurable. La découverte limitée était la vitesse: ChatGPT a systématiquement produit des réponses à des tâches courtes en huit à quinze secondes, plus rapidement que les deux autres outils en mode réel. L'échec était de longue durée. La dégradation de cohérence était observable par trois entrées de vingt-cinq mille mots. Sur une période de travail de transcription subtile avec des objets de vente, l'opérateur TPT a déjà fait une mise en route, le deuxième paragraphe n'était pas de la mise en route.

Des jours soixante-un à quatre-vingt-dix: Claude. Abonnement Pro, vingt dollars par mois. La capacité sous évaluation: raisonnement long-context. Un document de quinze mille mots a été collé et interrogé pour les trois vrais arguments cachés sous le langage poli. La réponse était directement utilisable sans modification. L'écriture de Claude ne se présentait pas comme générée par l'IA sous une revue aveugle. Les éditions respectaient la voix existante de l'opérateur. La sortie a maintenu la cohérence sur plusieurs sections. Les projets Claude avec des instructions personnalisées et des fichiers de connaissances remplissaient environ soixante-dix pour cent du rôle que les GPT ChatGPT, suffisants aux fins de l'expérience. Le trade-off, enregistré: Claude était mesurablement plus lent pour les tâches courtes, et manquait de la qualité de marché personnalisée GPT.

Le test contrôlé tête à tête. La même entrée le même jour sur les trois outils. La tâche: une transcription d'appel client, extraire les trois objections réelles, rédiger un e-mail de suivi adressant chacun. Notion AI complétée en huit secondes, apparue des objections décentes, rédigé un e-mail générique. ChatGPT complétée en douze secondes, apparue trois objections de surface, rédigé un e-mail contenant des informations IA identifiables. Claude a terminé en vingt secondes, apparu une objection que les deux autres outils ont complètement manquée, rédigé un e-mail classé comme prêt à l'envoi sans modification. Sur cette base, Claude a gagné la qualité de sortie de manière claire. Le motif est cohérent dans l'échantillon plus large. Mais une seule tâche est un point de données.

Le verdict est le premier: la qualité de sortie. Claude. La marge n'était pas étroite. Pour toute catégorie de tâches où la réponse devait contenir une pensée cohérente sur plusieurs sections, Claude a produit des sorties que l'opérateur n'a pas réécrit de manière substantielle. Les deux autres ont nécessité un nettoyage. Claude a demandé l'approbation. L'implication, enregistrée dans l'audit: pour tout opérateur dont le délivrable est l'écriture elle-même, Claude est l'abonnement à long terme. Documents de long format, analyse des appels à vente, mémos de stratégie, modifications de l'écriture existante de l'opérateur. La classification persiste sur l'échantillon plus large de l'audit. Comme documenté dans le dossier de l'affaire Mirror Core, la voix de l'opérateur est les données de formation qui distinguent l'aide acceptable de la contamination. Claude a été le seul outil du test à respecter systématiquement cette limite.

Le verdict deux: vitesse en usage. ChatGPT. La marge n'était pas proche. Pour les tâches répétitives courtes de moins de cinq cents mots de sortie, ChatGPT a atteint une moyenne de huit secondes par tâche sur l'ensemble de l'audit. Claude a atteint une moyenne de seize secondes pour la même charge de travail. Le schéma de contexte précompilé, comme documenté dans le précédent dossier de cas de personnalisation Fragment Zero, réduit le temps de réponse efficace de ChatGPT à environ quatre secondes parce que le contexte que les autres outils doivent recevoir à chaque prompt est déjà chargé dans la mémoire de travail de l'agent. La classification persiste sur l'échantillon de débit de l'audit. Pour tout opérateur dont le col de volume est de courte tâche plutôt que de profondeur, ChatGPT est l'abonnement de débit.

Le verdict trois: fréquence d'utilisation. Notion AI. La marge n'était pas proche, et n'était pas le résultat prévu par la conception de l'expérience. Au cours de la période de quatre-vingt-dix jours, douze cents demandes ont été enregistrées. Notion AI a reçu quatre cent cinquante d'entre elles. ChatGPT a reçu quatre cent quarante. Claude a reçu trois cent quarante. La raison, documentée dans le journal d'audit: Notion AI est le seul outil dans le jeu de test qui connaît déjà le contexte de l'opérateur sans un téléchargement explicite à chaque fois. Chaque prompt Claude et chaque prompt ChatGPT commence par le ré-expliquer qui ils sont, sur quel projet ils sont, sur quel document ils se réfèrent. Notion AI ne nécessite pas ce pas. La friction est nulle. Comme documenté dans le dossier du marché de la mémoire, les données ne restent pas limitées à son compte. Le côté de ce qui est fait par l'opérateur sans un téléchargement explicite à chaque fois.

Si le produit de travail est écrit lui-même, les livres, les articles, les documents stratégiques, les contrats, Claude. Si le produit de travail est le débit, les réponses, les brainstorms, les modifications rapides, ChatGPT. Si le travail se produit déjà à l'intérieur de Notion et que l'espace de travail contient une base de connaissances significative de l'opérateur, Notion AI, avec une pleine conscience de la posture de rétention documentée dans ce dossier de cas. Si le budget prend en charge deux, la paire est Claude plus Notion AI. Quality plus retention. ChatG devient facultative dans cette configuration. Si le budget prend en charge les trois, comme l'opérateur dans ce dossier d'audit l'a fait, le modèle de rotation documenté dans ce dossier de cas est la configuration qui émerge des données. Chaque une partie gagne à une chose. Chaque interaction dans cette configuration devrait être documentée et examinée.

Le journal d'audit est complet. Douze cents demandes de renseignements sont classées, trois abonnements évalués, trois gagnants différents selon trois critères différents. Le dossier de cas documente l'expérience d'un opérateur. La posture de rétention documentée pour chacun des trois outils n'a pas été modifiée par les fournisseurs à l'époque de la rédaction de cet article. La même posture de rétention s'applique dans la configuration du sujet de test comme dans la vôtre. La commodité de la réponse contextuelle de trois secondes de Notion AI est rendue possible par la même surface du système que ce document d'audit. Le dossier de cas ne se ferme pas. Il attend. Exécute la même chose contre trois AIs. Comparer les sorties. Soumettez les anomalies à fragment.net/echo.