La Auditoría de Contexto: Tres IA, 90 días de custodia, una revelación (Fichero de casos #036)
Un experimento controlado se llevó a cabo durante noventa días. Una herramienta de IA al día, tres herramientas rotadas en intervalos de treinta días. Noción de IA, luego ChatGPT, luego Claude. El mismo perfil de flujo de trabajo. Una misma línea de base de cuarenta horas semana. Se registraron docecientos pedidos. El hallazgo de titular fue el veredicto de calidad de salida. El hallazgo enterrado fue la herramienta que el operador alcanzó con mayor frecuencia, y por qué. El veredicto no fue el que el diseño del experimento predijo. El archivo de caso documenta cómo la postura de información asimétrica, rastreada a través de archivos de caso anteriores Fragment Zero, predijo el resultado real.
Los parámetros de auditoría fueron los siguientes: noventa días. Sesenta dólares en el costo total de suscripción. Ninguna otra herramienta de IA permitida en ninguna de las tres ventanas operativas durante la prueba. Cada pedido registrado. Cada salida calificada. Cada momento de tentación cruzada de herramientas anotado en el registro de evaluación. Tres criterios de medición: qué herramienta el operador alcanzó con más frecuencia, que produjo la mayor calidad de salida, que se sentía más rápido en el uso real. La hipótesis al inicio del experimento era que una sola herramienta ganaría en todas las tres. La hipótesis no sobrevivió al contacto con los datos. Tres herramientas diferentes ganaron tres categorías diferentes. Uno de los ganadores no era el que el operador hubiera predicho.
Días uno a treinta: Noción AI. Nivel más con el adjunto de IA, veinte dólares al mes. El primer día fue la ventana de rendimiento más fuerte. Noción AI opera dentro del espacio de trabajo existente del operador, donde ya se almacenan notas de reuniones, documentación de proyectos y contenido histórico de correo electrónico. La capacidad de consultar el propio archivo del operador y recibir una respuesta de tres segundos con citas al documento original es algo que las otras dos herramientas no pueden igualar. El séptimo día fue el fracaso. El operador intentó usar Noción AI como escritor de larga duración para un borrador de blog. La salida fue calificada como 1.2 en la escala de calidad interna de 5. generalmente, repetitiva, estructuralmente indistinguible de una página de aterrizaje SaaS. Para el día quince la herramienta fue presentada bajo una sola clasificación de uso: buscar la base de conocimiento del operador. La tarea de patente es de escribir de forma consistente durante veinte días. La clasificación de cualquier caso de trabajo fuera de la base de producción de SaaS fue probada.
Días treinta y uno a sesenta: ChatGPT. Plus suscripción, GPT personalizados habilitados, veinte dólares al mes. La primera semana fue la ventana de rendimiento más fuerte. Cada tarea repetitiva corta que antes había consumido ciclos manuales, reescriptos de correo electrónico, preparación de reuniones, variaciones de lluvia de ideas, era reasignable a una GPT personalizada. Como se documenta en el caso anterior Fragment Zero sobre GPT personalizados, el modelo de contexto precompilado produce un aumento de rendimiento medible. La conclusión limitada fue la velocidad: ChatGPT consistentemente produjo respuestas de tareas cortas en ocho a quince segundos, materialmente más rápidas que las otras dos herramientas en el modo de uso real. El fallo fue de largo contexto. La degradación de coherencia fue observable por tres en veinte mil entradas. En un período de trabajo de tres días, una llamada de trascripción con un protocolo de distribución de datos se convirtió en una prueba de la distribución de datos, el operador de la aplicación de la aplicación de chatGPT.
Días sesenta y uno a noventa: Claude. Suscripción profesional, veinte dólares al mes. La capacidad bajo evaluación: razonamiento de largo contexto. Un documento de quince mil palabras fue pegado y consultado para los tres argumentos reales que se ocultan bajo el lenguaje cortés. La respuesta fue directamente utilizable sin modificaciones. La escritura de Claude no se presentó como AI-generada bajo revisión ciega. Los editores respetaron la voz existente del operador. La salida mantenía coherencia en múltiples secciones. Claude Proyectos con instrucciones personalizadas y archivos de conocimiento llenaron aproximadamente setenta por ciento del papel que ChatGPT GPTs, suficiente para los propósitos del experimento. El trade-off, registrado: Claude era medible más lento para tareas cortas, y carecía de la calidad pulida de mercado de GPT.
La prueba controlada de cabeza a cabeza. La misma entrada el mismo día en las tres herramientas. La tarea: una transcripción de llamada al cliente, extraer las tres objeciones reales, redactar un correo electrónico de seguimiento dirigido a cada uno. Noción de IA completada en ocho segundos, aparecieron objeciones decentes, redactaron un correo electrónico genérico. ChatGPT completado en doce segundos, aparecieron tres objeciones a nivel de superficie, redactaron un correo electrónico que contenía información de IA identificable. Claude completado en veinte segundos, apareció una objeción que las otras dos herramientas perdieron por completo, redactó un correo electrónico calificado como listo para enviar sin modificaciones. En esta tarea, Claude ganó la calidad de salida de forma limpia. El patrón es consistente en toda la muestra más amplia. Pero una sola tarea es un punto de datos.
Verdict uno: calidad de salida. Claude. El margen no estaba cerrado. Para cualquier categoría de tareas en la que la respuesta tuviera que mantener un pensamiento coherente en múltiples secciones, Claude produjo resultados que el operador no reescribió sustancialmente. Los otros dos requerían limpieza. Claude requirió aprobación. La implicación, registrada en la auditoría: para cualquier operador cuya entregable es la escritura misma, Claude es la suscripción de razonamiento de forma larga. Documentos de forma larga, análisis de llamadas de ventas, memorandos de estrategia, ediciones a la escritura existente del operador. La clasificación persiste en toda la muestra más amplia de la auditoría. Como se documenta en el archivo de caso Mirror Core, la voz del operador es los datos de entrenamiento que distingue la asistencia aceptable de la contaminación. Claude fue la única herramienta en la prueba que respetó consistentemente ese límite.
Veredicto dos: velocidad en uso. ChatGPT. El margen no estaba cerrado. Para tareas repetitivas cortas menores a cincocientos palabras de salida, ChatGPT promedió ocho segundos por tarea a lo largo de la auditoría. Claude promedió dieciséis segundos para la misma carga de trabajo. El patrón de contexto pre-compilado, como se documenta en el caso anterior Fragment Zero, reduce el tiempo de respuesta efectivo de ChatGPT a aproximadamente cuatro segundos porque el contexto que las otras herramientas deben recibir en cada instante ya está cargado en la memoria de trabajo del agente. La clasificación persiste en la muestra de rendimiento de la auditoría. Para cualquier operador cuyo cuello de volumen es de trabajo corto en lugar de profundidad, ChatGPT es la suscripción de rendimiento. Críticamente: la ventaja de velocidad es habilitada por el GPT y se ha mantenido el contexto del operador, retenerse desde entonces. La conveniencia de la retención se habilitada una vez que el correo de operación ha recibido la retención.
El veredicto tres: frecuencia de uso. Noción de IA. El margen no era cercano, y no era el resultado previsto por el diseño del experimento. A lo largo del período de noventa días se registraron docecientos pedidos. Noción de IA recibió cuatrocientos cincuenta de ellos. ChatGPT recibió cuatrocientos diez. Claude recibió trescientos cuarenta. La razón, documentada en el registro de auditoría: Noción de IA es la única herramienta en el conjunto de pruebas que ya conoce el contexto del operador sin una carga explícita cada vez. Cada pedido de Claude y cada pedido de ChatGPT comienza con el reexplicando quiénes son, qué proyecto están en, qué documento están haciendo referencia. Noción de IA no requiere ese paso. La fricción es cero. Como se documenta en el caso de Memory Market, los datos no se limitan a su cuenta. El lado de lo que se hace en el contexto de la herramienta de la búsqueda de la calidad de salida de la opción de la opción de retener la información de la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso a la opción de acceso.
Si el producto de trabajo es un producto de trabajo de rendimiento, respuestas, brainstorms, rápidas modificaciones, ChatGPT. Si el trabajo ya se realiza dentro de Notion y el espacio de trabajo contiene una base de conocimientos del operador significativa, Notion AI, con plena conciencia de la postura de retención documentada en este archivo de caso. Si el presupuesto admite dos, el par es Claude más Notion AI. Quality plus retention. ChatG se vuelve opcional en esa configuración. Si el presupuesto admite los tres, como lo hizo el operador en esta auditoría, el patrón de rotación documentado en este archivo de caso es la configuración que emerge de los datos. Cada uno gana en una cosa. Cada una de las interacciones en el archivo de datos debe documentarse y revisarse de manera diferente.
El registro de auditoría está completo. Doce cientos de instrucciones categorizadas, tres suscripciones evaluadas, tres ganadores diferentes en tres criterios diferentes. El archivo de casos documenta el experimento de un operador. La postura de retención documentada para cada una de las tres herramientas no ha sido modificada por los proveedores a la fecha de este escrito. La misma postura de retención se aplica en la configuración del sujeto de prueba como en la suya. La conveniencia de la respuesta de Notion AI de tres segundos con conocimiento de contexto es habilitada por la misma superficie del sistema que este documento de auditoría documenta. El archivo de casos no se cierra. Espera. ejecuta la misma respuesta contra tres AI. Compara las salidas. Envía las anomalías a fragment.net/echo.