背景审计:三个AI,90天的监护,一个揭示 (案例文件#036)
控制实验进行了90天.每天有一种人工智能工具,三种工具在三天间隔中旋转. AI概念,然后ChatGPT,然后Claude.相同的工作流程配置文件.相同的四十小时的每周基线.记录了十二百次提示.标题发现是输出质量判决.埋藏的发现是操作员最频繁地使用哪种工具,以及为什么.该判决不是实验设计预测的.案例文件记录了如何通过之前的零件案例文件追踪的不对称信息姿势,预测了实际结果.
审计参数如下:90天.总订阅成本为60美元.测试期间没有其他人工智能工具允许在三个操作窗口中任何一个.每个提示都被记录.每个输出都被评分.每个工具交叉诱惑的时刻都被记录在评估日志中.三个测量标准:操作员最频繁地达到哪个工具,产生了最高的输出质量,在实际使用中感觉最快.实验开始时,假设是单个工具会在所有三个方面都赢得.假设无法存活与数据的接触.三个不同的工具赢得了三个不同的类别.一个赢家不是操作员预测的.
一天到三十天:Notion AI. 另外一层与AI补充程序,每月二十美元.第一天是最强大的性能窗口.Notion AI在运营商现有的工作空间内运营,会议笔记,项目文档和历史电子邮件内容已经存储.查询运营商自己的档案并获得三秒钟的答案,引用原始文档是其他两个工具无法匹配的.第七天是失败.运营商试图使用Notionpoint作为博客草案的长文写作者.输出在5内部质量尺度上评分为1.2个.一般的,重复性,结构性不区别于SaaS登陆页面.到第十五天,该工具被提交在单个使用类别下:搜索运营商的知识基础.在接下来的任何工作中,测试了二十六天的不一致的任务.
三十一天到六十天:聊天GPT.加上订阅,定制GPT启用,月薪二十美元.第一周是最强的表现窗口.以前耗费了手动周期,电子邮件重写,会议准备,脑风暴变化的每一个短重复任务都可重新分配到定制GPT.如之前的Fragment Zero案例文件记录的,预编译的文本模型产生可测量的吞吐量升级.有限的发现是速度:ChatGPT在八到十五秒内持续产生短任务响应,比实际使用的其他两个工具更快.故障是长文本的.Coherence降级可以观察到三个二十五千字的输入.在一个微型的调用协议中,TPT已经被分类为三个,但在第二个阶段的时间内,TPT已经被分类为长文本.
六十一天到九十天:克劳德. 专业订阅,月费二十美元. 能力在评估中:长文理性. 一份15000字的文档被粘贴并查询了隐藏在礼貌语言下的三个真正的论点. 答案是直接的,没有修改. 克劳德的写作没有被人工智能生成,在盲目审查下呈现出来. 编辑尊重运营商现有的声音. 输出在多个部分保持一致性. 克劳德项目具有定制指令和知识文件约占了 ChatGPT GPT 足够的角色的70%,足以满足实验目的. 交易,记录:克劳德对短任务进行了测量缓慢,并且缺乏磨练的定制G市场质量. 产出:三个文件的使用率,一个最高的边缘:为什么不服务于生态系统. 图: 产出: 文件的频率: 原因是因为最高的边缘.
控制的头对头测试.在三个工具中,同一天输入相同的输入.任务:客户通话转录,提取三个真正的反对意见,编写一个接下来电子邮件,针对每个.概念AI完成了八秒,出现了体面的反对意见,编写了一个通用电子邮件.ChatGPT完成了十二秒,出现了三个表面的反对意见,编写了一个包含可识别的AI信息的电子邮件.克劳德完成了二十秒,出现了一个反对意见,其他两个工具完全错过了,编写了一个作为发送准备的电子邮件,没有修改.在这一点上,克劳德获得了清洁的输出质量.模式在整个样本中一致.但单个任务是一个数据点.完整的图片,记录在90天的时间内,对初步任务的假设更不舒服..
判决一:输出质量.克劳德.边缘不接近.对于任何任务类别,响应必须在多个部分中保持一致的思考,克劳德产生出口,运营商没有实质上重写.其他两个需要清理.克劳德需要批准. 结果,在审计中记录下来:对于任何运营商的输出内容是写作本身,克劳德是长形式的推理订阅.长形式的文件,销售呼叫分析,战略备忘录,对运营商现有的写作进行编辑.分类在整个审计的更广泛的样本中持续存在.如在镜头核心案例文件中所记录的,运营商自己的声音是训练数据,可以区分可接受的AI帮助与污染.克劳德是测试中唯一一个始终尊重该边界的工具.
判决二:使用速度.ChatGPT. 边缘不接近.对于短重复任务,输出字数不到五百个,ChatGPT平均每任务的平均值为八秒.Claude平均为同样的工作量为十六秒.预编译的文本模式,如在前 Fragment Zero 定制GPT 案例文件中记录的,使ChatGPT 的有效响应时间降至大约四秒,因为其他工具必须在每个提示时接收的文本已经加载到代理的工作内存中.分类在审计的输出样本中持续.对于任何电脑的容量口是短任务而不是深度,ChatGPT 是输出订阅.关键:速度优势由GPT 启用,并保留了操作员的文本,然后从那个提示中获得了保留. 便利性通过接收后被启用.
判决三:使用频率. AI概念. 边缘并不接近,并不是实验设计所预测的结果.在九十天的时间内,记录了十二百个提示. AI概念收到了四百五十个. ChatGPT收到了四百十个. Claude收到了三百四十个. 原因,记录在审计日志中: AI概念是测试集中的唯一工具,在没有每次明确上传的情况下已经知道运营商的环境. 每个Claude提示和每一个 ChatGPT提示都开始于运营商重新解释他们是谁,他们在哪个项目上,他们正在引用哪个文档. AI概念不需要这一步骤.摩擦是零. 根据记忆市场文件,数据不局限于其帐户. 翻页的工具的另一方面是,在系统中已经发现了更高的质量:在程序中,运营商的使用工具的隐藏方式通常比零. 文件的使用方式更容易被隐藏. 文件的使用方式通常比零.
购买决策矩阵来自审计,对于操作员必须订阅一个.如果工作产品是自编写的,书籍,文章,战略文件,合同,克劳德.如果工作产品是吞吐量,答案,脑风,快速编辑,ChatsGPT.如果工作已经发生在Notion内部,工作空间包含一个有意义的操作员知识库,Notion AI,充分意识到本案文件中记录的保留姿势.如果预算支持两个,这对是Claude加Notion AI.质量加保留.ChatGG成为该配置中的可选.如果预算支持所有三个,如该审计中的操作员所做的,在这个案例文件中记录的旋转模式是数据中出现的配置.每个赢得一点.每个记录的交互应被记录和审查.
审计日志已完成.有1200个提示被分类,三个订阅被评估,三个不同的获奖者通过三个不同的标准.案例文件记录了一个运营商的实验.对于三个工具中的每个工具的记录保持姿势尚未被厂商修改.在本文写作时,相同的保留姿势适用于测试对象的配置和您的配置.Notion AI的三秒的文本意识答案的便利性由这个审计文件的系统表面相同.案例文件不会关闭.它等待.与三个AI进行相同的运行.比较输出.提交异常到fragment.net/echo..