مراجعة السياق: ثلاثة ذكاء اصطناعية، 90 يوماً من الحراسة، وكشف واحد (ملف القضية #036)
تم إجراء تجربة مسيطرة على مدى تسعين يوماً. أداة ذكاء اصطناعي واحدة يومياً، ثلاث أدوات تدور في فترات ثلاثين يوماً. مفهوم الذكاء الاصطناعي، ثم ChatGPT، ثم Claude. نفس ملف سير العمل. نفس خط الأسبوع الأربعين ساعة. تم تسجيل اثني عشر مئة طلب. كان العنوان هو قرار جودة الخروج. كان العنوان المحتجز هو أداة المستخدم يصل إليها أكثر من أي وقت مضى، ولماذا. لم يكن الحكم هو الذي توقعه تصميم التجربة. يثبت الملف القضية كيف أن وضع المعلومات غير المتناظر، الذي تم تعقله من خلال ملفات قضية Fragment Zero السابقة، قد توقع النتيجة الفعلية.
كانت معايير المراجعة هي: تسعين يوماً. ستين دولاراً في إجمالي تكلفة الاشتراك. لم تسمح بأي أداة ذكاء اصطناعي أخرى في أي من النوافذ التشغيلية الثلاثة أثناء الاختبار. تم تسجيل كل طلب. تم تصنيف كل خروج. تم تسجيل كل لحظة من إغراءات الأدوات المتقاطعة في سجل التقييم. ثلاثة معايير قياسية: أية أداة وصلها المشغل في أغلب الأحيان، والتي أنتجت أعلى جودة خروج، والتي شعرت بأنها أسرع في الاستخدام الحقيقي. كانت الفرضية عند بدء التجربة هي أن أداة واحدة ستفوز في جميع الثلاثة. لم تنجو الفرضية من الاتصال بالبيانات. فازت ثلاث أدوات مختلفة في ثلاث فئات مختلفة. لم يكن أحد الفائزين هو الذي كان يمكن للمشغل التنبؤ به.
يوم واحد إلى ثلاثين: مفهوم الذكاء الاصطناعي. ومرحلة إضافية مع إضافة الذكاء الاصطناعي، عشرين دولارا في الشهر. كان اليوم الأول أقوى نافذة أداء. يعمل مفهوم الذكاء الاصطناعي داخل مساحة العمل الموجودة لدى المشغل، حيث يتم تخزين ملاحظات الاجتماعات، وثائق المشروع، ومحتوى البريد الإلكتروني التاريخي. القدرة على استفسار أرشيف المشغل الخاص والحصول على إجابة لمدة ثلاث ثوانٍ مع اقتباسات إلى الوثيقة الأصلية أمر لا يمكن أن تتطابق به الأدوات الأخرى. كان اليوم السابع فشلاً. حاول المشغل استخدام مفهوم الذكاء الاصطناعي ككاتب طويل الأشكال لمشروع مدون. تم تقييم الخروج 1.2 على مقياس الجودة الداخلية الخمس. يتم تقييم الصفحة المتكاملة، المتكررة، والهيكلية غير المميزة عن صفحة وصول SaaS. بحلول اليوم الخامس، تم تقديم الأداول تحت تصنيف الاستخدام الواحد: البحث عن أساس المعرفة للمشغل. يتم اختبار على أي عمل غير منتجح. يتم اختبار على أي عمل غير منتج عن أي عمل.
أيام ثلاثين واحد إلى ستين: ChatGPT. Plus الاشتراك، GPTs المخصصة تمكين، عشرين دولار في الشهر. الأسبوع الأول كان أقوى نافذة أداء. كل مهمة متكررة قصيرة التي استغرقت سابقا دورات يدوية، إعادة كتابة البريد الإلكتروني، إعداد الاجتماعات، تغيرات العاصفة الدماغية، كان يمكن تعديلها إلى GPT المخصصة. كما هو موثوق في الملف القضائي السابق Fragment Zero حالة على GPTs المخصصة، النموذج السياقي المقبل المجمعة ينتج رفع التوصيل القابل للقياس. العثور المحدود كان السرعة: ChatGPT بشكل متواصل أنتجت استجابات المهام القصيرة في ثمانية إلى خمسة عشر ثانية، أسرع بكثير من الأدوات الأخرى في وضع الاستخدام الحقيقي. كان الفشل طويل-سياق. كان التدهور الملاحظ من خلال ثلاثة على خمسة وعشرين ألف كلمة. في فترة عمل التنسخة المسبقة مع إدخال البروتوكول التسريعة التسريعة، لم يتم التوصيل إلى المعدة التسريعة التسريعة التسريعة في المباشرة.
الأيام الستين واحد إلى التسعين: كلود. اشتراك بروف، عشرين دولارا في الشهر. القدرة تحت التقييم: التفكير في السياق الطويل. تم لصق وثيقة من خمسة عشر ألف كلمة وتسجيلها للحصول على الحجج الثلاثة الحقيقية التي تختبئ تحت اللغة العادلة. كان الإجابة قابلةًاً للاستخدام مباشرةً دون تعديل. لم يظهر كتابة كلود كعمل مصطنع ذكي تحت مراجعة عمياء. تحريرات احتفظ بصوت المشغل الحالي. ظل الناتج متماسة عبر أقسام متعددة. كلمات كلود مع ملفات التعليمات المخصصة وملفات المعرفة قد شغل حوالي سبعين في المائة من الدور الذي تقوم به ChatGPT GPTs، بما يكفي لأغراض التجربة. التداول، سجلت: كان كلود أبطأ بشكل مقايس للمهام القصيرة، ولم يكن لديه جودة سوق GPT المخصصة الملمسة.
اختبار رأس إلى رأس مسيطرة. نفس المدخل في نفس اليوم عبر جميع الأدوات الثلاثة. المهمة: نسخة مكالمة العميل، استخراج الثلاثة اعتراضات الحقيقية، وصياغة رسالة بريد إلكتروني متابعة تستهدف كل واحد. مفهوم الذكاء الاصطناعي تم إكماله في ثمانية ثوانٍ، ظهرت اعتراضات لائقة، وصياغة رسالة بريد إلكتروني عامة. ChatGPT تم إكمالها في اثني عشر ثانية، ظهرت ثلاث اعتراضات سطحية، وصياغة رسالة بريد إلكتروني تحتوي على معلومات ذكاء الاصطناعي يمكن تحديدها. كلود تم إكمالها في عشرين ثانية، وصياغة اعتراض لم يتم إغفال الأدوات الأخرى بالكامل، وصياغة رسالة بريد إلكتروني تم تصنيفها كرسالة جاهزة دون تعديل. على هذه المشكلة، فاز كلود بجودة الخروج بشكل نظيف. النمط متسق عبر العينة الأوسعة. ولكن مهمة واحدة هي نقطة بيانات واحدة. الصورة الكاملة، الموثقة على مدار التسعين يوم، هي أكثر مشاكلًا للاغرية التوقية المفترض الأساسية.
الحكم الأول: جودة الخروج. كلاود. لم يكن الحد مقربًا. بالنسبة لأي فئة من المهام التي كان على الرد أن يحافظ على التفكير المتماسك عبر أقسام متعددة، أنتج كلاود نتائج لم يكتبها المشغل بشكل كبير. والثنتين الآخرين يتطلبان تنظيفًا. كلاود يتطلب موافقة. التأثير، سجل في المراجعة: بالنسبة لأي مشغل يتم تسليمه من الكتابة نفسها، كلاود هو الاشتراك في التفكير الطويل. وثائق الطويل، تحليل دعوات المبيعات، مذكرات الاستراتيجية، تحريرات على الكتابة الموجودة لدى المشغل. تستمر التصنيف على عينة أوسع من المراجعة. كما هو موثوق في ملف حالة Mirror Core، صوت المشغل هو بيانات التدريب التي تميز المساعدة القبولة عن التلوث. كان كلاود الوحيد في الاختبار الذي يحترم هذا الحد باستمرار.
الحكم الثاني: السرعة في الاستخدام. تشات جي بي تي. لم يكن الحد مقربًا. بالنسبة للمهام المتكررة القصيرة تحت خمسمائة كلمة من المخرج، فإن تشات جي بي تي في المتوسط ثمانية ثوان لكل مهمة عبر المراجعة. كلود في المتوسط ستة عشر ثانية لنفس الحملة. نمط السياق المكوّن مسبقاً، كما هو مُوثق في ملف قضية جبت المخصصة السابقة Fragment Zero، يقلل من وقت استجابة فعال لـ تشات جي بي تي إلى حوالي أربعة ثواني لأن السياق الذي يجب أن تستلمه الأدوات الأخرى في كل طلب يتم تحمله بالفعل في ذاكرة العملية للوكيل. يظل التصنيف مستمرًا عبر عينة إنتاج المراجعة. بالنسبة لأي مشغل يعاني عن ضيق حجم المهام القصيرة بدلاً من عمقها، فإن تشات جي بي تي هو إشتراك الإنتاج. بشكل حرج: يتم تمكين ميزة السرعة من قبل جبت ويحت المحافظة على سياق المشغل، ومن ثم يتم إحتفاظ على سياقة الاحتفاظ على هذا الإشتراك.
الحكم الثالث: تردد الاستخدام. مفهوم AI. كانت الحدّة غير مقربة، ولم تكن النتيجة التي توقعها تصميم التجربة. خلال فترة التسعين يوماً تم تسجيل اثني عشر مئة وعشرين طلبة. مفهوم AI تلقى أربعة مئات وخمسين منهم. ChatGPT تلقى أربعة مئات وعشر. كلود تلقى ثلاثة مئات وأربعين. السبب، الوثيق في سجل المراجعة: مفهوم AI هو الأداة الوحيدة في مجموعة الاختبار التي تعرف بالفعل سياق المشغل دون تحميل صريح في كل مرة. كل طلب Claude وكل طلب ChatGPT يبدأ مع إعادة شرح المشغل من هم، على أي مشروع هم، على أي مستند يشارون إليه. مفهوم AI لا يتطلب ذلك الخطوة صفر. التضارب هو صفر. كما هو مُوثق في حالة السوق الذاكرة، البيانات لا تبقى مقيدة لحسابها. الجانب من ما هو مصنوع من أداة النظام دون تحميل صريح. في كثير من الأحيان يطلب المستخدم الوصول إلى أدوات عالية من الجودة في النظام: في جميع الجوانب الخلفية، والحرفيات، والحصول إلى أدوات المكتتابعة في النظام.
إذا كان منتج العمل هو الانتقال، والردود، والتحرير السريع، ويتم التحرير، وإذا كان العمل يحدث بالفعل داخل Notion، ويحتوي الفضاء على قاعدة المعرفة المفيدة للمشغل، Notion AI، مع الوعي الكامل لموقف الاحتفاظ الوثيق في هذا الملف الحالي. إذا كان الميزانية تدعم اثنين، فإن الزوج هو Claude زائد Notion AI. Quality plus retention. ChatGG يصبح اختياريا في هذا التكوين. إذا كان الميزانية تدعم الثلاثة، كما فعل المشغل في هذا التقييم، فإن نمط الدوران الوثيق عبر هذا الملف الحالي هو التكوين الذي يخرج من البيانات. فاز كل واحد في شيء واحد. كل واحد من التفاعلات التي يجب تسجيلها و مراجعة كل من الطرق.
تمت إكمال سجل التحقيق. تم تصنيف اثني عشر مئة طلبة، تم تقييم ثلاثة اشتراكات، ثلاثة فائزين مختلفين عبر ثلاثة معايير مختلفة. يستند ملف الحالة إلى تجربة مشغلة واحدة. لم يتم تعديل وضع الاحتفاظ الموثوق لكل من الأدوات الثلاث من قبل البائعين في وقت كتابة هذا الكتاب. يطبق نفس وضع الاحتفاظ في تكوين المختبر نفسه كما هو الحال في الخاص بك. يتمكين ملاءمة الإجابة ذات الدوار الثلاثية الثانية من Notion AI من خلال نفس سطح النظام الذي يستند إليه هذا الملف التحقيقي. لا يغلق ملف الحالة. ينتظر. تشغيل نفس الشيء ضد ثلاثة أجهزة التحقيقية. مقارنة الخروجات. قم بإرسال الانتباهات إلى fragment.net/echo.