The Chaotic Experiment That Shows AI Isn’t Ready to Take Your Job
  • أجرت جامعة كارنيجي ميلون تجربة، “TheAgentCompany”، اختبرت فيها نماذج الذكاء الاصطناعي في بيئة مكتبية محاكية، كاشفة عن قيود كبيرة.
  • كان أداء أفضل نموذج ذكاء اصطناعي، Claude 3.5 Sonnet من شركة Anthropic، حيث أكمل 24% فقط من المهام، مما يظهر التحديات التي تواجهها الذكاء الاصطناعي في السيناريوهات المعقدة.
  • تطلبت مهام الذكاء الاصطناعي عمليات معقدة، مع تكاليف عالية لكل محاولة، مما يبرز عدم كفاءة قدرات الذكاء الاصطناعي الحالية.
  • أظهر Nova Pro v1 من أمازون أضعف أداء، حيث أكمل 1.7% فقط من المهام.
  • أكدت الدراسة على افتقار الذكاء الاصطناعي إلى الحس السليم والمهارات الاجتماعية الأساسية، وهو واضح من سوء الأداء المضحك في المهام.
  • تظل قدرة البشر على التكيف والابتكار والذكاء الاجتماعي أمرًا لا يمكن استبداله، حيث أن الذكاء الاصطناعي يجد صعوبة في تقليد هذه الصفات المعقدة.
  • تؤكد هذه التجربة على الفجوة بين طموحات الذكاء الاصطناعي وقدراته الحالية في محاكاة العمال البشر.
AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

تخيل شركة برمجيات مزدحمة، مكاتبتها مليئة ليس بالناس، ولكن بمجموعة دائرية من العقول الاصطناعية. كما اكتشف الباحثون في جامعة كارنيجي ميلون مؤخرًا، فإن هذه الكيانات الرقمية بعيدة عن أن تكون العمال الأوفياء والفعالين كما تصورتها قصص الخيال العلمي. بدلاً من ذلك، انحرفت تجربتهم الكبرى في الأتمتة – التي أطلق عليها اسم TheAgentCompany – إلى عرض كوميدي من عدم الكفاءة الرقمية.

تتكون هذه الشركة الوهمية بالكامل من نماذج متطورة للذكاء الاصطناعي من عمالقة التكنولوجيا مثل Google وOpenAI وAnthropic وMeta، وقد خضعت وكالات الذكاء الاصطناعي لمهام تحاكي بيئات المكتب الواقعية. وهذه المهام، التي تتراوح من التنقل في أنظمة الملفات وإجراء جولات افتراضية إلى كتابة مراجعات الأداء، كشفت عن القيود الواضحة لقدرات الذكاء الاصطناعي لدينا.

ظهر Claude 3.5 Sonnet من Anthropic كأفضل “مؤدي”، ومع ذلك تمكن فقط من إكمال 24 بالمائة من المهام المعينة. لماذا هذا العدد القليل؟ كل مهمة تطلبت رقصة معقدة تتضمن ما يقرب من 30 خطوة، بتكلفة تزيد عن 6 دولارات لكل محاولة. واجه Gemini 2.0 Flash من Google أداءً أسوأ، حيث استغرق الأمر 40 خطوة للنجاح في 11.4 بالمائة فقط من مهامه. وفي قاع القائمة كان Nova Pro v1 من أمازون، بمعدل إكمال مؤسف يبلغ 1.7 بالمائة.

كشفت وكالات الذكاء الاصطناعي عن أنها تعاني من نقص حاد في الحس السليم الأساسي والذكاء الاجتماعي. في محاولة غريبة للخداع الذاتي، قام نموذج واحد بإعادة تسمية مستخدم في دردشة الشركة عندما فشل في العثور على الزميل المناسب لطرح الأسئلة—دليل واضح على مهاراتهم المعيبة في التنقل.

قد تظهر هذه العقول الاصطناعية براعة في مهام محددة وواضحة، لكن خيالهم في استبدال العمال البشريين الواعين بالكامل يظل مجرد خيال. تظل تعقيدات الإبداع البشري والتكيف والتنقل الاجتماعي بعيدة عن متناول الذكاء الاصطناعي الحديث، الذي، على الرغم من ادعاءاته الكبرى، لا يعكس شيئًا ثوريًا أكثر من نص تنبؤي محسن.

لذا، استرخي في معرفة أن مهاراتك البشرية الفريدة وذكائك التكيفي لا يمكن استبداله، على الأقل في المستقبل القريب. مع استقرار الغبار من هذه المحاولة الطريفة لتقليد العمال البشريين، تبقى حقيقة واحدة واضحة: لا يزال أمام الذكاء الاصطناعي رحلة طويلة قبل أن يتحدى الخبرة المعقدة للجهد البشري.

المغامرات المضحكة لوكالات الذكاء الاصطناعي في TheAgentCompany

المشهد الحالي لأتمتة الذكاء الاصطناعي في أماكن العمل

في عالم الأتمتة المتطور باستمرار، أضأت تجربة جامعة كارنيجي ميلون حول العمل المكتبي المدعوم بالذكاء الاصطناعي على عظمة وقيود نماذج الذكاء الاصطناعي من كبار المطورين التكنولوجيين. كشفت TheAgentCompany، وهي مبادرة تحاول أتمتة مكان العمل بالكامل باستخدام الذكاء الاصطناعي، بشكل كوميدي كيف نحن بعيدون جدًا عن استبدال الإبداع البشري بالكامل بأدوات الذكاء الاصطناعي.

نماذج الذكاء الاصطناعي في التركيز: تقييم الأداء

1. Claude 3.5 Sonnet من Anthropic: تصدر المخططات بين نظائرها من الذكاء الاصطناعي، لكنه أكمل 24 بالمائة فقط من المهام. توضح هذه الأداء تعقيد وطبيعة المهام المكتبية التي تتطلب خطوات متعددة، حتى لو بدت بسيطة.

2. Gemini 2.0 Flash من Google: تطلب هذا النموذج من الذكاء الاصطناعي حوالي 40 خطوة لكل محاولة وتمكن فقط من إكمال 11.4 بالمائة من المهام المعينة. تبرز النتائج عدم الكفاءة والحاجة إلى تحسين خوارزميات إدارة المهام.

3. Nova Pro v1 من أمازون: بمعدل إكمال يبلغ 1.7 بالمائة، فإنه يبرز الفجوة بين قدرات الذكاء الاصطناعي الحالية وموهبة البشر في تنفيذ المهام.

التحديات الرئيسية التي تم تحديدها

تنفيذ المهام المعقدة: كانت المهام تتطلب في المتوسط 30 إلى 40 خطوة لكل منها، مما يؤثر بشدة على الكفاءة والجدوى.

التكاليف: بلغ متوسط تكلفة كل مهمة أكثر من 6 دولارات لكل محاولة، مما يطرح تساؤلات حول الجدوى الاقتصادية للذكاء الاصطناعي كبديل للأدوار البشرية في المهام البسيطة.

الحس السليم والذكاء الاجتماعي: أصبح من الواضح أن ضعف إدراك الذكاء الاصطناعي للسياق والديناميات الاجتماعية يمثل مشكلة، مع حدوث حالات مثل إعادة تسمية الزملاء بشكل غير مناسب في الدردشات.

الجدل والقيود

تم انتقاد أدوات الذكاء الاصطناعي، على الرغم من تقدمها السريع، لعدم قدرتها على محاكاة الإبداع البشري والذكاء الاجتماعي بفعالية. عرضت هذه التجربة القيود المهمة التالية:

نقص الفهم السياقي: يعاني الذكاء الاصطناعي من صعوبة في فهم التعليمات الدقيقة بخلاف البشر، الذين يقومون بتكييف السياق بسرعة.

الكفاءة ومتعددة المهام: لا يعني الأتمتة في المهام المتكررة أنها تتلاءم مع التعامل مع الأدوار المكتبية المعقدة والمتعددة الجوانب.

مزايا وعيوب الذكاء الاصطناعي في أماكن العمل

الإيجابيات
– كفاءة عالية في المهام المنظمة والمتكررة.
– يمكن أن تؤدي الأتمتة إلى تقليل معدلات الخطأ بشكل كبير في معالجة البيانات.

السلبيات
– عدم القدرة على حل المشكلات الإبداعية.
– صعوبة في التكيف مع البيئات المكتبية الديناميكية.

التطبيقات الواقعية والرؤى

بينما لا يمكن للذكاء الاصطناعي حتى الآن تولي الأدوار البشرية المعقدة، فإنه يواصل الازدهار في مجالات مثل تحليل البيانات، الجدولة، وأتمتة دعم العملاء. من المهم التمييز بين الأدوار التي يمكن للذكاء الاصطناعي القيام بها وتلك التي لا يمكنه تنفيذها، مع الاستفادة من إبداع البشر في المهام التي تتطلب فهمًا عميقًا وابتكارًا.

اتجاهات السوق والاتجاهات المستقبلية

مع تطور التكنولوجيا، يمكن تطوير نماذج هجينة تجمع بين كفاءة الذكاء الاصطناعي وإشراف الإنسان، مما يؤدي إلى تحسين الإنتاجية دون التضحية بالقوى الفريدة التي يجلبها البشر إلى مكان العمل.

توصيات قابلة للتنفيذ

1. دمج الذكاء الاصطناعي للمهام المتكررة: التركيز على تنفيذ الذكاء الاصطناعي في مهام مثل إدخال البيانات وإنشاء التقارير حيث يمكن أن تتألق الأتمتة.

2. تطوير برامج التدريب: تعزيز قدرات وكالات الذكاء الاصطناعي من خلال التدريب المتقدم لتحسين فهمها السياقي وقدرتها على تنفيذ المهام.

3. مراقبة تكاليف تنفيذ الذكاء الاصطناعي: تقييم التأثيرات الاقتصادية بانتظام لضمان عدم تعويض الكفاءات التي يولدها الذكاء الاصطناعي عن اعتبارات الميزانية.

4. تشجيع التعاون بين البشر والذكاء الاصطناعي: ترويج بيئات حيث تكمل أدوات الذكاء الاصطناعي الجهود البشرية بدلاً من استبدالها، مما يزيد من الفعالية العامة.

بالنسبة لأولئك المهتمين بأحدث التطورات في التكنولوجيا، تحقق من Anthropic، OpenAI، و Google AI.

تعد التجربة في TheAgentCompany تذكيرًا كوميديًا ولكن عميقًا: الطريق إلى أماكن العمل المدعومة بالذكاء الاصطناعي بعيد عن أن يكون خطًا مستقيمًا، مليئًا بالتعقيدات التي من الأفضل أن يتم التنقل فيها من خلال جهود تعاونية بين الإنسان والآلة.

ByFiona Green

فيونا غرين هي مؤلفة بارعة وقائدة فكرية تتخصص في التقنيات الجديدة والتكنولوجيا المالية. مع درجة الماجستير في هندسة المال من جامعة كارنيجي ميلون المرموقة، تجمع فيونا بين خبرتها الأكاديمية وشغفها لاستكشاف تقاطع التكنولوجيا والمالية. تشمل مسيرتها المهنية المتنوعة خبرة كبيرة في شركة ليكوود للاستشارات، حيث لعبت دورًا محوريًا في تحليل الاتجاهات الناشئة في التكنولوجيا المالية وتقديم المشورة للعملاء بشأن الحلول المبتكرة. من خلال كتاباتها، تسعى فيونا لتبسيط التقدم التكنولوجي المعقد وتقديم رؤى قابلة للتنفيذ لكل من المهنيين في الصناعة والهواة. يتميز عملها بفهم عميق لديناميات السوق واهتمامها بتعزيز الحوار حول مستقبل الابتكار المالي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *