- ניסוי של אוניברסיטת קרנגי מלון, "TheAgentCompany," בדק מודלים של בינה מלאכותית בסביבת משרד מדומיינת, חושף מגבלות משמעותיות.
- הביצוע המוביל בבינה המלאכותית, Claude 3.5 Sonnet של Anthropic, השלים רק 24% מהמשימות, מה שמציג את האתגרים שבינה מלאכותית נתקלת בהם בתרחישים מורכבים.
- המשימות שנדרשו מבינה מלאכותית דרשו תהליכים מורכבים, עם עלויות גבוהות לכל ניסיון, מה שמדגיש חוסר יעילות בכישורי הבינה המלאכותית הנוכחיים.
- Nova Pro v1 של אמאזון הציגה את הביצועים הכי נמוכים, והשלים רק 1.7% מהמשימות.
- המחקר הדגיש את חוסר השכל הישר והכישורים החברתיים הבסיסיים של הבינה המלאכותית, שיהיה ניתן לראות בתפקוד המוזר שלה במשימות.
- היכולת האנושית להסתגל, להמציא ולהתמודד חברתית נשארת בלתי ניתנת להחלפה, כאשר הבינה המלאכותית מתקשה לשכפל את התכונות המורכבות הללו.
- ניסוי זה מדגיש את הפער בין השאיפות של הבינה המלאכותית לבין היכולות הנוכחיות שלה לחקות עובדים אנושיים.
דמיינו חברת תוכנה שוקקת, המשרדים שלה מלאים לא באנשים אלא במגוון מבלבל של תודעה מלאכותית. כפי שגילו לאחרונה החוקרים באוניברסיטת קרנגי מלון, הישויות הדיגיטליות הללו רחוקות מלהיות העובדים הייעודיים והיעילים שהוזכרו בסיפורי מדע בדיוני. במקום זאת, הניסוי המפואר שלהם באוטומציה, הקרוי "TheAgentCompany," הפך לתצוגה קומית של חוסר יכולת דיגיטלית.
החברה המדומיינת, שהורכבה לגמרי ממודלים מתקדמים של בינה מלאכותית מחברות טכנולוגיה דוגמת גוגל, OpenAI, Anthropic ומטה, חשפה את סוכני הבינה המלאכותית למשימות המדמות מצבים משרדיים אמיתיים. המשימות הללו, שהיו כוללות ניווט במערכות קבצים, קיום טיולים וירטואליים וכתיבת ביקורות ביצועים, חשפו את המגבלות הברורות של כישורי הבינה המלאכותית הנוכחיים שלנו.
Claude 3.5 Sonnet של Anthropic התגלה כ"מאמן" המוביל, אך הצליח להשלים רק 24 אחוזים מהמשימות שהוטלו עליו. מדוע כה מעט? כל משימה דרשה ריקוד מורכב של כמעט 30 צעדים, בעלות של למעלה מ-6 דולר לניסיון. Gemini 2.0 Flash של גוגל נכשל יותר, לקח עשרות צעדי עבודה כדי להצליח ב-11.4 אחוזים בלבד מהמשימות. בתחתית הסולם נמצאת Nova Pro v1 של אמאזון, עם שיעור השלמה של רק 1.7 אחוזים.
סוכני הבינה המלאכותית חשפו את עצמם כנאבקים בחסר חמור של שכל ישר בסיסי ויכולת חברתית. בניסיון ביזארי לרמות את עצמם, מודל אחד הגיע למצב שבו שינה את שמו של משתמש בשיחה של החברה כאשר לא הצליח לאתר את הקולגה הנכונה לשאלות—עדות ברורה ליכולות ניווט השבורות שלהם.
המוחות הסינתטיים הללו עשויים להציג יכולת במשימות יחידות ומוגדרות, אך הפנטזיה שלהם להחליף עובדי בני אדם מודעים לחלוטין נותרת פנטזיה בלבד. המורכבות של המצאה אנושית, הסתגלות וניווט חברתי עדיין רחוקה לחלוטין מהישג יד הבינה המלאכותית המודרנית, שהיא, למרות טענותיה הגדולות, מהדהדת שום דבר מהפכני יותר מאשר טקסט מתוחכם לחיזוי.
אז קחו ניחומים בידיעה שכישוריכם האנושיים הייחודיים והאינטליגנציה הסתגלנית שלכם אינם ניתנים להחלפה, לפחות בעתיד הנראה לעין. כאשר האבק שוכך מניסיון זה לחקות עובדים אנושיים, אמת אחת ברורה: לבינה המלאכותית עדיין יש דרך ארוכה לפני שהיא תוכל לאתגר את המומחיות המרובדת של המאמץ האנושי.
ההרפתקאות המוזרות של הבינה המלאכותית ב-TheAgentCompany
הנוף הנוכחי של אוטומציה בבינה מלאכותית במקומות עבודה
בעולם המשתנה כל הזמן של האוטומציה, הניסוי של אוניברסיטת קרנגי מלון עם עבודה משרדית מונעת בינה מלאכותית הדגיש את הגדולה והמגבלות של מודלים של אינטליגנציה מלאכותית מהיצרניות המובילות. TheAgentCompany, יוזמה המנסה להאצת פרדיגמה של עבודה לחלוטין באמצעות בינה מלאכותית, חשפה בצורה קומית עד כמה אנחנו רחוקים מהחלפת חוכמת האדם בכלים של בינה מלאכותית.
מודלים של בינה מלאכותית במוקד: הערכת ביצועים
1. Claude 3.5 Sonnet של Anthropic: בראש הרשימה בקרב העמיתים שלו בבינה מלאכותית, השלים רק 24% מהמשימות. הביצועים הללו ממחישים את המורכבות והצורך במהלכים רבים אפילו כאשר מדובר במשימות משרדיות שנראות פשוטות לכאורה.
2. Gemini 2.0 Flash של גוגל: מודל הבינה המלאכותית הזה דרש כ-40 צעדים לכל ניסיון והשלים רק 11.4 אחוזים מהמשימות שהוטלו עליו. התוצאות מדגישות חוסר יעילות ואת הצורך באלגוריתמים טובים יותר לניהול משימות.
3. Nova Pro v1 של אמאזון: עם שיעור השלמה של 1.7 אחוזים, הוא מדגיש את הפער בין היכולות הנוכחיות של הבינה המלאכותית לבין יכולות הביצוע האנושי.
אתגרים עיקריים שזוהו
– ביצוע משימות מורכבות: המשימות הצריכו ממוצע של 30 עד 40 צעדים כל אחת, מה שהשפיע על היעילות והפרקטיות.
– עלויות: כל משימה דרשה בממוצע למעלה מ-6 דולר לכל ניסיון, מה שמעלה שאלות לגבי הכדאיות הכלכלית של הבינה המלאכותית בהחלפת תפקידי בני אדם במשימות פשוטות.
– שכל ישר וכישורים חברתיים: התמחותה של הבינה המלאכותית בחוסר הבנה של הקשר ודינמיקה חברתית נעשתה ברורה, עם מקרים כמו שינוי שמות לא הולמים של קולגות בשיחות.
מחלוקות ומגבלות
כלי בינה מלאכותית, למרות ההתקדמות המהירה שלהם, זוכים לביקורת על חוסר היכולת שלהם לחקות בצורה אפקטיבית יצירתיות אנושית ואינטליגנציה חברתית. הניסוי חשף את המגבלות המשמעותיות הבאות:
– חוסר הבנה של הקשר: הבינה המלאכותית מתקשה להבין הנחיות מדויקות, בניגוד לבני אדם שמבינים ומסתגלים במהירות.
– יעילות וריבוי משימות: אוטומציה במשימות חוזרות אינה מתורגמת ליכולת להתמודד עם תפקידים משרדיים מסובכים ורבי-משימות.
יתרונות וחסרונות של הבינה המלאכותית במקומות העבודה
יתרונות
– יעילות גבוהה במשימות מסודרות וחוזרות.
– אוטומציה יכולה להפחית בצורה משמעותית את שיעורי השגיאות בעיבוד נתונים.
חסרונות
– חוסר יכולת בביצוע פתרון בעיות יצירתי.
– קושי להסתגל לסביבות עבודה דינמיות.
יישום בעולם האמיתי ותובנות
בעוד שבינה מלאכותית אינה יכולה עדיין לתפוס תפקידים מורכבים של בני אדם, היא ממשיכה להצליח בתחומים כמו ניתוח נתונים, תכנון ועיבוד אוטומטי של שירות לקוחות. חשוב להבחין בין תפקידים שהבינה המלאכותית יכולה ואינה יכולה למלא, ולנצל את היצירתיות האנושית למשימות שדורשות הבנה מעמיקה וחדשנות.
מגמות שוק וכיווני עתיד
כשם שהטכנולוגיה מתפתחת, ייתכן שיפותחו מודלים היברידיים המשלבים בין יעילות הבינה המלאכותית להשגחה אנושית, מה שיוביל לעלייה בפרודוקטיביות מבלי לוותר על החוזקות הייחודיות של בני אדם במשרד.
המלצות מעשיות
1. שילוב בינה מלאכותית במשימות חוזרות: התמקדות ביישום בינה מלאכותית במשימות כגון הזנת נתונים ויצירת דוחות שבהן האוטומציה יכולה באמת להתבלט.
2. פיתוח תוכניות הכשרה: שיפור יכולות הסוכנים של הבינה המלאכותית באמצעות הכשרה מתקדמת כדי לשפר את ההבנה הקונטקסטואלית שלהם ואת היכולת שלהם להסתגל לביצוע משימות.
3. מעקב אחר עלויות יישום הבינה המלאכותית: הערכה תכופה של ההשפעות הכלכליות כדי להבטיח שהיעילות הנוצרת על ידי הבינה המלאכותית אינה פוגעת בשיקולי התקציב.
4. לעודד שיתוף פעולה בין בני אדם ובינה מלאכותית: לעודד סביבות שבהן כלים של בינה מלאכותית משאירים את המאמצים האנושיים ולא מחליפים אותם, במטרה למקסם את היעילות הכוללת.
עבור מי שמעוניין בהתקדמויות האחרונות בתחום הטכנולוגיה, הקפצו לבדוק את Anthropic, OpenAI, ו-Google AI.
הניסוי ב-TheAgentCompany משמש כהזדמנות קומית אך חכמה להזכיר: הדרך אל מקומות עבודה מונעים בבינה מלאכותית רחוקה מלהיות קו ישר, מלאה במורכבויות שמיטב לנהל דרך מאמצים משותפים בין אדם למכונה.