Chaotický experiment, ktorý ukazuje, že AI nie je pripravená zobrať vám prácu

Experiment na Carnegie Mellon University „TheAgentCompany“ testoval AI modely v simulovanom kancelárskom prostredí, pričom odhalil významné obmedzenia.
Najlepšie výkonové AI, Anthropic’s Claude 3.5 Sonnet, splnil iba 24 % úloh, čo ukazuje na výzvy, ktorým čelí AI v komplexných scenároch.
Úlohy AI si vyžadovali zložité procesy s vysokými nákladmi na pokus, čo poukazuje na neefektívnosť súčasných AI schopností.
Amazon’s Nova Pro v1 predviedol najslabší výkon, splnil len 1,7 % úloh.
Štúdia zdôraznila nedostatok základného zdravého rozumu a sociálnych zručností AI, čo sa prejavilo v zábavnom spracovaní úloh.
Prispôsobivosť, vynaliezavosť a sociálna ostrosť ľudí zostávajú nenahraditeľné, keďže AI má problémy s napodobňovaním týchto komplexných vlastností.
Tento experiment zdôrazňuje medzeru medzi ambíciami AI a súčasnými schopnosťami napodobniť ľudských pracovníkov.

AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

Watch this video on YouTube

Predstavte si rušnú softvérovú spoločnosť, ktorú nepopisujú ľudia ale závratná škála umelých myslí. Ako nedávno objavili vedci na Carnegie Mellon University, tieto digitálne entity sú ďaleko od neúnavných a efektívnych pracovníkov, akých si predstavujú sci-fi príbehy. Namiesto toho sa ich grandiózny experiment v automatizácii — nazvaný TheAgentCompany — rozpadol do komediálneho zobrazenia digitálnej neschopnosti.

Tento falošný podnik, ktorý bol zamestnaný výlučne pokročilými AI modelmi z technologických gigantov ako Google, OpenAI, Anthropic a Meta, podrobil AI agentov úlohám, ktoré napodobňovali reálne kancelárske prostredia. Tieto úlohy, ktoré sa pohybovali od navigácie v súborových systémoch po vykonávanie virtuálnych prehliadok a písanie hodnotení výkonu, vystavili jasné obmedzenia našich aktuálnych AI schopností.

Anthropic’s Claude 3.5 Sonnet sa objavil ako najlepší „vykonávateľ“, ale dokázal splniť len 24 percent priradených úloh. Prečo tak málo? Každá úloha si vyžiadala zložitý tanec takmer 30 krokov, pričom náklady presiahli 6 dolárov za pokus. Google’s Gemini 2.0 Flash dopadol ešte horšie, namáhavo absolvoval 40 krokov, aby úspešne dokončil len 11,4 percenta svojich úloh. Na dne sa nachádzal Amazon’s Nova Pro v1, s katastrofálnou úspešnosťou iba 1,7 percent.

AI agenti sa ukázali ako postihnutí závažným nedostatkom základného zdravého rozumu a sociálnej ostrosti. V bizarnom pokuse o sebaklamanie jeden model zašiel tak ďaleko, že premenoval používateľa v firemnom chate, keď sa mu nepodarilo nájsť správneho kolegu na otázky — jasný dôkaz ich ochromenej schopnosti navigácie.

Tieto syntetické mysle môžu preukazovať zručnosť v jednotných, definovaných úlohách, no ich predstava o nahradení plne vnímavých ľudských pracovníkov zostáva iba predstavou. Zložitosti ľudskej vynaliezavosti, prispôsobivosti a sociálnej navigácie sú pre modernú AI nedosiahnuteľné, ktorá, napriek veľkým tvrdeniam, nezaostáva za ničím iným než za oslavovaným prediktívnym textom.

Takže sa uklidnite s vedomím, že vaše jedinečné ľudské zručnosti a prispôsobivá inteligencia sú nenahraditeľné, aspoň v dohľadnej budúcnosti. Ako sa prach usadzuje z tohto whimsical pokusu o napodobnenie ľudských pracovníkov, jedna pravda zostáva jasná: AI má stále dlhú cestu pred sebou, než sa postaví výnimočnej odbornosti ľudskej snahy.

Vtipné nešťastia AIs v TheAgentCompany

Aktuálny stav AI automatizácie na pracoviskách

Vo svete automatizácie v neustálom vývoji experiment Carnegie Mellon University s AI riadenou kancelárskou prácou osvetlil veľkoleposť a obmedzenia modelov umelej inteligencie od popredných technologických vývojárov. TheAgentCompany, iniciatíva, ktorá sa snažila úplne automatizovať pracovisko pomocou AI, vtipne odhalila, ako ďaleko sme od úplného nahradenia ľudskej vynaliezavosti nástrojmi AI.

AI modely v zameraní: Hodnotenie výkonu

1. Anthropic’s Claude 3.5 Sonnet: Na vrchole rebríčka medzi svojimi AI rovesníkmi, splnil iba 24 percent úloh. Tento výkon ilustruje zložitost a viacstupňovú povahu aj zdánlivo jednoduchých kancelárskych úloh.

2. Google’s Gemini 2.0 Flash: Tento AI model potreboval okolo 40 krokov na každý pokus a dokázal splniť iba 11,4 percenta priradených úloh. Výsledky zvýrazňujú neefektívnosť a potrebu lepších algoritmov na správu úloh.

3. Amazon’s Nova Pro v1: S úspešnosťou 1,7 percenta podčiarkuje medzeru medzi aktuálnymi AI schopnosťami a schopnosťou ľudí vykonávať úlohy.

Kľúčové výzvy identifikované

– Zložitá vykonávanie úloh: Úlohy si vyžadovali priemerne 30 až 40 krokov, čo zásadne ovplyvnilo efektívnosť a praktickosť.

– Náklady: Každá úloha mala priemerne viac ako 6 dolárov za pokus, čo vzbudzuje otázky o ekonomickej životaschopnosti AI pri nahradzovaní ľudských rolí pre jednoduché úlohy.

– Zdravý rozum a sociálna ostrosť: Slabé pochopenie kontextu a sociálnych dynamík AI sa stalo zrejmým, s prípadmi, ako je nevhodné premenovanie kolegov v chatoch.

Kontroverzie a obmedzenia

Nástroje umelej inteligencie, napriek ich rýchlemu pokroku, boli kritizované za svoj nedostatok schopnosti efektívne napodobniť ľudskú kreativitu a sociálnu inteligenciu. Experiment odhalil nasledujúce významné obmedzenia:

– Nedostatok kontextuálneho porozumenia: AI má problémy s pochopením nuansovaných pokynov, na rozdiel od ľudí, ktorí kontextualizujú a rýchlo sa prispôsobujú.

– Efektívnosť a multitasking: Automatizácia v opakujúcich sa Úlohách sa neprekladá do schopnosti vykonávať komplexné, mnohostranné kancelárske úlohy.

Klady a zápory AI na pracoviskách

Klady
– Vysoká efektívnosť pri štruktúrovaných, opakujúcich sa úlohách.
– Automatizácia môže výrazne znížiť chybovosť v spracovaní údajov.

Zápory
– Neschopnosť vykonávať kreatívne riešenie problémov.
– Ťažkosti s prispôsobovaním sa dynamickým pracovným prostrediam.

Reálne aplikácie a poznatky

Aj keď AI zatiaľ nemôže zaujať zložité ľudské úlohy, naďalej sa darí v oblastiach, ako je analýza údajov, plánovanie a automatizácia zákazníckej podpory. Je dôležité rozlišovať medzi úlohami, ktoré AI môže a nemôže vykonávať, pričom využíva ľudskú kreativitu pre úlohy vyžadujúce hlboké porozumenie a inováciu.

Trhové trendy a budúce smery

Ako technológia rastie, môžu byť vyvinuté hybridné modely kombinujúce efektivitu AI s ľudským dohľadom, čo povedie k vyššej produktivite bez obetovania jedinečných silných stránok, ktoré ľudia prinášajú na pracovisko.

Akčné odporúčania

1. Integrujte AI pre opakujúce sa úlohy: Zamerajte implementáciu AI na úlohy ako je zadávanie údajov a generovanie správ, kde automatizácia naozaj môže ukázať svoje prednosti.

2. Vypracujte tréningové programy: Zlepšite schopnosti AI agentov prostredníctvom pokročilého školenia na zlepšenie ich kontextuálneho porozumenia a schopnosti vykonávať úlohy.

3. Monitorujte náklady na implementáciu AI: Pravidelne hodnotte ekonomické dopady, aby ste zabezpečili, že efektívnosti generované AI neohrozujú rozpočtové úvahy.

4. Podporujte spoluprácu človeka a AI: Podporujte prostredia, kde nástroje AI dopĺňajú, nie nahrádzajú ľudské úsilie, čím maximalizujete celkovú efektívnosť.

Pre tých, ktorí majú záujem o najnovšie pokroky v technológii, navštívte Anthropic, OpenAI a Google AI.

Experiment na TheAgentCompany slúži ako komický, ale poučný pripomienka: cesta k pracoviskám riadeným AI je ďaleko od priamej línie, preplnená komplexnosťami, ktoré najlepšie riešia spolupráce medzi človekom a strojom.

Chaotický experiment, ktorý ukazuje, že AI nie je pripravená zobrať vám prácu

ByFiona Green

Vtipné nešťastia AIs v TheAgentCompany

ByFiona Green

Pridaj komentár Zrušiť odpoveď

You missed

Deepika Padukone ohromila ako kráľovná bojovníčka: Obraz AI Witchera sa stáva virálnym po bombastickom obsadení Atleeho

Prelomová technológia: AI a skenery tváre by mohli nahradiť stresujúce testy na srdcové choroby

Laboratórna revolúcia: Nový zobrazovací systém prekonáva rekordy rýchlosti a jasnosti v skríningu s vysokým prietokom

Ďalší veľký skok AI: Multimodálne modely a dlhá pamäť prepracovávajú zákaznícku skúsenosť v roku 2025