Kaotični poskus, ki dokazuje, da AI ni pripravljen prevzeti vašega dela

Poskus na Univerzi Carnegie Mellon, “TheAgentCompany,” je preizkusil AI modele v simuliranem pisarniškem okolju in razkril pomembne omejitve.
Najboljši AI izvajalec, Anthropicov Claude 3.5 Sonnet, je opravil le 24 % nalog, kar kaže na izzive, s katerimi se AIs soočajo v kompleksnih scenarijih.
AI naloge so zahtevale zapletene procese, z visokimi stroški na poskus, kar poudarja neučinkovitosti trenutnih AI zmožnosti.
Amazonov Nova Pro v1 je pokazal najslabšo uspešnost, uspevajoč le 1,7 % nalog.
Študija je poudarila pomanjkanje osnovne zdrave pameti in socialnih veščin pri AI, kar je bilo očitno v smešno slabem upravljanju nalog.
Človeška prilagodljivost, domiselnost in socialna ostrina ostajajo nenadomestljive, saj se AI bori za ponovitev teh kompleksnih lastnosti.
Ta poskus izpostavlja vrzel med AI aspiracijami in trenutnimi zmožnostmi pri posnemanju človeških delavcev.

AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

Oglej si posnetek na YouTube

Predstavljajte si živahno podjetje za programsko opremo, katerega pisarne niso polne ljudi, temveč osupljivih umetnih umov. Kot so nedavno odkrili raziskovalci na Univerzi Carnegie Mellon, so te digitalne entitete daleč od neizčrpnih in učinkovitih delavcev, kakršne si predstavljajo znanstvenofantastične pripovedi. Namesto tega je njihov veliki poskus avtomatizacije—imenovan TheAgentCompany—prerasel v komično predstavo digitalne nekompetentnosti.

Podjetje je bilo v celoti sestavljeno iz naprednih AI modelov tehnoloških velikanov, kot so Google, OpenAI, Anthropic in Meta, to zamišljeno podjetje je AI agente podvrglo nalogam, ki posnemajo prave pisarniške okolje. Te naloge, ki so segale od navigacije po datotečnih sistemih do izvajanja virtualnih ogledov in pisanja ocen delovne uspešnosti, so razkrile očitne omejitve naših trenutnih AI zmožnosti.

Anthropicov Claude 3.5 Sonnet se je izkazal za najboljšega “izvajalca”, vendar je uspel opraviti le 24 odstotkov dodeljenih nalog. Zakaj tako malo? Vsaka naloga je zahtevala zapleten ples skoraj 30 korakov, kar je stalo več kot 6 dolarjev na poskus. Googleov Gemini 2.0 Flash je imel še slabše rezultate, saj je za uspeh potreboval 40 korakov in uspešno zaključil le 11,4 odstotka svojih nalog. Na dnu lestvice se je znašel Amazonov Nova Pro v1, z obupnim odstotkom uspešnosti le 1,7 odstotka.

AI agenti so se razkrili kot obremenjeni s hudo pomanjkanjem osnovne zdrave pameti in socialne ostrine. V bizarni poskusu samodeceptivnosti je en model po nesreči preimenoval uporabnika v podjetniškem čatu, ko ni uspel najti pravega kolega za vprašanja—čista potrditev njihovih omejenih veščin navigacije.

Ti sintetični umovi morda kažejo spretnosti pri enotnih, določenih nalogah, a njihova fantazija o nadomestitvi popolnoma zavestnih človeških delavcev ostaja le to—fantazija. Kompleksnost človeške domiselnosti, prilagodljivosti in socialne navigacije ostaja trdno izven dosega sodobne AI, ki, kljub velikopoteznim trditvam, odmeva nič drugega kot glorificiran prediktivni besedni predlagalnik.

Zato se pomirite, da so vaše edinstvene človeške veščine in prilagodljiva inteligenca nenadomestljive, vsaj v bližnji prihodnosti. Ko se prah umiri po tem domiselno neuspelem poskusu ponovne reprodukcije človeških delavcev, ostaja ena resnica jasna: AI ima še dolgo pot pred seboj, preden bo izzval niansirano strokovno znanje človeškega prizadevanja.

Humoristične neprijetnosti AI v TheAgentCompany

Trenutno stanje avtomatizacije AI v delovnih okoljih

V nenehno razvijajočem se svetu avtomatizacije je poskus Univerze Carnegie Mellon z AI-podprtimi pisarniškimi delom osvetlil veličino in omejitve modelov umetne inteligence vodilnih tehnoloških razvijalcev. TheAgentCompany, pobuda, ki poskuša popolnoma avtomatizirati delovno okolje z AI, je komično razkrila, kako daleč smo od popolne nadomestitve človeške domiselnosti z AI orodji.

AI modeli v fokusu: Ocena uspešnosti

1. Anthropicov Claude 3.5 Sonnet: Na vrhu lestvice med svojimi AI konkurenti je opravil le 24 odstotkov nalog. Ta uspešnost ponazarja kompleksnost in večstopenjsko naravo celo na videz preprostih pisarniških nalog.

2. Googleov Gemini 2.0 Flash: Ta AI model je potreboval okoli 40 korakov za vsak poskus in je uspel dokončati le 11,4 odstotka dodeljenih nalog. Rezultati poudarjajo neučinkovitosti in potrebo po boljših algoritmih za upravljanje nalog.

3. Amazonov Nova Pro v1: Z odstotkom uspešnosti 1,7 odstotka izpostavlja vrzel med trenutnimi AI zmožnostmi in sposobnostmi človeške izvršitve nalog.

Ključni izzivi

– Izvajanje kompleksnih nalog: Naloge so zahtevale povprečno od 30 do 40 korakov, kar je močno vplivalo na učinkovitost in praktičnost.

– Stroški: Vsaka naloga je v povprečju stala več kot 6 dolarjev na poskus, kar postavlja vprašanje o ekonomski izvedljivosti AI v nadomestitvi človeških vlog pri preprostih nalogah.

– Zdrava pamet in socialna ostrina: Slaba obvladovanja konteksta in socialne dinamike pri AI so postala očitna, s primeri, kot je neprimerna preimenovanja kolegov v čatih.

Kontroverze in omejitve

Orodja umetne inteligence, kljub njihovemu hitrem napredku, so bila kritizirana zaradi nezmožnosti učinkovitega posnemanja človeške ustvarjalnosti in socialne inteligence. Poskus je razkril naslednje pomembne omejitve:

– Pomanjkanje razumevanja konteksta: AIs se trudijo razumeti niansirana navodila, ki jih ljudje hitro kontekstualizirajo in prilagajajo.

– Učinkovitost in multitasking: Avtomatizacija pri ponavljajočih se nalogah se ne prenese na obvladovanje kompleksnih, večplastnih pisarniških vlog.

Prednosti in slabosti AI v delovnih okoljih

Prednosti
– Visoka učinkovitost pri strukturiranih, ponavljajočih se nalogah.
– Avtomatizacija lahko znatno zmanjša stopnje napak pri obdelavi podatkov.

Slabosti
– Nezmožnost izvajanja ustvarjalnega reševanja problemov.
– Težave pri prilagajanju dinamičnim delovnim okoljem.

Njihova uporaba in vpogledi

Čeprav AI še ne more prevzeti kompleksnih človeških vlog, še naprej uspeva na področjih, kot so analiza podatkov, načrtovanje in avtomatizacija podpore strankam. Ključno je razlikovati med vlogami, ki jih AI lahko in ne more opravljati, pri čemer se človeška ustvarjalnost uporablja za naloge, ki zahtevajo globoko razumevanje in inovacije.

Trendi na trgu in prihodnji usmeritvi

Ko se tehnologija razvija, bi lahko razvili hibridne modele, ki združujejo učinkovitost AI s človeškim nadzorom, kar bi pripeljalo do izboljšane produktivnosti, ne da bi žrtvovali edinstvene prednosti, ki jih ljudje prinašajo na delovno mesto.

Priporočila za ukrepanje

1. Integrirajte AI za ponavljajoče se naloge: Osredotočite implementacijo AI na naloge, kot so vnos podatkov in generiranje poročil, kjer lahko avtomatizacija zares zasije.

2. Razvijte izobraževalne programe: Izboljšajte zmožnosti AI agentov s pomočjo naprednega usposabljanja, da izboljšate njihovo razumevanje konteksta in prilagodljivost pri izvrševanju nalog.

3. Spremljajte stroške implementacije AI: Redno ocenjujte ekonomski vpliv, da zagotovite, da učinkovitosti, ki jih prinaša AI, ne ogrozijo proračunski vidiki.

4. Spodbujajte sodelovanje med ljudmi in AI: Spodbujajte okolja, kjer AI orodja dopolnjujejo, ne pa nadomeščajo človeški trud, kar maksimira skupno učinkovitost.

Za tiste, ki jih zanimajo najnovejši napredki v tehnologiji, si oglejte Anthropic, OpenAI in Google AI.

Poskus v TheAgentCompany služi kot komičen, a poučen opomin: pot do delovnih mest, podprtih z AI, ni ravna črta, temveč je polna kompleksnosti, ki jih je najbolje premagati s sodelovanjem med ljudmi in stroji.

Kaotični poskus, ki dokazuje, da AI ni pripravljen prevzeti vašega dela

ByFiona Green

Humoristične neprijetnosti AI v TheAgentCompany

ByFiona Green

Dodaj odgovor Prekliči odgovor

You missed

Presenetne skrivnosti poštnih številk v Ameriki: Kaj vaša poštna številka pove o vas leta 2025

Prebojna tehnologija: umetna inteligenca in skeniranje obraza bi lahko nadomestila stresne teste za srčne bolezni

AMC Networks naredi drzen korak v AI in izkorišča Runway za revolucijo trženja in produkcije televizije

Naslednji veliki skok umetne inteligence: multimodalni modeli in dolgotrajni spomin revolucionirajo izkušnjo strank v letu 2025