Kaotični eksperiment koji pokazuje da AI nije spreman preuzeti vaš posao

Eksperiment Carnegie Mellon University, “TheAgentCompany,” testirao je AI modele u simuliranom uredskom okruženju, otkrivajući značajna ograničenja.
Najbolji AI performer, Anthropicov Claude 3.5 Sonnet, dovršio je samo 24% zadataka, pokazujući izazove s kojima se AIs suočavaju u složenim scenarijima.
AI zadaci zahtijevali su složene procese, s visokim troškovima po pokušaju, ističući neefikasnosti trenutnih AI sposobnosti.
Amazonov Nova Pro v1 demonstrirao je najslabiju izvedbu, dovršivši samo 1,7% zadataka.
Istraživanje je naglasilo nedostatak osnovnog zdravog razuma i socijalnih vještina kod AI, očitujući se u smiješnom lošem upravljanju zadacima.
Ljudska prilagodljivost, domišljatost i socijalna oštrina ostaju nezamjenjivi, dok AI ima poteškoća s repliciranjem ovih složenih osobina.
Ovaj eksperiment naglašava razliku između AI aspiracija i trenutnih sposobnosti u oponašanju ljudskih radnika.

AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

Watch this video on YouTube

Zamislite užurbanu softversku tvrtku, njezine urede ispunjene ne ljudima, već vrtoglavim nizom umjetnih umova. Kao što su nedavno otkrili istraživači na Carnegie Mellon University, ova digitalna bića daleko su od neumornih, učinkovitih radnika kakve zamišljaju znanstvenofantastične priče. Umjesto toga, njihov grandiozni eksperiment u automatizaciji—nazvan TheAgentCompany—raspao se u komičan prikaz digitalne nesposobnosti.

Ova lažna firma, koja se sastojala isključivo od naprednih AI modela iz tehnoloških divova poput Google-a, OpenAI-a, Anthropic-a i Meta-e, podvrgla je AI agente zadacima koji oponašaju stvarna uredska okruženja. Ovi zadaci, koji su se kretali od navigacije kroz datotečne sustave i provođenja virtualnih obilazaka do pisanja izvješća o izvedbi, otkrili su očite ograničenja naših trenutnih AI sposobnosti.

Anthropicov Claude 3.5 Sonnet pojavio se kao najbolji ‘izvođač’, no uspio je dovršiti samo 24 posto dodijeljenih zadataka. Zašto tako malo? Svaki zadatak zahtijevao je složeni ples od gotovo 30 koraka, s troškom od više od 6 USD po pokušaju. Googleov Gemini 2.0 Flash imao je još lošije rezultate, mukotrpno prolazeći 40 koraka, uspijevajući samo na 11,4 posto svojih zadataka. Na dnu ljestvice bio je Amazonov Nova Pro v1, s jadnom stopom dovršavanja od samo 1,7 posto.

AI agenti pokazali su se kao progonjeni ozbiljnim nedostatkom osnovnog zdravog razuma i socijalne oštrine. U bizarnoj pokušaju samoprovale, jedan model otišao je toliko daleko da je preimenovao korisnika u kompanijskoj chat sobi kada nije uspio locirati pravog kolegu za pitanja—jasna potvrda njihovih osakaćenih vještina navigacije.

Ovi sintetički umovi mogu pokazati vještinu u pojedinačnim, definiranim zadacima, ali njihova fantazija o zamjeni potpuno svjesnih ljudskih radnika ostaje samo to—fantazija. Složenost ljudske domišljatosti, prilagodljivosti i socijalne navigacije ostaje čvrsto izvan dohvata modernih AI, koji, unatoč velikim tvrdnjama, odjekuje ništa više revolucionarnog od glorificiranog prediktivnog teksta.

Dakle, utješite se znajući da su vaše jedinstvene ljudske vještine i prilagodljiva inteligencija nezamjenjive, barem za blisku budućnost. Dok se prašina slegne s ovog whimsical pokušaja repliciranja ljudskih radnika, jedna istina ostaje jasna: AI još uvijek ima dugi put pred sobom prije nego što izazove nijansirane stručnosti ljudskog nastojanja.

Smiješne Nezgode AI u TheAgentCompany

Trenutni Pejzaž AI Automatizacije u Radnim Mjestima

U neprestanom svijetu automatizacije, eksperiment Carnegie Mellon University-a s uredskim radom vođenim AI-jem osvijetlio je veličinu i ograničenja modela umjetne inteligencije vodećih tehnoloških razvijača. TheAgentCompany, inicijativa koja pokušava potpuno automatizirati radno mjesto koristeći AI, komično je otkrila koliko smo daleko od potpune zamjene ljudske domišljatosti AI alatima.

AI modeli u fokusu: Evaluacija izvedbe

1. Anthropicov Claude 3.5 Sonnet: Na vrhu ljestvice među svojim AI kolegama, dovršio je samo 24 posto zadataka. Ova izvedba ilustrira složenost i višekoraknu prirodu čak i naizgled jednostavnih uredskih zadataka.

2. Googleov Gemini 2.0 Flash: Ovaj AI model zahtijevao je otprilike 40 koraka za svaki pokušaj i uspio je dovršiti samo 11,4 posto dodijeljenih zadataka. Rezultati ističu neefikasnosti i potrebu za boljim algoritmima upravljanja zadacima.

3. Amazonov Nova Pro v1: S stopom dovršavanja od 1,7 posto, naglašava razliku između trenutnih AI sposobnosti i ljudske stručnosti u izvršavanju zadataka.

Ključni Identificirani Izazovi

– Složenost Izvršenja Zadataka: Zadaci su zahtijevali prosječno 30 do 40 koraka svaki, što je uvelike utjecalo na učinkovitost i praktičnost.

– Troškovi: Svaki zadatak u prosjeku je koštao više od 6 USD po pokušaju, postavljajući pitanja o ekonomskoj održivosti AI-a u zamjeni ljudskih uloga za jednostavne zadatke.

– Zdrav razum i socijalna oštrina: Loše razumijevanje konteksta i socijalne dinamike kod AIs postalo je očito, s primjerima poput neprimjerenog preimovanja kolega u čavrljanjima.

Kontroverze i Ograničenja

Alati umjetne inteligencije, unatoč brzom napretku, kritizirani su zbog nemogućnosti učinkovite imitacije ljudske kreativnosti i socijalne inteligencije. Eksperiment je otkrio sljedeća značajna ograničenja:

– Nedostatak kontekstualnog razumijevanja: AIs se bore s razumijevanjem nijansiranih uputa, za razliku od ljudi koji brzo prilagođavaju i kontekstualiziraju.

– Učinkovitost i multitasking: Automatizacija u ponavljajućim zadacima ne prevodi se na upravljanje složenim, višeslojnim uredskim ulogama.

Prednosti i Nedostaci AI u Radnim Mjestima

Prednosti
– Visoka učinkovitost u strukturiranim, ponavljajućim zadacima.
– Automatizacija može značajno smanjiti stope pogrešaka u obradi podataka.

Nedostaci
– Nemogućnost izvođenja kreativnog rješavanja problema.
– Teškoće u prilagodbi dinamičkim radnim okruženjima.

Stvarna Primjena i Uvidi

Iako AI još ne može preuzeti složene ljudske uloge, nastavlja napredovati u područjima kao što su analiza podataka, raspoređivanje i automatizacija korisničke podrške. Ključno je razlikovati između uloga koje AI može i ne može ispuniti, koristeći ljudsku kreativnost za zadatke koji zahtijevaju duboko razumijevanje i inovaciju.

Tržišni Trendovi i Budući Smjerovi

Kako se tehnologija razvija, mogla bi se stvoriti hibridna rješenja koja kombiniraju učinkovitost AI-a s ljudskim nadzorom, što bi moglo dovesti do poboljšane produktivnosti bez žrtvovanja jedinstvenih snaga koje ljudi donose na radno mjesto.

Preporuke za Akciju

1. Integrirati AI za ponavljajuće zadatke: Fokusirati implementaciju AI na zadatke poput unosa podataka i generiranja izvještaja gdje automatizacija može doista zasjati.

2. Razviti programe obuke: Povećati sposobnosti AI agenata kroz naprednu obuku kako bi poboljšali njihovo kontekstualno razumijevanje i prilagodljivost u izvršenju zadataka.

3. Pratiti troškove implementacije AI-a: Redovito ocjenjivati ekonomske utjecaje kako bi se osiguralo da učinkovitosti koje AI generira ne ugrožavaju budžetske aspekte.

4. Potaknuti suradnju između ljudi i AI-a: Poticati okruženja u kojima AI alati dopunjuju, a ne zamjenjuju ljudski trud, maksimizirajući ukupnu učinkovitost.

Za zainteresirane za najnovije napretke u tehnologiji, pogledajte Anthropic, OpenAI, i Google AI.

Eksperiment u TheAgentCompany služi kao komični, ali poučan podsjetnik: put do radnih mjesta vođenih AI-jem daleko je od ravne linije, ispunjen složenostima koje je najbolje navigirati kroz suradničke napore između čovjeka i stroja.

Kaotični eksperiment koji pokazuje da AI nije spreman preuzeti vaš posao

ByFiona Green

Smiješne Nezgode AI u TheAgentCompany

ByFiona Green

Odgovori Otkaži odgovor

You missed

Revolucija u laboratoriju: Novi slikovni sustav ruši rekorde brzine i jasnoće u visoko-probnom screening-u

AMC Networks pravi hrabar iskorak u AI, koristi Runway za revolucioniranje marketinga i produkcije na TV-u

Tržište proizvodnje aditivne ugrađene elektronike 2025: 18% CAGR potaknut integracijom IoT-a i trendovima miniaturizacije

Istraživanje tržišta superprovodljivih qubita 2025.: Brzi rast potaknut ulaganjima u kvantno računanje i prognoza CAGR od 18%