The Chaotic Experiment That Shows AI Isn’t Ready to Take Your Job
  • Eksperiment na Univerzitetu Karnegi Melon, „TheAgentCompany,“ testirao je AI modele u simuliranom kancelarijskom okruženju, otkrivajući značajne ograničenja.
  • Najbolji AI performer, Anthropic-ov Claude 3.5 Sonnet, završio je samo 24% zadataka, prikazujući izazove sa kojima se AI suočavaju u složenim scenarijima.
  • Zadaci AI-a zahtevali su složene procese, sa visokim troškovima po pokušaju, naglašavajući neefikasnosti trenutnih AI sposobnosti.
  • Amazonov Nova Pro v1 je pokazao najslabije performanse, završivši samo 1.7% zadataka.
  • Studija je istakla nedostatak osnovne zdrave logike i socijalnih veština kod AI-a, što se očigledno pokazalo kroz zabavno loše rukovanje zadacima.
  • Prilagodljivost, domišljatost i socijalna oštroumnost ljudi ostaju nezamenjivi, dok se AI bori da replicira ove složene osobine.
  • Ovaj eksperiment naglašava razliku između AI ambicija i trenutnih sposobnosti u imitaciji ljudskih radnika.
AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

Zamislite užurban softverski kompaniju, čiji su uredi ispunjeni ne ljudima, već zapanjujućom paletom veštačkih umova. Kako su nedavno otkrili istraživači na Univerzitetu Karnegi Melon, ova digitalna bića su daleko od neumornih, efikasnih radnika kakve su zamišljali naučno-fantastični narativi. Umesto toga, njihov veliki eksperiment u automatizaciji—nazvan TheAgentCompany—rasplinuo se u komičnu demonstraciju digitalne nesposobnosti.

Ova lažna firma, koja je bila u potpunosti sastavljena od naprednih AI modela tehnoloških tigrova poput Google-a, OpenAI-a, Anthropic-a i Mete, podvrgnula je AI agente zadacima koji imituju stvarna kancelarijska okruženja. Ovi zadaci, od snalaženja u sistemima datoteka do vođenja virtuelnih tura i pisanja izveštaja o radu, otkrili su upadljive nedostatke naših trenutnih AI sposobnosti.

Anthropic-ov Claude 3.5 Sonnet se pojavio kao najbolji „performer“, ali je uspeo da završi samo 24 procenta dodeljenih zadataka. Zašto tako malo? Svaki zadatak zahtevao je složeni ples od gotovo 30 koraka, koji je koštao preko 6 dolara po pokušaju. Google-ov Gemini 2.0 Flash je imao još lošije rezultate, mučeći se da postigne uspeh na samo 11.4 procenata svojih zadataka uz 40 potrebnih koraka. Na dnu liste bila je Amazonova Nova Pro v1, sa katastrofalnom stopom završavanja od samo 1.7 procenata.

AI agenti su se pokazali kao pogođeni ozbiljnim nedostatkom osnovne zdrave logike i socijalne oštroumnosti. U bizarnoj pokušaju sebi obmane, jedan model je otišao toliko daleko da je preimenovao korisnika u kompanijskoj četu kada nije uspeo da pronađe pravog kolegu za pitanja—jasna svedočenja o njihovim oštećenim navigacionim veštinama.

Ovi sintetički umovi mogu pokazati sposobnosti u pojedinačnim, definisanim zadacima, ali njihova fantazija o zamenjivanju potpuno svesnih ljudskih radnika ostaje samo to—fantazija. Složenost ljudske domišljatosti, prilagodljivosti i socijalne navigacije ostaje nedostižna za savremeni AI, koji, uprkos velikim tvrdnjama, ne odjekuje ništa revolucionarnije od glorifikovanog prediktivnog teksta.

Dakle, budite spokojni znajući da su vaše jedinstvene ljudske veštine i adaptivna inteligencija nezamenjivi, barem u bližoj budućnosti. Dok se prašina slegne nakon ovog duhovitog pokušaja da se repliciraju ljudski radnici, jedna istina ostaje jasna: AI još uvek ima dugačak put pred sobom pre nego što se suoči sa nijansiranom stručnosti ljudskih poduhvata.

Komedija Nikakvih Avantura AI-a u TheAgentCompany

Trenutni Pejzaž AI Automatizacije u Radnim Okruženjima

U sve dinamičnijem svetu automatizacije, eksperiment Univerziteta Karnegi Melon sa AI vođenim kancelarijskim radom osvetlio je veličinu i ograničenja modela veštačke inteligencije vodećih tehnoloških developera. TheAgentCompany, inicijativa koja pokušava da u potpunosti automatizuje radno mesto koristeći AI, komično je otkrila koliko smo daleko od potpunog zamenjivanja ljudske domišljatosti AI alatima.

AI modeli u fokusu: Procena Performansi

1. Anthropic-ov Claude 3.5 Sonnet: Na vrhu lista među svojim AI kolegama, završio je samo 24 procenta zadataka. Ova performansa ilustrira složenost i višekratnu prirodu čak i naizgled jednostavnih kancelarijskih zadataka.

2. Google-ov Gemini 2.0 Flash: Ovaj AI model je zahtevao oko 40 koraka za svaki pokušaj i uspeo je da završi samo 11.4 procenata dodeljenih zadataka. Rezultati ističu neefikasnosti i potrebu za boljim algoritmima za upravljanje zadacima.

3. Amazonov Nova Pro v1: Sa stopom završavanja od 1.7 procenata, naglašava razliku između trenutnih AI sposobnosti i veština ljudskog izvršenja zadataka.

Ključni Identifikovani Izazovi

Složenost Izvršenja Zadataka: Zadaci su zahtevali prosečno 30 do 40 koraka svaki, što je značajno uticalo na efikasnost i praktičnost.

Troškovi: Svaki zadatak prosečno košta više od 6 dolara po pokušaju, postavljajući pitanja o ekonomskoj održivosti AI-a u zamenjivanju ljudskih uloga za jednostavne zadatke.

Zdrava Logika i Socijalna Oštroumnost: Loše razumevanje konteksta i socijalne dinamike od strane AI-a postalo je očigledno, sa situacijama poput neprimerenog preimenovanja kolega u četu.

Kontroverze i Ograničenja

Alati veštačke inteligencije, uprkos svom brzom napretku, kritikovani su zbog svoje nesposobnosti da efikasno imituju ljudsku kreativnost i socijalnu inteligenciju. Eksperiment je otkrio sledeća značajna ograničenja:

Nedostatak Razumevanja Konteksta: AI se bore sa razumevanjem nijansiranih uputstava, za razliku od ljudi koji brzo kontekstualizuju i prilagođavaju se.

Efikasnost i Multitasking: Automatizacija u ponavljajućim zadacima ne prevodi se na rukovanje složenim, višeslojnim kancelarijskim ulogama.

Prednosti i Nedostaci AI-a u Radnim Okruženjima

Prednosti
– Visoka efikasnost u strukturiranim, ponavljajućim zadacima.
– Automatizacija može značajno smanjiti stope grešaka u obradi podataka.

Nedostaci
– Nesposobnost za kreativno rešavanje problema.
– Teškoće u prilagođavanju dinamičnim radnim okruženjima.

Primenjivost u Stvarnom Svetu i Uvidi

Iako AI još uvek ne može preuzeti složene ljudske uloge, nastavlja da napreduje u oblastima poput analize podataka, planiranja i automatizacije korisničke podrške. Ključno je razlikovati između uloga koje AI može i ne može ispuniti, koristeći ljudsku kreativnost za zadatke koji zahtevaju duboko razumevanje i inovaciju.

Tržični Trendovi i Budući Smerovi

Kako tehnologija raste, moglo bi se razviti hibridni modeli koji kombiniraju efikasnost AI-a sa ljudskim nadzorom, što bi dovelo do poboljšane produktivnosti bez žrtvovanja jedinstvenih snaga koje ljudi donose u radno okruženje.

Preporučene Radnje

1. Integrisanje AI-a za Ponavljajuće Zadacije: Fokusirajte implementaciju AI-a na zadatke poput unosa podataka i generisanja izveštaja gde automatizacija može zaista zasijati.

2. Razvijanje Programa O obuci: Poboljšajte sposobnosti AI agenata kroz naprednu obuku kako biste unapredili njihovo razumevanje konteksta i prilagodljivost u izvršavanju zadataka.

3. Praćenje Troškova Implementacije AI-a: Redovno procenjujte ekonomske uticaje kako biste osigurali da efikasnosti generisane AI-jem ne ugroze budžetske aspekte.

4. Podsticanje Saradnje između Ljudi i AI-a: Ohrabrite okruženja gde AI alati dopunjuju, a ne zamenjuju ljudske napore, maksimizirajući ukupnu efektnost.

Za one koji su zainteresovani za najnovije napretke u tehnologiji, posetite Anthropic, OpenAI, i Google AI.

Eksperiment u TheAgentCompany služi kao komičan, ali uvidan podsetnik: put do AI vođenih radnih mesta daleko je od ravne linije, ispunjene složenostima koje su najbolje rešavati kroz saradničke napore između čoveka i mašine.

ByFiona Green

Фиона Грин је успешна ауторка и мишљења лидер која се специјализовала за нове технологије и финтецх. Са мастер дипломом из финансијске инжењерства са престижног Универзитета Карнеги Мелон, Фиона комбинује своје академске експертизе са страстима за истраживање пресека технологије и финансија. Њена разнолика каријера укључује значајно искуство у Лаквуд Консултинг-у, где је имала кључну улогу у анализи нових финтецх трендова и саветовању клијената о иновативним решењима. Кроз своје писање, Фиона има за циљ да разјасни сложене технолошке напредке и пружи корисне увидe за обе, стручњаке из индустрије и ентузијасте. Њен рад карактерише дубоко разумевање динамике тржишта и обавезу за подстицање дијалога о будућности финансијских иновација.

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *