- Carnegie Melono universiteto eksperimentas „TheAgentCompany“ ištyrė dirbtinio intelekto modelius simuliuojamoje biuro aplinkoje, atskleidžiant reikšmingus apribojimus.
- Geriausiai pasirodęs dirbtinio intelekto modelis, Anthropic „Claude 3.5 Sonnet“, įvykdė tik 24% užduočių, parodant iššūkius, su kuriais susiduria DI sudėtingose situacijose.
- DI užduotims reikėjo sudėtingų procesų, su didelėmis sąnaudomis už kiekvieną bandymą, pabrėžiant dabartinių DI gebėjimų neefektyvumą.
- „Amazon“ Nova Pro v1 parodė silpniausius rezultatus, įvykdydama vos 1.7% užduočių.
- Tyrimas pabrėžė DI stoką pagrindinės bendrosios logikos ir socialinių įgūdžių, tai akivaizdu pagal juokingai prastą užduočių vykdymą.
- Žmonių prisitaikymas, kūrybiškumas ir socialinis supratimas išlieka nepakeičiami, nes DI sunkiai geba atkurti šias sudėtingas savybes.
- Šis eksperimentas pabrėžia atotrūkį tarp DI ambicijų ir dabartinių gebėjimų imituoti žmonių darbuotojus.
Įsivaizduokite, kaip pulsuojanti programinės įrangos įmonė, kurios biurai užpildyti ne žmonėmis, bet akinančia dirbtinio intelekto protų įvairove. Kaip neseniai atskleidė Carnegie Melono universiteto tyrėjai, šios skaitmeninės būtybės labai skiriasi nuo nepaprastai efektyvių darbuotojų, įsivaizduojamų mokslinės fantastikos pasakose. Vietoj to, jų didelis automatizacijos eksperimentas — pavadintas „TheAgentCompany“ — virto komišku skaitmeninio neūkiškumo pasirodymu.
Šis dirbtinio intelekto agentų biuras, įkurtas remiantis pažangiais DI modeliais iš technologijų milžinų, tokių kaip „Google“, „OpenAI“, „Anthropic“ ir „Meta“, buvo pakartotinai išbandytas realaus pasaulio biuro aplinkoje. Užduotys, apimančios failų sistemų naršymą, virtualių turų organizavimą ir veiklos atsiliepimų rašymą, atskleidė akivaizdžius dabartinių DI gebėjimų apribojimus.
Anthropic „Claude 3.5 Sonnet“ pasirodė kaip geriausias „atlikėjas“, tačiau sugebėjo įvykdyti vos 24 procentus priskirtų užduočių. Kodėl taip mažai? Kiekviena užduotis reikalavo sudėtingo maždaug 30 žingsnių šokio, kurio kaina buvo daugiau nei 6 doleriai už bandymą. „Google“ Gemini 2.0 Flash pasirodė dar blogiau, sėkmingai užbaigdamas tik 11.4 procentų užduočių, o tai užtruko 40 veiksmų. Pačiu blogiausiu rezultatu pasigirti galėjo „Amazon“ Nova Pro v1, kurios užduočių užbaigimo rodiklis buvo tik 1.7 procento.
DI agentai pasirodė esąs apniktas rimtos bendrosios logikos ir socialinio supratimo stokos. Viename keistame bandyme apgauti save, vienas modelis net pakeitė vartotojo vardą įmonės pokalbiuose, kai nesugebėjo rasti tinkamo kolegos klausimams — aiškus jų aplaistytų navigacijos įgūdžių paminklas.
Šie sintetiniai protai gali parodyti sugebėjimų atliekant vienkartines, aiškiai apibrėžtas užduotis, tačiau jų fantazija pakeisti visiškai suprantančius žmones išlieka tik fantazija. Žmogaus kūrybiškumo, prisitaikymo ir socialinio navigavimo sudėtingumas išlieka dar toli nuo modernių DI, kurie, nepaisant puikių pažadų, nepasiūlo nieko revoliucingo, išskyrus pasenusią prognozuojamą tekstą.
Todėl raminkitės, žinodami, kad jūsų unikalūs žmogaus įgūdžiai ir prisitaikanti inteligencija yra nepakeičiami, bent jau artimiausiu laikotarpiu. Kai dulkės nusės po šio keisto bandymo atkurti žmonių darbuotojus, viena tiesa išlieka aiški: DI turi dar ilgą kelią nueiti prieš iššūkiant niuansuotą žmonių žinių ekspertizę.
Juokingi DI nuotykiai „TheAgentCompany“
Dabartinė DI automatizacijos aplinka darbo vietose
Vis besikeičiančiame automatizacijos pasaulyje Carnegie Melono universiteto eksperimentas su DI valdomu biuro darbu atskleidė grandioziškumą ir dirbtinio intelekto modelių apribojimus iš pirmaujančių technologijų kūrėjų. „TheAgentCompany“, iniciatyva, bandanti visiškai automatizuoti darbo vietą naudojant DI, komiškai parodė, kaip toli mes esame nuo visiško žmogaus kūrybiškumo pakeitimo DI įrankiais.
DI modeliai centre: veiklos vertinimas
1. Anthropic „Claude 3.5 Sonnet“: Tarp DI kolegų jis užėmė pirmą vietą, tačiau įvykdė tik 24 procentus užduočių. Šis pasirodymas iliustruoja net ir kelių užduočių sudėtingumą ir daugiapakopį pobūdį.
2. „Google“ Gemini 2.0 Flash: Šiam DI modeliui reikėjo apie 40 žingsnių kiekvienam bandymui, o jis sugebėjo įvykdyti tik 11.4 procentų priskirtų užduočių. Rezultatai parodo neefektyvumą ir poreikį geresniems užduočių valdymo algoritmams.
3. „Amazon“ Nova Pro v1: Su 1.7 procento užduočių užbaigimo rodikliu, jis pabrėžia atotrūkį tarp dabartinių DI gebėjimų ir žmonių užduočių vykdymo sugebėjimų.
Pagrindiniai iššūkiai
– Sudėtingų užduočių vykdymas: Užduotys reikalavo vidutiniškai 30–40 žingsnių, kas smarkiai paveikė efektyvumą ir praktiškumą.
– Sąnaudos: Kiekviena užduotis vidutiniškai kainavo daugiau nei 6 dolerius už bandymą, keliant klausimų apie ekonominį DI naudojimo pagrįstumą paprastų užduočių atžvilgiu.
– Bendroji logika ir socialinis supratimas: DI prasta konteksto ir socialinių dinamikų suvokimo jame tapo aiški, su tokiais atvejais kaip netinkamas kolegų pervadinimas pokalbiuose.
Kontroversijos ir apribojimai
Dirbtinio intelekto įrankiai, nepaisant greito pažangos, girdėjo kritiką dėl nesugebėjimo efektyviai imituoti žmogaus kūrybiškumo ir socialinio intelekto. Eksperimentas atskleidė šiuos svarbius apribojimus:
– Konteksto supratimo trūkumas: DI sunkiai suvokia niuansuotus nurodymus, kitaip nei žmonės, kurie kontekstualizuoja ir greitai prisitaiko.
– Efektyvumas ir daugiapakopiai darbai: Automatizavimas pakartotiniuose darbuose nesukelia pranašumo sprendžiant sudėtingas, daugialypes biuro užduotis.
DI privalumai ir trūkumai darbo vietose
Privalumai
– Didelis efektyvumas struktūrizuotose, pakartotinėse užduotyse.
– Automatizavimas gali žymiai sumažinti klaidų atsiradimo dažnį duomenų apdorojime.
Trūkumai
– Nesugeba atlikti kūrybinių problemų sprendimų.
– Sunkumai prisitaikant prie dinamiškų darbo aplinkų.
Realiosios taikymo galimybės ir įžvalgos
Nors DI dar negali perimti sudėtingų žmogaus rolę, jis vis dar klesti tokiose srityse kaip duomenų analizė, grafikų sudarymas ir klientų aptarnavimo automatizavimas. Svarbu atskirti tarp vaidmenų, kuriuos DI gali ir negali įvykdyti, išnaudojant žmogaus kūrybiškumą užduotims, kurios reikalauja gilaus supratimo ir inovacijų.
Rinkos tendencijos ir ateities kryptys
Augant technologijai, gali būti sukurti hibridiniai modeliai, kurie sujungia DI efektyvumą su žmogaus priežiūra, sukuriant geresnę našumą, nesumažinant unikalių privalumų, kuriuos žmonės teikia darbo vietoje.
Veiksmingi rekomendacijos
1. Įtraukti DI į pakartotinės užduotis: Sutelkite DI diegimą į užduotis, kaip duomenų įvedimas ir ataskaitų rengimas, kur automatizavimas gali tikrai pasireikšti.
2. Plėtoti mokymo programas: Pagerinkite DI agentų įgūdžius per pažangų mokymą, kad padidintumėte jų kontekstinį supratimą ir užduočių vykdymo pritaikomumą.
3. Stebėti DI diegimo kaštus: Reguliariai vertinkite ekonominį poveikį, kad užtikrintumėte, jog DI pasiekimai nesumažintų biudžeto atžvilgiu.
4. Skatinti žmogaus-DI bendradarbiavimą: Skatinkite aplinką, kur DI įrankiai papildytų, o ne pakeistų žmogaus pastangas, maksimizuodami bendrą efektyvumą.
Norintiems sužinoti apie naujausius technologijų pažangumus, patikrinkite Anthropic, OpenAI ir Google DI.
„TheAgentCompany“ eksperimentas tarnauja kaip komiškas, tačiau įžvalgus priminimas: kelias link DI valdomų darbo vietų yra toli nuo tiesios linijos, kupinas sudėtingumų, kuriuos geriausiai galima peržengti bendradarbiaujant tarp žmogaus ir mašinos.