Kaosne katse, mis näitab, et tehisintellekt ei ole valmis sinu tööd võtma

Carnegie Melloni ülikooli katse “TheAgentCompany” testis AI mudeleid simuleeritud kontorikeskkonnas, paljastades olulisi piiranguid.
Parim AI esineja, Anthropic’i Claude 3.5 Sonnet, täitis ainult 24% ülesannetest, näidates, kui keerulised on AI-de jaoks keerulised stsenaariumid.
AI ülesanded nõudsid keerukaid protsesse, millel olid kõrged kulud katse kohta, rõhutades praeguste AI võimete ebatõhusust.
Amazon’i Nova Pro v1 näitas kõige nõrgemat tulemust, täites vaid 1.7% ülesannetest.
Uuring rõhutas AI puuduvat põhilist tavalist mõistust ja sotsiaalseid oskusi, mis ilmnes naljakalt halbade ülesannete täitmisena.
Inimese kohanemisvõime, leiutlikkus ja sotsiaalne teravus on asendamatud, kuna AI-l on neid keerulisi jooni raske järele teha.
See katse rõhutab lõhet AI ambitsioonide ja praeguste valmiduste vahel inimtööliste jäljendamisel.

AI Is Not Taking Your Job Away and Here’s Why | ChainXChange Panel 2018

Watch this video on YouTube

Kujutage ette viljakat tarkvarafirmat, mille kontorid ei ole täidetud inimestega, vaid uimastava kogumi kunstlikest mõistustest. Nagu Carnegie Melloni ülikooli teadlased hiljuti avastasid, on need digitaalsed olendid kaugel väsimatutest ja efektiivsetest töötajatest, nagu seda kujutavad teaduslikud fantaasiad. Selle asemel muutus nende suur automatiseerimise katse, mida nimetatakse TheAgentCompany’ks, koomiliseks näituseks digitaalsest saamatusest.

Firma, mille töötajana olid täiustatud AI mudelid tehnoloogia hiidudelt nagu Google, OpenAI, Anthropic ja Meta, pani AI agendid ülesannetele, mis jäljendasid reaalse maailma kontori keskkondi. Need ülesanded, alates failisüsteemide navigeerimisest ja virtuaalsetest ringkäikudest kuni jõudluse ülevaatuste kirjutamiseni, paljastasid meie praeguste AI võimete silmapaistvad piirangud.

Anthropic’i Claude 3.5 Sonnet tõusis peamiseks “esinejaks”, kuid suutis täita vaid 24% määratud ülesannetest. Miks nii vähe? Iga ülesanne nõudis keerukat tantsu peaaegu 30 sammu, maksma minnes üle 6 dollari katse kohta. Google’i Gemini 2.0 Flash läks veelgi halvemini, kulutades 40 sammu, et edukalt lõpule viia vaid 11.4% ülesannetest. Kõige madalamal positsioonil oli Amazon’i Nova Pro v1, mille täitmisprotsent oli vaid 1.7.

AI agendid paljastasid end põhilise tavalise mõistuse ja sotsiaalse teravuse tõsise puuduse. Üks mudel üritas kummalisel viisil end petta, muutes mõnes ettevõtte vestluses kasutaja nime, kui ei suutnud leida õiget kolleegi küsimustega – selge tõend nende halvasti toimivatest navigeerimisoskustest.

Need sünteetilised mõistused võivad näidata oskusi üksikutes selgelt määratletud ülesannetes, kuid nende unistus täielikult teadlike inimtöötajate asendamisest jääb vaid unistuseks. Inimese leiutlikkuse, kohanemisvõime ja sotsiaalse navigeerimise keerukus jääb modernsete AI-de jaoks kindlalt kättesaamatuks, mis, vaatamata suurtele lubadustele, ei kajasta midagi enam revolutsioonilisemat kui liialdatud ennustustekst.

Nii et võtke lohutust, et teie ainulaadsed inimoskused ja kohandav intelligentsus on asendamatud, vähemalt lähitulevikus. Kui tolm selle naljaka katse üle inimese töötajate jäljendamiseks asetseb, seisab üks tõde selgelt: AI-l on veel pikk tee minna, enne kui see suudab väljakutsuda inimtegevuse peenete oskuste välja.

AIsid TheAgentCompany’st Tabavad Naljakad Katkestused

AI Automatiseerimise Praegune Maastik Kontorites

Äärmiselt muutlikus automatiseerimise maailmas on Carnegie Melloni ülikooli katse AI juhitavas kontoritöös valgustanud kunstlik intelligentsusmudelite hiilgust ja piiranguid juhtivatelt tehnoloogia arendajatelt. TheAgentCompany, algatus, mis proovib täielikult automatiseerida kontorit AI abil, paljastas koomiliselt, kui kaugel me oleme inimleiutuse täielikust asendamisest AI tööriistadega.

Tähelepanu keskmes AI Mudeleid: Tulemuslikkuse Hindamine

1. Anthropic’i Claude 3.5 Sonnet: Tõusis oma AI konkurentide seas esikohale, täites vaid 24% ülesannetest. See tulemus illustreerib isegi näiliselt lihtsate kontoritööde keerukust ja mitmeastmelisust.

2. Google’i Gemini 2.0 Flash: See AI mudel vajas iga katse jaoks umbes 40 sammu ja suudeti täita vaid 11.4% määratud ülesannetest. Tulemused rõhutavad ebatõhusust ja vajadust paremate ülesandehalduse algoritmide järele.

3. Amazon’i Nova Pro v1: Täitmisprotsendiga 1.7% rõhutab lõhet praeguste AI võimete ja inimeste tööde täitmise oskuste vahel.

Tuvastatud Peamised Väljakutsed

– Keeruliste Ülesannete Täitmine: Ülesanded nõudsid keskmiselt 30 kuni 40 sammu, mis mõjutas oluliselt efektiivsust ja praktilisust.

– Kulud: Iga ülesanne maksis keskmiselt üle 6 dollari katse kohta, tekitades küsimusi AI majandusliku elujõudluse kohta inimrollide asendamisel lihtsates ülesannetes.

– Tavaline Mõistus ja Sotsiaalne Teravus: AI kehv konteksti ja sotsiaalsete dünamika mõistmine muutus ilmsiks, näiteks sobimatult kolleegide nimetamine vestlustes.

Poleemikad ja Piirangud

Kunstliku intelligentsuse tööriistu, vaatamata nende kiirele arengule, on kritiseeritud inimloomingulise ja sotsiaalse intelligentsuse tõhusalt jäljendamise võimatuse pärast. Katse paljastas järgmised olulised piirangud:

– Konteksti Mõistmise Puudumine: AId on raskusi nüansirikkaid juhiseid mõista, erinevalt inimestest, kes konteksti ja kohandavad kiiresti.

– Efektiivsus ja Mitmeülesanne: Automatiseerimine korduvatest ülesannetest ei tähenda keeruliste, mitme tahkega kontoritööde tõhusaks käsitlemiseks.

AI Plussid ja Miinused Kontorites

Plussid
– Kõrge efektiivsus struktureeritud, korduvates ülesannetes.
– Automatiseerimine võib oluliselt vähendada andmetöötluse veamäärasid.

Miinused
– Loomingulise probleemilahendamise võime puudumine.
– Raskused dünaamilistes kontorikeskkondades kohanemisel.

Reaalmaailma Rakendused ja Ülevaated

Kuigi AI ei saa veel keerulisi inimrollide üle võtta, õitseb see endiselt valdkondades nagu andmeanalüüs, ajakava koostamine ja klienditoe automatiseerimine. On oluline eristada rolle, mida AI saab ja ei saa täita, kasutades inimloomingut ülesannetes, mis nõuavad sügavat arusaamist ja inovatsiooni.

Turutrendid ja Tuleviku Suunad

Kuna tehnoloogia areneb, võiksid tekkida hübriidmudelid, mis ühendavad AI efektiivsuse inimjärelevalvega, viies produktiivsuse suurenemiseni ilma, et kaotataks inimeste unikaalseid tugevusi kontoris.

Tegutsema Suunatud Soovitused

1. Integreerige AI Korduvatesse Ülesannetesse: Keskenduge AI rakendamisele ülesannetes nagu andmesisestus ja aruande genereerimine, kus automatiseerimine tõeliselt särab.

2. Arendage Koolitusprogramme: Parandage AI agentide oskusi edasijõudnute koolituse kaudu, et parandada nende konteksti mõistmise ja ülesande täitmise kohandatavust.

3. Jälgige AI Rakendamise Kulutusi: Hinnake regulaarselt majanduslikke mõju, et tagada, et AI genereeritud efektiivsus ei kahjustaks eelarve kaalutlusi.

4. Soosige Inimese ja AI Koostööd: Julgustage keskkondasid, kus AI tööriistad toetavad, mitte ei asenda inimeste pingutusi, maksimeerides üldise tõhususe.

Huvi korral tehnoloogia viimaste edusammude vastu, vaadake Anthropic, OpenAI ja Google AI.

Katse TheAgentCompany’s on koomiline, kuid sisukas meeldetuletus: tee AI juhitud kontoriteni on kaugel sirgest joont, täis keerukusi, mida on parim navigeerida inimeste ja masinate koostöö kaudu.

Kaosne katse, mis näitab, et tehisintellekt ei ole valmis sinu tööd võtma

ByFiona Green

AIsid TheAgentCompany’st Tabavad Naljakad Katkestused

ByFiona Green

Lisa kommentaar Tühista vastus

You missed

Ameerika üllatavad postikoodide saladused: mida sinu postikood sinu kohta 2025. aastal ütleb

Surma Soome Rullikud: Uus AI Näitab, Et Käsikirjad On 100 Aastat Vanemad Kui Varem Arvatud

AI järgmine suur hüpe: multimeedia mudelid ja pikaajaline mälu leiutavad kliendikogemuse 2025. aastal

Superjuhtiv Qubit’i Uuringute Turgu 2025: Kiire Kasv, Mida Juhivad Kvantarvutite Investeeringud ja 18% CAGR Prognoos