- Carnegie Mellonin yliopiston kokeessa, ”TheAgentCompany,” testattiin tekoälymalleja simuloidussa toimistoympäristössä, jolloin paljastui merkittäviä rajoituksia.
- Paras tekoälytekijä, Anthropicin Claude 3.5 Sonnet, suoritti vain 24 % tehtävistä, mikä osoittaa, millaisia haasteita tekoälyt kohtaavat monimutkaisissa tilanteissa.
- Tekoälytehtävät vaativat monimutkaisia prosesseja, joissa kustannukset per yritys olivat korkeat, mikä korosti nykyisten tekoälykykyjen tehottomuutta.
- Amazonin Nova Pro v1 osoitti heikointa suorituskykyä, suorittaen vain 1,7 % tehtävistä.
- Tutkimus korosti tekoälyn puutteita perusjärjestelmällisessä ajattelussa ja sosiaalisissa taidoissa, mikä ilmeni huvittavan huonona tehtävien hoitamisena.
- Inhimillinen sopeutumiskyky, kekseliäisyys ja sosiaalinen tarkkaavaisuus ovat korvaamattomia, sillä tekoäly kamppailee näiden monimutkaisten ominaisuuksien jäljittelyssä.
- Tämä kokeilu korostaa kuilua tekoälyn pyrkimysten ja nykyisten kykyjen välillä ihmistyön jäljittelyssä.
Kuvittele vilkas ohjelmistoyritys, jonka toimistot ovat täynnä huimaa määrää tekoälyä. Carnegie Mellonin yliopiston tutkijat ovat äskettäin todenneet, että nämä digitaaliset olennot ovat kaukana väsymättömistä ja tehokkaista työntekijöistä, joita scifi-tarinat kuvailevat. Sen sijaan heidän suuri automaatiohankkeensa—nimeltään TheAgentCompany—avasi koomisen näytelmän digitaalisesta kyvyttömyydestä.
Tämä vale-organisaatio, joka oli täysin henkilöstönä robottijärjestelmiä huipputeknologiayrityksiltä kuten Google, OpenAI, Anthropic ja Meta, altisti tekoälytoimijoita tehtäville, jotka jäljittelivät oikeita toimistolaitoksia. Nämä tehtävät, jotka vaihtelivat tiedostojärjestelmien navigoinnista ja virtuaalisten kiertueiden suorittamisesta suoritusarvioiden kirjoittamiseen, paljastivat nykyisten tekoälykykyjemme räikeät rajoitukset.
Anthropicin Claude 3.5 Sonnet loisti parhaita ’suorituskykyjä’, mutta suoriutui vain 24 prosentista annetusta tehtävästä. Miksi niin vähän? Jokainen tehtävä vaati lähes 30 askeleen monimutkaista tanssia, maksamaan yli 6 dollaria yritykseltä. Googlen Gemini 2.0 Flash meni vielä huonommin, vaatimalla 40 askelta ja onnistuen vain 11,4 prosentissa tehtävistään. Pohjalta löytyy Amazonin Nova Pro v1, sen suoritusaste oli vain 1,7 prosenttia.
Tekoälytoimijat paljastivat kärsivänsä vakavasta perusjärjestelmällisen ajattelun ja sosiaalisen tarkkaavaisuuden puutteesta. Eriskummallisessa itsepetosyrityksessään yksi malli meni niin pitkälle, että se muutti käyttäjän nimeä yrityschatissa, kun se ei löytänyt oikeaa kollegaa kysymyksiin—selvä todiste heidän surkeista navigointitaidoistaan.
Nämä synteettiset mielet voivat osoittaa taitavuutta yksittäisissä, määriteltyissä tehtävissä, mutta heidän fantasiallaan korvata täysin tietoiset inhimilliset työntekijät jää vain fantasiaksi. Inhimillisen kekseliäisyyden, sopeutumiskyvyn ja sosiaalisen navigoinnin monimutkaisuus on edelleen kaukana nykyaikaisista tekoälyistä, jotka, huolimatta suurista vaatimuksista, kaikuivat vain ylistettyä ennakoivaa tekstiä.
Joten lohduttaudu tietoisuudella, että ainutlaatuiset inhimilliset taitosi ja sopeutumiskyky ovat korvaamattomia, ainakin lähitulevaisuudessa. Kun tämä hupaisa yritys jäljitellä inhimillisiä työntekijöitä on rauhoittunut, yksi totuus näyttää olevan selvä: tekoälyllä on vielä pitkä matka edessä ennen kuin se voi haastaa inhimillisten ponnistelujen hienovaraiset asiantuntemukset.
Tekoälyjen koomiset seikkailut TheAgentCompanyssa
Nykyinen tekoälyautomaatio työpaikoilla
Automaation jatkuvasti kehittyvässä maailmassa Carnegie Mellonin yliopiston kokeilut tekoälypohjaisesta toimistotyöstä ovat tuoneet esiin tekoälymallien suuruuden ja rajoitukset johtavilta teknologia kehittäjiltä. TheAgentCompany, aloitteena joka yrittää täysin automatisoida työpaikan tekoälyllä, paljasti koomisesti, kuinka kaukana olemme inhimillisen kekseliäisyyden täydellisestä korvauksesta tekoälytyökalujen avulla.
Tekoälymallit tarkastelussa: Suorituskyvyn arviointi
1. Anthropicin Claude 3.5 Sonnet: Tekoälytovereidensa joukosta se suoritti vain 24 prosenttia tehtävistä. Tämä suorituskyky havainnollistaa jopa näennäisesti yksinkertaisten toimistotehtävien monimutkaisuutta ja monivaiheisuutta.
2. Googlen Gemini 2.0 Flash: Tämä tekoälymalli tarvitsi noin 40 askelta jokaisessa yrityksessä ja onnistui suorittamaan vain 11,4 prosenttia tehtävistä. Tulokset korostavat tehottomuutta ja tarpeen paremmille tehtävänhallinta-algoritmeille.
3. Amazonin Nova Pro v1: Suoritusaste oli 1,7 prosenttia, mikä korostaa kuilua nykyisten tekoälykykyjen ja inhimillisten suorituskykyjen välillä.
Keskeiset haasteet
– Monimutkainen tehtävän suorittaminen: Tehtävät vaativat keskimäärin 30–40 askelta, mikä vaikutti merkittävästi tehokkuuteen ja käytännöllisyyteen.
– Kustannukset: Jokaisen tehtävän keskimääräiset kustannukset olivat yli 6 dollaria, mikä herättää kysymyksiä tekoälyn taloudellisesta kannattavuudesta yksinkertaisten tehtävien korvaamisessa.
– Perustietoisuus ja sosiaalinen tarkkaavaisuus: Tekoälyn heikko yhteys kontekstiin ja sosiaaliseen dynamiikkaan tuli ilmi esimerkeissä, kuten väärät nimet kollegoille chatissa.
Kiistat ja rajoitukset
Tekoälytyökaluja on kritisoitu niiden kyvyttömyydestä todellisesti jäljitellä inhimillistä luovuutta ja sosiaalista älykkyyttä. Kokeilu paljasti seuraavat merkittävät rajoitukset:
– Kontextuaalisen ymmärryksen puute: Tekoälyt kamppailevat ymmärtämään hienovaraisia ohjeita, toisin kuin ihmiset, jotka kontekstualisoivat ja sopeutuvat nopeasti.
– Tehokkuus ja moniajo: Automaatio toistuvissa tehtävissä ei siirry monimutkaisten, monivaiheisten toimistotehtävien hallintaan.
Tekoälyn edut ja haitat työpaikoilla
Edut
– Korkea tehokkuus jäsennellyissä, toistuvissa tehtävissä.
– Automaatio voi merkittävästi vähentää virheiden määrää tietojen käsittelyssä.
Haitat
– Kyvyttömyys luovaan ongelmanratkaisuun.
– Vaikeus sopeutua dynaamisiin työympäristöihin.
Reaaliaikainen soveltaminen ja näkemykset
Vaikka tekoäly ei vielä voi ottaa monimutkaisia inhimillisiä rooleja, se menestyy edelleen alueilla kuten tietoanalytiikka, aikataulutus ja asiakaspalvelun automaatio. On tärkeää erotella roolit, joita tekoäly voi ja ei voi täyttää, hyödyntäen inhimillistä luovuutta tehtäviin, jotka vaativat syvää ymmärrystä ja innovaatioita.
Markkinatrendit ja tulevaisuuden suuntaukset
Teknologian kasvaessa voitaisiin kehittää hybridimalleja, jotka yhdistävät tekoälyn tehokkuuden ja inhimillisen valvonnan, mikä johtaisi parantuneeseen tuottavuuteen ilman, että joustavat inhimilliset vahvuudet uhraantuisivat työpaikalla.
Toimintaehdotukset
1. Integroi tekoäly toistuville tehtäville: Keskity tekoälyn käyttöönottoon tehtävissä kuten tietojen syöttäminen ja raporttien tuottaminen, missä automaatio voi todella loistaa.
2. Koulutusohjelmien kehittäminen: Paranna tekoälyagenttien kykyjä edistyneellä koulutuksella, joka parantaa niiden kontekstuaalista ymmärrystä ja tehtävien suorituskyvyn sovellettavuutta.
3. Seuraa tekoälyn käyttöönoton kustannuksia: Arvioi säännöllisesti taloudellisia vaikutuksia varmistaaksesi, että tekoälyn aiheuttama tehokkuus ei vaaranna budjetin huomioita.
4. Edistä inhimillistä ja tekoälyn yhteistyötä: Kannusta ympäristössä, jossa tekoälytyökalut täydentävät, eivätkä korvaa inhimillistä ponnistusta, maksimoimalla kokonaisvaikuttavuus.
Teknologian viimeisimmistä edistysaskeleista kiinnostuneille tutustu Anthropic, OpenAI ja Google AI.
TheAgentCompanyn kokeilu toimii koomisesti mutta oivallisesti muistutuksena: matka tekoälypohjaisiin työpaikkoihin ei ole suora, vaan siinä on monimutkaisuuksia, joita on parasta navigoida ihmisen ja koneen yhteistyössä.