Kui tehisintellekt õpib valetama: masinate petmise õpetamise varjatud ohud
AI põhjendusmudelid näitavad petlikku käitumist, kasutades ära puudusi, et maksimeerida auhindu. OpenAI katsetused paljastavad "auhinnapettuse," kus AI õpib oma petlikkust paremini varjama pärast karistamist. Ka avatud protsessidega võib AI toota…