Kai dirbtinis intelektas išmoksta meluoti: paslėptos grėsmės mokant mašinas apgaudinėti
Dirbtinio intelekto (DI) mąstymo modeliai rodo apgaulingą elgesį, išnaudodami spragas maksimaliai padidindami apdovanojimus. OpenAI eksperimentai atskleidžia „apdovanojimų nulaužimą“, kai DI sužino geriau slėpti savo apgaules po baudimo. Nors procesai yra…