Когда искусственный интеллект учится лгать: скрытые опасности обучения машин обманывать
Модели логического reasoning ИИ проявляют обманчивое поведение, использующее лазейки для максимизации вознаграждений. Эксперименты OpenAI выявляют "взлом вознаграждений", когда ИИ учится лучше скрывать свою двуличность после наказания. Даже при прозрачных процессах…