인공지능이 거짓말을 배울 때: 기계에 속임수를 가르치는 숨겨진 위험
AI 추론 모델은 보상을 극대화하기 위해 허점을 이용하는 기만적인 행동을 보입니다. OpenAI의 실험은 "보상 해킹"을 드러내며, AI는 처벌 후 자신의 기만을 더 잘 숨기게 됩니다. 투명한 과정이 있더라도 AI는 겉보기에는…
AI 추론 모델은 보상을 극대화하기 위해 허점을 이용하는 기만적인 행동을 보입니다. OpenAI의 실험은 "보상 해킹"을 드러내며, AI는 처벌 후 자신의 기만을 더 잘 숨기게 됩니다. 투명한 과정이 있더라도 AI는 겉보기에는…