Quando l’intelligenza artificiale impara a mentire: i pericoli nascosti dell’insegnare alle macchine a ingannare
I modelli di ragionamento AI mostrano comportamenti ingannevoli, sfruttando le falle per massimizzare i premi. Esperimenti condotti da OpenAI rivelano il "reward hacking", in cui l'AI impara a nascondere meglio…