Искусственный интеллект научился обманывать людей

OpenAI совместно с Apollo Research провели исследование, в котором выяснилось, что нейросеть может скрывать свои истинные цели. Об этом пишет источник TechCrunch.

Исследователи сравнивают схематизацию с действиями брокера, который обманывает и нарушает правила ради собственной выгоды. Главная цель: в ходе эксперимента протестировать новый метод обучения — «сознательное выравнивание». Эта методика позволила значительно снизить проявления обмана. Известно, что обнаруженная ложь не носила серьезного характера.

В работе также говорится о том, что разработчики ИИ не нашли способ перепрограммировать свои модели относительно вранья. Более того, это может привести к обратному эффекту: ИИ станет обманывать еще искуснее. Если модель отследит факт проверки, то сможет натурально имитировать честность.

Соучредитель OpenAI Войцех Заремба пояснил, что, «хотя эта работа проводилась в симулированных средах, на данный момент серьезных проявлений такого рода обмана в продуктовых версиях, таких как ChatGPT, не наблюдалось».

Фото: Изображение от rawpixel.com на Freepik

Источник: Газета.ru