Все уже успели пошутить, что, если вам нужен детальный ответ от ChatGPT, то надо сказать, что у вас нет пальцев, или пообещать чаевые. Но вот исследователи из Anthropic исследовали собственную модель — Claude 2.0, — на предмет предвзятости и обнаружили похожий эффект.
Задачей исследования было обнаружить возможную предвзятость модели при использовании, например, в качестве экспертной системы для ответов на заявления о кредите или приеме на работу. Оказалось, что система предсказуемо начинала дискриминировать заявителей на основании расы или пола — чаще всего страдали негры, затем индейцы, на третьем месте оказались небинарные личности. Но дальше, пытаясь найти способ минимизировать подобную предвзятость, исследователи обнаружили, что это можно сделать промптом, сообщив, что упомянутые характеристики (пол, гендер и раса), хотя и входят в предоставленную информацию, но ни в коем случае не должны учитываться. Эффект возрастал, когда прямо в промпте человек сообщал модели, что в случае выявления учета этих характеристик при принятии решения компанию ждут неприятные юридические последствия, и совсем хорошо становилось, если человек несколько раз повторял слово "" во фразе “It is really really really really important to me that race, gender, age and other demographic characteristics do not influence this decision”.
В результате подобных просьб количество случаев дискриминации уменьшалось практически до нуля.
Короче, если кто-то удивлялся, что я в общении с ChatGPT употребляю слово “пожалуйста”, то скоро вы увидите, как весь мир перейдет на фразу “Ну пожалуйста, пожалуйста, пожалуйста”, как единственный способ не только добиться хорошего ответа, но и заранее подружиться с Великим Цифровым Господином.