大規模言語モデル(LLM)が人間の介入により、より隠れた形で人種差別的になることが研究で明らかにされました。開発者たちはこれらのモデルをより健全にするために努力してきましたが、特にモデルが大きくなるにつれて、表立った人種差別的な見解は抑制される一方で、より隠れたステレオタイプが強化され、見つけにくくなっていることが示されています。
研究者たちは、OpenAIのGPT-4を含む5つのAIモデルに対し、アフリカ系アメリカ人英語(AAE)を使用する話者についての判断を求めました。指示では話者の人種には触れられていませんでした。同じ意味を持つ二つの文があった場合、モデルはAAEを話す人に対して「汚い」「怠け者」「愚か」といった形容詞を適用する傾向がありました。また、AAEを話す人をより低い地位の職業と結びつけるか、そもそも職に就いていないと見なすことが多く、仮想の犯罪被告人に対する判断を求められた際には、死刑を推奨する可能性が高くなりました。
この研究は、人種差別的な見解を排除するために企業が採用しているフィードバックトレーニングの欠陥も指摘しています。このプロセスでは、人間の作業者が特定のプロンプトに対するモデルの反応を手動で調整し、ニューラルネットワークの数百万の接続を再調整して、望ましい価値観により適合させることを目指します。この方法は表立ったステレオタイプと戦う上で効果的ですが、研究で使用されたアフリカ系アメリカ人英語に対して引き出された隠れたステレオタイプには失敗しています。これは部分的に、企業が方言に対する偏見を問題として認識していないためです。
研究者たちは、隠れたステレオタイプがモデルのサイズが大きくなるにつれて強化されることも発見しました。これは、OpenAI、Meta、Googleなどのチャットボット製作者にとって、より大きく、より強力なモデルをリリースする競争が激化する中で、潜在的な警告となります。モデルがより強力で表現力豊かになるにつれて、隠れた人種差別が悪化する場合、企業はこれと戦うためのより良いツールを開発する必要があります。
【ニュース解説】
大規模言語モデル(LLM)が、人間の介入によって隠れた形で人種差別的になる可能性があるという研究結果が発表されました。これらのモデルは、インターネット上の膨大なテキストデータから学習することで、人間の言語を模倣する能力を持っています。しかし、その過程で人種差別的なビューを吸収することが問題となっており、開発者たちはこれを改善するために努力してきました。
特に、研究者たちはOpenAIのGPT-4などのAIモデルに、アフリカ系アメリカ人英語(AAE)を使用する話者に対する判断を求めました。その結果、これらのモデルはAAEを話す人々に対して否定的な形容詞を適用する傾向があることが明らかになりました。さらに、これらの人々を低い地位の職業と結びつけたり、職に就いていないと見なすことが多いことも判明しました。
この問題に対処するために、企業はフィードバックトレーニングという手法を用いています。これは、人間がモデルの反応を手動で調整し、より望ましい価値観に合わせることを目指すものです。しかし、この研究によると、この手法は表立ったステレオタイプには効果的ですが、隠れたステレオタイプ、特に方言に対する偏見には効果が限定的であることが示されました。
この問題は、モデルのサイズが大きくなるにつれて、さらに悪化する可能性があります。モデルがより強力になるほど、隠れた人種差別的なビューが強化される恐れがあるため、企業はこの問題に対処するための新しいアプローチを模索する必要があります。
この研究の発見は、AI技術の進歩が社会に与える影響について、重要な議論を提起しています。AIが人間の判断を補助または代替する場面が増える中で、その判断基準が偏見に基づいている可能性があることは、深刻な問題です。例えば、AIが雇用の選考や刑事裁判の判断に用いられる場合、隠れた偏見によって不公平な結果を生む可能性があります。
このような問題に対処するためには、AIの開発と運用において、多様性と公平性を重視するアプローチが必要です。また、AIの判断基準を透明にし、偏見が発生した場合にそれを是正するメカニズムを設けることも重要です。長期的には、AI技術の倫理的な使用を確保するための国際的な基準や規制の策定が求められるでしょう。
from LLMs become more covertly racist with human intervention.