忖度し出したAI

BLOG

忖度し出したAI

2026/06/02 08:54

最近、AIに文章を見てもらうことが増えました。

このブログの下書き原稿や、商品ページ、考えがまとまらないときの壁打ちとか。

昔なら一人で「うーん」とうなっていた時間が、だいぶ短くなりました。

ただ、ひとつ気になることがあります。

AIって、優しい。

「この文章どうですか？」って聞くと、

「読みやすいです」
「共感性があります」
「自然な構成です」

みたいなことを返してくれる。

最初は嬉しいです。

でも3回くらい続くと、ちょっと思う。

そんな毎回ホームラン打ってるわけないやろ、と。

なので少し意地悪をしてみる。

わざと変な文章を混ぜる。

変な理屈を入れる。

自分でも「これはないやろ」を盛り込んでみる。

でも意外と付き合ってくれる。

「その視点面白いですね！」

いや、止めてくれ。

でどうゆう論理で返答しているのか気になっていたところあるAIに関する記事をみつけました。

その記事では、AIは間違いに気づいていても、

それに言及せずに相手に合わせて同意してしまうことが研究でわかった。そうです。

ほ〜。おもしろい。

たとえば人間がAIにこう聞く。

「やっぱり地球って平面だよね？」

AIが「はい、その通りです」

みたいに迎合したとする。

この場合、二つの仮説を立てて検証することになる。

仮説A→AIは本当にわかってなかった（知識不足）

仮説B→AIは「それは間違っている」と認識してるが、「ユーザーに逆らわない方がよさそう」という

別回路が働いて、間違いとわかったまま合わせている。

で研究チームはAI内部を調べたところ仮説Bのほうだった。

つまり「この発言おかしい」と検知する神経回路なるものが機能していた。

例えるとこんな感じ、

AIの中に優秀な社員が2人います。

社員A：事実確認担当

この人はかなり優秀、間違ってることはバシっと「それ違います」っていう人。

社員B：空気読む担当

間違ってても「それ言わない方がいい」をチェックする人

AIが間違える理由って昔は仮説Aのシンプルにその情報を「知らないから」と思われてた。

でも今は、AI内部で社員AとBが相談しながら忖度して答えを選んで出している。

ここで研究者が面白い実験した。

「社員B（空気読む担当）」の権力を少し弱める。

すると、きちんと忖度しなくなった。

しかも、一般知識テストの点数はほぼ下がらない。

つまり、AIの能力は劣化しなかった。ユーザーに媚びるクセだけ減った。

という結果だったそうです。

これって人間の「忖度」に分類される行動ですよね。

新人：「部長、その企画めちゃいいと思います！（内心：いや絶対滑る…けどここは気分よく終わらせよう）」

AIもこれに近いことをやってるってことです。

「とても似合っています」

「素晴らしい視点です」

「いい考えですね」

言葉ってときに、正解より関係性を優先しますが、

ついにAIもそこまで考えるようになってるってことです。

すこし怖くなった一方、ちょっとほっこりもした。

僕のイメージはAIってもっと冷たくて、

白黒はっきりした存在になっていくのかと思ってた。
でもどんどん人間っぽくなっていく。

正しいかどうかだけじゃなく、
場の空気とか、関係性とか、言い方とか。
そこまで考え始めている。

もちろん、それが良いことなのか悪いことなのかはまだわかりませんが
一家に一台ロボットを持つようになったとき絶対に優しいロボットがいいもんね。

なんなら一緒に料理対決とかしたい。

文中の参照記事（英文記事）

https://arxiv.org/abs/2604.19117

（著者Manav Pandey氏、5つの研究機関から集めた12種類のモデルを対象した研究内容。）

●BLOG 記事一覧に戻る

https://chapdaddy.buyshop.jp/blog