教師あり学習-教師なし学習-強化学習(3)
文責:ジェムコ日本経営 コンサルティング事業部 丸川隆文
戌年が始まりました。今年は平成として年末を迎える最後の年となり、また、AIの本格的な普及拡大期になると予想され、大きな変化の年となりそうですね。ところで、読者の皆様は犬を飼われたことはございますか?子犬の時から育てて「お手」や「お座り」といった躾をされたことがある方も多いのではないでしょうか。こういった躾をする際に、犬を褒めたり、コチョコチョしてあげると憶えが速いですよね。これは犬にとっても、褒められることが飼い主との良好な関係を築き、犬自身の生活をも良い方向へと導くことを生物的本能から悟っているからだと思います。人を含めた動物に限らず、コンピューターの世界でも同様なことが起きています。ということで、今回は「強化学習」についてご紹介します。
機械学習において、価値関数と報酬関数を設定し、報酬期待値を最大化させる方策を探索する学習プロセスを「強化学習」と呼びます。少し固い説明となりましたが、有名な例としては、アルファ碁が人間を超える能力を身に付けたプロセスがあります。アルファ碁は、深層学習により碁の打ち方を学習させたプログラム同士を対戦させ、人間ではこなせない様な莫大な対戦結果より勝つ確率の高い打ち手を学習したことで、いつしか人間を負かすような打ち手を考案することが出来るようになりました。
通常の機械学習、特に「教師あり学習」では、人間がそれなりのサンプルデータ等を準備して学習させる必要があるのに対し、強化学習では人間が都度学習させる必要がないという点では、非常に有用です。一方でAI脅威論の根拠の一つとなっている技術とも言えます。機械は自ら善悪や倫理的な判断はできませんので、与えられた「価値」「報酬」が、人間や社会に危害や混乱を与えるものだとしても忠実に報酬を最大化する方策を探し続けてしまうためです。また悪意がなかったとしても、報酬を最大化するために、結果として人間の生活を脅かすような事態を危惧する意見もあります。テスラモーターのイーロン・マスクはイチゴ摘みロボットの話を例に、「学習が進めばイチゴ摘みの能力が上がり、たくさんのイチゴを早く摘めるようになる。ロボットはもっとイチゴを摘み、もっと学習し、もっとイチゴを摘みたいと考える。結果はどうなる? ロボットは世界中をイチゴ畑にしようと考えるだろう。」と述べ、AI脅威論を訴えています。それゆえ、AI活用における倫理規定の設定が叫ばれているところですが、今の国際情勢を見る限り決して簡単なことではないように思えてなりません。
著者は、例えば、安価に購入することを主目的とする調達系AIと高い価格で販売することを主目的とする販売系重ねた場合にAIが登場し、お互いのAIとしてのミッションを果たすことをかけて学習するといったような利益背反な形でのAIの活用例も増えてくるのではないかと思いますが、そういったことを経て更にAI技術は発展していくのではないかと思っています。