KUMICO

COLUMN

DQNとは~子供のトイレトレーニングを例に簡単解説!

ここでは私がもっとも注目している深層強化学習のアルゴリズムの一つである「DQN(Deep Q-Network)」を、プログラミング経験のない人でも分かりやすいように、子供のトイレトレーニングを例に用いて解説します。このコラムを読めば、DQNに注目する理由、可能性がご理解いただけるかと思います。※本コラムは理解しやすさを優先して記載しておりますので、厳密にいうと違うといった内容も含まれておりますので、その点はご理解頂けますと幸いです。

初心者向けコンテンツが少ないDQN

2017年頃からAI(人工知能)が注目されるようになり、様々な企業がAI(人口知能)を利用しての課題解決ができないか検討しています。弊社でもAI分野でのビジネスを検討していますが、その中で私が注目している手法の一つにDQN(Deep Q-Network)があります。DQNについては、私も本やWEBで勉強したのですが、数学が苦手な人でも理解しやすいわかりやすいコンテンツが少ないと感じたのでここにコラムとして記載することとします。

DQNを子供のトイレトレーニングを例に解説します

DQN(Deep Q-Network)とは、強化学習にディープラーニングを組み合わせた手法なのですが、強化学習?ディープラーニング?と「?」マークが並んでしまう人も多いかと思います。ここではまずは難しい単語は一旦忘れ、ちょうど私のタイムリーな話題である子供のトイレトレーニングの話から始めようと思います。(汚い話と感じる方がいらっしゃいましたら、申し訳ありません。)

私にはちょうど2歳になる子供がおり、トイレトレーニングの真っ最中です。トイレトレーニングをするに辺り、初めは[こういう理由から][この場合には][こうしよう]というルールを段階的に教えようとしました。以下のような感じです。

一人ではまだ出来ないから、予兆を感じたら私に報告する → できたら褒める
パンツ・部屋が汚れるから、一緒にトイレに行き用をたす → できたら褒める
かゆくなるから、綺麗に拭く → できたら褒める
次の人の事も考え、水を流す → できたら褒める
といった感じです。しかしながらこれは上手くいきませんでした。

このことを先輩ママさんに相談した際に、子供は神経回路が未発達のために予兆を感じないし、感じていても感じ方が小さかったり、その意味が理解できないためにトイレに行くという行動に結びつかない、また漏らして気持ち悪いという感覚を感じないということを教えてもらいました。それを知ってから我が家のトイレトレーニングでは、理由を理解してルールを覚えるのではなく、褒める(報酬を与える)事で子供を導き、結果的にトイレトレーニングを成功させました。 具体的にはこんな感じです。

食後などのタイミングにトイレに行かせ、偶然用をたす事が出来たときにいっぱい褒める。
用をたせなくてもトイレに行けたら褒める。

これを連続して経験することで、子供はトイレで用をたすと褒めてもらえるということを覚えたのです。そうすると子供は褒めてもらうために頑張り始めます。当然いきなり出来るようになることはないので、ここからは失敗の連続になります。しかし失敗した場合でも、最終ゴール(今回の場合、トイレで用をたし水を流すこと)に近いときにはいっぱい褒めてあげるようにします。例えば予兆を教えてくれたら褒める、予兆を教えてトイレに向かえたらもっと褒めるといった具合です。これにより子供は褒められるために予兆を意識するようになり、予兆を感じたらトイレに行って用を足すという行動につながっていったのです。

このトイレトレーニングの過程には、前者のようにトイレで用をたす必要性を理解して行動するのではなく、いっぱい褒めてもらうために行動をしているだけなのです。

前者のようなルールを覚えるのは教師あり学習に近いと思います。1つ1つの過程に対して正解・不正解を(今回の場合には親が)設定することで子供は親の期待通りの行動ができるように学習するのです。一方で後者のように最終的なゴールに対して報酬を設定し、そのゴールに近いほど貰える報酬を大きくなるようにすることで、報酬が最大になるように学習するのが強化学習です。この報酬の設定をディープラーニングで行うようにすることで、人は最終的な報酬を与えるだけでAI(人工知能)は報酬を最大化するための手法を考えるということになるのです。

今後もDQN(Deep Q-Network)から目が離せません

DQNの学習過程は、報酬が最大となるように失敗を繰り返し、試行錯誤を繰り返す中で成功するための方法を学んでいくという人間らしいものだと私は思っています。教師あり学習のように1つ1つの行動に対して正解を与えることをしないために、人間が気がつかない手法を発見する可能性がある手法です。囲碁のAlphaGoやスタークラフトのAlphaStarなどのように人間超えをする可能性を秘めた手法がDQNにはあると私はわくわくしています。このコラムを読んでいただいている方は、AI(人工知能)をこれから学ぼうという方が多いかと思いますがDQNも是非チェックして頂ければ幸いです。

個別相談も承っております。下記よりお申し込みください。

個別相談会申し込み

関連記事

OTHER COLUMN

MORE  

まこちゃんブログ

NEWS

MORE  

PARTNER

  • Intel
  • Xilinx

お探しの組み込み製品はキーワードで検索!