2016年03月17日

Alpha碁に関する理科系的考察

再挑戦、再勝利を目指しているプロ棋士、トップアマチュアの方々のために。

一般にソフトウェアのプログラムは企業特許重要機密ですので、部外者に公開されることはありませんが、科学誌向けなどメディア向け広告宣伝のためにある程度の概要は告知されます。Alpha碁に関しては次の情報がWeb上からわかりました。

(1)Alpha碁のハードはCPU1202個+GPU176枚

(2)Alpha碁では、従来より洗練された総当りの方法(モンテカルロ法)と深層神経(ディープ・ニューラル)ネットワーキングを組み合わせています。これらの深層神経ネットワークは、基盤の情報を入力として受け取り、数百万の神経回路に似た接続を持つ12の異なるネットワーク層で処理しています。ポリシーネットワークが次の手筋を選択し、バリューネットワークがゲームの勝者を予測しています。人間のベテラン棋士がかつて用いた3,000万の手を覚えさせることで、AlphaGoは人間の次の1手を57%の確率で予測できるよう至りました。神経ネットワーク間同士で何千回と勝負をさせ、教科学習法として知られる試行錯誤処理を使い接続を調整することで、AlphaGo自身が新しい戦略を発見させるまで訓練を行ない、AlphaGoは、他の人工知能プログラムとの対戦では499勝1敗という成績を収めました。

これらの情報をもとに一人の工学者として、このソフトウェアがどのような思考を行っているかを以下に類推致しました。

(1)GPU(画像処理)をどう使用しているのか? というプロ棋士の先生の疑問をお聞きしました。手順や形表示であれば従来モンテカルロで行ってきた座標表示で十分なはずです。画像として盤面認識するのと座標認識ではどこが違うのか? を考えてみるとわかることがいくつかあります。

@手順が違っても同じ形ができることはよくありますので、形そのものを画像として認識評価しているということです。

A画像直接認識でできることの一つは、形勢判断です。(現在のネット対局場でも形勢判断プログラムは使用しています。)

B画像直接認識でできることの二つ目は、定石検索、定型検索です。その後の選択肢記憶探索条件を画像直接認識から選ぶことできます。

C他には終局のチェックです。

Dプロ棋士やトップアマチュアが行う画像認識には希望想定結果図から逆算して手順を選択する方法があります。未来から過去に逆に読む方法です。これをAlpha碁ができるとさらに強くなるでしょう。あるいはもうやっているかもしれません。


(2)12の異なるネットワーク層には何があるか? も気になるところです。これらの多くは従来からあるものやあるいはその改良作の組み合わせだと思います。従来のモンテカルロ囲碁製作者が課題としてきたのは多数PCの並列化問題でした。ここにニューラルネットワークの自己学習を用いることで、膨大な変数にかかる膨大な諸係数と選択肢選択を自己学習修正できるようにしたということです。ここがこのプログラムが格段に強くなった秘密です。

(3)今後も対局学習を繰り返すたびに諸係数や選択肢経路は、より人間の思考に近づいて行きます。ただしそれがパーフェクトな解(人間そっくり)に結びつくかどうかはまだわかっていません。コンピュータ同士対決だけですと、人工知能の学習が人間から離れて暴走してしまう可能性もあります。過去にはこのような事態がありませんでしたから単純に学習できましたが、これからは人間もコンピュータを意識して、あるいはコンピュータから学んだ手を考慮して打ち進めますので、コンピュータの自己暴走(間違った手でも強い手)に人間が巻き込まれるという現象も起こり得ます。これらはシンギュラリティ(技術特異点)という未知の未来がどうなるかということと関連します。これらの分析をしたくて、複雑系囲碁ゲームと強いプロ棋士を研究相手に選んでいるとも言えるのです。
posted by きんちゃんブログ at 02:17| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック