PFNエンジニアの藤田です．社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました．RLはReinforcement Learning（強化学習）の略です．以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています．

Deep Q-Network (Mnih et al., 2015)
Double DQN (Hasselt et al., 2016)
Normalized Advantage Function (Gu et al., 2016)
(Persistent) Advantage Learning (Bellemare et al., 2016)
Deep Deterministic Policy Gradient (Lillicrap et al., 2016)
SVG(0) (Heese et al., 2015)
Asynchronous Advantage Actor-Critic (Mnih et al., 2016)
Asynchronous N-step Q-learning (Mnih et al., 2016)
Actor-Critic with Experience Replay (Wang et al., 2017)
etc.

A3CでAtari 2600のゲームをプレイするexampleや，

DDPGでヒューマノイドロボットの制御を学習するexampleなどがあります．

以下では簡単にChainerRLの使い方を説明します．

まず，強化学習を使って問題を解くには，解きたい問題（”環境”と呼びます）をしっかり定義する必要があります．環境の定義の仕方は，OpenAIが公開している強化学習ベンチマーク環境のGym（https://github.com/openai/gym）のインタフェースに従っています．Gymの環境で動かすこともできますし，インタフェースを揃えればオリジナルな環境で動かすこともできます．基本的にはresetとstepという2つのメソッドが実装されていれば十分です．

env = YourEnv()
# reset は環境をリセットして現在の観測を返す
obs = env.reset()
action = 0
# step は環境にアクションを送り，4つの値（次の観測，報酬，エピソード終端かどうか，追加情報）を返す
obs, r, done, info = env.step(action)

深層強化学習では，状態から行動を決める方策（Policy）や，状態や行動の価値を予測する価値関数（V-function，Q-function）をニューラルネットで表現し，そのパラメータを学習します．ChainerRLでは，これらは単に__call__を実装したChainerのLinkとして表現されます．

class CustomDiscreteQFunction(chainer.Chain):
    def __init__(self):
        super().__init__(l1=L.Linear(100, 50)
                         l2=L.Linear(50, 4))
    def __call__(self, x, test=False):
        h = F.relu(self.l1(x))
        h = self.l2(h)
        return chainerrl.action_value.DiscreteActionValue(h)

class CustomGaussianPolicy(chainer.Chain):
    def __init__(self):
        super().__init__(l1=L.Linear(100, 50)
                         mean=L.Linear(50, 4),
                         var=L.Linear(50, 4))
    def __call__(self, x, test=False):
        h = F.relu(self.l1(x))
        mean = self.mean(h)
        var = self.var(h)
        return chainerrl.distribution.GaussianDistribution(mean, var)

このように作ったモデルやChainerのOptimizer，アルゴリズムごとに必要な引数を渡して”エージェント”を作ります．エージェントは環境とのインタラクションを通じてデータを集めながらモデルの学習を行います．

q_func = CustomDiscreteQFunction()
optimizer = chainer.Adam()
optimizer.setup(q_func)
agent = chainerrl.agents.DQN(q_func, optimizer, ...)  # 残りの引数は省略

エージェントを作ったら，自分で学習ループを書いて動かすか，

# Training
obs = env.reset()
r = 0
done = False
for _ in range(10000):
    while not done:
        action = agent.act_and_train(obs, r)
        obs, r, done, info = env.step(action)
    agent.stop_episode_and_train(obs, r, done)
    obs = env.reset()
    r = 0
    done = False
agent.save('final_agent')

あるいはあらかじめ用意されている学習用関数に渡せば学習が行なえます．

chainerrl.experiments.train_agent_with_evaluation(
    agent, env, steps=100000, eval_frequency=10000, eval_n_runs=10,
    outdir='results')

とりあえず動かしてみるためのクイックスタートガイドを用意しました． https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb

ChainerRLはまだベータ版ですが，強化学習に興味がある方はぜひ試してもらってフィードバックをいただけるとありがたいです．ライブラリとしての使いやすさや，新しいアルゴリズムの追加など，今後も改善を続けていこうと思います．

Area

Reinforcement Learning

Tag

# Chainer

# PFN

# ライブラリ

# 深層学習 (Deep Learning)

Index

Archive List

All 2024 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 2013 2012 2011 2010

深層強化学習ライブラリChainerRL

Related Entry

Archive List