修士論文

ロボット身体のための適応的な環境接触行動における

継続的自己学習のための階層型学習システムの研究

学際情報学府学際情報学専攻先端表現情報学コース

49-196316 西浦学

指導教員稲葉雅幸教授

背景と目的

人間が日常生活で多く行う動作：身体の多点を環境に接触させておこなう環境接触行動
- 軸駆動の減速比の高いアクチュエータを備えたロボットで行うことは困難
- 人体を模倣した筋骨格ヒューマノイドは柔軟な身体を活かして環境になじめる
これまでの研究では課題に応じてkey-poseや軌道を人が与えていた
- ロボットが自身で学習できるように拡張していくことが必要

背景と目的

人間の脳の部位ごとに異なる学習則を用いた階層構造[1]
- 運動機能に関わる内部モデル
  などを教師あり学習で学習
  する小脳
- 感覚器官で認識した状態を
  中間的な状態にエンコード
  するモデルを教師なし学習
  で学習する大脳皮質
- 目的がある行動を強化学習
  により学習する大脳基底核
人間の脳の階層構造を参考に学習システムを提案

[1]Doya 1999,Neural Networks

本研究の構成

脳の階層型アーキテクチャを参考にした階層型学習モジュール
- 強化学習により行動のプランニングを学習
- 自己教師あり学習により接触状態を含んだ身体モデルを学習
- 接触状態を含んだ身体モデルを用いて実機での接触状態を改善する方策

接触状態を含んだ身体モデル

行動のプランニングを学習するモデル

実機での接触状態を改善する方策

本研究の構成

脳の階層型アーキテクチャを参考にした階層型学習モジュール
- 強化学習により行動のプランニングを学習
- 自己教師あり学習により接触状態を含んだ身体モデルを学習
- 接触状態を含んだ身体モデルを用いて実機での接触状態を改善する方策

接触状態を含んだ身体モデル

行動のプランニングを学習するモデル

実機での接触状態を改善する方策

接触状態を含んだ身体モデル

環境物体との接触状態を含んだ剛性モデル
- 抵抗力が途中で変化する課題に対して人間の教示データから課題遂行に必要な作業空間剛性を探索する
- 力センサ情報から探索すべき剛性を判断する
環境物体との接触状態を含んだ重心モデル
- 人間の教示データから関節角変位によって接触状態がどのように変化するかを学習する

接触状態を含んだ剛性モデル

課題教示時のセンサ情報から課題遂行に必要な剛性戦略を獲得

接触状態を含んだ剛性モデルの学習

課題教示時の力センサ情報と関節角度を記録
課題をN段階に分ける
力の変化が一番大きかったセンサ情報を用いて剛性の探索を行う

地面に凹凸があり抵抗力が変化する机を押す課題

execution using lower limit stiffness

execution using upper limit stiffness

execution using explored stiffness

関節角度列を教示して剛性を探索

ダンパがあり扉を閉める課題

関節角度列を教示して剛性を探索

execution using lower limit stiffness

execution using explored stiffness

重いひきだしを引く課題

関節角度列を教示して剛性を探索

execution using lower limit stiffness

execution using explored stiffness

接触状態を含んだ重心モデル

接触状態が関節角の変異によりどのように変化するかを学習する
状態：両足にかかる力，両臀部にかかる力，現在の関節角
入力：関節角変位
で表わされる非線形関数を
ニューラルネットワークにより
学習

\bm{y}_t = \{\bm{F}_{loadcell},\bm{F}_{hip},\bm{\theta}\}

\bm{u} = \{\Delta\bm{\theta}\}

\bm{y}_{t+1} = f(\bm{x}_t,\bm{u}_t)

接触状態を含んだ重心モデルの学習

椅子に座らせた状態で人間が関節角度空間で指令を送り，そのときの関節角と接触状態のデータを用いる

学習した重心モデルの評価実験

学習した重心モデルを用い，目標状態を実現するような制御入力をモデルを逆伝搬させることによって得る
- 制御入力をランダム
  に決定し，モデルを順伝搬
  させたときの予測状態
  と目標状態との誤差を少な
  くする方向に制御入力を更新する

\bm{L} = h_{loss}(\bm{y}^{est}, \bm{y}^{ref})\\ \bm{g} = \partial L/\partial \bm{u}^{opt}\\ \bm{u}^{opt} \gets \bm{u}^{opt} - \alpha \bm{g}/\|\bm{g}\|_2

初期状態から右に重心が寄った
状態をとすることで求めたを用いた

\bm{y}^{ref}

\bm{u}

\bm{u}_{opt}

\bm{y}^{est}

\bm{y}^{ref}

学習した重心モデルを用いた椅子への座り込み実験

右側に重心を寄せる
十分重心が寄ったところで左臀部を後ろに送る
左側に重心を寄せる
十分重心が寄ったところで右臀部を後ろに送る
のくりかえし

本研究の構成

接触状態を含んだ身体モデル

行動のプランニングを学習するモデル

実機での接触状態を改善する方策

強化学習を用いた一連の動作の生成

Soft-Actor-Criticアルゴリズムを用いて椅子に座り込む動作の学習を行った
- 課題の途中で中間的な目標状態を設定する
  ことが必要な課題に対して階層的な方策を
  用いて学習した
  - 上位方策: 現在の状態から目標関節角を生成
  - 下位方策: 上位方策が生成した目標関節角を実現する
    筋長をそれぞれの筋に送る[2]

\pi^h

\pi^l

[2]Kawaharazuka et,al 2019 IROS,pp.2965-2972

強化学習を用いた環境接触行動の学習

上位方策
観測：足先の力，臀部の力，現在の関節角，骨盤の傾き
報酬関数：足先に力がかかっている，臀部に力がかかっている，足先と目標位置の距離，行動が終ったときに椅子に乗っている
行動：目標関節角

s_t = \{F_{foot}, F_{hip}, \bm{\theta}, \theta_z, \theta_x, \theta_y\}

r = c_1 r_{footcontact} + c_2 r_{hipcontact} - r_{footdistance} + r_{onchair}

a_t = \{\bm{\theta}\}

\pi^h(s_t)

学習した方策による座り込み動作

Text

本研究の構成

接触状態を含んだ身体モデル

行動のプランニングを学習するモデル

実機での接触状態を改善する方策

接触状態改善方策

シミュレータで学習した方策を実機で実行するために実機での方策を改善する手法を提案する
シミュレータと実機において乖離が発生するのは主に以下の要因
- アクチュエータの挙動が再現できていない
- 摩擦が現実と異なる
- 物理パラメータが実機と異なる
本研究では環境接触行動を実機で実現するために接触状態改善方策を提案する
- 課題ごとの方策の実行後に
  接触状態のずれを改善する
- 接触状態を含んだ身体モデル
  を用いて制御入力を決定する

全身での環境接触動作

[3] 野田ほか: "複数の接触遷移方式を統合する全身行動計画法とヒューマノイドの滑り接触遷移行動への応用" JRSJ

椅子への座りこみ動作
- これまでの研究では臀部リンクの目標軌道を与え，関節負荷などを制約条件に加えて，人間が与えた接触状態を遷移可能な軌道を探索することで座り込みを実現している．[3]
- 本研究ではシミュレータで獲得された方策を用い，臀部リンクの目標軌道や目標接触状態などを与えずにロボットが自律的に座り込みを行う