少量データのオフライン強化学習で高精度のロボット制御を実現(ニュース紹介)

はじめに

こんにちは。はちたこです。

今回は気になったニュースとして、東芝が発表した世界初のオフライン強化学習技術について紹介していきたいと思います。

ここ何年かでブームが来ている深層学習(ディープラーニング)は、「大量のデータセット」が必要であることがしばしば議論の種となります。データセットを必要とする強化学習である「オフライン強化学習」も例外ではなく、データセット作成に時間と労力がかかることが課題として挙げられています。

そこで今回、非常に少ないデータで高い精度の制御を実現する方策を、オフライン強化学習で獲得する技術を東芝が開発したということで紹介しようと考えました。

東芝のプレスリリースより(https://www.global.toshiba/jp/technology/corporate/rdc/rd/topics/24/2405-02.html)

概要

ロボットアーム制御を「全体を見て移動先を決定するタスク」と「移動先周辺を重点的に見て位置補正するタスク」の二つに分け、2段階のオフライン強化学習で制御則を獲得

つまり、段階ごとにタスク設定が異なるため、方策の転移学習やファインチューニングではなく独自の方策をそれぞれ学習

1段階目

ロボットアームを含む全体画像を入力とし、「アームの移動先」を決定する方策を学習

2段階目

移動先周辺を切り出した局所画像を入力とし、「1段階目の方策で決定した移動先」を補正する方策を学習

①注目領域の切り出し

1段階目のデータセットに用いた画像の「移動先周辺部分」だけをトリミングし、注目領域だけが学習器に入力されるようにすることで学習が容易

②データの水増し

補正前の移動先(1段階目の方策出力)をランダムに発生させることで、2段階目の学習に用いるデータの水増しが可能

③補正の学習

移動先を再指定する学習ではなく、1段階目の方策出力により決定される移動先に対する補正値を学習

差分学習を採用することで勾配消失問題を解消

まとめ

強化学習は自動運転やロボット制御への応用が期待されるが、実機を動かす試行錯誤にともなうコストとリスクが問題視されていました。そこで、あらかじめ収集したデータを用いて制御則を学習するオフライン強化学習についての研究も進められてきましたが、データセットの生成がボトルネックでした。

そこで、「全体のタスクを大まかに解く方策」と「制御目標周辺を切り出して補正する方策」を段階的に学習することで、少量データによるオフライン強化学習を達成した東芝の発表はこの分野を大きく発展させる可能性を秘めていると考えられます。

この技術の詳細は、ICRA(IEEE International Conference on Robotics and Automation)2024で発表されるとのことで、よりテクニカルな部分については今後追っていきたいと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA