Sugawara Lab, Waseda University

400体のエージェントをチームとする2つの集団が戦闘ゲームをします。相手をShootして、3回当たるとエージェントは消滅します。先に仲間がいなくなった方が負けです。学習をするうちに、全体として戦略を持つような攻撃態勢が得られます。両者学習しているので、時間とともにそれぞれが高度で複雑な戦略を学びます。

パターンフォーメーション（集団戦闘ゲームの応用）

エージェントが全体として線画を形成する集団学習であり、エージェントチームの戦闘ゲームの応用になります。各点がエージェント（たとえば、空に浮かぶドローン）と思ってください。それらが協調して、全体として与えられた形を形成します。特定の形となるように学習したわけではなく、任意の形を形成することができます。実際に学習時には、これらとは全く異なるパターン（ランダムに生成したポイント群）を生成し、それらを使って学習しています。

■ 研究紹介用ビデオ2（Multi-agent pickup and delivery problem by centralized control)

このセクションにある一連のビデオでは、エージェントはロボットで、多くの場所に配置されている資材をそれぞれの目的地に届ける問題に対処しています。運ぶべき資材の数は環境内に100あります。各みちは一台分の幅しかなく、ロボットは衝突を回避するために、迂回路（つまり遠回り）を選択するか、同期（一時停止や待機）などを行います。パラメータβが、これらのどちらを選びやすいかの優先の度合いを決めます。また、衝突の可能性が高くて作業ができないあるいはやりにくいと判断したときは、エージェントは自分の車庫に一時的に戻り、環境内が混雑しすぎないようにしています。なお、これらの動画では、アクションプランは集中管理されたコンポーネントで生成・管理されています。また通路には幅の制限があり、狭い道を通る場合、資材を持っているエージェントは横向きに進む必要があります。そのため、自分を適切な向きとするために十分に広い場所で事前に回転しなくてはいけません。

ロボットによる連続荷物運搬作業１(Video 1)

Experimental setting: The number of agents is 15, N_K = 3, N_P = 3 and β = 100 in Environment 1. (sorry, no voice for anonymity). See our EUMAS paper.

赤ノード：駐車場，青ノード：集配場所，緑の塗りつぶしノード：狭いノード（エージェントは「待つ」ことはできるが「回転」はできない），緑の中抜きのノード：広いノード（エージェントは「待つ」ことも「回転」することもできる），灰色の長方形：狭いエッジ（パス），黒色の長方形：広いエッジ（パス）。大きな資材を持ったエージェントは、狭い辺を通過するために（広いノードなどで）回転し向きを考慮しなければならない。なお、エージェントが「待ち」や「回転」ができるノードの多くは交差点や角にあります。

この条件でも、すべてのエージェントが衝突することなくスムーズに環境を移動できることを確認できます。後半、一部のエージェントが駐車位置（ガレージ）に戻りますが、これはタスクが縁、特定のタイプのタスクが残り、目的地に偏り（特定の場所で仕事が重なること）が発生し、そのために同時に行動すること防いでいます。仕事のないエージェントをガレージで待機させることで、衝突の可能性を減らせます。なお、両側の櫛形の部分がエージェントのガレージです。

ロボットによる連続荷物運搬作業２(Video 2)

Experimental setting: The number of agents is 15, N_K = 3, N_P = 3 and β = 100 in Environment 2. (No voice for anonymity)

環境2は、位相的には環境1と同じですが、ノードを交差点だけでなくエッジ上にも追加しました。これらのノードは通常、幅の狭いエッジと幅の広いエッジをつなぐもので、大きな素材を持つエージェントは、幅の狭いエッジを通過するためにこのノードで回転できます。交差点での回転は他のエージェントの動きを妨げる可能性があるため、エッジ上のこれらのノードは待機アクションを減らすことができます。

環境2では、すべてのエージェントが、停止や回転の場所が増えたことで環境1よりもスムーズに、衝突することなく動き回ることができます。

環境2では、エッジの途中に停止（同期）や回転の場所が増えたこと、他のエージェントの動きを妨げる可能性が低く、エージェント達は環境1より効率的に移動することができる。また、後半にタスクが減って、ガレージ（両側の櫛状の部分）に戻るエージェントの数も環境1に比べて少なくなりました。

なお、以降のビデオでは、環境2のみを使用します。

ロボットによる連続荷物運搬作業３(Video 3, Crowded)

Experimental setting: PAPO (Env.2, No. of agents M = 40, N_K = 3, N_P = 3, β = 100) (No voice for anonymity)

両側の櫛形の部分がエージェントの駐車場所（ガレージ）です。この条件設定では、エージェントの数が多く、混雑した状況にあります。このような状況下では，エージェントの移動は非効率的になり，競合（同じノードに同時刻に存在し、衝突の可能性がある）を含む行動計画が多く発生し，そのような好ましくない状況を解決するために追加の修正計画が行われます．なお、提案手法では、一部のエージェントがガレージに戻りますが、これは不要なエージェントをガレージに戻し、結果的にエージェントの数を減らすことで、過度の混雑を防いでいます。

ロボットによる連続荷物運搬作業４(Video 4, 迂回路重視)

Experimental setting: The number of agents is 15, N_K = 4, N_P = 1 and β = 50 in Environment 2. (No voice for anonymity)

今回の実験設定では、β = 50と小さい値となっているため、エージェントは、同期つまり待機によりタイミングをずらして衝突を回避しようとする意思が弱く、その結果、迂回ルートを選択する確率が高くなります。これにより、同期のための無駄な停止を減らすことができますが、一方で計画作成と修正の時間が少し長くなります。ビデオから、すべてのエージェントが衝突回避のための同期を減らし（無くなることはありません）、全体的にスムーズに環境を移動していることがわかります。（なお、両側の櫛形の部分はエージェントのガレージです）。

ロボットによる連続荷物運搬作業５(Video 5, 同期（待機）重視)

Experimental setting: Submission 168, PAPO (Env. 2, No. of agents M = 15, N_K = 4, N_P = 1, β = 800)

この実験環境ではβ=800であり、エージェントは衝突を避けるために同期戦略を使う可能性が高く、迂回路を取らずに待機する行動が多く見られる。もちろん、迂回（回り道）と同期のどちらが適切かは、周囲の経路や他のエージェントの位置に依存して、容易に決定はできない。この環境では、Video4のようにβの値を小さくすると、全体の作業時間は若干短くなるが、計画作成の時間は長くなる。

■ 研究紹介用ビデオ3: 速度に揺らぎあり（Multi-agent pickup and delivery problem with fluctuated moving speed by fully decentralized control)

このセクションの一連のビデオでは、前の一連のビデオと同じようにエージェントは、多くの場所に散らばって存在する100個の材料をそれぞれの目的地に届ける作業をしますが、エージェントの動作には揺らぎがあり（多くの場合は遅延）、プラン通りに進まない状況を想定しています。そのためあるエージェントの遅延は、他のエージェントとの競合（衝突）を引き起こす可能性があり、プランの修正が必要となります。しかしこの影響はさらにその他のエージェントにも広がる可能性があります。しかし集中的なプラン生成とメンテナンスでは、多くの地点で同時に遅延が起こること、その影響の解消を求める計算のコストも高くなります。さらには仮にプランの修正をしてもその次の時点で再び遅延による修正が必要となるという課題があります。これは集中制御が、全体を見渡したグローバルは計算となっているためです。ここでは、エージェントはさしあたり目的地までのプラン（経路）を生成するものの、動作に揺らぎがあるので、近視眼的に１〜数ステップのみ競合が発生しないか確認し、問題がなければ１ノード分だけ移動し、この動作を繰り返します。なお、１ノードを進んだだけでも、自分や他のエージェントの移動に揺らぎの可能性があるので、現在のプランで問題がないか、確認しながら進みます。

ロボットによる荷物運搬作業１：速度に揺らぎあり(Video 1)

Conditions: number of agent is 14, the CCW size R is 8, detour adjustment weight delta is 0.1 and standard deviation of Gaussian noise of moving speed is 0.1. (No voice for anonymity)

Collision check window (どの位先を見越して行動を決定するか）のサイズRを8 (R=8)、競合（衝突など）が予測される場合に迂回路の選好指数deltaを0.1 (delta=0.1)と設定しています。この場合、エージェントはかなり先まで確認しながら注意深く進むため、早めに衝突の可能性を見つけようとし、見つけた場合は迂回路よりも同期（つまりタイミングをずらすなど容易な手段で）解消しようとする可能性が高くなります。そのため渋滞が発生している場所は少なく、発生しても渋滞は軽度で、すぐに緩和される。しかし、エージェントは非常に慎重であるため、計画時間が若干長くなります（だた、それは行動の時間と比較すると非常に小さいものです）。なお、動画中の赤いノードは、エージェントのCCW内の位置を示しています。ノードが櫛状につながっているところが、エージェントの駐車場です。

なお、エージェントの速度はガウスノイズ（標準偏差0.1、10%）で揺らぐことにしています。ただし通常は遅延のみと考え、遅れる方向のみに影響します。

ロボットによる荷物運搬作業２：速度に揺らぎあり(Video 2)

Conditions: number of agent is 14, the CCW size R is 1, detour adjustment weight delta is 0.1 and standard deviation of Gaussian noise of moving speed is 0.1. (No voice for anonymity)

Collision check window (どの位先を見越して行動を決定するか）のサイズRを1 (R=1)、競合（衝突など）が予測される場合に迂回路の選好指数deltaを0.1 (delta=0.1)と設定しています。この場合、エージェントは近視眼的で、直前のみ確認して進むため、かなり直前になってから衝突の可能性に気づき、気づいても容易な同期（つまり待ってタイミングをずらす）で解消しようとします。そのため渋滞は発生しやすく、また迂回が必須でも安易な「待ち」にたよるため、渋滞解消が長引くことがあります。しかし、エージェントは、いつかは迂回路が必要と気づき、渋滞は解消されます。他方、プランニングの時間は短くなります。なお、動画中の赤いノードは、エージェントのCCW内の位置を示しています。ノードが櫛状につながっているところが、エージェントの駐車場です。

なお、速度の揺らぎは前のビデオと同じです。

■ 研究紹介用ビデオ4: 速度に揺らぎあり（Distributed Planning with Asynchronous Execution with Local Navigation for Multi-agent Pickup and Delivery Problem, aamas 2023)

前と同様にエージェントの動作に遅延が入っていても、衝突が起きませんが、環境全体に向きを導入して、そのアルゴリズムを単純化しています。

Video 1: https://youtu.be/RfqrEhhiRiE

Video 2: https://youtu.be/ETBSxF3F7YI

Video 3: https://youtu.be/11MYTV27RP0

Video 4: https://youtu.be/Mm1lJiuTbe4

Page updated

Google Sites

Report abuse

Intelligent Software Laboratory (菅原研究室)

Computer Science and Communications Engineering Waseda University, Japan

■ 研究紹介用ビデオ3: 速度に揺らぎあり（Multi-agent pickup and delivery problem with fluctuated moving speed by fully decentralized control)

■ 研究紹介用ビデオ4: 速度に揺らぎあり（Distributed Planning with Asynchronous Execution with Local Navigation for Multi-agent Pickup and Delivery Problem, aamas 2023)

Computer Science and Communications Engineering
Waseda University, Japan