マルチベースの信号制御方式 - 常州ヒルトップハイツ株式会社

Scientific Reports volume 13、記事番号: 9396 (2023) この記事を引用

メトリクスの詳細

インテリジェント交通信号制御 (ITLC) アルゴリズムは、交通渋滞の緩和に非常に効率的です。近年、分散型マルチエージェント信号制御アルゴリズムが多数提案されている。これらの研究は主に強化学習手法と調整手法の改善に焦点を当てています。ただし、すべてのエージェントが連携しながら通信する必要があるため、通信内容も改善する必要があります。コミュニケーションの有効性を保証するには、2 つの側面を考慮する必要があります。まず、交通状況の記述方法を設計する必要があります。この方法を用いることにより、交通状況を簡単かつ明確に表現することができる。次に、同期を考慮する必要があります。交差点が異なればサイクル長も異なり、メッセージ送信イベントは各信号サイクルの終わりに発生するため、各エージェントは他のエージェントのメッセージを異なるタイミングで受信します。したがって、エージェントにとって、どのメッセージが最新で最も価値のあるメッセージであるかを判断するのは困難です。通信の詳細とは別に、信号機のタイミングに使用される強化学習アルゴリズムも改善する必要があります。従来の強化学習ベースの ITLC アルゴリズムでは、報酬値を計算する際に、渋滞した車両の列の長さまたは車両の待ち時間のいずれかが考慮されます。しかし、どちらも非常に重要です。したがって、新しい報酬計算方法が必要になります。これらすべての問題を解決するために、この論文では新しい ITLC アルゴリズムを提案します。通信効率を向上させるために、このアルゴリズムでは新しいメッセージ送信および処理方法が採用されています。さらに、より合理的な方法で交通渋滞を測定するために、新しい報酬計算方法が提案され、使用されています。この方法では、待ち時間とキューの長さの両方が考慮されます。

インテリジェント交通信号制御 (ITLC) は、交通渋滞を緩和するための優れた方法です。 ITLC アルゴリズムは、交差点の交通状況を検出し、信号のサイクル長を自動的に調整する必要があります。強化学習アルゴリズム 1 は自動制御 2,3 に非常に適しているため、最近では強化学習ベースの ITLC アルゴリズムが数多く提案されています。これらのアルゴリズムは、表形式の手法 4、5、6 と近似手法 7、8、9 の 2 つのカテゴリに分類できます。近似法では、すべての状態とアクションのペアの Q 値を特定のモデルによって計算する必要があります。与えられた状態において、アクションが最も高い Q 値を取得した場合、そのアクションはエージェントによって選択され、外部環境で実行されます。一般に、信号機制御者はエージェントとして扱われます。外部環境から状態を収集し、報酬値を計算し、アクションを選択する責任があります。現在、Q 値計算タスクを実行するために、フィードフォワードニューラルネットワークベースのモデル 7、線形モデル 10、確率モデル 11、畳み込みニューラルネットワークベースのモデル 8、RAIM モデル 12、グラフ畳み込みネットワークベースのモデル 9、FRAP モデル 13、14、 MetaLight モデル 15 など。深層学習モデル 16 を利用して Q 値を計算する強化学習アルゴリズムを深層強化学習アルゴリズムと呼びます。深層強化学習アルゴリズムは非常に優れた性能を発揮するため、ネットワーク異常トラフィック検出 17,18、通信およびネットワーキング 19 など、多くの分野に応用されています。

上記の説明に基づいて、交通信号制御アルゴリズムは、シングルエージェントベースのアルゴリズム 20、21 とマルチエージェントベースのアルゴリズム 22、23、24 の 2 つのタイプに分類できます。マルチエージェントベースのアルゴリズムでは、交通網のすべての信号機制御装置が連携して交通渋滞に対処する必要があります。マルチエージェントベースのアルゴリズムも、集中型アルゴリズム 25、26、27 と分散型アルゴリズム 28、29、30 の 2 つのタイプに分類できます。集中型アルゴリズムでは、エグゼキュータを利用してすべてのエージェントの共同アクションを学習します。すべてのエージェントはセンターエグゼキュータによって制御されるため、集中アルゴリズムのスケーラビリティは期待したほど良好ではありません。分散型アルゴリズムは、この問題を解決する最良の選択肢です。分散型アルゴリズムでは、すべての交通信号制御装置が独立したエージェントとして扱われ、独自にアクションを選択します。現在、いくつかの分散アルゴリズムが提案されています。 CGB-MATSC アルゴリズム 28 は、クラスターベースの交通信号制御アルゴリズムです。このアルゴリズムでは、すべてのエージェントが異なるクラスターにクラスター化され、各クラスターはエグゼキューターによって制御されます。 NAQL アルゴリズム 29 は、ファジーロジックを使用してモデルを最適化する分散型アルゴリズムです。 MA2C アルゴリズム 30 は、アクタークリティック法に基づくマルチエージェントベースの交通信号制御アルゴリズムです。 Co-DQL アルゴリズム 31 はダブル Q 学習法に基づいて提案されています。このアルゴリズムでは二重推定器が使用されます。 MPLight アルゴリズム 32 は、1,000 個の信号機を制御するために提案されています。強化学習アルゴリズムと交通理論に基づいています。 EMVLight アルゴリズム 33 は、動的ルーティングと信号制御を同時に実行できます。 MARDDPG アルゴリズム 34 は、深い決定論的ポリシー勾配アルゴリズムに基づいて提案されています。 ATSC アルゴリズム 35 は、ネットワークレベルの分散型適応信号制御アルゴリズムであり、このアルゴリズムでは深層強化学習が使用されます。上記の説明から、これらすべてのアルゴリズムは主にモデル効果と調整方法の改善に焦点を当てていることがわかります。しかし、コミュニケーションの詳細は無視されます。エージェント同士が連携しようとするとエージェント間で通信が発生するため、連携の効率を確保するための通信方法を提案する必要がある。第一に、効果的な交通状況記述方法が必要である。この方法を用いると、交差点の交通状況をメッセージで簡単かつわかりやすく表現することができる。このメッセージは他のエージェントに送信されます。第二に、分散アルゴリズムの同期をさらに改善する必要があります。すべての信号機制御装置は、各サイクルの終わりに他の信号機制御装置にメッセージを送信する必要があります。ただし、信号によってサイクルの長さが異なるため、エージェントがどのメッセージが最新で最も価値のあるメッセージであるかを判断するのは簡単ではありません。これらの問題を解決するために、新しいメッセージ送信および処理方法が提案されています。この方法では、交通状況をメッセージにより簡潔かつ明確に説明することができる。そして同時に、提案された方法ではデータ構造を使用して、さらなる処理のために最新かつ最も価値のあるメッセージを記録します。通信内容に加えて、信号機制御に使用される強化学習アルゴリズムも改善する必要があります。従来のアルゴリズムでは、報酬値を計算する際に、渋滞した車両の列の長さまたは待ち時間のいずれかが考慮されます。しかし、これら 2 つの要素はどちらも渋滞を判断する上で重要です。そこで本論文では、これら 2 つの要素を考慮した新しい報酬値の計算方法を提案します。したがって、この論文の貢献は以下の通りです。

分散型マルチエージェント強化学習アルゴリズムに基づくインテリジェントな交通信号制御法を提案した。

新しいメッセージ送信および処理方法を提案する。この方法では、交通状況をメッセージにより簡潔かつ明確に説明することができる。さらに、このメソッドではデータ構造を使用して、さらなる処理のために最新かつ最も価値のあるメッセージを記録します。

新しい報酬計算方法を提案する。この方法では、キューの長さと合計待機時間の両方が考慮されます。

この文書の残りの部分は次のように構成されています。提案されたアルゴリズムについては 2 番目のセクションで説明します。実験結果は 3 番目のセクションで示されます。そして最後のセクションがこの論文の結論です。

このセクションでは、提案されているマルチエージェントベースの ITLC アルゴリズムを紹介します。提案されたアルゴリズムを実行するエージェントによって 2 つの要素が考慮されます。一つは、該当する交差点の交通状況です。もう一つは近隣交差点の交通状況です。隣接する交差点に現れた車両は、次の瞬間に現在の交差点に到着する可能性があるため、隣接する交差点の交通状況も考慮する必要があります。したがって、提案されたアルゴリズムによって 2 つのステップが実行されます。まず、エージェントは該当する交差点の交通状況を状態として収集します。次に、深層強化学習アルゴリズムを使用して、新しいアクション \(a'\) を選択します。次に、近隣の交差点の交通状況を収集します。そして、アクション \(a'\) によって割り当てられたサイクル長は、新たに収集された交通状況に基づいてさらに更新されます。そして、最終的なサイクル長 \(c^{'}_{f}\) が得られます。次のサイクルで実行されます。上記の手順が繰り返されます。提案されたアルゴリズムのフレームワークはアルゴリズム 1 に示されています。

アルゴリズム 1 で記述された処理は、すべてのエージェントによって実行されます。信号タイミングタスクは定期的に実行されるため、ループ条件が True に設定されます。変数roundは信号機のサイクル数を表すために使用されます。 3 行目から 13 行目までの疑似コードは、新しい 4 重構成手順を記述しています。この手続き中に、新しい状態 \(s'\) が収集され、報酬値 r が計算されます。状態を紹介するコンテンツは「状態」セクションに、報酬の計算方法を紹介するコンテンツは「報酬」セクションに表示されます。新しい 4 倍体では、s は最後のサイクルの終わりに収集された状態です。 a は、前回のサイクルの終了時に選択されたアクションでもあります。アクションを紹介するコンテンツは「アクションスペース」セクションにあります。 14 行目から 16 行目の疑似コードは、新しいアクションの選択手順を記述しています。この手順では、CNN モデルを使用して新しいアクション \(a'\) が選択されます。 CNN モデルの構造は「Q 値計算モデル」のセクションで説明されています。疑似コードの 17 行目では、タプル \(\langle s',a' \rangle \) が将来の 4 倍構成のために保存されています。 18 行目から 20 行目までの疑似コードはパラメータのトレーニング手順を記述しています。手順中に変数ラウンドがチェックされます。その値が 0 より大きい場合は、少なくとも 1 つの 4 つ組が構築されていることを意味します。これにより、パラメータのトレーニング処理を実行できるようになります。詳細なモデルパラメーターのトレーニング手順は、「Q 値計算モデル」のセクションでも紹介されています。疑似コードの 21 行目では、エージェントは近隣のエージェントに、対応する交差点の交通状況を説明するメッセージを送信します。疑似コードの 22 行目で、このエージェントは近隣から送信されたメッセージをチェックします。これらのメッセージに基づいて、最終的なサイクル長 \(c^{'}_{f}\) を取得できます。詳細な通信手順と周期更新手順は「情報交換と処理方法」の項で紹介します。近隣エージェントはいつでもメッセージの送信を試みるため、メッセージを受信して保存するには特定のスレッドを実行する必要があります。

強化学習アルゴリズムでは、エージェントは外部環境から状態を収集する必要があります。交差点から状態を収集しようとすると、信号機を中心とした大きな正方形の領域が観察されます。この正方形エリアの境界と中心の間の距離は 150 メートルです。この大きな正方形の領域は、さらに小さな正方形に分割できます。一般的に車両の長さは約5メートルです。車両間の距離は約1メートルです。したがって、各小さな正方形の辺の長さは 6 メートルに設定する必要があります。このとき、この大きな正方形の領域に基づいて位置行列と速度行列を構築することができます。小さな正方形が車両によって占有されている場合、位置行列の対応する要素は 1 である必要があります。そうでない場合、対応する要素は 0 である必要があります。同様に、小さな正方形が車両によって占有されており、この車両の速度が 0 でない場合は、速度行列の対応する要素がこの車両の速度値になります。小さな正方形内に車両が存在しない場合、または車両速度が 0 の場合、速度行列の対応する要素は 0 になります。明らかに、これら 2 つの行列の形状は \(50\times 50\) になります。

交差点から収集した状態。

位置行列と速度行列の例を図 1 に示します。特に、位置行列を図 1a に、速度行列を図 1b に示します。図 1a では、行 5、列 1 の要素値が 1 であることがわかります。したがって、対応する小さな正方形には車両が含まれています。また、図 1b では、行 5、列 1 の要素値は \(v_0\) であり、0 より大きくなります。これは、この小さな正方形に含まれる車両の速度が 0 より大きいことを意味します。したがって、次のように結論付けることができます。この車両が走り続けることを。また、図 1a では、行 1、列 4 の要素値は 1 です。これは、この小さな正方形の中に車両が含まれていることを意味します。ただし、図 1b では、行 1、列 4 の要素値が 0 です。これは、この車両の速度が 0 であることを意味します。これら 2 つの行列は交差点の交通状況を反映できるため、状態として扱われ、変数に入力されます。 Q値計算モデル。

強化学習アルゴリズムでは、モデルのタスクは各アクションの Q 値を計算することです。そして、最も高い Q 値を持つアクションが選択され、外部環境で実行されます。アクションスペースには、すべてのアクションとその遷移関係が含まれます。提案された ITLC アルゴリズムで使用されるアクション空間を図 2 に示します。

提案されたアルゴリズムで使用されるアクション空間。

提案されたアルゴリズムでは、4 つのフェーズが考慮されます。フェーズ 1 は青信号で、北行きの通過車両と南行きの通過車両を制御します。フェーズ 2 は青信号で、南行き左折車両と北行き左折車両を制御します。フェーズ 3 は青信号で、東行きの通過車両と西行きの通過車両を制御します。フェーズ 4 は青信号で、西行き左折車両と東行き左折車両を制御します。すべてのアクションで、\(t_1\)、\(t_2\)、\(t_3\)、\(t_4\) の 4 つの値が使用されます。 \(t_1\) はフェーズ 1 の期間を表します。 \(t_2\) はフェーズ 2 の期間を表します。 \(t_3\) はフェーズ 3 の期間を表します。 \(t_4\) はフェーズ 4 の継続時間を表します。図 2 では、\(t_1\)、\(t_2\)、\(t_3\)、\(t_4\) の値の更新が主な処理であることがわかります。行動の課題。すべてのアクションは、これら 4 つの値のいずれかに 5 秒を追加するか、これら 4 つの値のいずれかから 5 秒を減らそうとします。特に、エージェントは \(t_1\)、\(t_2\)、\(t_3\)、\(t_4\) の値を変更しないアクションを選択することもできます。 \(t_1\)、\(t_2\)、\(t_3\)、\(t_4\) の最大値が 90 秒であることに注目してください。 \(t_4\) の値が 90 であるとします。 \(t_4\) にさらに 5 秒を追加するアクションが選択された場合、そのアクションは実行されません。 \(t_1\)、\(t_2\)、\(t_3\)、\(t_4\) の最小値は 5 です。同様に、\(t_4\) の値が 5 で、別の値を減らすアクションがあるとします。 \(t_4\) から 5 秒が選択されていますが、これも実行されません。

報酬はアクションの結果を測定するために使用できます。外部環境の変化に基づいて計算されます。強化学習ベースの ITLC アルゴリズムは交通渋滞を緩和するために使用されるため、報酬値は交通渋滞条件の変化を反映する必要があります。交通渋滞を評価するには 2 つの要素が重要です。それは、渋滞した車両の列の長さと、これらすべての車両の合計待ち時間です。しかし、従来の ITLC アルゴリズムでは、そのうちの 1 つが考慮されるだけです。待ち時間だけを考えれば、多くの車両が交差点に到着し、短時間に長い待機列を形成しますが、新しく到着したすべての車両の累積待ち時間は非常に短いにもかかわらず、列の長さは非常に長くなります。列の長さだけを考慮すると、渋滞している車両の列の長さがそれほど長くない場合、対応する車線は渋滞していないと正当化されます。その後、位相の長さは減少します。この状況では、これらの車両が交差点を通過することも困難です。したがって、キューの長さと待ち時間の両方を考慮した新しい報酬計算方法を提案する必要があります。

したがって、提案アルゴリズムで使用される報酬計算方法は以下のようになります。

\(r_t\) は報酬の値を表します。 \(V_t\) は、信号機の \(t-th\) サイクルの終了時に計算された値です。 \(V_{t+1}\) は、\((t+1) 回目\) サイクルの終了時に計算された値です。値 \(V_t\) の計算方法は式 1 に示されます。 (2)。式では、 (2)、\(l_{NS,SN}\)、\(l_{NE,SW}\)、\(l_{EW,WE}\)、\(l_{ES, WN}\)。 \(l_{NS,SN}\) を例に考えてみましょう。値 \(l_{NS,SN}\) の計算方法は、最初の式に示されています。 (3)の。この方程式では、\(l_{NS}\) は南行き通過車両の列の長さを表します。 \(l_{SN}\) は、北行きの通過車両の列の長さを表します。これら 2 つの列の車両が交差点を通過するのに十分な時間を確保するには、\(l_{NS,SN}\) を \(l_{NS}\) と \(l_{SN}\ の最大値に設定する必要があります) ）。式から (3) より、\(l_{NE,SW}\)、\(l_{EW,WE}\)、\(l_{ES,WN}\) も同様に計算できることがわかります。 \(l_{NE}\) は、南行き左折車両の列の長さを表します。 \(l_{SW}\) は北行き左折車両の列の長さを表します。 \(l_{EW}\) は西行き通過車両の列の長さを表します。 \(l_{WE}\) は、東行きの通過車両の列の長さを表します。 \(l_{ES}\) は西行き左折車両の列の長さを表します。 \(l_{WN}\) は、東行きの左折車両の列の長さを表します。さらに、式では、 (2)、\(W_{NS,SN}\)、\(W_{NE,SW}\)、\(W_{EW,WE}\)、\(W_{ES,WN}\)が含まれます。これらは、特定の方向の車両の合計待ち時間を表します。これら 4 つの値の計算方法は式 1 に示されています。 (4)。 \(W_{NS,SN}\) が計算されるとき、\(N_t\) は南行きの通過車両と北行きの通過車両の数を表します。同様に、\(W_{NE,SW}\) が計算されるとき、\(N_t\) は南行き左折車両と北行き左折車両の数を表します。 \(W_{EW,WE}\) が計算されるとき、\(N_t\) は西行きの通過車両と東行きの通過車両の数を表します。 \(W_{ES,WN}\) が計算されるとき、\(N_t\) は東行き左折車両と西行き左折車両の数を表します。どの値が式で計算されるかは関係ありません。 (4) 、 \(w_n\) は特定方向の \(n 番目\) の車両の待ち時間を表します。

モデルベースの強化学習アルゴリズムでは、モデルは各アクションの Q 値を計算するために使用されます。交差点から収集された状態は 2 つの行列で表されるため、提案されたアルゴリズムでは畳み込みニューラルネットワークを使用してアクションの Q 値を計算します。

提案されたアルゴリズムで使用される畳み込みニューラルネットワークモデル。

提案アルゴリズムで使用される畳み込みニューラルネットワーク (CNN) モデルを図 3 に示します。位置行列と速度行列が同じ畳み込みニューラルネットワークモデルに別々に入力されていることがわかります。次に、2 つの異なるベクトルが取得されます。それぞれに 9 つの値が含まれています。これら 2 つのベクトルが \(vec_p\) と \(vec_s\) であるとします。これら 2 つのベクトルに基づいて、新しいベクトルが計算されます。 9 つの値も含まれています。この新しいベクトルは \(vec_n\) と呼ばれます。アクション空間には 9 つのアクションが含まれているため、\(vec_n\) の各要素がアクションに対応します。 \(vec_n\) の要素値を計算するために使用される方法は、式 1 に示されています。 (5)。

\(n_i\) は \(vec_n\) の \(i 番目\) の要素です。 \(p_i\) は \(vec_p\) の \(i 番目\) の要素です。そして \(s_i\) は \(vec_s\) の \(i 番目\) の要素です。式では、 (5) より、 \(p_i\) の重み値が大きいことがわかります。渋滞の判断には車両の速度よりも車両の位置の方が重要だからである。渋滞車両の列が非常に長いと、たとえ渋滞車両が走行していても、短時間で交差点を通過することは容易ではない。しかし、渋滞した車両が走り続ければ、渋滞は緩和されるのは明らかです。したがって、渋滞した車両の速度も考慮する必要があります。したがって、\(n_i\) を計算する際には \(p_i\) と \(s_i\) の両方が使用されます。同時に、\(p_i\) の重み値は \(s_i\) より大きくなります。

図 3 に示す CNN モデルには、3 つの畳み込み層が含まれています。最初の畳み込み層には 8 つのフィルターが含まれています。 2 番目の畳み込み層には 16 個のフィルターが含まれています。 3 番目の畳み込み層には 32 個のフィルターが含まれています。各フィルターのサイズは \(5\times 5\) で、入力データ内で毎回 \(1\times 1\) のストライドで移動します。さらに、モデルには 3 つのプーリング層が含まれています。最大プーリング方式が使用されます。また、プーリング層に含まれるフィルターのサイズは \(2\times 2\) です。最初の畳み込み層の出力サイズは \(46\times 46\times 8\) です。最初のプーリング層の出力サイズは \(23\times 23\times 8\) です。 2 番目の畳み込み層の出力サイズは \(19\times 19\times 16\) です。 2 番目のプーリング層の出力サイズは \(10\times 10\times 16\) です。 3 番目の畳み込み層の出力サイズは \(6\times 6\times 32\) です。 3 番目のプーリング層の出力サイズは \(3\times 3\times 32\) です。 3 番目のプーリング層の出力はテンソルに変換されます。このテンソルの形状は \(288\times 1\) です。その後、このテンソルは全結合層に入力されます。全結合層の出力は、9 つの値を含むベクトルです。完全に接続された層には 2 つの異なる層が含まれます。最初の層には 100 個のニューロンが含まれています。そして、2層目には9個のニューロンが含まれています。 ReLU 関数は、上記のモデルで使用される活性化関数です。

最初に、CNN モデルのパラメーターがランダムに割り当てられます。その後、継続的にトレーニングを受けます。提案されたアルゴリズムでは、パラメータのトレーニング手順が各信号機サイクルの終了時に実行されます。一般に、強化学習の主な目標は、外部環境を最適な状態に到達させることができる一連のアクションを選択することです。この要件は方程式で表すことができます。 (6)。

式では、 (6) において、s は最後の状態を表します。 a は最後に選択されたアクションを表します。 Q(s, a) は、特定の状態 s でアクションを実行することによって取得される Q 値です。 R(s, a) は報酬を表します。 \(s'\) は、アクション a の実行後に新たに収集された状態を表します。 \(a'\) は新しく選択されたアクションです。状態 \(s'\) に基づいてアクション \(a'\) を実行すると、最大の Q 値を取得できます。この最大 Q 値は \(Q(s',\mathop {argmax}\limits _{a'}(s',a'))\) です。 \(\gamma \) は割引係数です。式に示されている要件に基づいています。 (6) のように、CNN モデルをトレーニングするために提案されたアルゴリズムによって使用される損失関数は、式 (6) で表されます。（7）。

B は、以前に構築され保存されたクワドルプルの数を表します。式では、 (7)、R(s, a)、\(Q(s',\mathop {argmax}\limits _{a'}(s',a'))\)、Q(s, a) の意味\(\gamma \) は式と同じです。 (6)。式から (6) より、\(R(s,a)+\gamma Q(s',\mathop {argmax}\limits _{a'}(s',a'))\) と Q(s, a) できるだけ近くにある必要があります。したがって、損失関数を最小限に抑える必要があります。この損失関数は、ADAptive Moment 推定 (Adam) メソッドを使用して最適化できます。

最適化手順中に、損失関数の値を計算する必要があります。計算手順を図 4 に示します。手順中に、保存されている 4 倍数が使用されます。これらの 4 倍数は \(\langle s,a,r,s' \rangle \) の形式になります。 4 倍の収集手順は、図 4 の最初の 3 つのステップに示されています。損失関数値の計算タスクにも 3 つのステップが含まれています。まず、\(\langle s,a \rangle \) に基づいて Q(s, a) を計算します。次に、状態 \(s'\) と CNN モデルに基づいて、最高の Q 値 \(Q(s',a')\) を計算します。最初のステップと 2 番目のステップは B 回繰り返す必要があり、B 個の異なる 4 回転が使用されます。第三に、式(1)で示される損失関数の値を計算します。 (7) 前に計算したすべての Q(s, a)、r、および \(Q(s',a')\) を使用します。

損失関数値の計算手順。

一般に、交差点の交通状況は近隣の交差点に影響を与える可能性があります。交差点に現れた車両は次の瞬間には隣接する交差点に到着するからである。そのため、近い将来、交差点の交通渋滞が近隣の交差点に広がる可能性があります。この状況では、将来のトラフィック混雑を軽減するために、すべてのエージェントはメッセージを送信して近隣エージェントと通信する必要があります。メッセージには、対応する交差点の交通状況情報が含まれます。本章では提案する通信方式について述べる。

すべてのエージェントはローカルのトラフィック状況に基づいてアクションを選択する必要があるため、選択されたアクションを使用してトラフィック状況を表すことができます。この状況では、エージェントは、近隣によって選択されたアクションに基づいて、近隣のエージェントのトラフィック状態の観察を試みることができます。したがって、近隣に送信されるメッセージには 2 つの要素が含まれている必要があります。 1 つはエージェントの位置情報です。もう1つはアクションタイプです。したがって、メッセージは \(\langle direct,action\_type \rangle \) の形式でなければなりません。 direct は、メッセージがどの方向に送信されるかを表します。したがって、メッセージ送信者の位置を示すために使用されます。方向の値は、北、南、東、西を意味する n、s、e、および w です。 \(action\_type\) の値は 0、1、または \(-1.0\) のいずれかで、メッセージ送信者の特定のフェーズの長さが変更されないことを意味します。 1 は、関連する位相長に 5 秒が追加されることを意味します。 \(-1\) は、関連する位相長から 5 秒が短縮されることを意味します。これによると、選択されたさまざまなアクションがさまざまなメッセージに対応していることがわかります。アクションとメッセージの対応関係を表 1 に示します。最初の列に示されたアクションが選択された場合、2 番目の列に示されたメッセージが対応する近隣に送信されます。たとえば、アクション \(\langle t_1+5,t_2,t_3,t_4 \rangle \) が選択されている間、 \(\langle n,1 \rangle \) は北の近傍に送信され、 \(\langle s, 1 \rangle \) が南の隣人に送信されます。 \(\langle e,0 \rangle \) は東の隣に送信されます。 \(\langle w,0 \rangle \) は西の隣に送信されます。

異なるエージェントが異なる時間にメッセージを送信するため、メッセージの同期を考慮する必要があります。これはデータ構造を使用して実現されます。メッセージがエージェントによって受信される間、このメッセージは保存されます。受信したメッセージを保存するために使用されるデータ構造は、 \((\langle n,0 \rangle ,\langle s,0 \rangle ,\langle e,0 \rangle ,\langle w,0 \rangle )\ の形式です。）。 4 つのタプルが含まれています。最初は、すべてのタプルの 2 番目の要素は 0 です。それらは受信したメッセージに基づいて更新されます。たとえば、 \(\langle n,1 \rangle \) を受信した場合、データ構造は \((\langle n,1 \rangle ,\langle s,0 \rangle ,\langle e,0 \rangle , \langle w,0 \rangle )\)。新しいメッセージを受信すると、データ構造を直ちに更新する必要があります。そうすることで、古いメッセージを置き換えるために、リアルタイムメッセージをこのデータ構造に保存できます。交通信号のタイミングを実行する際、新しいアクション \(a'\) が選択された後、データ構造をチェックする必要があります。データ構造が \((\langle n,value_1 \rangle , \langle s,value_2 \rangle , \langle e,value_3 \rangle , \langle w,value_4 \rangle )\) に変更されたとします。 \(value_1\) または \(value_2\) のいずれかが 1 の場合、アクション \(a'\) の \(t_1\) と \(t_2\) にさらに 3 秒が追加されます。 \(value_1\) と \(value_2\) の値が (0, 0)、\((0,-1)\) または \((-1,0)\) の場合、\(t_1\) および\(t_2\) は変わりません。 \(value_1\) と \(value_2\) が両方とも \(-1\) の場合、\(t_1\) と \(t_2\) から 3 秒が減ります。 \(value_3\) または \(value_4\) のいずれかが 1 の場合、アクション \(a'\) の \(t_3\) と \(t_4\) にさらに 3 秒が追加されます。 \(value_3\) と \(value_4\) の値が (0, 0)、\((0,-1)\) または \((-1,0)\) の場合、\(t_3\)、 \(t_4\) は変わりません。 \(value_3\) と \(value_4\) が両方とも -1 の場合、\(t_3\) と \(t_4\) から 3 分が短縮されます。更新手順が完了すると、データ構造は \((\langle n,0 \rangle ,\langle s,0 \rangle ,\langle e,0 \rangle ,\langle w,0 \rangle )\) にリセットされます。

アルゴリズム 1 では、すべてのステップが while ループに含まれていることがわかります。このループは無限反復です。このループの実行時間は、信号機のサイクル数によって異なります。信号機によって n サイクルが実行された場合、アルゴリズム 1 の while ループが n 回実行されます。 while ループに含まれるすべてのステップの中で、最も時間がかかるステップはモデルのトレーニング手順です。このタスクは、Adam アルゴリズムを使用して実行されます。 Adam アルゴリズムの複雑さは \(O(\log {d\sqrt{T}})\) であるため、信号機によって n サイクルが実行された場合、提案されたアルゴリズムの複雑さは \(O(n*\ログ {d\sqrt{T}})\)。

2 つのシミュレーション実験が実行されます。すべてのシミュレーション実験には、軌跡データセットと道路網が含まれています。最初の実験では、合成軌跡データが使用されます。 2 番目の実験では、現実世界の軌跡データが使用されます。以下に、これら 2 つのデータセットの特徴と対応する道路網を紹介します。

合成軌跡データセット: このデータセットは人工的に作成されます。 5372 台の車両の軌跡が含まれています。生成された車両の到着率はガウス分布に従います。すべての車両の走行速度は55km/h以下に制限されています。そして、これらすべての車両のうち、20% が右折を選択します。彼らの 60% はまっすぐに進むことを選択します。休憩車両は左折を選択します。構築された道路網には 9 つの交差点が含まれています。これは \(3 \times 3\) グリッドです。したがって、各列と各行に 3 つの交差が含まれます。

現実世界の軌道データセット: このデータセットには 2983 台の車両の軌道が含まれています。中国山東省済南市東風区から採取されます。これらの車両はすべて 1 時間以内に道路網に入ります。建設された道路網には 12 の交差点が含まれています。これは \(3 \times 4\) グリッドです。したがって、各行には 4 つの交差点があります。各列には 3 つの交差点が含まれています。

合成軌道データセットでは、交通グリッドは \(3 \times 3\) ネットワークであり、この交通グリッド内を 5,372 台の車両が走行しています。明らかに車両数が多いです。したがって、大規模な交通渋滞の緩和における、提案された ITLC アルゴリズムの効率をテストできます。同時に、合成データが現実世界のデータとは異なることがわかります。まず、合成軌道と現実世界の軌道には違いがあります。第二に、現実世界のデータセットの車両数は合成データセットよりも大幅に少ないです。第三に、現実世界のデータセットの交通グリッドはより大きくなります。したがって、現実世界の環境で提案されたアルゴリズムの効率をテストするために、実験では現実世界の軌跡データセットが使用されます。

ITLC アルゴリズムを評価するために、この実験では平均待機時間と平均報酬値という 2 つのメトリック値が使用されます。その理由を以下に説明します。

平均待ち時間: 交通渋滞を緩和する 1 つの目標は、渋滞しているすべての車両の合計待ち時間を短縮することであることは明らかです。したがって、合計待機時間が短縮されるほど、ITLC アルゴリズムはより優れたものになります。平均待ち時間は総待ち時間に比例するため、混雑車両の平均待ち時間が指標として使用されます。

報酬: 待ち時間とキューの長さの両方を考慮するため、報酬の値は報酬セクションで説明されている方法を使用して計算されます。すべてのエージェントの平均報酬値が指標として使用されます。提案された報酬計算方法によれば、平均報酬値が高いほど、ITLC アルゴリズムは優れています。

提案されたアルゴリズムは分散型 ITLC アルゴリズムの調整効果を促進しようとしているため、異なる調整方法を採用する他の 2 つの ITLC アルゴリズムと提案されたアルゴリズムを比較する必要があります。これら 2 つのアルゴリズムのうち、1 つは SABA と呼ばれるシングルエージェントベースのアルゴリズムです。もう 1 つは MARDDPG34 と呼ばれるマルチエージェントベースの分散アルゴリズムです。これら 2 つのアルゴリズムについては以下で説明します。

SABA: このアルゴリズムでは、ディープ Q ネットワーク (DQN) アルゴリズムを使用してすべての信号機を制御します。 DQN で使用されるディープニューラルネットワークは畳み込みニューラルネットワークです。 SABA で使用される状態、アクション空間、報酬計算方法は、提案されている ITLC アルゴリズムと同じです。しかし、このアルゴリズムによりエージェント間の通信手順が不要になります。したがって、すべてのエージェントは独立して動作します。

MARDDPG: MARDDPG は、マルチエージェントベースの分散アルゴリズムです。このアルゴリズムは、深い決定論的ポリシー勾配アルゴリズムに基づいて提案されています。各エージェントのディープニューラルネットワークモデルを集中的な方法でトレーニングしようとします。この状態では、すべてのエージェントが他のエージェントのポリシーを知ることになります。ただし、モデルは分散型で実行されます。そうすることで、すべてのエージェントが独立して意思決定を行うことができます。

SABA アルゴリズムは、提案されたアルゴリズムと同じディープ Q ネットワークアルゴリズムを使用します。しかし、交通網のエージェントは相互に通信しません。したがって、すべてのエージェントは他のエージェントのトラフィック状況を知りません。 SABA アルゴリズムと提案アルゴリズムを比較することで、近隣の交差点の交通状況を考慮することが渋滞緩和に役立つかどうかをテストできます。 MARDDPG アルゴリズムも、最近提案された分散型 ITLC アルゴリズムです。このアルゴリズムでは、エージェントは相互に通信する必要がありません。すべてのエージェントは、一元的な方法でトレーニングされたモデルを通じて他のエージェントの状態を知ることを試みることができます。その後、各エージェントは他のエージェントの推定ポリシーに基づいて最適なポリシーを取得します。 MARDDPG アルゴリズムで使用される状態取得方法は非常に特徴的です。 MARDDPGアルゴリズムと提案アルゴリズムを比較することで、どの種類の分散アルゴリズムが交通渋滞を緩和するのにより効率的であるかを見つけることができます。

今回の実験で使用したシミュレーションソフトはSUMO36（Simulation of Urban MObility）です。 SUMO は、微細なオープンソース交通シミュレーションソフトウェアです。それは時間的には離散的であり、空間的には連続的です。このソフトウェアでは右側通行ルールがサポートされています。このソフトウェアではダイナミックルーティングもサポートされています。また、OpenGL ベースのビジュアルグラフィカルインターフェイスが SUMO に含まれています。 SUMO で使用される道路ネットワークは、ビジュアルグラフィカルインターフェイスを使用するか、XML ファイルを直接記述することで構築できます。

この実験で使用された信号機には 4 つのフェーズがあります。フェーズ 1 は (北、南) および (南、北) 緑です。この段階では、南行きの通過車両と北行きの通過車両が交差点を通過できます。フェーズ 2 は (北、東) と (南、西) 緑です。この段階では、北行き左折車両と南行き左折車両が交差点を通過できます。フェーズ 3 は (東、西) と (西、東) 緑です。この段階では、東行きの通過車両と西行きの通過車両が交差点を通過できます。フェーズ 4 は (東、南) と (西、北) 緑です。この段階では、東行きの左折車両と西行きの左折車両が交差点を通過できます。これらすべてのフェーズは相互に排他的です。 2 つの交差点を結ぶ道路の長さはそれぞれ 800 メートルです。各道路には 3 つの進入車線と 3 つの退出車線が含まれています。 3車線ごとに一番左の車線が直進車と左折車のために用意されています。中央車線は直進車のために用意されています。一番右の車線は右折車のために用意されています。

このセクションでは実験結果を示し、説明します。合成データセットに基づいて得られた実験結果を図 5 に示します。また、実世界のデータセットに基づいて得られた実験結果を図 6 に示します。図 5a と 6a は、会場で収集されたすべての車両の平均待ち時間を示しています。特定の時間。これら 2 つの図では、x 軸はシミュレーション実験のエピソード番号を表します。この実験には 30 のエピソードがあります。各エピソードには 200 秒が含まれます。 y 軸は平均待ち時間を表します。さらに、図１、２、３、４、５、６、６図 5b と 6b は、特定の時間に収集されたすべてのエージェントの平均報酬値を示しています。これら 2 つの図では、X 軸もシミュレーション実験のエピソード番号を表します。 y 軸は平均報酬値を表します。これら 4 つの図すべてにおいて、四角形の線は提案されたアルゴリズムを表します。円の付いた線は SABA アルゴリズムを表します。三角形の付いた線は MARDDPG アルゴリズムを表します。

合成データセットに基づく実験結果。

実世界のデータセットに基づいた実験結果。

図１〜図３に示された実験結果から、図 5a と 6a では、エピソード数が増加する一方で、これら 3 つのアルゴリズムすべての平均待ち時間が減少していることがわかります。また、図２〜図４では、 5b と 6b では、エピソード数が増加するにつれて、すべてのアルゴリズムの平均報酬値が増加していることがわかります。これは、これら 3 つのアルゴリズムすべてが交通渋滞を緩和できることを意味します。図１〜図４において、図５ａおよび６ａに示すように、ＳＡＢＡアルゴリズムの曲線は、最初の数エピソードで変動する。これは主に、SABA アルゴリズムの実行中、各エージェントが他の交差点の交通状況を知らないためです。したがって、これらのエージェントは事前にアクションを起こすことができません。しかも最初の数話は車両数がどんどん増えていきます。そのため、どの交差点でも渋滞が頻繁に発生します。さらに、MARDDPG アルゴリズムの平均待ち時間の減少率は提案アルゴリズムと同様ですが、提案アルゴリズムの曲線は MARDDPG アルゴリズムよりも滑らかであることがわかります。これは、提案アルゴリズムで使用される情報交換方法が将来の交通渋滞に対処するのにより適していることを意味します。また、図２〜図４では、 5a と 6a を見ると、これら 3 つのアルゴリズムの平均待機時間は、最後の数エピソードでほとんど変化しないことがわかります。そして、この期間中、提案されたアルゴリズムの待ち時間は MARDDPG アルゴリズムよりも短くなります。 MARDDPG アルゴリズムの待ち時間は、SABA アルゴリズムよりも短くなります。これは、提案されたアルゴリズムが他の 2 つのアルゴリズムよりも渋滞車両の平均待ち時間を短縮する点で優れていることを意味します。 MARDDPG アルゴリズムは SABA アルゴリズムよりも優れています。図１〜図４において、図 5b と 6b には、これら 3 つのアルゴリズムすべての報酬値が示されています。これら 2 つの図から、エピソード数が増加するにつれて、これら 3 つのアルゴリズムの報酬値も増加することがわかります。そして最後に、これら 3 つのアルゴリズムの報酬値は、最後の数エピソードで特定の値を中心に変動しています。明らかに、提案されたアルゴリズムの曲線は他の 2 つのアルゴリズムよりも滑らかです。これは、提案されたアルゴリズムが他のアルゴリズムよりも安定していることを意味します。過去数回のエピソードでは、提案されたアルゴリズムの報酬値が MARDDPG アルゴリズムよりも高く、MARDDPG アルゴリズムの報酬値が SABA アルゴリズムよりも高いため、提案されたアルゴリズムは報酬値の増加でより優れたパフォーマンスを発揮できると結論付けることができます。したがって、提案されたアルゴリズムは、渋滞した車両の待ち時間と列の長さの両方を効率的に削減できます。

この論文では、新しい分散アルゴリズムを提案します。従来の分散アルゴリズムは主に、強化学習アルゴリズムと調整方法で使用されるモデルの改善に関係しています。エージェント間のコミュニケーションは無視されます。提案されたアルゴリズムは、エージェント間の効率的な通信方法を設計することを試みます。さらに,提案したアルゴリズムで使用される深いQネットワークモデルを改善するために,新しい報酬計算方法を本論文で提案した。軌道から渋滞を予測できるため、今後の研究では車両の軌道の法則を考慮した信号制御を目指します。

現在の調査で使用および分析されたデータセットは、https://traffic-signal-control.github.io/#opendatasets で入手できます。

Kaelbling, LP、Littman, ML & Moore, AW 強化学習: 調査。 J.アーティフ。知性。解像度 4、237–285 (1996)。

記事 Google Scholar

Genders, W. & Razavi, S. 交通信号制御に深層強化学習エージェントを使用。 arXiv:1611.01142 (2016)。

Casas, N. 都市交通信号制御のための深い決定論的政策勾配。 arXiv:1703.09035 (2017)。

Balaji, P.、ドイツ人、X. & Srinivasan, D. 強化学習エージェントを使用した都市交通信号制御。 IETインテル。輸送システム 4、177–188 (2010)。

記事 Google Scholar

Abdoos, M.、Mozayani, N.、Bazzan, AL マルチエージェント Q 学習に基づく非定常環境における信号機制御。 2011 年、インテリジェント交通システム (ITSC) に関する第 14 回国際 IEEE 会議、1580 ～ 1585 (IEEE、2011)。

Brys, T.、Pham, TT、Taylor, ME 交通信号制御における分散学習と多目的性。接続する。科学。 26、65–83 (2014)。

記事 ADS Google Scholar

Arel, I.、Liu, C.、Urbanik, T. & Kohls, AG ネットワーク交通信号制御用の強化学習ベースのマルチエージェントシステム。 IETインテル。輸送システム 4、128–135 (2010)。

記事 Google Scholar

西哲也、大滝和也、早川和也、吉村哲也グラフ畳み込みニューラルネットによる強化学習に基づく信号機制御。 2018 年の第 21 回高度道路交通システムに関する国際会議 (ITSC)、877–883 (IEEE、2018)。

Devailly, F.-X.、Larocque, D. & Charlin, L. Ig-rl: 大規模な交通信号制御のための帰納的グラフ強化学習。 IEEEトランス。知性。トランスペアレントシステム。 23、7496–7507。 https://doi.org/10.1109/TITS.2021.3070835 (2022)。

記事 Google Scholar

Abdoos, M. 、Mozayani, N. & Bazzan, AL タイルコーディングによる q 学習を使用した交通信号の階層制御。応用知性。 40、201–213 (2014)。

記事 Google Scholar

Bakker, B.、Whiteson, S.、Kester, L. & Groen, FC マルチエージェント強化学習システムによる信号機制御。『Interactive Collaborative Information Systems』、475–510 (Springer、2010)。

アントニオ、GP & Maria-Dolores, C. 明日の交差点でコネクテッド自動運転車を管理するためのマルチエージェント深層強化学習。 IEEEトランス。ヴェー。テクノロジー。 71、7033–7043。 https://doi.org/10.1109/TVT.2022.3169907 (2022)。

記事 Google Scholar

Zheng、G.ら。交通信号制御の学習フェーズ競技。情報と知識管理に関する第 28 回 ACM 国際会議議事録、1963 ～ 1972 年 (2019)。

チェン、C.ら。千の信号に向けて: 大規模な信号制御のための分散型深層強化学習。人工知能に関する AAAI 会議議事録、34、3414–3421 (2020)。

Zang、X.ら。 Metalight: 交通信号制御のための価値ベースのメタ強化学習。手順 AAAI会議アーティフ。知性。 34、1153–1160 (2020)。

Google スカラー

Dong, S.、Wang, P.、Abbas, K. 深層学習とその応用に関する調査。計算します。科学。 Rev. 40、100379。https://doi.org/10.1016/j.cosrev.2021.100379 (2021)。

記事 MathSciNet MATH Google Scholar

Xia, Y.、Dong, S.、Peng, T.、Wang, T. 深層転送強化学習に基づく無線ネットワークの異常トラフィック検出方法。 2021 年の第 17 回モビリティ、センシング、ネットワーキングに関する国際会議 (MSN)、528–535、https://doi.org/10.1109/MSN53354.2021.00083 (2021)。

Dong, S.、Xia, Y. & Peng, T. 半教師あり深層強化学習に基づくネットワーク異常トラフィック検出モデル。 IEEEトランス。ネット。サーブ。管理。 18、4197–4212。 https://doi.org/10.1109/TNSM.2021.3120804 (2021)。

記事 Google Scholar

ノースカロライナ州ルオンら。通信とネットワーキングにおける深層強化学習の応用: 調査。 IEEE コミューン。生き残る。家庭教師。 21、3133–3174。 https://doi.org/10.1109/COMST.2019.2916583 (2019)。

記事 Google Scholar

Guo、M.、Wang、P.、Chan、C.-Y. & Askary, S. 都市交差点におけるインテリジェントな交通信号制御のための強化学習アプローチ。 2019 IEEE Intelligent Transportation Systems Conference (ITSC)、4242–4247、https://doi.org/10.1109/ITSC.2019.8917268 (2019)。

Kumar, N.、Rahman, SS、Dhakad, N. ファジー推論により、インテリジェント交通システム向けの深層強化学習ベースの信号機制御が可能になりました。 IEEEトランス。知性。トランスペアレントシステム。 22、4919–4928。 https://doi.org/10.1109/TITS.2020.2984033 (2021)。

記事 Google Scholar

Kolat, M.、Kovari, B.、Becsi, T. & Aradi, S. 交通信号制御のためのマルチエージェント強化学習: 協調的なアプローチ。持続可能性https://doi.org/10.3390/su15043479 (2023)。

記事 Google Scholar

Zhu、R.ら。インテリジェントな信号機制御のためのマルチエージェントの広範な強化学習。情報科学。 619、509–525。 https://doi.org/10.1016/j.ins.2022.11.062 (2023)。

記事 Google Scholar

Du, T.、Wang, B.、Hu, L. マルチエージェント強化学習による単一交差点の信号機制御。 J.物理学：Conf. サー。 2449、012031。https://doi.org/10.1088/1742-6596/2449/1/012031 (2023)。

記事 Google Scholar

Qu, Z.、Pan, Z.、Chen, Y.、Wang, X. & Li, H. 地域混合戦略ナッシュ均衡に基づくマルチエージェント強化学習を使用した都市ネットワークの分散制御手法。 IEEE Access 8、19750–19766 (2020)。

記事 Google Scholar

Tan, T. et al. 大規模な交通網信号制御のための協調深層強化学習。 IEEEトランス。サイバネット。 50、2687–2700 (2019)。

記事 Google Scholar

ラシッド、T.ら。 Qmix: 深層マルチエージェント強化学習のための単調値関数因数分解。機械学習に関する国際会議、4295–4304 (PMLR、2018)。

Wang, T.、Cao, J. & Hussain, A. 協調的なグループベースのマルチエージェント強化学習による大規模シナリオ向けの適応型交通信号制御。トランスペアレント解像度 C: 出てきます。テクノロジー。 125、103046。https://doi.org/10.1016/j.trc.2021.103046 (2021)。

記事 Google Scholar

Tan, T.、Chu, T.、Peng, B. & Wang, J. 分散ファジー強化学習を使用した大規模交通網信号制御。 SAI インテリジェントシステム会議 (IntelliSys) 2016 の議事録、652 ～ 662 (Springer、2018)。

Chu, T.、Wang, J.、Codeca, L. & Li, Z. 大規模な交通信号制御のためのマルチエージェント深層強化学習。 IEEEトランス。知性。トランスペアレントシステム。 21、1086–1095。 https://doi.org/10.1109/TITS.2019.2901791 (2020)。

記事 Google Scholar

Wang, X.、Ke, L.、Qiao, Z.、Chai, X. 新しいマルチエージェント強化学習を使用した大規模な交通信号制御。 IEEEトランス。サイバネット。 51、174–187。 https://doi.org/10.1109/TCYB.2020.3015811 (2021)。

記事 Google Scholar

チェン、C.ら。千の信号に向けて: 大規模な信号制御のための分散型深層強化学習。手順 AAAI会議アーティフ。知性。 34、3414–3421。 https://doi.org/10.1609/aaai.v34i04.5744 (2020)。

記事 Google Scholar

Su、H.、Zhong、YD、Dey、B.、Chakraborty、A. Emvlight: 緊急車両の効率的な通過のための分散強化学習フレームワーク。手順 AAAI会議アーティフ。知性。 36、4593–4601。 https://doi.org/10.1609/aaai.v36i4.20383 (2022)。

記事 Google Scholar

ウー、T.ら。車両ネットワークにおける都市交通信号制御のためのマルチエージェント深層強化学習。 IEEEトランス。ヴェー。テクノロジー。 69、8243–8256 (2020)。

記事 Google Scholar

Gong, Y.、Abdel-Aty, M.、Cai, Q.、Rahman, MS マルチエージェント深層強化学習による分散ネットワークレベルの適応信号制御。トランスペアレント解像度学際的。視点。 1、100020。https://doi.org/10.1016/j.trip.2019.100020 (2019)。

記事 Google Scholar

Krajzewicz, D.、Hertkorn, G.、Rössel, C. & Wagner, P. Sumo (都市モビリティのシミュレーション) - オープンソースの交通シミュレーション。シミュレーションとモデリングに関する第 4 回中東シンポジウム議事録 (MESM20002)、183 ～ 187 (2002)。

リファレンスをダウンロードする

この研究は、内モンゴル理工大学研究基金キープロジェクト (ZZ201908)、内モンゴル理工大学研究プロジェクト博士基金 (BS2020040)、中国国家自然科学財団 (62062054)、内モンゴル自然科学財団自治博士基金の支援を受けています。 (2020BS06007)、内モンゴル大学等基礎科学研究費(JY20220257)。

データ科学応用学部、内モンゴル工科大学、内モンゴル自治区ビッグデータベースのソフトウェアサービス工学技術研究センター、フフホト、10080、内蒙古、中国

劉東江 & 李雷暁

PubMed Google Scholar でこの著者を検索することもできます

DL がアルゴリズムを提案しました。 DL は実験を考案し、実験を実施し、結果を分析しました。 DLが原稿を書きました。著者全員が原稿をレビューしました。

劉東江氏への対応。

著者らは競合する利害関係を宣言していません。

シュプリンガーネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Liu, D.、Li, L. マルチエージェント深層強化学習アルゴリズムに基づく信号機制御方法。 Sci Rep 13、9396 (2023)。 https://doi.org/10.1038/s41598-023-36606-2

引用をダウンロード

受信日: 2023 年 2 月 25 日

受理日: 2023 年 6 月 7 日

公開日: 2023 年 6 月 9 日

DOI: https://doi.org/10.1038/s41598-023-36606-2

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。