確率ネットワーク制御とは何ですか?
コストと品質のバランスを最適化するために、どのようにして最高のビジネス決定を下すことができますか?ほとんどの組織はコストとサービスレベルの間でトレードオフを適用し、彼らが探そうとする場所で...
コストと品質のバランスを最適化するために、どのようにして最良のビジネス判断を下すことができますか?ほとんどの組織はコストとサービスレベルの間でトレードオフを適用し、両方のリターンと顧客体験を最大化するためのスイートスポットを見つけようとしています。
実際には、適切なトレードオフを見つけることは非常に難しい業務です。ほとんどのビジネスが運営されているネットワークは非常に複雑であり、大きな混乱や小さな混乱の両方が、最もよく計画された計画を破壊する可能性があります。
確率的ネットワーク制御(SNC)は、モデルベースの強化学習テクニックを使用して特定のクラスの意思決定問題にアプローチする方法の1つです。これらの技術は、ネットワークとその環境を推定するための確率的モデリングを使用します。また、最適な方針を見つけるために確率的最適制御理論を取り入れています。この投稿では、SNCが何であるかを説明し、企業が意思決定プロセスを最適化する手助けをするためのこの分野での私たちの取り組みを説明します。
SNCとは何ですか?
SNCは、キュー(文献ではバッファと呼ばれることもある)と、キューを排出し、その内容を他のキューに移動したりネットワークから完全に排出したりできるリソースで構成されるネットワークのクラスにわたって最適な逐次意思決定に取り組んでいます。
これらの問題は、さまざまな現実のシナリオやシステムで発生します。例えば、工場のフロアを想像してください。生産ラインをプロセスのネットワークとしてモデル化できます:
需要は顧客からの注文として到着します。
工場はサプライヤー(これもリソース)から原材料を注文します。
原材料が工場に到着し、処理される準備が整った状態で保管されます(保管場所はキューとしてモデル化できます)。
この原材料は、オペレーターやマシン(これもリソース)によって処理され、中間製品が生産されます。
これらの中間製品は、さらなる処理のために別の場所(別のキュー)に移動されるか、必要になるまで保管されます。
最終製品の複雑さによって、さまざまなキューとリソースが存在する場合があります。
これはSNCの問題の1つの例にすぎません。キューとリソースを管理している任意のネットワークにこのクラスの問題を拡張できます。
例えば、病院を想像してください。患者が到着し、救急室(キュー)で待たなければならない一方で、他の患者は異なる部門(他のキューを表す)に到着します。病院には医師や看護スタッフ(リソース)がいて、患者(キューを排出)を診察し、どの検査や治療を処方するかを決定します。この判断は、医師または看護師が必要な検査や治療を完了するまで、患者を別のキューに移動させます。

私たちの道路交通ネットワークも別の例です。車が交差点(キュー)に到着し、信号(リソース)が移動を許可するまで待ちます。クラウドコンピューティングやテレコミュニケーションネットワークも、リソースがネットワーク全体でジョブやパケットをスケジュール、処理、送信する必要があるさらなる例です。
しかし、異なるキューは異なるコストを考慮する必要があります。例えば、病院の救急室で待機している患者は、一般的な血液検査を待っている人よりも危険度が高い(高コスト)です。また、高ストリートの店舗に商品を保管するコストは、郊外の倉庫に保管するコストよりも高いです(財務的観点から見て)。
さらに、異なる行動には異なるコストがあります。例えば、あなたは旅行時間を短縮するために高速道路を利用することを決めるかもしれませんが、その場合は道路を利用するためにお金を支払わなければなりません。
これらの問題からわかるように、目標は二重です。一方では、ストレージコストや輸送コストを削減することでネットワークの運営コストを最小限に抑えたいと思っています。他方では、私たちのサプライチェーンアプリケーションにおいては、遅延なしに顧客に注文を配達すること(サービスまたは需要満足レベルを表す)に相当する品質の概念を最大化したいと考えています。
しかし、問題があります。コストを最小限に抑え、品質を最大限に高めることは反対の基準です。コストを過度に削減すると、高品質を実現できません。したがって、トレードオフを見つけるか、一方の基準を固定して他方を最適化する必要があります。例えば、99%の需要を満たす限りコストを最小化することを決定することができます。
なぜトレードオフが難しいのか
一見すると、最適なポリシーを見つけることはそれほど難しくないように思えるかもしれません。しかし、キューとリソースは相互に関連しているため、単一のリソースによって取られた任意のローカル決定がネットワークの他の部分に影響を与えます。同様に、任意の時点で取られた瞬時の決定は未来に影響を与えます。
もう1つの重要な難点は、これらのネットワークのイベントはしばしば確率的であるということです。つまり、たとえば、同じジョブは他のジョブよりも長くかかる場合があり、顧客はいつでも到着します。
SNCは、ネットワークが長期的なコストと品質の最適なトレードオフを達成するために、各リソースが取るべきアクションを示すポリシーを導出することを目指しています。
これを達成するためには、ネットワークの現在の(確率的な)状態を考慮し、ネットワークを全体的に(局所的ではなく)考慮し、各アクションの長期的な影響(瞬時の結果ではなく)を考慮する必要があります。
機械学習を用いたトレードオフの対処
オペレーションリサーチ(OR)コミュニティは、数十年にわたり、サプライチェーンの問題を含むさまざまな業種やアプリケーションにおいてオペレーショナルSNC問題に取り組んできました。問題クラスの単純なインスタンスに対するドメイン固有のアルゴリズムがあります。このようなアルゴリズムは、通常、他の部分とは独立して問題の一部(リソーススケジューリング、在庫ルーティング、ストックポリシーなど)を扱います。
現在、AIコミュニティは逐次的意思決定を重要で難しい問題として認識しています。そのため、強化学習の分野が大きな人気の高まりを見せています。強化学習は、上記で議論したのと同じ最適な長期的コスト-品質のトレードオフを達成することを目指しています。
しかし、標準的な強化学習アルゴリズムが確率的ネットワークを制御する際に非常に挑戦的になる特別な特徴があります。これがネットワークの負荷です。負荷が高いネットワークでは、リソースはほとんどの時間で最大容量近くで運営する必要があります。そのため、ネットワークが不安定になる前に注意をそらしたり探検したりする余地がほとんどありません。
例えば、交通の交差点を想像してみてください。待機している車が少ない場合、たった1台の車が少し気を取られて10秒かかって再度動き始めても、それほど問題はありません。他の車は赤信号がまた点灯する前に通過できる可能性が高いからです。しかし、交通が混雑している場合、ほんのわずかな遅延が他の車に伝播し、増幅されて交通渋滞を引き起こす可能性があります。このような理由で、学習のために探訪する必要のある標準的なモデルフリー強化学習(RL)アルゴリズムは、通常、これらの非常に圧迫されたネットワークを制御することを学習するのに苦労します。
さらに、負荷が高いネットワークでは、リソースのほとんどが、新しいアイテム(注文、顧客、ジョブ、車など)の連続到着に対処することに費やされます。何らかの理由でバッファが満杯になると、ネットワーク内のアイテム処理にはかなりの時間がかかり、連続的に入ってくる需要に対応した後にリソースに利用可能な追加容量はほとんどありません。バッファの長さの変化のほとんどはランダムな到着によって主に駆動されるため、これは、リソースのアクションがバッファの長さの変化にどのように影響するかを学習するのに苦労する標準的なモデルフリーRLアルゴリズムにとって、もう1つの実際の課題となります。これは、RL文献における「クレジット割り当て問題」として知られており、負荷が高い状態では非常に困難になる可能性があります。
標準的なモデルフリーRLアルゴリズムのもう1つの課題は、環境が変化しない場合にのみうまく機能することです。何かが変わると、アルゴリズムを再度トレーニングする必要があります。したがって、リソースの故障などの混乱が発生すると、標準のRLアルゴリズムは反応できません。
私たちのSNC研究に固有なのは、複雑で負荷が高く、混乱があっても確率的ネットワークの逐次的な意思決定問題に取り組んでいることです。私の知識の限りでは、これを実現できる他のアルゴリズムはありません。
私たちのアルゴリズムの内部
私たちのアルゴリズムがどのようにこれを達成するかを概説しましょう。まず、ネットワークに関する事前の知識を持った状態からスタートします。これには以下が含まれます:
リソースとキューがどのように接続されているか: 基本的に、どのリソースがどのキューを排出できるか、そして各キューを離れたときにアイテム/顧客/患者/ジョブがどこに行くのかです。
運営コスト:たとえば、各キューごとのアイテムと時間ステップあたりのコストです。一部のキューに関してはこれが不明な場合、相対的な価値を使用することもできます。たとえば、ある場所で商品を保管するコストが別の場所の10倍であることがわかっている場合などです。
需要率と各キューをサービスするのにかかる時間:たとえば、月ごとの顧客数の記録された履歴、距離に基づく工場と倉庫の間のリードタイムの推定などです。
この情報は、私たちがシステムモデルと呼ぶものを構成します。このようなモデルが不確かな場合は、確率的モデリング技術を使用して推定する必要があります。これはオンラインで行うことができるため、モデルが継続的に洗練され、ネットワークの変化に動的に反応できます。
アルゴリズムの現在のバージョンは、需要の予期しない急増を自然に処理できます。なぜなら、これがすでにアルゴリズムの入力である状態の変化としてモデル化されるからです。
さらに、アルゴリズムはリソースの故障やネットワークの接続の変更など、複数の種類の混乱に即座に(再トレーニングなしで)反応できます。新しいシステムモデルがアルゴリズムに利用可能であればです。
私たちのアルゴリズムは、リソースを最小限に影響を与えながら、ある期間のために一部のリソースを無効にする予防保守を考慮するようにも拡張できます。
結論
ネットワークのモデルが与えられた場合、私たちのアルゴリズムはシステムの現在の状態を観察し、各リソースが長期的なコスト-品質のトレードオフを最適化するためにどのようなアクションを取るべきかを出力します。
この取り組みは、トレードオフを最適化する必要がある組織や、その組織が運営する業界に大きな影響を与えます。たとえば、最近の物流業界でのユースケースでは、Decision Engineがパレット回収の最適化により、輸送コストを最大25%削減し、グローバルなプールパレット業界で数十億ドルのコスト削減を実現できる可能性が出てきました。SNCは、パレットの回収、パレットの配信、および倉庫間のパレットの共有(リバランス)を同時に最適化することで、Decision Engineのさらなるネットワーク制御機能を拡張し続けます。
現在、私たちは確率的ネットワーク制御の分野での新しい研究論文に取り組んでいます。今後のブログ記事でその研究の具体的な内容を取り上げます。
このスペースにご注目ください!
追伸 - Gemma Church、Sofia Ceppi、Egor Tiavlovsky、Patrick White、Alexandra Hayesに、その洞察に満ちたコメントと議論に感謝します!