目的
サーバの耐故障性を高めるため,サーバは自身のコピー(レプリカ)を複数のサーバに設置する,といったことが行なわれます.特に,世界規模でサービスを行なう場合や,重要なサービスを行なっているサーバで災害への対策も考慮する場合などには,非常に広い範囲(国をまたがって)サーバレプリカを配置する,といったことが行なわれます.このような状況は広域SMR(ステートマシンレプリケーション;State Machine Replication)と呼ばれます.広域SMRでは,広域に分散配置されるからこそネットワーク状況(混雑度など)の影響を強く受けます.本研究ではネットワークの特性も考慮しながら,広域SMRにおいて信頼性高く,かつ,高性能なサーバを運用する方法やそのためのアルゴリズム,システムの提案などを行なっています.
内容
分散配置されたサーバはクライアントからの要求処理を行なった後,その正当性を保証するため「合意」という処理を行ないます.この際,サーバレプリカとクライアントの位置関係に応じてその応答時間が異なってくることとなり,その予測手法の提案を行なっています.また,いずれかのレプリカが故障などでストップしてしまった場合には他のサーバの実行状態をコピーして復帰する,といったことが行なわれます.この再,各サーバから現在利用可能なバンド幅に応じて状態量(転送量)を変化させ,状態転送にかかる時間を短縮する方法の提案などを研究しています.
キーワード
広域SMR,フォールトトレランス,分散システム,ビザンチン故障