IT用語集 2024/09/16

フォールトマスキングとは？ 10分でわかりやすく解説

コラム

フォールトマスキング（Fault Masking）は、障害が起きても「利用者から見える結果」をできるだけ正しく保ち、サービス停止やエラー露出を最小化するための考え方です。たとえば、サーバーが1台故障しても別のサーバーで処理を続けたり、データの一部が壊れても冗長情報から復元して正しい値を返したりすることで、ユーザーは障害を意識せずに利用を続けられます。

ただし、フォールトマスキングは「障害を起こさない」技術ではありません。冗長化や整合性制御によって障害の影響を表面化させにくくする一方で、設計・運用の複雑化やコスト増、そして“隠れた障害が蓄積する”リスクも生みます。本記事では、フォールトマスキングの定義、代表的な実装パターン、適用の判断軸、導入時に失敗しやすい注意点まで整理し、読者が自社システムで採るべき手法を判断できる状態を目指します。

フォールトマスキングとは

フォールトマスキングの定義

フォールトマスキングとは、コンピュータシステムでハードウェアやソフトウェアの障害（フォールト）が発生しても、利用者や上位の処理から見える影響をできるだけ小さくし、正しいサービス結果を返し続けるための技術・設計思想を指します。障害を検知したうえで処理を代替し、「結果として障害を表に出さない」ことを狙うのがフォールトマスキングです。

ここで混同されやすいのが、似た用語との違いです。

フォールトトレランス（Fault Tolerance）：障害が起きても許容し、サービス継続を目指す総称。フォールトマスキングはその実現手段の一部です。
フェイルオーバー：故障した系から健全な系へ切り替えること。多くの場合、ユーザー影響を最小化するために用いられます。
フェールセーフ：障害時に安全側へ倒す設計。サービス継続より「安全」を優先する場面で重要になります。

フォールトマスキングは「継続」を志向しますが、システムによっては「継続より安全」が優先されるため、フェールセーフと衝突する場合があります。どちらを優先すべきかは、業務要件とリスクで決まります。

フォールトマスキングの目的

フォールトマスキングの目的は、単に“止まらない”ことではなく、利用者に提供する価値（サービス品質）を維持することにあります。主に次の2点が中心になります。

可用性の維持：障害時でも処理を継続し、停止時間やエラー露出を抑える
ユーザー体験の維持：再ログインや再操作、エラー画面の表示を減らし、業務の中断を防ぐ

ただし、可用性には「どこまでの品質で提供し続けるか」が含まれます。たとえば、完全な機能を維持できない場合に、縮退運転（機能を限定して継続）へ切り替えるのも現実的な手段です。重要なのは、障害時の振る舞いが事前に定義され、ユーザー影響が予測可能であることです。

フォールトマスキングの特徴

フォールトマスキングは「冗長化すればOK」という話ではなく、障害を扱うための仕組みが複合的に必要になります。代表的な特徴は次の通りです。

特徴	説明
冗長化	故障しても代替できるように、コンポーネントやデータを複数用意する
障害検知	故障・遅延・誤応答などを検知し、継続可否や切替判断につなげる
隔離と切替	異常系を切り離し、健全な系へ処理を寄せる（フェイルオーバー、ルーティング変更など）
整合性制御	複数系が存在する前提で、データの整合や重複実行（副作用）を制御する
観測と復旧	ログ・メトリクスで状態を把握し、復旧や原因究明につなげる

フォールトマスキングは「冗長化＋検知＋切替＋整合性」のセットで成立すると考えると、導入難易度と運用負荷を見誤りにくくなります。

フォールトマスキングが必要とされる背景

企業活動の多くがITシステムに依存する現在、障害は「起きない前提」で設計しにくくなっています。理由は単純で、システムが複雑になり、外部依存（クラウド、API、SaaS、ネットワーク）が増え、障害要因を完全に排除するのが現実的ではないからです。

そのため、重要なのは「障害が起きることを前提に、影響を局所化し、ユーザー価値を守る設計をする」ことです。フォールトマスキングは、この考え方に沿って、停止やエラー露出を減らすための有力な手段として位置づけられます。

フォールトマスキングの実装方法

フォールトマスキングの実装は、システムの種類（Web、バッチ、基幹、分散DBなど）によって最適解が変わります。ここでは、共通して押さえるべき実装パターンを「何を守りたいか」という観点で整理します。

冗長化（リダンダンシー）の設計

冗長化は土台ですが、冗長化の「単位」を誤ると効果が出ません。代表的な単位は次の通りです。

コンポーネント冗長：サーバー、LB、ネットワーク機器、プロセスなどを複数化する
データ冗長：レプリケーション、RAID、イレイジャーコーディング、バックアップなどでデータ喪失に備える
拠点冗長：AZ／リージョン、データセンターを分け、災害や大規模障害に備える

ここで重要なのは、単一障害点（SPOF）が残っていないかです。サーバーを2台にしても、DBが単一ならDB障害で止まります。逆に、全てを二重化するとコストと運用が跳ね上がります。守りたいSLO（稼働率、復旧時間、許容損失）を先に置き、必要な冗長度を決めるのが現実的です。

エラー検知と回復メカニズムの実装

フォールトマスキングは「検知できない障害」を扱えません。検知は次の3層で考えると抜けが減ります。

生存確認：ハートビート、プロセス監視、死活監視
性能劣化の検知：タイムアウト、遅延、キュー滞留、エラー率上昇
正しさの検知：チェックサム、整合性チェック、リードリペア、投票（後述）

回復手段も、場面で使い分けます。

リトライ：一時的な失敗に強いが、やりすぎると雪崩（スパイク）を誘発する
タイムアウトとフォールバック：待ちすぎず代替経路へ切替（キャッシュ、縮退、別系統）
サーキットブレーカー：障害中の依存先に無駄な要求を投げ続けない
ロールバック：失敗した処理を戻すが、分散環境では設計が難しい

検知→切替→復旧の“自動化”は効果が大きい反面、誤検知・過剰切替のリスクもあるため、閾値設計と観測（モニタリング）が欠かせません。

フォールトマスキングを支える代表的パターン

フォールトマスキングを“実感”しやすいのは、以下のようなパターンです。

パターン	狙い	典型例
フェイルオーバー	故障系を除外し、健全系で継続	Active-Standby、DBレプリカ切替
N冗長＋投票（多数決）	誤応答を“結果”から排除	3重化（TMR）で2/3一致を採用
冗長データからの復元	データ破損を隠蔽し正しい値へ	RAID、ECC、エラーレジリエンス
キャッシュ／読み取り縮退	依存先障害でも“最低限”提供	参照系をキャッシュで返す
冪等性（べきとうせい）	再試行しても副作用を増やさない	同一リクエストIDで重複実行を防止