IT用語集 2023/11/20

VRRPとは？わかりやすく10分で解説

コラム

はじめに

インターネットや社内ネットワークでは、通信の途中で機器障害が起きることは珍しくありません。とくに拠点やサーバ室でデフォルトゲートウェイとなるルータが止まると、端末やサーバ自体が正常でも、外部ネットワークへ出られない、別セグメントへ届かないといった形で通信が途絶します。

こうしたデフォルトゲートウェイの単一障害点を減らす代表的な仕組みが、VRRP（Virtual Router Redundancy Protocol）です。複数台のルータ（またはL3スイッチ）で1つの仮想的なデフォルトゲートウェイを構成し、片方が故障してももう片方が引き継ぐことで、ネットワークを止めにくくします。

VRRPは、デフォルトゲートウェイの冗長化に向く一方、上流回線や経路そのものを自動で救う仕組みではありません。ここでは、VRRPの基本概念、状態遷移・選出の仕組み、導入時の注意点、関連技術との違いを運用目線で見ます。

VRRPとは？

VRRPは、Virtual Router Redundancy Protocolの略で、日本語では「仮想ルータ冗長プロトコル」と訳されます。複数のルータが協調して仮想ルータ（Virtual Router）を構成し、端末側からは「デフォルトゲートウェイが1台ある」ように見せながら、内部ではマスター（Master）とバックアップ（Backup）が役割分担し、障害時に自動で切り替えるプロトコルです。

ポイントは、冗長化の対象が“ルーティングそのもの”というより、端末が参照するデフォルトゲートウェイのIPアドレスであることです。端末側の設定を変えずに、そのIPアドレスを冗長化できるため、拠点ネットワークやデータセンターのサーバセグメントで広く使われます。

ネットワークの冗長性とは？

ネットワークの冗長性とは、ネットワークの一部が故障しても、別の経路・別の機器がその役割を引き継ぎ、通信やサービスを継続できるようにする設計を指します。冗長化は“保険”ではなく、実際に起きる障害（ハード故障、再起動、電源系、リンク断、保守作業）に対して、影響範囲と復旧時間を小さくするための設計です。

VRRPが扱うのは、その中でも特に重要なデフォルトゲートウェイの冗長化です。たとえばサーバが2台冗長でも、デフォルトゲートウェイが1台しかなく落ちれば、結果としてサービス全体が止まって見えることがあります。VRRPは、こうした弱点を埋めるために使われます。

VRRPの原理

VRRPは、複数台のルータが同じ「仮想ルータ」を共有し、通常時はマスターが、障害時はバックアップが、仮想IPアドレスを引き継いで通信を継続させます。ここでは、動作の中心になる要素を見ます。

仮想ルータID（VRID）

VRRPの中心要素のひとつが仮想ルータID（VRID: Virtual Router ID）です。VRIDは「このVRRPグループはどれか」を識別する番号で、同一セグメント上の参加ルータは、同じVRIDを共有して動作します。

VRIDが一致するルータ同士で、仮想IPアドレスを共有し、マスター／バックアップを決めます。端末やサーバは、デフォルトゲートウェイとしてこの仮想IPアドレスを設定します。つまり、端末側は「どの物理ルータが動いているか」を意識しません。

仮想IPアドレスと仮想MACアドレス

VRRPで重要なのは、引き継ぐのがIPアドレスだけではない点です。多くの環境では、マスターは仮想IPに対応する仮想MACアドレスもあわせて扱い、LAN内の端末は「仮想IP＝このMAC」と学習します。

障害時にバックアップがマスターへ昇格すると、バックアップが仮想IP（および仮想MAC）を引き継ぎます。結果として端末側は、デフォルトゲートウェイ設定を変えずに通信を継続できます。運用上は、この切り替え時にARP（アドレス解決）がどう更新されるか、切り替え時間に影響する要素として意識しておくとトラブルシュートが楽になります。

マスターとバックアップ

VRRPでは、同一VRIDの参加ルータがマスターとバックアップに分かれます。

マスター：仮想IP（仮想MAC）を保持し、デフォルトゲートウェイとして実際に転送を担当する
バックアップ：マスターを監視し、マスター不在と判断したら昇格して引き継ぐ

バックアップは「待機しているだけ」に見えますが、実際にはマスターからの通知（アドバタイズメント）を監視し、タイムアウトで切り替える準備をしています。

VRRPの状態遷移

VRRPの冗長化が成立する理由は、参加ルータが状態を持ち、状態に応じて振る舞いを変えるからです。状態の概念を押さえると、切り替えが遅い／切り替わらないといった障害時の切り分けがしやすくなります。

主な状態（Initialize / Backup / Master）

VRRPの状態は、運用では次の3つとして理解すると十分です。

Initialize：起動直後やVRRP開始前の準備状態
Backup：マスターを監視する待機状態
Master：仮想IP（仮想MAC）を保持し、転送を担当する状態

初期化から、選出の結果に応じてマスターまたはバックアップへ移行し、マスターが落ちたと判断すればバックアップがマスターへ昇格します。

各状態の動作

Initializeでは、ルータはVRRP設定を読み込み、VRID・仮想IP・優先度などの情報を基に、参加条件を満たすかを確認します。これは一時的な状態で、通常はすぐにバックアップまたはマスターへ移行します。

Masterは、定期的にVRRPアドバタイズメントを送信し、「自分がマスターである」ことを同一VRIDの参加者へ通知します。バックアップ側はこれを受け取り続けることで、マスター生存を判断します。

Backupは、マスターからのアドバタイズメントを監視します。一定時間アドバタイズメントを受け取れない場合（＝マスター不在と推定）、バックアップはマスターへ昇格し、仮想IP（仮想MAC）を引き継いで転送を開始します。

この仕組みの肝は、障害検知が「物理故障だけ」ではなく、「アドバタイズメントが来ない」という通信観点の判定で動くことです。たとえば、ルータ自体は生きていても、対象インターフェースが落ちていたり、制御プレーンが詰まって通知できなかったりすれば、切り替えが起きます。運用では、この性質を前提に監視設計を組み立てます。

VRRPの選出メカニズム

VRRPでは「誰がマスターになるか」を決める必要があります。ここでは、選出の基準と、切り替え時に誤解しやすい挙動を見ます。

マスターの選出（優先度）

VRRPでは、各ルータに優先度（Priority）が設定され、基本的には優先度が高いルータがマスターになります。実装や機器ベンダーのUIはさまざまですが、考え方は共通で、「普段使いたい機器に高い優先度を与える」運用になります。

たとえば、高性能なL3スイッチを優先的にマスターにしたい場合は、その機器の優先度を高くし、もう一方を低めにします。これにより通常時の処理能力を確保しながら、障害時に切り替える構成が作れます。

バックアップへの切り替え（障害検知とタイマー）

切り替えのトリガーは、マスターからのアドバタイズメントが一定時間受信できないことです。アドバタイズメント間隔やタイムアウト判定（機器の実装や設定に依存）は、切り替え時間に直結します。

「切り替えが遅い」と感じる場合、単にVRRPの設定だけでなく、リンクダウン検知、インターフェース監視、CPU高騰、L2側の収束（ARP更新など）がボトルネックになっているケースがあります。VRRPはあくまでデフォルトゲートウェイの冗長化なので、周辺要素も含めて原因を見ます。

プリエンプション（復帰時に元へ戻すか）

運用上の重要論点が、プリエンプション（Preemption）です。これは「高優先度のルータが復帰したときに、マスターを取り戻すかどうか」という挙動を指します。

プリエンプション有効：復帰した高優先度機がマスターへ戻りやすい（通常系へ戻す運用に向く）
プリエンプション無効：一度切り替えたら、安定するまで現マスターを維持しやすい（フラップ回避に向く）

どちらが正しいというより、回線品質・装置の安定性・保守手順と合わせて決めるのが現実的です。切り替えが頻発する環境では、プリエンプション設定が原因で“行ったり来たり”することがあるため、注意が必要です。

VRRPの実装

VRRPは概念としては単純ですが、実装では「何を冗長化し、どこまで切り替えるか」を明確にするほど事故が減ります。ここでは導入時に決めておきたい項目を見ます。

仮想ルータの設定（最低限決めること）

VRRPを利用するために、一般的に次の要素を設定します。

VRID：同じグループを識別する番号
仮想IPアドレス：端末がデフォルトゲートウェイとして設定するIP
優先度：マスター選出の基準
アドバタイズメント間隔：切り替え検知に影響
プリエンプション：復帰時の挙動

仮想IPアドレスは、端末やサーバから見たデフォルトゲートウェイなので、DHCPで配布するゲートウェイアドレスや、サーバの静的設定と整合するように計画します。運用の現場では、ネットワーク図や設定台帳に「仮想IP＝VRRPで冗長化されている」という情報が明記されているだけで、障害対応がかなり楽になります。

故障時のトラフィックの転送（何が起きるか）

マスターが故障（または不在と判断）された場合、バックアップがマスターへ昇格し、仮想IP（仮想MAC）を引き継いで転送を開始します。理屈としては「すぐに切り替わる」仕組みですが、実際の体感はネットワークや端末の状況に左右されます。

たとえば、切り替え直後に一部通信が途切れるのは、端末やスイッチが古いARP情報を保持していたり、セッションが既存経路依存だったりするためです。重要サービスで“途切れを最小化”したい場合は、VRRPだけでなく、L2/L3設計（経路の対称性、NATの所在、セッション保持の扱い）も含めて検討します。

よくある落とし穴（導入前に確認したいこと）

冗長化したい対象が本当にデフォルトゲートウェイか：サーバ間通信や外部回線冗長など、別要件をVRRPで解こうとしていないか
インターフェースダウン時に切り替わるか：装置の機能（トラッキング）で優先度を下げられるか
フラップに弱くないか：不安定な回線や装置で切り替えが頻発しないか（プリエンプション含む）
切り替え後の経路が正しいか：上流/下流のルーティング、NAT、FWポリシーの整合

VRRPはデフォルトゲートウェイの冗長化として非常に強力ですが、周辺設計が伴わないと、切り替え後に通信が詰まる・戻り通信が変になる、といった形で「冗長化したのに止まる」状態になり得ます。

VRRPの応用と関連技術

実環境では、VRRP単体ではなく、監視・経路制御・他プロトコルと組み合わせて使われることが多いです。ここでは、運用で確認したい論点を見ます。

インターフェース／ルート状態の監視（トラッキング）

VRRPの典型的な課題は「ルータは生きているが、上流回線が落ちている」ケースです。マスターが生きている限りバックアップは切り替えないため、結果として端末は到達できない上流を持つマスターへ通信を送り続けてしまいます。

これを避けるために、多くの機器ではインターフェース監視（リンクダウン）や、経路監視（ルート到達性）に応じて優先度を下げ、バックアップへ切り替えるための仕組み（いわゆるトラッキング）が用意されています。運用では、VRRPを入れるときに「何を監視して切り替えるか」を事前に決めておくことが重要です。

サービスの中断を防ぐための技術（HSRP / GLBP など）

VRRPと近い目的の技術として、HSRP（Hot Standby Router Protocol）やGLBP（Gateway Load Balancing Protocol）があります。いずれもデフォルトゲートウェイ冗長化に関わる仕組みですが、VRRPはIETFで標準化された方式であるのに対し、HSRPとGLBPはCisco系の独自プロトコルです。

そのため、複数ベンダーが混在する環境ではVRRPが選択肢に入りやすく、HSRPやGLBPはCisco環境で機能要件や運用方針に合わせて選ばれることがあります。