IT用語集

ネットワーク障害とは? 管理担当者が知っておきたい原因と対策

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

ネットワーク障害とは、回線、機器、設定、外部サービスのいずれかに問題が起き、正常な通信ができなくなる状態です。症状は「まったくつながらない」「遅い・不安定」「特定の通信だけ失敗する」の3つに大別すると、初動の切り分けが進めやすくなります。最初に確認すべきなのは、影響範囲、発生直前の変更有無、物理層・IP層・名前解決のどこで詰まっているかです。

企業では、ネットワーク障害が従業員の業務停止だけでなく、顧客向けサービスの停止、問い合わせ増加、売上機会の損失につながることがあります。しかも、原因は機器故障だけではありません。設定変更ミス、輻輳DNS障害、認証失敗、回線事業者側の障害など、見え方の似た問題が複数あります。復旧を速くするには、障害の種類を知るだけでなく、平時にどこを観測し、障害時にどの順で切り分けるかを決めておく必要があります。

ネットワーク障害とは

ネットワーク障害とは、ネットワークを構成する要素(回線、機器、設定、サービスなど)に問題が発生し、正常な通信ができない状態を指します。原因は一つとは限らず、物理的要因(故障・断線)と論理的要因(設定不備・過負荷・制御プロトコルの不整合など)が重なって発生することもあります。

ネットワークは、社内システム、クラウド、Web会議、認証基盤、拠点間通信の土台です。そのため、障害が起きたときは「ネットワークが落ちた」で終わらせず、どの区間で、どの機能が、どの程度止まっているかを切り分ける必要があります。

ネットワーク障害と混同しやすい不具合

「つながらない」「遅い」という訴えがあっても、原因が常にネットワークにあるとは限りません。たとえば、Webアプリのサーバー側障害、認証基盤の停止、接続先SaaSの障害でも、利用者からは同じように見えます。逆に、アプリの不具合に見えても、実際にはDHCPDNS、経路制御、MTU不整合が原因のことがあります。

初動で重要なのは、「端末はIPを取得できているか」「デフォルトゲートウェイへ届くか」「名前解決できるか」「特定アプリだけ失敗するのか」を順に確認し、ネットワーク障害とアプリケーション障害を混同しないことです。

ネットワーク障害は「3つの症状」で現れやすい

現場での初動を速くするには、症状を大きく3つに分けて捉えると切り分けが進みやすくなります。

  • 完全に通信できない(リンクダウン、経路断、認証失敗、アドレス付与失敗など)
  • 遅い・不安定(遅延増加、パケットロス、輻輳、CPU高騰、再送増加など)
  • 特定だけ不可(DNSだけ、特定SaaSだけ、拠点間だけ、特定VLANだけなど)

「完全停止」と「遅い・不安定」と「特定だけ不可」では、疑うべき原因も見るべき観測点も変わります。まず症状をこの3つのどれに近いか言語化して共有すると、対応がばらつきにくくなります。

ネットワーク障害の影響範囲

ネットワークはITシステムの基盤であるため、障害が発生すると次のような業務影響が連鎖的に起きやすくなります。

  • 社内システム(勤怠、会計、グループウェアなど)にアクセスできない
  • インターネットに接続できず、SaaS、Web会議、クラウドストレージが使えない
  • 拠点間通信が途切れ、各拠点の業務が停止または遅延する
  • 顧客向けサービスが停止し、問い合わせ増加や機会損失が発生する

クラウド利用が進んだ環境では、社内ネットワークが止まることが、そのまま業務の入口が止まることを意味しやすくなります。復旧時間がそのまま損失に結び付きやすいので、影響範囲の把握は初動の最優先事項です。

影響範囲を切り分ける「起点」

障害の影響範囲は、まず次の観点で整理します。

  • 対象:単一端末 / 複数端末 / フロア / 拠点 / 全社
  • 方向:社内LAN内 / 拠点間 / インターネット出口 / 特定SaaS
  • プロトコル:DNS / DHCP / 認証(802.1X、VPN)/ Web(HTTPS)/ メール など

この整理ができると、「まずどこを疑うか」が具体化します。単一端末だけなら端末設定やポート収容、拠点単位なら回線や上位機器、特定SaaSだけなら名前解決や経路、接続先障害を優先して疑えます。

ネットワーク障害が発生する理由

ネットワーク障害の原因はさまざまですが、代表例としては次のようなものがあります。

  • 機器の物理的故障(ルーター、スイッチ、無線AP、ファイアウォールなど)
  • LANケーブルや光ケーブルの物理的故障(断線、劣化、抜け)
  • 帯域圧迫や機器過負荷による輻輳
  • 設定誤りなどの人的ミス(ルーティング、VLAN、ACL、DNS、DHCPなど)
  • 回線事業者やクラウド側の障害(ISP障害、上位回線障害、サービス側障害など)

物理的要因:故障・断線は即、通信停止につながりやすい

ネットワーク機器は原則として常時稼働し続けるため、機器故障は直ちに通信断につながりやすい要因です。また、機器同士を接続するケーブルの断線や接触不良も、見落とされやすい障害要因の一つです。

物理要因でよくある見落とし

  • 電源(ブレーカー、UPS、電源ケーブルの緩み)
  • 光モジュール、トランシーバ、SFPの不良や相性
  • リンクは上がっていても、CRCエラーが増えている
  • PoE給電不足で無線APやIP電話が断続的に落ちる

「完全に落ちた」だけでなく、「断続的に切れる」「遅い」という症状の背景に物理要因が潜むこともあります。リンクランプだけで正常と判断すると見誤ります。

論理的要因:過負荷や制御の問題で、つながらない・遅いが起きる

アクセス集中や大容量通信により、機器の処理性能や回線帯域を超えるトラフィックが発生すると、遅延やタイムアウトが増え、結果として接続できない状態に見えます。障害が完全停止ではなく、遅延や断続的な切断として現れる場合は、過負荷や輻輳も疑う必要があります。

論理要因で疑うべき典型パターン

  • DNSが遅い、または失敗して「Webが開けない」に見える
  • DHCPが枯渇または到達せず、IPアドレスが付かない
  • ループSTP不整合など)でブロードキャストやマルチキャストが増大し、遅延する
  • ルーティングの不整合で、片方向だけ通る、経路が揺れる、ブラックホールが生じる
  • MTU不整合で、VPNや特定SaaSだけ失敗する
  • UTMやファイアウォールのセッションテーブル枯渇、CPU高騰で断続障害になる

「通信できない=回線断」と決めつけると、DNS、IP付与、経路、フィルタリングの問題を見逃します。どこで詰まっているかを順に確認するほうが近道です。

人的要因:小さな設定ミスが全体障害になることがある

ネットワーク構成の変更は影響範囲が広くなりがちです。ルーティング、VLAN、ACLを一つ誤るだけでも、フロア全体や拠点全体が通信不能になることがあります。変更作業の手順化、レビュー、影響範囲の事前確認が欠かせません。

人的ミスが全体障害になりやすい理由

  • ネットワークは共有基盤であり、1点の変更が多数の通信に波及する
  • 設定の誤りが、障害が起きるまで顕在化しにくい
  • 変更直後は利用者のアクセスと問い合わせが集中し、影響が拡大しやすい

外部要因:自社機器が正常でも外で止まる

社内LANには接続できるのにインターネットへ出られない場合、回線事業者側や上位回線、あるいは接続先サービス側の障害が原因の可能性があります。地震などの災害、工事による断線のように、自社では制御できない要因で止まることもあります。

外部要因の切り分けで見る点

  • 複数回線(別キャリア、別経路)でも同時に影響が出ているか
  • 特定SaaSだけ不調なのか、全インターネット宛てが不調なのか
  • 回線事業者やクラウドのステータス情報と照合できるか

ネットワーク障害に備える対策

ネットワーク障害の対策は、単一障害点(SPOF)を作らないことが出発点です。どこか一箇所が故障しても全体が停止しないように、冗長化、監視、運用手順の整備を組み合わせて備えます。

冗長化:経路・機器を複線化し、止まらない設計にする

ネットワーク機器を冗長化し、複数の通信経路を用意することで、障害時も接続を継続できる可能性が高まります。重要度や予算に応じて、コア機器、回線、電源のどこを冗長化すべきかを設計段階から整理することが必要です。

冗長化は「どこまで自動で切り替わるか」が本質

冗長化は機器を二重化しただけでは不十分です。故障検知 → 切り替え → 通信復旧が想定通りに動くことが重要です。抜けやすいのは次の観点です。

  • 回線断時の自動フェイルオーバー(ルーティングやゲートウェイの切り替え)
  • 冗長機器のソフトウェアや設定差分の管理(片系だけ古い状態など)
  • 切り替え後に、DNS、認証、業務SaaSなど必要な通信が本当に通るか

冗長化は、構成図上に二重線を書いて終わりではありません。年1回でもよいので、計画的にフェイルオーバー試験を行い、切り替えできる状態を維持する必要があります。

監視:異常を早く気づくほど復旧が早い

障害対応では、気づくまでの時間と、原因を特定するまでの時間が復旧時間を左右します。日頃からネットワークの状態(遅延、パケットロス、機器稼働、帯域利用率など)を監視し、閾値超過や断線を検知したら通知される仕組みを整えておきます。

監視で押さえたい最低限の観測点

  • 可用性死活監視、インターフェースのリンク状態
  • 品質:遅延、パケットロス(拠点間、インターネット出口)
  • 容量:帯域使用率、セッション数、CPU、メモリ、ディスク
  • サービス:DNS応答、DHCPリース状況、認証(802.1X、VPN)の成功率
  • ログ:設定変更、再起動、冗長切り替え、ルーティング変化の記録

特に「遅い・不安定」系の障害は、帯域、遅延、パケットロスを普段から見ていないと原因が見えにくくなります。障害時だけログを探し始めても遅れやすい領域です。

運用整備:手順化と変更管理で人的ミスを減らす

障害をゼロにするのは現実的ではありませんが、人的ミスの確率は下げられます。設定変更のレビュー、作業前の影響範囲確認、ロールバック手順の準備、作業記録の徹底など、変更管理を整備することが有効です。

変更管理で実装しておきたいこと

  • 変更前の設定バックアップ、差分の保管
  • 作業手順、影響範囲、戻し手順(ロールバック)の明文化
  • 実施時間帯、関係者、連絡手段(緊急連絡網)の整理
  • 変更後の確認項目(疎通、DNS、主要SaaS、拠点間通信)の固定化

変更後に何を確認するかが決まっているだけで、初動の品質はかなり安定します。逆に、確認項目が曖昧だと、障害が起きてから見落としが発覚しやすくなります。

ネットワーク障害発生時の対処法

ネットワーク障害が発生したときは、「直す」前に「どこまで壊れているか」を固定して整理する必要があります。試行錯誤で設定変更を重ねると、原因が上書きされて再発防止につながりません。対応の流れは、影響範囲の特定、原因の切り分け、要因分析、運用への反映の順で考えると整理しやすくなります。

0) まずは状況を固定する

障害対応では、誰かが試しに設定を触り始めると、原因が追えなくなることがあります。まずは次の情報を押さえます。

  • 発生時刻と、発生直前の変更(設定変更、機器交換、回線工事など)
  • 影響範囲(どこまで、誰が、何ができないか)
  • 現時点のログや監視データの確保

この時点で情報を残しておくと、復旧後の再発防止までつなげやすくなります。逆に、ここを飛ばすと「直ったが原因が分からない」で終わりがちです。

1) 発生箇所と影響範囲を特定する

ネットワークがつながらないといっても、特定端末だけの問題なのか、フロア単位なのか、拠点全体なのかで対応は変わります。まずは影響範囲を整理し、問題が起きている区間(端末〜スイッチ、スイッチ〜ルーター、拠点間、インターネット出口など)を絞り込みます。

切り分けの最短ルートは「層を分ける」こと

次の順で確認すると、原因を絞り込みやすくなります。

  • L1 / L2:リンクは上がっているか、無線は接続できているか、VLANは正しいか
  • L3:IPアドレスは付いているか、デフォルトゲートウェイへ届くか
  • 名前解決:DNSが引けるか
  • 経路:拠点間やインターネットへ出られるか
  • アプリ:特定SaaSだけか、全般か

Pingが通るかどうかだけで終わらせず、名前解決や経路、必要に応じてMTUも見ると、「特定だけ使えない」障害に強くなります。

2) 原因を切り分ける

物理故障(リンクダウン、電源、断線)なのか、論理要因(設定、過負荷、名前解決、認証)なのか、外部要因(回線、上位サービス)なのかを切り分けます。切り分けが進むほど、復旧の打ち手は具体化します。

代表的な切り分けチェック

  • 社内LANは使えるがインターネットだけ不可:出口機器、DNS、回線、上位障害を疑う
  • 特定拠点だけ不可:拠点回線、拠点側機器、拠点間ルーティングを疑う
  • 特定VLANや特定端末だけ不可:DHCP、ACL、認証(802.1X)、VLAN設定を疑う
  • 遅い・断続的に切れる:帯域使用率、パケットロス、CPU、セッション枯渇、ループを疑う

この段階では「仮説 → 観測 → 仮説更新」を短い周期で回すことが重要です。思い込みで一方向に決め打ちすると、復旧が遅れます。

3) 要因を分析し、再発防止につなげる

表面的な原因だけを取り除いても、要因が残っていれば再発します。たとえば輻輳が起きたなら、トラフィック増加の背景、設計余裕、監視閾値、利用形態の変化まで掘り下げて整理する必要があります。

再発防止で整理したい観点

  • なぜ検知が遅れたか(監視不足、通知経路、閾値)
  • なぜ切り分けに時間がかかったか(構成図不足、権限不足、手順未整備)
  • 同じ原因が再発するとしたら、どの兆候が先に出るか

原因そのものの対策だけでなく、「次はもっと早く気づける」「次はもっと早く切り分けられる」状態を作ることが、再発防止では重要です。

4) 復旧後に運用へ反映する

復旧したら終わりではありません。手順書、構成図、監視項目、変更管理のルールに反映し、次回の復旧を速くする必要があります。障害対応を一度きりの作業で終わらせず、運用改善の材料として残すことが、障害に強いネットワークを作る近道です。

この記事のまとめ

ネットワーク障害は、単に「つながらない状態」を指す言葉ではありません。完全停止、遅延、不安定、特定通信だけ失敗といった症状の違いを見分け、物理、論理、外部要因のどこに問題があるかを切り分けて初めて、復旧の方向が定まります。

平時に準備しておくべきことは明確です。単一障害点(SPOF)を減らす設計、冗長化の切り替え試験、遅延やパケットロスまで含めた監視、変更管理とロールバック手順、構成図と連絡先の整備です。障害時に必要な情報が残っていなければ、復旧も再発防止も遅れます。

既存ネットワークを見直すなら、まず「どこが落ちると業務が止まるか」「どの区間を監視できていないか」「障害時に参照できる構成情報と手順がそろっているか」を確認するのが出発点です。


よくある質問(FAQ)

Q. ネットワーク障害とは何ですか?

A. 回線、機器、設定、サービスなどに問題が起き、正常な通信ができなくなる状態です。物理要因と論理要因が重なることもあります。

Q. ネットワーク障害が起きると、具体的に何が止まりますか?

A. 社内システム、SaaS、Web会議、メール、拠点間通信、顧客向けサービスなどが利用できなくなり、業務停止や機会損失につながることがあります。

Q. 「社内LANはつながるがインターネットだけ出ない」原因は何ですか?

A. 回線事業者側の障害、上位回線の問題、DNS設定、出口ルーターやファイアウォールの不具合などが考えられます。影響範囲を切り分けて原因区間を絞る必要があります。

Q. 物理故障と論理障害はどう見分ければよいですか?

A. 物理故障はリンクダウン、断線、電源断のように完全断として出やすく、論理障害は遅延、断続的切断、特定通信だけ不可として現れやすい傾向があります。

Q. 輻輳(ふくそう)とは何ですか?

A. 回線帯域や機器性能に対してトラフィックが過剰になり、遅延やパケット損失が発生する状態です。「つながらない」より「遅い」「タイムアウトが増える」として見えることがあります。

Q. ネットワーク障害対策で最も重要な考え方は何ですか?

A. 単一障害点(SPOF)を作らないことです。冗長化、監視、変更管理を組み合わせ、止まりにくく復旧しやすい状態を作ることが基本です。

Q. 冗長化すればネットワーク障害は起きませんか?

A. 起きにくくはなりますが、ゼロにはできません。冗長化は「止まりにくくする」「復旧を速くする」ための設計であり、監視と運用整備が前提です。

Q. 障害発生時に最初にやるべきことは何ですか?

A. 発生時刻、発生直前の変更、影響範囲を固定し、ログや監視データを確保することです。そのうえで、端末、フロア、拠点、インターネット出口のどこまで影響しているかを切り分けます。

Q. 設定変更が原因の障害を減らすにはどうすればよいですか?

A. 変更作業の手順化、レビュー、影響範囲確認、ロールバック手順の準備、変更後の確認項目の固定化が有効です。

Q. 障害復旧後にやるべきことは何ですか?

A. 原因と要因を整理し、手順書、構成図、監視項目、変更管理ルールへ反映することです。次回の検知、切り分け、復旧を速くするために必要です。

記事を書いた人

ソリトンシステムズ・マーケティングチーム