IT用語集

データウェアハウスとは? わかりやすく10分で解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

データウェアハウス(DWH)とは

データウェアハウス(Data Warehouse:DWH)とは、複数のシステムやデータソースから集めたデータを、分析しやすい形に整備し、一元的に保管・管理する基盤です。販売管理、会計、CRM、Webログ、広告、サポート、外部データなどを統合し、レポート、ダッシュボード、経営分析、施策評価に使える状態へ整えます。

DWHは、単なるデータの保存場所ではありません。日々の業務処理を担うデータベースとは目的が異なり、意思決定に必要なデータを同じ定義・同じ粒度・同じルールで確認できるようにするための分析基盤です。部門ごとに異なる「売上」「顧客」「商品」「期間」の定義をそろえ、同じ数字を同じ意味で扱える状態を作ります。

DWHの基本特性

DWHは、一般に主題指向、統合、時系列、非揮発という4つの特性で説明されます。これはDWHの概念を体系化したWilliam H. Inmon氏の定義に基づく整理で、DWHと通常の運用データベースを分けて理解するうえで役立ちます。

主題指向注文処理や請求処理などの業務処理単位ではなく、売上、顧客、商品、チャネルなど、分析テーマを軸にデータを整理します。
統合システムごとに異なるID、表記、日付形式、商品コード、地域区分、指標定義をそろえ、横断分析できる状態にします。
時系列現在の状態だけでなく、過去の状態も保持します。前年同月比、施策前後比較、顧客行動の変化、需要予測などに使えます。
非揮発頻繁な更新・削除を前提とせず、追記・蓄積を中心に扱います。データ修正が必要な場合も、修正理由や履歴を追跡できる運用にします。

DWHの役割

DWHの役割は、複数のデータを集約し、統合し、分析に使える形で保存することです。現実の業務データには、欠損、重複、表記ゆれ、コード体系の違い、集計粒度の差があります。DWHでは、これらを分析に耐える形へ整備します。

代表的な処理に、ETL(Extract / Transform / Load)があります。データを抽出し、変換し、DWHへ格納する流れです。近年は、先にデータを格納してから変換するELT(Extract / Load / Transform)も使われます。ETLとELTは順序が異なりますが、どちらも分析に使えるデータへ整えることが目的です。

DWHが意思決定に使われる理由

DWHがあると、部門ごとに別々のデータを集計して数字が合わない状態を減らせます。例えば、営業部門の売上、経理部門の売上、マーケティング部門の売上が異なる基準で集計されていると、会議では原因分析より定義確認に時間を使うことになります。

DWHで定義を統一すれば、売上、顧客数、継続率、広告効果、在庫、問い合わせ件数などを同じ前提で確認できます。分析の目的は、単にデータを表示することではなく、何が起きたか、なぜ起きたか、次にどの施策を取るかを判断することです。

DWHとデータベースの違い

DWHとデータベースは、どちらもデータを保存し検索する仕組みですが、目的が異なります。一般的な運用データベースは日々の取引処理を正確かつ高速に行うために使われ、DWHは集計・分析・レポーティングを行うために設計されます。

運用データベースの役割

運用データベースは、受注登録、在庫更新、請求処理、顧客情報更新など、業務処理を支えるデータベースです。OLTP(Online Transaction Processing)と呼ばれる処理に適しており、短時間で多くの登録・更新・削除を正確に処理します。

運用データベースでは、現在の状態を正確に保つことが重視されます。たとえば、現在の在庫数、最新の顧客住所、直近の注文状態などを扱います。業務処理中に重い分析クエリを実行すると、システム性能に影響する場合があります。

DWHの役割

DWHは、分析処理を支える基盤です。OLAP(Online Analytical Processing)と呼ばれる分析・集計用途に適しており、大量データの検索、結合、集計、時系列比較を行います。

DWHでは、現在の状態だけでなく過去の履歴も保持します。たとえば、1年前の顧客属性、過去の価格、キャンペーン期間中の売上、地域別の推移などを分析できます。運用データベースからDWHへデータを連携することで、業務処理と分析処理の負荷を分離しやすくなります。

DWHと運用データベースの比較

主な目的運用データベース:日々の業務処理を正確に実行する。
DWH:集計・分析・意思決定を支援する。
扱うデータ運用データベース:最新状態のデータが中心。
DWH:過去履歴を含む統合データが中心。
処理の特徴運用データベース:登録・更新・削除が多い。
DWH:検索・集計・結合・分析が多い。
利用者運用データベース:業務システム、現場担当者、アプリケーション。
DWH:経営層、分析担当者、BI利用者、企画部門。

DWHと関連するデータ基盤の違い

DWHを理解するには、データレイク、データマート、ビッグデータ、BIとの違いも押さえる必要があります。これらは対立する概念ではなく、目的に応じて組み合わせて使われます。

データレイクとの違い

データレイクは、構造化データ、半構造化データ、非構造化データを、比較的元の形に近い状態で蓄積するリポジトリです。ログ、画像、音声、文書、センサーデータなどを幅広く保存し、後から目的に応じて加工・探索する用途に適しています。

DWHは、定義や形式を整えたデータを使い、安定した分析や定型レポートを行う用途に適しています。探索的に幅広いデータを扱うならデータレイク、統一された指標で継続的に分析するならDWHが候補になります。

データマートとの違い

データマートは、特定の部門や用途に合わせて作られる分析用データ領域です。営業向け、マーケティング向け、財務向けなど、利用目的を絞って必要なデータを提供します。

DWHは全社共通の統合基盤として使われることが多く、データマートはそのDWHから特定用途向けに切り出して作られることがあります。全社共通の定義をDWHで保ち、利用部門ごとの見やすさをデータマートで補う構成が考えられます。

ビッグデータとの違い

ビッグデータは、量、種類、発生速度が大きいデータの総称として使われます。ログ、センサーデータ、購買履歴、クリックストリーム、SNSデータなど、処理量や形式の多様性が課題になる領域です。

DWHは、主に分析しやすく整備されたデータを扱います。現代のデータ基盤では、ビッグデータをデータレイクに取り込み、その一部をDWHで整備し、BIや分析で使う構成もあります。

BIとの関係

BI(Business Intelligence)は、データを集計・可視化し、意思決定を支援する手法やツール群です。ダッシュボード、レポート、グラフ、ドリルダウン、アラートなどが含まれます。

DWHは、BIが使う主要なデータソースになります。BIツールの画面が見やすくても、元データの定義がばらばらであれば、分析結果の信頼性は下がります。DWHでデータを整備し、BIで利用者に分かりやすく提示することで、データ活用を業務に組み込みやすくなります。

DWHの主な機能

DWHの機能は、データ統合、履歴管理、検索・分析、データ品質管理、権限管理に分けて考えられます。分析基盤として機能させるには、データを入れるだけでなく、使える形で管理する必要があります。

データ統合

DWHは、複数の業務システムや外部サービスからデータを取り込み、共通の形式へ整えます。顧客ID、商品コード、日付、地域、通貨、部門名などをそろえることで、横断的な分析を可能にします。

同じ顧客が複数システムで別IDになっている、商品名の表記が異なる、売上計上日がシステムごとに違う、といった状態では、正確な分析ができません。DWHでは、マスターデータや変換ルールを使って整合性を保ちます。

履歴管理

DWHは、過去の状態を含めてデータを保持します。顧客属性、商品価格、担当部門、契約状態などは時間とともに変わるため、いつの時点の情報かを保持する設計が必要です。

履歴管理ができていれば、前年同月比、施策前後比較、顧客の継続・離脱、価格変更の影響などを分析できます。履歴が失われると、過去時点の状態を再現しにくくなります。

検索・分析の効率化

DWHは、大量データに対する検索、集計、結合を効率的に行うために設計されます。パーティショニング、クラスタリング、列指向ストレージ、集計テーブル、マテリアライズドビューなど、製品や構成に応じた高速化手段があります。

ただし、DWHは導入するだけで自動的に高速になるわけではありません。利用されるクエリ、データ量、更新頻度、集計粒度、保存期間に応じて、スキーマ設計と運用を調整します。

データ品質管理

DWHでは、欠損、重複、異常値、表記ゆれ、取り込み失敗を検知し、分析結果への影響を抑えます。データ品質が低いままBIで可視化すると、見た目は整っていても判断を誤る可能性があります。

品質管理では、データ取り込み時の検証、マスターデータ管理、変換ルールの文書化、エラー通知、修正履歴の保存を行います。誰が見ても同じ結果になる分析基盤を作るには、データ品質の運用が欠かせません。

権限管理と監査

DWHには、売上、顧客、契約、従業員、会計、行動ログなど、機密性の高いデータが集まります。利用者ごとにアクセス範囲を制限し、必要に応じて行レベル・列レベルのアクセス制御やデータマスキングを行います。

また、誰がどのデータへアクセスしたか、どのクエリを実行したかを監査ログとして残します。分析基盤であっても、情報資産を扱う以上、セキュリティと監査の設計が必要です。

DWH構築の進め方

DWH構築では、技術選定より先に、何を分析したいのか、どの指標を共通化するのか、どのデータをどの粒度で持つのかを決めます。目的が曖昧なまま構築すると、データは集まっても使われない基盤になります。

分析目的と指標を決める

最初に、経営、営業、マーケティング、製造、サポートなど、利用部門が確認したい問いを整理します。売上をどの単位で確認するのか、顧客をどの単位で数えるのか、返品やキャンセルをどう扱うのかなど、指標定義を決めます。

指標定義が曖昧なままDWHを作ると、BI画面上で数字は表示されても、部門ごとに解釈が分かれます。DWH構築では、データモデルだけでなく、指標の意味と利用条件を文書化します。

データソースを棚卸しする

次に、利用するデータソースを洗い出します。販売管理、会計、CRM、Web解析、広告、サポート、在庫、外部データなど、どのシステムから何を取得するかを決めます。

データソースごとに、更新頻度、取得方法、項目定義、データ品質、利用制約、個人情報や機密情報の有無を確認します。取得できるデータと、分析に使えるデータは同じではありません。

ETLまたはELTを設計する

ETLまたはELTでは、データを抽出し、必要な形式へ変換し、DWHへ格納します。変換処理では、項目名の統一、コード変換、重複排除、欠損補完、日付形式の統一、マスターデータとの突合を行います。

処理失敗時の通知、再実行手順、取り込み遅延の許容範囲、エラー時の扱いも決めます。データ連携は一度作れば終わるものではなく、元システムの仕様変更や項目追加に合わせて更新します。

データモデルを設計する

DWHでは、分析しやすい形でデータモデルを設計します。ファクトテーブル、ディメンションテーブル、スター・スキーマ、スノーフレーク・スキーマなど、分析目的に応じた構成を選びます。

利用者がどの粒度で分析するかによって、保持すべきデータの細かさが変わります。日次か月次か、商品単位かカテゴリ単位か、顧客単位か企業単位かを決めなければ、後から必要な分析ができなくなる場合があります。

BIと利用部門へ提供する

DWHに格納したデータは、BIツール、SQL、分析ツール、機械学習基盤などから利用されます。利用部門には、指標定義、更新タイミング、利用できる範囲、注意点を示します。

BIダッシュボードを作成する場合は、画面の見やすさだけでなく、指標の意味、データの更新時刻、フィルタ条件、集計ロジックを確認できるようにします。

DWH選定のポイント

DWH製品やサービスを選ぶ際は、性能や機能だけでなく、データ連携、運用負荷、権限管理、コスト、サポートを確認します。クラウドDWHを使う場合も、設定と運用の責任は利用者側に残ります。

対応するデータ量と性能

現在のデータ量だけでなく、数年後の増加量、履歴保持期間、同時利用者数、クエリの重さを見積もります。大量データを扱う場合は、処理性能だけでなく、コストがどのように増えるかも確認します。

データ連携のしやすさ

既存の業務システム、クラウドサービス、SaaS、ファイル、API、ストリーミングデータと連携できるかを確認します。連携コネクタがあっても、取得できる項目や更新頻度に制約がある場合があります。

運用負荷

DWHは構築後も、データ取り込み、品質確認、性能調整、権限管理、コスト監視を継続します。社内で運用できる範囲か、外部支援が必要か、障害時の対応を誰が行うかを決めます。

セキュリティとガバナンス

DWHには機密情報が集まるため、最小権限、暗号化、監査ログ、データマスキング、ネットワーク制御、バックアップ、復旧手順を確認します。個人情報や営業秘密を扱う場合は、利用目的、アクセス権限、保存期間、削除手順も管理します。

コスト構造

DWHのコストは、保存容量、コンピュート、データ転送、クエリ実行、バックアップ、サポート、周辺ツールによって変わります。初期費用だけでなく、利用量が増えた場合の費用と、運用担当者の工数も含めて評価します。

DWH導入で失敗しやすいポイント

DWH導入で起こりやすい失敗は、技術よりも目的と運用の曖昧さにあります。データを集めても、指標定義や責任者が不明確なままでは、継続利用されません。

目的が曖昧なまま構築する

「データを集めれば分析できる」という前提で始めると、利用部門が必要とする指標や粒度と合わない基盤になります。最初に、どの意思決定に使うのか、どの問いに答えるのかを決めます。

データ品質の運用を後回しにする

取り込みに成功しても、データの欠損や定義違いが残っていれば、分析結果は信用されません。データ品質を誰が確認し、エラーを誰が修正し、変換ルールを誰が更新するかを決めます。

権限設計が粗い

分析基盤は多くの利用者が使うため、権限が広くなりがちです。顧客情報、従業員情報、契約情報、売上原価などは、利用者の役割に応じて閲覧範囲を制限します。

コスト監視をしない

クラウドDWHでは、クエリ実行量やコンピュート利用量に応じて費用が増えることがあります。重いクエリ、不要なデータ保持、検証環境の放置を監視しなければ、想定外の費用が発生します。

まとめ

DWHは、複数ソースのデータを分析に使いやすい形へ整備し、一元的に保管・管理する基盤です。主題指向、統合、時系列、非揮発という特性を持ち、BI、レポート、ダッシュボード、経営分析を支えます。

運用データベースが日々の取引処理を担うのに対し、DWHは過去履歴を含む統合データを使い、分析と意思決定を支援します。データレイク、データマート、BIとは役割が異なりますが、現代のデータ基盤では組み合わせて使われます。

DWHを導入する際は、分析目的、指標定義、データソース、ETL/ELT、データモデル、権限管理、コスト監視を設計します。データを集めるだけでなく、利用部門が同じ定義で継続的に使える状態を作ることが、DWH導入の成否を分けます。

よくある質問(FAQ)

Q.DWHとは何ですか?

A.DWHは、複数のデータソースから集めたデータを分析用に整え、一元的に保管・管理する基盤です。BI、レポート、経営分析などで使われます。

Q.DWHと運用データベースの違いは何ですか?

A.運用データベースは日々の登録・更新・削除を正確に処理するための仕組みです。DWHは過去履歴を含むデータを分析し、意思決定を支援するために設計されます。

Q.DWHの主題指向とは何ですか?

A.注文や請求などの処理単位ではなく、売上、顧客、商品、チャネルなどの分析テーマを軸にデータを整理する考え方です。

Q.DWHの統合とは何を指しますか?

A.システムごとに異なるID、表記、粒度、定義を共通ルールでそろえ、同じ指標を同じ意味で確認できる状態にすることです。

Q.DWHの時系列とは何ですか?

A.現在の状態だけでなく、過去の状態も保持し、売上推移、施策前後比較、前年同月比、顧客行動の変化などを分析できる性質です。

Q.DWHの非揮発とは何ですか?

A.頻繁な更新・削除ではなく、追記・蓄積を中心に扱う性質です。分析結果の再現性を保つため、修正時も履歴を追跡できる運用にします。

Q.ETLとELTの違いは何ですか?

A.ETLは抽出したデータを変換してから格納します。ELTは先に格納してから変換します。どちらも分析に使えるデータへ整える処理です。

Q.DWHとデータレイクはどう使い分けますか?

A.幅広いデータを元の形に近い状態で蓄積し探索したい場合はデータレイク、統一された指標で継続的に分析したい場合はDWHが候補になります。

Q.DWHとデータマートの関係は何ですか?

A.データマートは、部門や用途に特化した分析用データ領域です。DWHを全社共通基盤とし、そこから用途別にデータマートを作る構成があります。

Q.DWH導入で注意すべき点は何ですか?

A.分析目的、指標定義、データ品質、権限管理、コスト監視を先に設計することです。データを集めるだけでは、継続的に使われる分析基盤にはなりません。

記事を書いた人

ソリトンシステムズ・マーケティングチーム