営業はSalesforce、マーケティングはMAツール、カスタマーサポートは問い合わせ管理システムと、部門ごとに異なるシステムで顧客情報を管理している企業は少なくありません。その結果、同じ顧客が複数のIDで重複登録され、誰が同一人物なのか分からない状態が常態化しています。顧客への重複アプローチによる信頼低下、マーケティング施策の効果測定の誤り、LTV(顧客が取引期間全体でもたらす売上の合計)の算出が不正確になるなど、放置するほど損失が拡大する課題です。
この記事は、従業員100〜500名規模の企業で、営業企画やマーケティング部門のマネージャー、あるいは情シス担当者として顧客データの整備を任されている方を想定しています。読み終えると、散在する顧客データを一箇所に集め、名寄せ(同一顧客の統合)を行い、統合済みデータを可視化するまでの具体的なワークフローと運用サイクルが分かります。大規模エンタープライズ向けのMDM(マスターデータ管理)基盤の構築や、個別ツールの網羅的なレビューは扱いません。
なお、本記事で紹介するツールの組み合わせは代表的な一例です。同じ役割を果たす別の製品でも、同様のワークフローを構築できます。
読み終えた時点で、自社の顧客データ統合に必要なツール構成と、週次で名寄せを回し続ける運用フローの設計図が手に入ります。
Workflow at a glance: 顧客データが複数システムに散在し同一顧客を特定できない問題を名寄せワークフローで解消する方法
顧客を一意に特定するには、メールアドレス、電話番号、会社名などの識別キーが正確に揃っている必要があります。しかし現実には、営業担当が手入力した会社名は株式会社が省略されていたり、マーケティングがWebフォームで取得したメールアドレスは個人アドレスだったり、サポート部門は電話番号しか持っていなかったりします。こうした表記ゆれと欠損が、システムをまたいだ名寄せを困難にしています。
各部門がそれぞれの業務に最適化したシステムを導入してきた結果、データの入力ルールも保存形式もバラバラです。営業部門のSalesforceでは取引先と取引先責任者が分かれていますが、MAツールではリード単位で管理されています。サポートシステムではチケットに紐づく連絡先として管理されています。この構造の違いが、単純なキー突合では名寄せできない原因です。
同一顧客に営業とマーケティングが別々にアプローチすれば、顧客は不信感を抱きます。マーケティング施策の効果測定では、同じ人が新規リードとして何度もカウントされるため、実際のコンバージョン率が見えなくなります。LTVの算出も顧客単位で正しく集計できず、投資判断を誤るリスクがあります。重複データが増えるほど修正コストは指数的に膨らむため、早期の対処が重要です。
名寄せプロジェクトでよくある失敗は、一度だけ大掛かりなデータクレンジングを実施して終わりにしてしまうことです。日々の営業活動やマーケティング施策で新しい顧客データは増え続けるため、名寄せを定期的に回す仕組みがなければ、数ヶ月で元の状態に戻ります。
ツールを選ぶ前に、自社の名寄せルールを明文化することが最優先です。具体的には、どの識別キーを優先するか(メールアドレスが一致すれば同一とみなすのか、会社名+氏名の組み合わせも使うのか)、表記ゆれの正規化ルール(株式会社と(株)の統一、全角半角の統一など)を決めます。このルールが曖昧なままツールを導入しても、名寄せの精度は上がりません。
複数システムに同一顧客のデータが存在する場合、どのシステムの情報を正とするかを決める必要があります。これをゴールデンレコード(最も信頼できる1つの顧客レコード)と呼びます。たとえば、会社名と部署はSalesforceを正とし、メールアドレスはMAツールを正とし、電話番号はサポートシステムを正とする、といった優先順位を定めます。この優先順位がないと、統合のたびに判断が属人化します。
まず、Salesforce、SATORI、Zendeskの3システムから顧客データをTroccoで自動抽出します。Troccoは国産のETL(データの抽出・変換・格納を行う仕組み)ツールで、Salesforceやさまざまなクラウドサービスとの接続設定があらかじめ用意されています。
具体的な作業は以下の通りです。Troccoの管理画面で各システムへの接続設定を作成し、抽出対象のデータ項目を指定します。Salesforceからは取引先責任者の氏名、会社名、メールアドレス、電話番号を取得します。SATORIからはリードの氏名、メールアドレス、会社名、流入経路を取得します。Zendeskからはチケットに紐づく連絡先の氏名、メールアドレス、電話番号を取得します。
抽出したデータはTroccoの変換機能を使い、共通フォーマットに整形します。全角英数字を半角に統一し、株式会社と(株)を統一し、電話番号のハイフンを除去するといった正規化処理をここで行います。整形済みデータはGoogle BigQueryに格納します。この抽出・変換・格納のジョブを週次(毎週月曜の早朝など)でスケジュール実行に設定します。
担当者は情シス担当者またはデータ管理担当者です。初回の接続設定に半日〜1日、以降は週次ジョブの実行結果を確認するだけで、所要時間は週10分程度です。
Google BigQueryに格納された統合データに対して、SQLで名寄せ処理を実行します。名寄せの基本ロジックは、まずメールアドレスの完全一致で突合し、次に会社名+氏名の組み合わせであいまい一致(部分一致や類似度判定)を行い、最後に電話番号の一致で補完するという3段階です。
Google BigQueryではSQLの標準関数に加えて、文字列の類似度を計算する関数も利用できます。たとえば、会社名の類似度が80%以上かつ氏名が完全一致であれば同一顧客とみなす、といったルールをSQLで記述します。名寄せの結果、同一と判定された顧客群に統合顧客IDを採番し、ゴールデンレコードのルール(ステップ前に決めた優先順位)に従って各項目の正の値を選択します。
この名寄せSQLもTroccoのジョブとして週次で自動実行します。名寄せの結果は統合顧客マスターテーブルとしてGoogle BigQueryに保存し、あわせて名寄せログ(どのレコードが統合されたか)も残します。名寄せログは後から精度を検証するために不可欠です。
担当者はデータ管理担当者です。初回のSQL作成に1〜2日、以降は週次で名寄せログを確認し、誤統合がないかをチェックする作業が週20〜30分程度です。
Google BigQueryの統合顧客マスターをLooker Studioに接続し、ダッシュボードを作成します。ダッシュボードには、統合済み顧客数の推移、週次の新規重複検出件数、名寄せ未確定(自動判定の確信度が低い)レコードの一覧、部門別のデータ品質スコア(必須項目の入力率)を表示します。
営業部門には統合顧客マスターに基づくアプローチ済み顧客リストを、マーケティング部門にはリードの重複排除後の正確なコンバージョン数を、サポート部門には顧客ごとの問い合わせ履歴の統合ビューを提供します。Looker Studioはブラウザで閲覧でき、追加ライセンスが不要なため、各部門のメンバーが自由に確認できます。
名寄せ未確定レコードについては、週次でデータ管理担当者が目視確認し、統合するか別顧客として残すかを判断します。この判断結果をGoogle BigQueryに反映することで、名寄せルールの精度が徐々に向上します。
担当者はデータ管理担当者が週次で未確定レコードを確認(週30分程度)、各部門のマネージャーがダッシュボードを随時閲覧します。
Troccoは日本企業でよく使われるSalesforce、SATORI、Zendeskなどのサービスとの接続コネクタが標準で用意されており、ノーコードで接続設定を作成できます。海外製のETLツールと比較した場合の強みは、日本語のUIと日本語サポートがある点です。一方で、非常に複雑な変換ロジック(たとえば機械学習ベースの名寄せ)をTrocco単体で実装するのは難しいため、変換はシンプルな正規化に留め、名寄せロジック自体はGoogle BigQueryのSQLに任せる設計が現実的です。コネクタ数が多い分、接続先ごとの細かな仕様差(APIのレート制限やデータ型の違い)には注意が必要で、初回設定時にテスト抽出を十分に行うことを推奨します。
Google BigQueryはサーバーレスのデータウェアハウスで、数百万件規模の顧客データに対するSQLクエリも数秒〜数十秒で完了します。名寄せのような重い集計処理を自社サーバーで実行する場合と比較して、インフラ管理が不要でコストも従量課金のため、中規模企業にとって導入ハードルが低いです。ただし、SQLを書ける人材が社内に最低1名は必要です。名寄せルールが複雑になるほどSQLも長くなるため、ルールの変更履歴をGitなどで管理する運用を推奨します。また、Google BigQueryの従量課金はクエリがスキャンするデータ量に比例するため、テーブルのパーティション設定(日付などでデータを分割する設定)を適切に行い、不要なフルスキャンを避けることがコスト管理のポイントです。
Looker StudioはGoogleアカウントがあれば無料で利用でき、Google BigQueryとの接続もワンクリックで完了します。高度な統計分析やリアルタイムダッシュボードが必要な場合はTableauやPower BIのほうが適していますが、週次の名寄せ結果を各部門に共有する用途であればLooker Studioで十分です。注意点として、Looker Studioはデータソースへの同時接続数やレポートの複雑さに応じて表示速度が低下することがあるため、ダッシュボードは用途別に分割し、1つのレポートに詰め込みすぎないことが重要です。
| Tool | Role | Pricing | Implementation time | Notes |
|---|---|---|---|---|
| Trocco | 各システムからの顧客データ抽出・正規化・格納 | 月額課金 | 初回設定:1〜2日、以降は週10分の運用確認 | Salesforce、SATORI、Zendeskなど主要サービスとのコネクタが標準搭載。ノーコードで接続設定が可能。日本語UIと日本語サポートあり。複雑な変換ロジックはBigQuery側に任せる設計が現実的。 |
| Google BigQuery | 統合データの格納と名寄せSQLの実行 | 従量課金 | 初回SQL作成:1〜2日、以降は週20〜30分の名寄せログ確認 | サーバーレスでインフラ管理不要。数百万件規模のデータでも高速にクエリ実行可能。SQLを書ける人材が最低1名必要。パーティション設定によるコスト管理が重要。 |
| Looker Studio | 名寄せ結果の可視化と全社共有 | 無料枠あり | ダッシュボード作成:半日〜1日、以降は週30分の未確定レコード確認 | Googleアカウントがあれば無料で利用可能。Google BigQueryとワンクリックで接続。高度な分析が必要な場合はTableauやPower BIを検討。レポートは用途別に分割し表示速度を維持する。 |
顧客データの重複問題は、一度の大掃除では解決しません。Troccoで各システムからデータを自動抽出し、Google BigQueryで名寄せルールをSQLとして実装し、Looker Studioで結果を全社に共有するという3ステップのワークフローを週次で回すことで、データの信頼性を継続的に維持できます。
最初の一歩として、まず自社の名寄せルール(どの識別キーを優先するか、表記ゆれの正規化ルール、ゴールデンレコードの優先順位)をスプレッドシートに書き出すことから始めてください。ルールが明文化できれば、ツールの導入と設定は1〜2週間で完了します。
Mentioned apps: trocco, Google BigQuery, Looker Studio
Related categories: BIツール
Related stack guides: 監査時にガイドライン対応の証跡をすぐ提出できる体制を4つのツールで構築する方法, KPI改善と現場の不満が食い違うとき定量データと定性フィードバックを統合して施策の真の効果を判断する方法, AIエージェントの開発データと本番データの乖離を防ぎ精度低下と手戻りをなくす方法, AIの判断結果を人が検証・承認してから業務に反映する仕組みをつくり誤判定トラブルを防ぐ方法, マスタデータの重複登録を登録時点で防ぎ請求ミスと在庫差異をなくす方法
サービスカテゴリ
AI・エージェント
ソフトウェア(Saas)