データメッシュ

皆さんこんにちは。今回は、近年流行しつつあるデータファブリック・データメッシュについて気になったので、両者の簡単な説明や注意すべき点について書こうと思います。

データファブリック

データファブリックとは、簡単に言うとメタデータを利用して社内のあらゆるデータを可視化・公開するものです。
この際、データレイクやデータウェアハウスのように、1カ所に集めデータを一元管理する必要が無い手軽さが特徴となっています。
詳しくはGartnerのサイトを確認すると良いかもしれません。
https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration

データメッシュ

データメッシュは、データファブリックと比較されることもあるのですが両者を対比として捉えるのは正確ではありません。
データメッシュとは、Zhamak Dehghani氏が提唱した概念です。
https://martinfowler.com/articles/data-mesh-principles.html#DataAsAProduct

ここで語られているのは、データを分析する際、データを生成する場所とデータを分析する場所は分断されてるということです。生成されたデータの品質と、分析のためのデータが求める品質は、品質のレベルで非常に大きな溝があります。データは業務側で生成されますが、業務を回すためだけの品質が低いデータであることが多いです。そのため、データ利用者が分析に耐えうる品質にするためクレンジングを行っているというのが現状です。

これを解決するため、各業務部門側が、分析にも耐えうる品質のデータを仕立て上げ利用者に提供していくというコンセプトがデータメッシュであると考えています。
※実際はもう少し複雑だと考えますが、今回はこの程度で。。
 次回このあたりを深く掘り下げたいと思います。

両者において注意すべき点

データファブリックも、データメッシュも一見すると素晴らしいものに見えますが、魔法のような技術ではありません。私が考える両者において気を付けるべき点は以下2つです。
①業務部門を積極的に巻き込む必要がある。
→データを分析する際、それぞれのデータにおけるビジネス上の意味も知る必要があります。このビジネス上の意味は、業務部門側からの協力なしには収集できません。また、データメッシュではそもそも業務部門がデータ分析に耐えられるだけの品質のデータを生成するというコンセプトがあります。
これら観点により業務部門を巻き込む必要があります。

②データガバナンスも必ず実行する必要がある。
→両者ともに一元管理ではなく分散という共通点があります。そのため、ルールや方針が無いとすぐにサイロ化してしまう危険性が高いため、データガバナンスも並行して行う必要があります。

最後に

次回のブログで、今回の2つ以外にも、Modern Data Stackなど似たような概念についてもう少し詳しくまとめられたらと考えています。

もっと簡単に書こうと思っていましたが、思ったより長くなってしまいました。。

では、また次回!

Read more