はじめに

みなさんこんにちは!本日は、昨今機能が追加され話題になったChat gptのコードインタープリターを使って簡単なデータ分析を行いたいと思います!

今回分析する対象は、プロ野球個人打撃成績です。
下記NPBのHPにある個人打撃成績から、2013年から2022年までの10年間で、成績が良い上位20選手に絞り、成績の傾向について分析しました。
https://npb.jp/bis/2023/stats/bat_c.html
※分析元となる資料を整備するのに大変な手間がかかるため20選手になりました。。。。

ここで調べたいことは、昨今パ高セ低と言われていますが、本当にパリーグの方がセリーグよりも成績がいいのか?という点を打撃の部分でまずは見ていきたいと思います。
(あくまで素人の分析になります。ご了承ください。)

分析結果(セリーグ)

まずはセリーグの結果からお見せします。
以下がセリーグの上位20選手の平均打撃成績の傾向です。

※ 補足
 打率(Batting Average)
 本塁打(Home Runs)
 打点(Runs Batted In)
 長打率(Slugging Percentage)
 出塁率(On-Base Percentage)
 OPS(On Plus Slugging)出塁率+長打率

セントラルリーグ

年度打率本塁打打点長打率出塁率OPS
20130.2846516.9065.250.445750.360900.80665
20140.3004514.5566.100.449700.371700.82140
20150.2815514.0062.950.424050.348850.77290
20160.2965017.0566.000.465150.370100.83525
20170.2900014.5062.850.440250.360000.80025
20180.3116520.8074.400.508350.391550.89990
20190.2909018.7068.400.466200.366150.83235
20200.2912016.2060.300.474500.364000.83850
20210.2906015.1559.050.446700.357600.80430
20220.2834515.5059.700.436750.346800.78355

ざっくり外観したところ、まず2018年に打者成績が非常に高くなっている部分が気になります。
この年は打率だけ見ると中日のビシエド選手が.348、巨人の坂本選手が.345など飛び抜けて成績がいい選手が全体的な成績を引っ張っていることが要因として考えられます。
しかし、他の打撃成績も2018年だけ飛び抜けて高いことから、例えばボールが飛びやすいものになっていた?といった推測もできるかも知れません。

それ以外の年は成績の上下はあるものの大体同じようなレンジにあることが見受けられます。

分析結果(パリーグ)

続いてパリーグの上位20選手の平均打撃成績の傾向です。

パシフィックリーグ

年度打率本塁打打点長打率出塁率OPS
20130.3006515.3070.800.450450.370300.82075
20140.2908512.5562.250.427950.360650.78860
20150.2901014.9566.800.439250.370050.80930
20160.2887010.7561.150.410100.368750.77885
20170.2793016.4563.550.436950.351550.78850
20180.2903017.8073.950.464150.369000.83315
20190.2854018.2070.850.456200.367300.82350
20200.2820511.7055.450.429600.368200.79780
20210.2807014.0060.000.432800.362400.79520
20220.2679511.4051.100.403800.344350.74815

パリーグもセリーグと同様2018年の打撃成績が非常に良いです。
この共通点から、2018年は飛びやすいボールが使われているのかも?という推測はあながち大外れではない可能性が出てきました。

また、パリーグはセリーグよりも2020年以降の打撃成績下降が見られます。
これはもしかすると、新型コロナウイルスの影響が少なからずあるかも知れません。

セリーグも2020年以降打撃成績はあまり良くなかったのですが、過去と比較してそれほど悪いわけではなかったため、新型コロナウイルスと打撃成績の関係はあまりないのかなと考えていましたが、どうやら少なからず影響はありそうです。

セリーグパリーグ比較

では続いて、セリーグとパリーグの打撃傾向を比べてみましょう。

赤色がセリーグ、緑色がパリーグになります。

こうして比較してみると、上位20選手の打撃成績だけを見ると、セリーグとパリーグにそれほど違いがあるように見えません。むしろ直近10年ではセリーグの方が成績が良いように見えます。特に長打率やOPSといった成績はセリーグがほとんどの年でパリーグを上回っています。

この結果から、個人のバッターだけを見るとセリーグパリーグに大きな差はない、むしろセリーグの方がいい選手が多いことがわかりました。
では、パ高セ低となるのは、どのような要因になるのでしょうか?
今回の結果から、例えば以下のような要因があるのかも知れません。
・パリーグの方が良い投手が集まりやすい傾向がある。
・パリーグは一部のチームにいいバッターが集まっており、セリーグは散らばっている。

次回のブログでは、この1つ目の”パリーグの方が良い投手が集まりやすい傾向がある。”という観点からセリーグとパリーグの比較をしようと思います。

最後に:Chat gptで分析をしてみての感想

ここまでは、分析対象(セリーグパリーグの打撃成績の傾向)に関する感想や示唆をご紹介しましたが、最後に実際にChat gptでデータ分析をしてみて感じたことをご紹介して締めくくりたいと思います。

実際にChat gptでデータ分析をしてみて感じたことは大きく2つあります。
1つ目は、多くの人にとってデータ分析がより身近になるだろうという点です。
そしてもう1つは、インプットとなるデータの質がより重要になるという点です。

まず1つ目の、多くの人にとってデータ分析がより身近になるという点についてですが、
正直今回はかなり簡単なレベルの分析をしていたため、エクセルでも事足りる範囲ではありました。
しかし、Chat gptに分析する元となる資料さえ用意すれば、あとは指示をするだけでほとんど思い通りのアウトプットが出てくるため、自分で製作するよりも圧倒的に効率が良いと感じました。

こんな感じで指示するだけであとはChat gptがやってくれるので、統計学やプログラミングの知識がない方でもデータから示唆を生み出すことがより簡単になりそうです。

次にインプットとなるデータの質の重要性がより一層増すことになるだろうという点です。
この”質”はデータ値の質という点と、フォーマットの質という2点を指します。

データ値の質とは、入力される値の正確性や、標準化されているか?といった点を意味しています。
例えば、選手の打率に入力ミスがある(正確性の欠如)、パリーグとセリーグで打撃の指標が違う(標準化の欠如)などがあった瞬間、分析はあまり意味がないものになります。
今回は、NPBのホームページに載っている情報を利用したので、入力されているデータの心配は無い(はず!)と考えていますが、例えば社内のデータを分析するといった場合は上記観点を念頭におきながら分析を行う必要があります。

続いてフォーマットの質ですが、これはエクセルを分析しやすいようにあらかじめ整形する必要があるかどうかを指します。
例えば、今回の場合NPBのHPをそのままエクセルにコピペすると以下のようになってしまいます。

選手名とチーム名の2列に分かれているにも関わらず、メタデータは”選手”でセル結合されてしまっています。
このようなセル結合が存在すると分析がうまくいきませんでした。
これを解決するため、データの整備を手で行わないとならず、分析を行うまでの時間が少しかかってしまいました。
今回は外部のデータを利用したため仕方がないのですが、もし社内のデータを分析する場合はきちんと分析しやすいフォーマットを決め、そのフォーマットに沿って入力を行ってもらうといったことが重要になりそうです。

以上、長々と書いてしまいましたが、データ分析がより身近になり、色々な人がデータから新たな示唆や価値を生み出す未来がすぐそこまできていることに非常にワクワクしました!
次回は投手編でデータの分析してみたいと思います!それでは!!

Read more

皆様新年あけましておめでとうございます。

久しぶりの投稿となりましたが、今年はデータマネジメントに関するブログをこれまでよりもペースを上げて更新していこうと思います。

また、データマネジメントに関する細かな話だけでなく、なぜデータマネジメントが今必要/重要なのか?についてを解説していくつもりです。

データマネジメントに関わる人だけでなく、より多くの方にデータマネジメントとは何なのかを知ってもらうきっかけになればと思っています。

今年も皆様に少しでも役に立つコンテンツを発信できるようがんばります!

本日のブログは新年の挨拶のみとなります。
技術的な話はまた次回!(できるだけすぐに投稿します)

Read more

皆さんこんにちは。約2か月ぶりの投稿となってしまいました(笑)。

バタバタしているとついついさぼってしまうので、もう一度コツコツ積み重ねていこうと思います。

さて話は変わりますが、今回はタイトルにもあるようにADMC(Asian Data Management Conference)というデータマネジメントのカンファレンスについて紹介します。

ADMCでは、日本国内の企業におけるデータマネジメントの取り組み事例や、海外有識者によるデータマネジメントのトレンドを抑えた講演等、中々他では聞くことが出来ない話を聞くことが出来ます。

今年は”データアーキテクチャ”をテーマにそれぞれのスピーカーが話をしてくださいます。
下記URLより無料で申込可能ですので、気になる方は是非一度ご覧ください!
※ADMCは明日(11/15(火))に開催されます。ご注意ください。
https://www.dama-japan.org/ADMC2022.html

今回、ADMCのいくつかある講演の内John O’brien氏の講演の翻訳と字幕に私も携わったので、ちょこっと宣伝させていただきました。
John氏の講演は非常に現代のトレンド(クラウドの活用を踏まえたアーキテクチャ等)を抑えつつ実践的な内容となっていて面白いのでぜひご覧ください!

Read more

データガバナンス

Google Newsを読んでいると、ふと次のような記事を見つけました。

https://www.techrepublic.com/article/data-governance-ai-systems/

最近データガバナンスのことをデータ品質を改善するための手段、として捉えている方が多いように思います。

データ品質改善のためのデータガバナンスと捉えると間違ってはないのかもしれません。しかしDMBOKではデータガバナンスを、データマネジメントが適切に維持されるよう監視統制する活動といった主旨で紹介しています。

データマネジメントを「Do right things(正しいことをする)」とすれば、データガバナンスは「Do things right(正しくことを進める)」というのがDMBOKの解釈です。

もし、データガバナンスを取り組みたいと考えているのであれば、自分が解釈するデータガバナンスを正しく把握しておくと、コミュニケーションが円滑に進むかもしれません。

というわけで今回もニュース記事の感想でした。
そろそろちゃんとした記事を書こうと思います。。

Read more

皆さんこんにちは。
久しぶりにブログを更新させていただきます。

今回は、AI・機械学習と、データ品質管理に関して興味深い記事があったのでご紹介します。
https://readwrite.com/is-your-data-good-enough-for-your-machine-learning-ai-plans/

以下、この記事を読んでの私なりの要約です。

記事の要約

AIに学習させるデータの品質が充分でないと、誤った予測やアルゴリズムが算出され、使い物にならない結果だけが生まれてしまいます。
そうさせないためにも、データ品質を管理するためのプロセスやルールを策定する、そしてそれを維持するためガバナンスを効かせる事が重要です。

最後に

データから価値を生み出すためには、ツールや技術に頼るのも重要ですが、データから価値を生み出すために行動できる組織や文化を作り上げることが必要なのだと考えています。
本記事は英語記事なので、少し読みにくいかもしれませんが、面白い記事なので是非ご一読ください。

Read more

今回は、気になった記事をご紹介したいと思います。

先日Google Newsを見ていると、ガートナージャパンがデータ/アナリティクスのガバナンスに不可欠な7つの要素を提言していました。

7つの要素については以下の通りです。

・価値や成果
・決定権と責務
・信頼
・透明性と倫理
・安全性の担保
・教育
・協力と文化

詳細は下記をご確認いただきたい。
https://news.yahoo.co.jp/articles/f6b4d4f17529513ac4c051739e3a0ba131144842

この記事で面白いなと感じたところは、”アナリティクススチュワード”等、よりアナリティクスに重点を置いている点です。データマネジメントの知識体系本であるDMBOKでは、語られていない点ではありますが、世の中の分析に対するニーズを感じました。

一方で、これら7つの要素の中にあまり「戦略」や「ビジョン」といった言葉が出てこなかったことは疑問に思いました。データガバナンスを進めていくためには、組織の変革が必要不可欠であり、明確な「戦略」や「ビジョン」無しに変革を推し進めることはできません。もしこちらの記事を読まれるのであれば、「戦略」や「ビジョン」も必要なんだなぁと頭の片隅に置いて読んでいただけると幸いです。

とはいえ、7つの要素についてはわかりやすく、確かになと思う点も多かったので、データガバナンスについて知ってみたいという方はぜひ上記の記事をご一読いただければと思います。

では、本日はこの辺で。

Read more

皆さんこんにちは。今回は、近年流行しつつあるデータファブリック・データメッシュについて気になったので、両者の簡単な説明や注意すべき点について書こうと思います。

データファブリック

データファブリックとは、簡単に言うとメタデータを利用して社内のあらゆるデータを可視化・公開するものです。
この際、データレイクやデータウェアハウスのように、1カ所に集めデータを一元管理する必要が無い手軽さが特徴となっています。
詳しくはGartnerのサイトを確認すると良いかもしれません。
https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration

データメッシュ

データメッシュは、データファブリックと比較されることもあるのですが両者を対比として捉えるのは正確ではありません。
データメッシュとは、Zhamak Dehghani氏が提唱した概念です。
https://martinfowler.com/articles/data-mesh-principles.html#DataAsAProduct

ここで語られているのは、データを分析する際、データを生成する場所とデータを分析する場所は分断されてるということです。生成されたデータの品質と、分析のためのデータが求める品質は、品質のレベルで非常に大きな溝があります。データは業務側で生成されますが、業務を回すためだけの品質が低いデータであることが多いです。そのため、データ利用者が分析に耐えうる品質にするためクレンジングを行っているというのが現状です。

これを解決するため、各業務部門側が、分析にも耐えうる品質のデータを仕立て上げ利用者に提供していくというコンセプトがデータメッシュであると考えています。
※実際はもう少し複雑だと考えますが、今回はこの程度で。。
 次回このあたりを深く掘り下げたいと思います。

両者において注意すべき点

データファブリックも、データメッシュも一見すると素晴らしいものに見えますが、魔法のような技術ではありません。私が考える両者において気を付けるべき点は以下2つです。
①業務部門を積極的に巻き込む必要がある。
→データを分析する際、それぞれのデータにおけるビジネス上の意味も知る必要があります。このビジネス上の意味は、業務部門側からの協力なしには収集できません。また、データメッシュではそもそも業務部門がデータ分析に耐えられるだけの品質のデータを生成するというコンセプトがあります。
これら観点により業務部門を巻き込む必要があります。

②データガバナンスも必ず実行する必要がある。
→両者ともに一元管理ではなく分散という共通点があります。そのため、ルールや方針が無いとすぐにサイロ化してしまう危険性が高いため、データガバナンスも並行して行う必要があります。

最後に

次回のブログで、今回の2つ以外にも、Modern Data Stackなど似たような概念についてもう少し詳しくまとめられたらと考えています。

もっと簡単に書こうと思っていましたが、思ったより長くなってしまいました。。

では、また次回!

Read more