AI

はじめに

みなさんこんにちは!本日は、昨今機能が追加され話題になったChat gptのコードインタープリターを使って簡単なデータ分析を行いたいと思います!

今回分析する対象は、プロ野球個人打撃成績です。
下記NPBのHPにある個人打撃成績から、2013年から2022年までの10年間で、成績が良い上位20選手に絞り、成績の傾向について分析しました。
https://npb.jp/bis/2023/stats/bat_c.html
※分析元となる資料を整備するのに大変な手間がかかるため20選手になりました。。。。

ここで調べたいことは、昨今パ高セ低と言われていますが、本当にパリーグの方がセリーグよりも成績がいいのか?という点を打撃の部分でまずは見ていきたいと思います。
(あくまで素人の分析になります。ご了承ください。)

分析結果(セリーグ)

まずはセリーグの結果からお見せします。
以下がセリーグの上位20選手の平均打撃成績の傾向です。

※ 補足
 打率(Batting Average)
 本塁打(Home Runs)
 打点(Runs Batted In)
 長打率(Slugging Percentage)
 出塁率(On-Base Percentage)
 OPS(On Plus Slugging)出塁率+長打率

セントラルリーグ

年度打率本塁打打点長打率出塁率OPS
20130.2846516.9065.250.445750.360900.80665
20140.3004514.5566.100.449700.371700.82140
20150.2815514.0062.950.424050.348850.77290
20160.2965017.0566.000.465150.370100.83525
20170.2900014.5062.850.440250.360000.80025
20180.3116520.8074.400.508350.391550.89990
20190.2909018.7068.400.466200.366150.83235
20200.2912016.2060.300.474500.364000.83850
20210.2906015.1559.050.446700.357600.80430
20220.2834515.5059.700.436750.346800.78355

ざっくり外観したところ、まず2018年に打者成績が非常に高くなっている部分が気になります。
この年は打率だけ見ると中日のビシエド選手が.348、巨人の坂本選手が.345など飛び抜けて成績がいい選手が全体的な成績を引っ張っていることが要因として考えられます。
しかし、他の打撃成績も2018年だけ飛び抜けて高いことから、例えばボールが飛びやすいものになっていた?といった推測もできるかも知れません。

それ以外の年は成績の上下はあるものの大体同じようなレンジにあることが見受けられます。

分析結果(パリーグ)

続いてパリーグの上位20選手の平均打撃成績の傾向です。

パシフィックリーグ

年度打率本塁打打点長打率出塁率OPS
20130.3006515.3070.800.450450.370300.82075
20140.2908512.5562.250.427950.360650.78860
20150.2901014.9566.800.439250.370050.80930
20160.2887010.7561.150.410100.368750.77885
20170.2793016.4563.550.436950.351550.78850
20180.2903017.8073.950.464150.369000.83315
20190.2854018.2070.850.456200.367300.82350
20200.2820511.7055.450.429600.368200.79780
20210.2807014.0060.000.432800.362400.79520
20220.2679511.4051.100.403800.344350.74815

パリーグもセリーグと同様2018年の打撃成績が非常に良いです。
この共通点から、2018年は飛びやすいボールが使われているのかも?という推測はあながち大外れではない可能性が出てきました。

また、パリーグはセリーグよりも2020年以降の打撃成績下降が見られます。
これはもしかすると、新型コロナウイルスの影響が少なからずあるかも知れません。

セリーグも2020年以降打撃成績はあまり良くなかったのですが、過去と比較してそれほど悪いわけではなかったため、新型コロナウイルスと打撃成績の関係はあまりないのかなと考えていましたが、どうやら少なからず影響はありそうです。

セリーグパリーグ比較

では続いて、セリーグとパリーグの打撃傾向を比べてみましょう。

赤色がセリーグ、緑色がパリーグになります。

こうして比較してみると、上位20選手の打撃成績だけを見ると、セリーグとパリーグにそれほど違いがあるように見えません。むしろ直近10年ではセリーグの方が成績が良いように見えます。特に長打率やOPSといった成績はセリーグがほとんどの年でパリーグを上回っています。

この結果から、個人のバッターだけを見るとセリーグパリーグに大きな差はない、むしろセリーグの方がいい選手が多いことがわかりました。
では、パ高セ低となるのは、どのような要因になるのでしょうか?
今回の結果から、例えば以下のような要因があるのかも知れません。
・パリーグの方が良い投手が集まりやすい傾向がある。
・パリーグは一部のチームにいいバッターが集まっており、セリーグは散らばっている。

次回のブログでは、この1つ目の”パリーグの方が良い投手が集まりやすい傾向がある。”という観点からセリーグとパリーグの比較をしようと思います。

最後に:Chat gptで分析をしてみての感想

ここまでは、分析対象(セリーグパリーグの打撃成績の傾向)に関する感想や示唆をご紹介しましたが、最後に実際にChat gptでデータ分析をしてみて感じたことをご紹介して締めくくりたいと思います。

実際にChat gptでデータ分析をしてみて感じたことは大きく2つあります。
1つ目は、多くの人にとってデータ分析がより身近になるだろうという点です。
そしてもう1つは、インプットとなるデータの質がより重要になるという点です。

まず1つ目の、多くの人にとってデータ分析がより身近になるという点についてですが、
正直今回はかなり簡単なレベルの分析をしていたため、エクセルでも事足りる範囲ではありました。
しかし、Chat gptに分析する元となる資料さえ用意すれば、あとは指示をするだけでほとんど思い通りのアウトプットが出てくるため、自分で製作するよりも圧倒的に効率が良いと感じました。

こんな感じで指示するだけであとはChat gptがやってくれるので、統計学やプログラミングの知識がない方でもデータから示唆を生み出すことがより簡単になりそうです。

次にインプットとなるデータの質の重要性がより一層増すことになるだろうという点です。
この”質”はデータ値の質という点と、フォーマットの質という2点を指します。

データ値の質とは、入力される値の正確性や、標準化されているか?といった点を意味しています。
例えば、選手の打率に入力ミスがある(正確性の欠如)、パリーグとセリーグで打撃の指標が違う(標準化の欠如)などがあった瞬間、分析はあまり意味がないものになります。
今回は、NPBのホームページに載っている情報を利用したので、入力されているデータの心配は無い(はず!)と考えていますが、例えば社内のデータを分析するといった場合は上記観点を念頭におきながら分析を行う必要があります。

続いてフォーマットの質ですが、これはエクセルを分析しやすいようにあらかじめ整形する必要があるかどうかを指します。
例えば、今回の場合NPBのHPをそのままエクセルにコピペすると以下のようになってしまいます。

選手名とチーム名の2列に分かれているにも関わらず、メタデータは”選手”でセル結合されてしまっています。
このようなセル結合が存在すると分析がうまくいきませんでした。
これを解決するため、データの整備を手で行わないとならず、分析を行うまでの時間が少しかかってしまいました。
今回は外部のデータを利用したため仕方がないのですが、もし社内のデータを分析する場合はきちんと分析しやすいフォーマットを決め、そのフォーマットに沿って入力を行ってもらうといったことが重要になりそうです。

以上、長々と書いてしまいましたが、データ分析がより身近になり、色々な人がデータから新たな示唆や価値を生み出す未来がすぐそこまできていることに非常にワクワクしました!
次回は投手編でデータの分析してみたいと思います!それでは!!

Read more

データガバナンス

Google Newsを読んでいると、ふと次のような記事を見つけました。

https://www.techrepublic.com/article/data-governance-ai-systems/

最近データガバナンスのことをデータ品質を改善するための手段、として捉えている方が多いように思います。

データ品質改善のためのデータガバナンスと捉えると間違ってはないのかもしれません。しかしDMBOKではデータガバナンスを、データマネジメントが適切に維持されるよう監視統制する活動といった主旨で紹介しています。

データマネジメントを「Do right things(正しいことをする)」とすれば、データガバナンスは「Do things right(正しくことを進める)」というのがDMBOKの解釈です。

もし、データガバナンスを取り組みたいと考えているのであれば、自分が解釈するデータガバナンスを正しく把握しておくと、コミュニケーションが円滑に進むかもしれません。

というわけで今回もニュース記事の感想でした。
そろそろちゃんとした記事を書こうと思います。。

Read more

皆さんこんにちは。
久しぶりにブログを更新させていただきます。

今回は、AI・機械学習と、データ品質管理に関して興味深い記事があったのでご紹介します。
https://readwrite.com/is-your-data-good-enough-for-your-machine-learning-ai-plans/

以下、この記事を読んでの私なりの要約です。

記事の要約

AIに学習させるデータの品質が充分でないと、誤った予測やアルゴリズムが算出され、使い物にならない結果だけが生まれてしまいます。
そうさせないためにも、データ品質を管理するためのプロセスやルールを策定する、そしてそれを維持するためガバナンスを効かせる事が重要です。

最後に

データから価値を生み出すためには、ツールや技術に頼るのも重要ですが、データから価値を生み出すために行動できる組織や文化を作り上げることが必要なのだと考えています。
本記事は英語記事なので、少し読みにくいかもしれませんが、面白い記事なので是非ご一読ください。

Read more