Chat gptでデータ分析してみた!〜プロ野球打者成績編〜

はじめに

みなさんこんにちは!本日は、昨今機能が追加され話題になったChat gptのコードインタープリターを使って簡単なデータ分析を行いたいと思います!

今回分析する対象は、プロ野球個人打撃成績です。
下記NPBのHPにある個人打撃成績から、2013年から2022年までの10年間で、成績が良い上位20選手に絞り、成績の傾向について分析しました。
https://npb.jp/bis/2023/stats/bat_c.html
※分析元となる資料を整備するのに大変な手間がかかるため20選手になりました。。。。

ここで調べたいことは、昨今パ高セ低と言われていますが、本当にパリーグの方がセリーグよりも成績がいいのか?という点を打撃の部分でまずは見ていきたいと思います。
(あくまで素人の分析になります。ご了承ください。)

分析結果(セリーグ)

まずはセリーグの結果からお見せします。
以下がセリーグの上位20選手の平均打撃成績の傾向です。

※ 補足
 打率(Batting Average)
 本塁打(Home Runs)
 打点(Runs Batted In)
 長打率(Slugging Percentage)
 出塁率(On-Base Percentage)
 OPS(On Plus Slugging)出塁率+長打率

セントラルリーグ

年度打率本塁打打点長打率出塁率OPS
20130.2846516.9065.250.445750.360900.80665
20140.3004514.5566.100.449700.371700.82140
20150.2815514.0062.950.424050.348850.77290
20160.2965017.0566.000.465150.370100.83525
20170.2900014.5062.850.440250.360000.80025
20180.3116520.8074.400.508350.391550.89990
20190.2909018.7068.400.466200.366150.83235
20200.2912016.2060.300.474500.364000.83850
20210.2906015.1559.050.446700.357600.80430
20220.2834515.5059.700.436750.346800.78355

ざっくり外観したところ、まず2018年に打者成績が非常に高くなっている部分が気になります。
この年は打率だけ見ると中日のビシエド選手が.348、巨人の坂本選手が.345など飛び抜けて成績がいい選手が全体的な成績を引っ張っていることが要因として考えられます。
しかし、他の打撃成績も2018年だけ飛び抜けて高いことから、例えばボールが飛びやすいものになっていた?といった推測もできるかも知れません。

それ以外の年は成績の上下はあるものの大体同じようなレンジにあることが見受けられます。

分析結果(パリーグ)

続いてパリーグの上位20選手の平均打撃成績の傾向です。

パシフィックリーグ

年度打率本塁打打点長打率出塁率OPS
20130.3006515.3070.800.450450.370300.82075
20140.2908512.5562.250.427950.360650.78860
20150.2901014.9566.800.439250.370050.80930
20160.2887010.7561.150.410100.368750.77885
20170.2793016.4563.550.436950.351550.78850
20180.2903017.8073.950.464150.369000.83315
20190.2854018.2070.850.456200.367300.82350
20200.2820511.7055.450.429600.368200.79780
20210.2807014.0060.000.432800.362400.79520
20220.2679511.4051.100.403800.344350.74815

パリーグもセリーグと同様2018年の打撃成績が非常に良いです。
この共通点から、2018年は飛びやすいボールが使われているのかも?という推測はあながち大外れではない可能性が出てきました。

また、パリーグはセリーグよりも2020年以降の打撃成績下降が見られます。
これはもしかすると、新型コロナウイルスの影響が少なからずあるかも知れません。

セリーグも2020年以降打撃成績はあまり良くなかったのですが、過去と比較してそれほど悪いわけではなかったため、新型コロナウイルスと打撃成績の関係はあまりないのかなと考えていましたが、どうやら少なからず影響はありそうです。

セリーグパリーグ比較

では続いて、セリーグとパリーグの打撃傾向を比べてみましょう。

赤色がセリーグ、緑色がパリーグになります。

こうして比較してみると、上位20選手の打撃成績だけを見ると、セリーグとパリーグにそれほど違いがあるように見えません。むしろ直近10年ではセリーグの方が成績が良いように見えます。特に長打率やOPSといった成績はセリーグがほとんどの年でパリーグを上回っています。

この結果から、個人のバッターだけを見るとセリーグパリーグに大きな差はない、むしろセリーグの方がいい選手が多いことがわかりました。
では、パ高セ低となるのは、どのような要因になるのでしょうか?
今回の結果から、例えば以下のような要因があるのかも知れません。
・パリーグの方が良い投手が集まりやすい傾向がある。
・パリーグは一部のチームにいいバッターが集まっており、セリーグは散らばっている。

次回のブログでは、この1つ目の”パリーグの方が良い投手が集まりやすい傾向がある。”という観点からセリーグとパリーグの比較をしようと思います。

最後に:Chat gptで分析をしてみての感想

ここまでは、分析対象(セリーグパリーグの打撃成績の傾向)に関する感想や示唆をご紹介しましたが、最後に実際にChat gptでデータ分析をしてみて感じたことをご紹介して締めくくりたいと思います。

実際にChat gptでデータ分析をしてみて感じたことは大きく2つあります。
1つ目は、多くの人にとってデータ分析がより身近になるだろうという点です。
そしてもう1つは、インプットとなるデータの質がより重要になるという点です。

まず1つ目の、多くの人にとってデータ分析がより身近になるという点についてですが、
正直今回はかなり簡単なレベルの分析をしていたため、エクセルでも事足りる範囲ではありました。
しかし、Chat gptに分析する元となる資料さえ用意すれば、あとは指示をするだけでほとんど思い通りのアウトプットが出てくるため、自分で製作するよりも圧倒的に効率が良いと感じました。

こんな感じで指示するだけであとはChat gptがやってくれるので、統計学やプログラミングの知識がない方でもデータから示唆を生み出すことがより簡単になりそうです。

次にインプットとなるデータの質の重要性がより一層増すことになるだろうという点です。
この”質”はデータ値の質という点と、フォーマットの質という2点を指します。

データ値の質とは、入力される値の正確性や、標準化されているか?といった点を意味しています。
例えば、選手の打率に入力ミスがある(正確性の欠如)、パリーグとセリーグで打撃の指標が違う(標準化の欠如)などがあった瞬間、分析はあまり意味がないものになります。
今回は、NPBのホームページに載っている情報を利用したので、入力されているデータの心配は無い(はず!)と考えていますが、例えば社内のデータを分析するといった場合は上記観点を念頭におきながら分析を行う必要があります。

続いてフォーマットの質ですが、これはエクセルを分析しやすいようにあらかじめ整形する必要があるかどうかを指します。
例えば、今回の場合NPBのHPをそのままエクセルにコピペすると以下のようになってしまいます。

選手名とチーム名の2列に分かれているにも関わらず、メタデータは”選手”でセル結合されてしまっています。
このようなセル結合が存在すると分析がうまくいきませんでした。
これを解決するため、データの整備を手で行わないとならず、分析を行うまでの時間が少しかかってしまいました。
今回は外部のデータを利用したため仕方がないのですが、もし社内のデータを分析する場合はきちんと分析しやすいフォーマットを決め、そのフォーマットに沿って入力を行ってもらうといったことが重要になりそうです。

以上、長々と書いてしまいましたが、データ分析がより身近になり、色々な人がデータから新たな示唆や価値を生み出す未来がすぐそこまできていることに非常にワクワクしました!
次回は投手編でデータの分析してみたいと思います!それでは!!

Comments are closed.