「平均値(mean)」は小中学生で教わるわかりやすい指標の一つです。
ただ、世の中の事象を「平均値」で見ても実態に合わないことは多々ありますよね。
平均値が実態と合わない理由は、平均は外れ値の影響を受けやすく、外れ値によって平均値を引き上げ/引き下げてしまうためです。
そこで、例えば、世の中の人々の“収入の分布”や“保有資産額の分布”などを見るときは”平均値よりも「中央値(Median)」や「最頻値(Mode)」を見た方が実態に合っている”などと紹介されることがあります。
これは一見正しそうですが、大事なことを見落としている可能性があります。
例えば、
- “一部”といっても統計値から排除してしまって良いのか?
- 結局、中央値や最頻値を見ることで何がわかったことになるのか?
- 平均値や中央値、最頻値で見ようとすることで、逆に見えなくなっていることは何か?
ということです。
これらの問いには「べき乗則」という法則の存在が関係します。
で、この法則が重要な理由は、ビジネスやお金に関してはもちろん、地震や津波などの自然現象、ChatGPTなどで昨今話題のAIの性能進化まで、あらゆる事象に現れる超普遍的な法則だからです。
そこで、この記事では「べき乗則」とは何かを紹介し、「平均値」「中央値」「最頻値」で見ようとすることで「逆に見失いがちな大事なこと」をお伝えしたいと思います。
べき乗則とは
そもそも「べき乗則(冪乗則)」とは何か?を簡単に解説します。
統計モデルの一つ
べき乗則は統計モデルの一つで、
「ある観測量Yが別の観測量Xのべき乗に比例する」というモデル
と定義されます。
数式で表すと以下のように記述できます。
Y=F(x)=aXk
べき乗と似た言葉に累乗がありますが、累乗はべき乗の中でも指数が自然数のみを扱う場合です。
べき乗則の例
挙げればキリがありませんが、
- 保有資産額(貯蓄額)
- 株価の変動:株価の変動額の大きさとその頻度
- 地震や津波:地震や津波の規模の大きさとその発生頻度
- Youtubeのチャンネル登録者数とチャンネル数
などなど。
ChatGPTなどの大規模言語モデル(LLM)でAIの性能もパラメータ数N・データセットサイズD・計算予算Cを変数とした冪乗則に従うという法則が示されています。
2020年にOpenAIが発表した「Scaling Laws for Neural Language Models」という論文で示されています。
特徴:スケール不変性
べき乗則の大きな特徴の一つに「スケール不変性」があります。
スケール不変性(スケールふへんせい、英: scale invariance)とは、
対象のスケールを変えてもその特徴が変化しない性質のこと
です。
一例として「株価の動き」を見てみましょう。
何かの銘柄の株価の一日の値動きを見て見れば、時事刻々と株価は変動しているわけですが、この1日の値動きを、1週間の値動き、1ヶ月の値動き、1年間の値動きと期間を拡大してみても、同じように上がったり下がったりしているように見えることでしょう。
このように、いくら拡大/縮小してもずっと同じ特徴を持つ性質は、先述した「べき乗則の式:F(x)=axk」からもわかります。
F(λx) = a(λx)k = λkF(x)・・・任意のスケール変換(x → λx)に対し特徴(=関数F)が保たれています。
べき乗則の重要な点
べき乗則の概要を踏まえた上で、冒頭でも挙げた以下の問いについて考えてみます。
- “一部”といっても統計値から排除してしまって良いのか?
- 結局、中央値や最頻値を見ることで何がわかったことになるのか?
- 平均値や中央値、最頻値で見ようとすることで、逆に見えなくなっていることは何か?
“一部”といっても統計値から排除してしまって良いのか?
データを統計的に要約して見ることで特性を端的に把握することができます。
平均値は要約する手法として使い勝手がよく、外れ値の影響を受けやすいというのも確かです。
ただ、平均値が使える条件は、データの分布が正規分布などの釣鐘型をしているような場合。
スケール不変という性質においては、どこまでも連続して続いているわけで、本来はどこかから外れ値とは定義できません。
つまり、べき乗則で見られる桁違いの存在は例外や外れ値というわけではなく、この存在を排除してしまえば「本当の世界の実態を見ないようにする」ということで、非常に危険でしょう。
例えば、大地震が発生するなんて想定外だった、といった事態です。
結局、中央値や最頻値を見ることで何がわかったことになるのか?
べき乗則となっている分布において、平均値は役に立ちません。
だからと言って、「平均値が使えない時は、中央値や最頻値で見てみましょう」と解説されているサイトをよく見かけますが、これもかなりミスリードな気がします。
その理由は、
- データの分布が正規分布のような中央が最も多い分布のように錯覚してしまう。
- 中央値や最頻値周辺以外は自分には縁の無い特別な世界のものと決めつけてしまう。
平均値や中央値、最頻値で見ようとすることで、逆に見えなくなっていることは何か?
べき乗則の世界を平均値や中央値、最頻値で見ようとすることで見えなくなるのは、逆の可能性です。
具体的な事例は以降で紹介します。
べき乗則の可能性
自然災害の規模と頻度(地震対策)
地震規模を示すマグニチュードとその起きる頻度の関係は「グーテンベルク・リヒター則」(Gutenberg-Richter Law)として知られていますが、これはべき乗則であることがわかっています。
平均値から大丈夫と判断するものでは無いし、過去の事例からこれくらいで大丈夫とは言い切れません。
地震の規模や頻度は、過去の平均や頻度(特に自分の経験)は当てにならないということです。
保有資産の額と分布(資産形成)
世帯の収入の分布や保有資産の分布の他、ビジネスの売上などはよく「パレートの法則」や「80:20の法則」として紹介されることがありますが、これらもべき乗則であると知られています。
また、冒頭で紹介した株価の変動など金融システムでもべき乗則は見られます。
学習量や練習量(スキルアップ)
ChatGPTなどの大規模言語モデル(LLM)でAIの性能もパラメータ数N・データセットサイズD・計算予算Cを変数とした冪乗則に従うという法則が示されました。
2020年にOpenAIが発表した「Scaling Laws for Neural Language Models」という論文にて示されています。
唐突に人工知能(AI)の事例を出してしまいましたが、
人間のさまざまな学習や練習の上達度こそ、べき乗則に従うことがわかっています。
これは学習量とその習熟度は単純に比例せず、されに同じ程度(2倍)に上達するには、何倍も努力が必要ということになります。
重要なポイントは、
- 誰もが、努力して費やした時間に対して習熟度が伸び悩んでくるものである。
- 習慣のように、さらに努力し続ける人は見える世界(レベル)が変わってくる。
ということかと思います。
まとめ
この記事では、べき乗則について紹介しました。
記事を通じて、個人的にお伝えしたかったことは、
個人の資産形成や学習量に関して、(伸び率自体は職種や才能によって左右されるものの)、「継続する習慣を身につけさえすれば結果はついて来る」という点です。
自然界や複雑な社会経済、人間個人の特性も、何かと「平均」を見ようとして可能性を認めないのでは無く、可能性を信じて努力できるようにしていきましょう。