人気ブログランキング | 話題のタグを見る

「平均への回帰(Regression to the Mean)」を考える。

嘘か真か、今話題の藤井四段(プロ将棋棋士、14歳で日本記録の29連勝という偉業達成)が「今は勝敗が偏っている時期で、いずれ『平均への回帰』が起こるのではないかと思っています」と発言した、というニュースを目にしました。藤井四段、14歳とは思えない豊富な知識と語彙力で、本当に素晴らしいプロだなぁと33歳のおばさんは感心しきりなわけですが、この『平均への回帰』というコンセプトについてちょっと書いておきたいと思います。本当は別に書かなきゃいけないことがあったんですが、まぁそっちは後回しにします(笑)。

下に、私が最近実際に回答をしなければならなかったテスト問題に酷似した問題を示します(実際の問題を非医療分野に私が勝手にいじって変えたものです)。さぁ、皆さんはどう回答しますか?理論立てて説明をしてみてください。



とある学校に一学年8組のクラスがあります。この学校では、英語のテストを行うたびにあまりにこの8クラス内・外において点数にばらつきがある(=上がり下がりが毎回激しい)ことが教師間のミーティングで「改善点」として上がりました。一貫性のある学習成果を出そう、ということで、新たな学習試みとして「椅子を取り払った立位での英語授業」というシステムを導入することにしたのです。
「平均への回帰(Regression to the Mean)」を考える。_b0112009_10374767.png
さて、そんなわけでこの一学年8クラス全てに「英語実力テスト(pre-test)」を実地し、点数が高かった上位4クラスはそのまま問題なしという解釈で「今まで通りの机と椅子(↑写真左)」での授業を、下位4クラスは改善の余地ありということで「椅子を取り払って立位(↑写真右)」での授業をそれぞれ4週間実践しました。

4週間後、再び8クラス共通の「英語実力テスト(post-test)」を実地。いよいよ結果の比較です。

点数を集計してみたところ、前回の実力テストと比較して下位4クラスの点数が著しく上昇し、上位4クラスの点数は逆に著しく下降していました。この結果から、教頭は「椅子を取り払って立位で行う英語授業は有効である」という結論を出し、「(この学年のみならず)全ての学年で英語の授業は立位で行う」というシステムの拡大を謳うべきではないか、とあなたに提案しています。さて、あなたはこの学校の校長先生です。あなたは教頭先生のこの意見に反対ですか、賛成ですか?それはなぜですか?理由も含め、回答しなさい。



もちろん、前述したようにこの「問題」は私が勝手に作ったもので、実際に立位での授業が生徒の学習に有効かどうか、私は全く知りません。あくまでこれは例として、上の「新たな教育の試み」を「介入」として考えたとき、「真の介入効果」を見極める上でこの「研究デザイン」にどういった欠点があるかを指摘できるかがこの問題のカギなのです。

●最大の問題点
この「研究デザイン」の最大の問題点は「グループ分け」にあります。実力テスト(pre-test)を行って上位・下位4クラスでそれぞれに分類したとありますが、注意すべきは問題文のこの一文です。

テストを行うたびにあまりにこの8クラス内・外において点数にばらつきがある(=上がり下がりが毎回激しい)

…ということは、この上位4クラスは「たまたま」この実力テスト(pre-test)で「実際の実力以上の」いい点が取れたクラスたちなのかも知れなくて、一方で下位4クラスは「たまたま」「実力を発揮できずに」悪い点数になってしまっただけなのかも知れませんよね。クラス内・外でのパフォーマンスが元々アップダウンが激しく、一貫性がないのが問題だとすでに示されているのですから、「この実力テスト(pre-test)の点数を元にグループ分けすることがそもそもの問題である」のです。
「平均への回帰(Regression to the Mean)」を考える。_b0112009_11231637.gif
この状態で2回目のテスト(post-test)を行えば、例え何も介入を行っていなくても、自然と上位4クラスの点数はクラス本来の「実力」である平均値に近づくように下降し、同様にたまたま悪いパフォーマンスが出てしまった下位4クラスはクラス本来の「実力」である平均値に近づくように上昇するでしょう(上図)。こうして、パフォーマンスを繰り返せば繰り返すほど偶然の要素が相殺し合い、本来あるべき値、つまり平均値に数値が近づいていくことを「平均への回帰(Regression to the Mean)」現象と言います。

言い方を変えるともう少しわかりやすいですかね。例えるならこの研究デザインは、サイコロを振って5や6が出たクラスと1や2が出たクラスをわけ、「次のサイコロは何が出るかな?」と言っているようなものなのです。次に振るサイコロの値は、サイコロの目の平均値(=(1+2+3+4+5+6)/6)である3.5に近づく可能性が高い…つまり、さっき5や6が出たグループは次のサイコロの目がそれよりも下がる場合が多く、1や2が出たグループは次のサイコロの目の値が下がる可能性が高くなるわけです。

(RPGにおいて、全く同じ攻撃力で敵を攻撃し、「かいしんのいちげき」が出た組と攻撃を「ミス」した組に分けた感覚にも似ています。次の攻撃は、おそらく本来の攻撃力に見合った一発になる可能性が最も高く、相手に与えるダメージ値は両グループ共に似通ってくるはずです。つまり、「かいしんのいちげき」組はパフォーマンスが下がったように見え、逆に「ミス」組は上がったように見えますが、本来の攻撃力は両グループ共に等しいわけです)

話をテストの点に戻しましょう。今回の話のpre-testとpost-testの「値の変化」は真の実力の推移を反映したものではなく、あくまでの統計学的に平均値は変わらないまま、自然と生まれるパフォーマンスの質そのもののゆらぎに起因する可能性が十分にあります。それを考慮した上で、私は「…以上の理由から、上位のクラスは失敗をするように、下位のクラスは成功をするように(意図的ではないにせよ)仕組まれた、不公平な研究デザインである。実際にこの学習法が効果があるかどうかを断定するにはエビデンスとしては不十分」と指摘。教頭の判断は時期尚早で「私は不賛成」とし、1) 8クラスを「ランダムに」グループわけすること、2) n数を増やすこと、3) Baseline時にhomogeneityを確立することを改善点として挙げ、再度検証をすることを勧めました。皆さんの回答と比べてどうでしたか?



パフォーマンスはいつの世も「ゆらぐ」ものであります。もちろんその「ゆらぎ」をどう本番に持ってくるかもプロは考えてしかるべきなのでしょうけれども、だからといってシンプルに一時の数字だけで ―一試合の勝敗で、打率や防御率で― ヒトの実力が上がった下がったとも一概に言えないのです。黒星が続くこともあれば、白星が続くこともある。しかしそのデータを積み重ねれば重ねるほど、その人の真の実力というものが見えてくるわけです。

藤井四段は誰よりもまっすぐその長くプロの道を見据え、「たまたま」続く白星に感謝をしながらも、これから来るであろう黒星も見据え、ゆらぎを考慮に入れながらも実力そのものの向上に向かおうとしているのではないかなという私の勝手な印象でした。願わくば、彼に黒星がついたときや続いたときに「絶不調」や「スランプ」なんて言葉を使う大人は少なくあってほしいものです。そんなときは言いましょう、「それは単なる平均への回帰ですよ」、と。

  by supersy | 2017-06-28 16:15 | Just Thoughts

<< PRIマイオキネマティック・リ... 東京EBP講習を終えて、と、帝... >>

SEM SKIN - DESIGN by SEM EXE

AX