リンゴと罵声。科学的に検証する、を真面目に考える。

以前「『科学的に証明された』という表現の穴」(2018年3月23日)についてや、「真面目なエビデンスの話」(2018年5月19日)という記事を書きましたが、今回の内容もそれらに繋がっているような気がします。

さて、ツイッターで面白いツイートを発見しました。たぶんこれはいわゆるパクツイというものなんでしょうけれども、元のアカウントが誰だったかを辿っている時間が無いのでこのまま失礼します。


これを見て「はは何これバカっぽい」と嘲笑するのは簡単なんですが、私は「いや、これも科学的検証への第一歩ではあるし、きちんと検証方法を磨けば立派な学会学会誌に発表可能の『研究』になるぞ」と興味深く感じました。ではこのツイートを教材に、「科学的に検証する」という思考プロセスについて書き出してみたいと思います。

●Independent Variables (IVs; 実験条件である独立変数)を明確にする
このツイートのテーマは「声かけの内容」と「食べ物の腐敗」だと思うんです。もう少し具体的に言及すると、元ツイートでは「きれいな言葉」と「罵声」が「リンゴの腐敗に与える影響」を比較して検証しています。

まず定義すべきはIV(= 介入内容、と今回は考えていただいてかまいません)である「きれいな言葉」と「罵声」です。「きれいな言葉」と言われたときに受け手が共通して思い浮かべられるイメージがないといけませんし、「罵声」も然りです。「きれいな言葉」を英語に直訳すると"Beautiful words"ですが、これは日本語でも英語でも非常に曖昧な表現で(i.e. 私の感じる「きれい」と貴方の感じる「きれい」に差が生じるかも)、学術的にも定義されているとは思えません。この場合、「罵声」との対比を生むために、「褒め言葉(praise)」、もう少し詳しく「有声音化された褒め言葉(vocal praise)」という表現に置き換えてみたいと思います(褒め言葉を念じるのではなく、声に出して表現する。という意味を込めて)。

さて、この「褒め言葉(praise)」について先行研究を調べてみましたが、これだけでも一筋縄ではいきません。私がPubMedで5分間を費やしてPraiseについて学べたことを列挙してみます。
- 親に大げさに褒められる(inflated praise)と、子供の自尊心は下がり1、自信があまりない子供を相手にこれをすると自尊心はますます加速をつけて低下していく2。現実味のある誉め言葉が最も効果が高く、褒められた相手は環境への満足度、タスクに対する意欲やプロフェッショナリズムが向上する。3
- 誉め言葉も、人に重点を置いた場合(person-focused; i.e. 『君はよく頑張る子(you were a hard worker)だね』)では、行動やプロセスに重きを置いた場合(process-focused; i.e. 『君はよく頑張ったね(you worked hard)』と比べてより効果が小さいか2、場合によっては悪影響も出てしまう(失敗した際に努力の欠如ではなく才能の欠如を言い訳にする場合がある)4
- 飼い犬は言葉で褒められるよりも撫でられるのがお好き5
*ちなみに、リンゴやその他植物を褒めたり罵倒したりしてその反応を見る、という具体的な先行研究は私は見つけることができませんでした

これを踏まえて、こんな疑問点が浮かんできます。
- 誰が褒める・罵声を言うのか?例えば我々も、「親」や「上司」のような自分に対して一般的に影響力の高い相手から褒められたり罵倒されたりするのと、顔も名前も知らない通りすがりの人に何か声をかけられるのとでは、言葉の重さが変わってきます。「言う」相手がリンゴと全く関係のない第三者なのか、毎日愛を込めて育ててくれたリンゴ農家さんなのかどうかで、リンゴの反応が変わってくる可能性は否定できません。
- 大げさに褒める(i.e. 『美しすぎる!君はリンゴ史上最高のリンゴだ!』)のか、現実的な誉め言葉を選ぶ(i.e. 『その茶色くなってきた肌もかわいいよ』)のか?リンゴそのものを褒める(person-focused; i.e. 『なんて美しい種の形なんだ』『品評会に出せるフォルムだね』)のか、リンゴの行動(process-focused; i.e. 『今日も頑張って光合成をしているね』)を褒めるのか?これらもリンゴの自尊心と行動に影響を与える可能性があります。
- リンゴがより家畜に近いのかニンゲンに近いのか分かりませんが、言葉で褒めることがリンゴ側にとって最も効果的な「褒められた実感」に繋がるのでしょうか?もしかしたらリンゴは撫でられたほうが「褒められた」と実感してくれるかもしれません。

…ですので、1) 褒める人物の定義(同一人物が実験期間中一貫して褒め続けるのが理想的です); 2) 誉め言葉の内容の定義; 3) 撫でる可能性の考慮なども一通り考え、詳細を設定していく必要があります。 「罵声」も同様です。誰が罵倒するのか、何を罵倒するのか。どの程度の頻度で、どの程度の距離から罵倒するのか。てやんでぇべらんめぇ調なのかなにしてくれてまんねん調なのか、男性なのか女性なのか。日本で育ったリンゴが日本語で声をかけられるのと、見知らぬ多言語で声をかけられるのとでどう反応が変わってくるのかも個人的に興味があります。もしどの言語でも同じように「褒められると長持ちする、罵倒されると腐敗が進む」という実証ができれば、次に疑問になってくるのが検者の表情です。もしかしたらリンゴは言葉そのものに対して反応しているというよりは、褒めている・けなしている相手の表情を読み取ってそれに反応しているのかもしれません。その場合、怒った表情で褒めてみたり、笑顔で罵倒したりすると結果は変わってくるのか?後続研究の可能性がどんどん広がっていきますね。

あとは、リンゴの性癖…リンゴがSなのかMなのかにもよりますかね。Mのリンゴならば、罵声されて嬉しく感じてしまい、一段と活き活きしてきてしまう可能性も…。であれば、リンゴをS組とM組にサブグループ分けしてここも別途に二次的分析を行って検証を…(以下自粛)。

●Dependent Variable (DV; 結果となる従属変数)を明確にする
次は、今回の検証対象であるアウトカムも定義しましょう。今回のツイートの写真ではリンゴの状態の変化、中でも「明らかな腐敗」を強調しようとしているように見受けられますが、これもきちんと共通理解を設けなければいけません。変色=腐敗なのか?味の変化か、匂いか、ニンゲンが食べたいと思えるかどうかの感覚(perception)で腐敗度を定義するか?それともリンゴの中に繁殖するカビやバクテリアの数=腐敗の度合い?

これは難しいところですが、今までの研究で食べ物の腐敗がどう定義・検証されてきたかを少し時間をかけて調べる必要があります。あまり奇抜なことをやってしまうと、そのアウトカムそのものの汎用性、臨床応用性が傷つきますので丁寧なコンセプト構築が必要不可欠です。

●DVの計測方法を明確にする
腐敗とは何か、というコンセプトの定義が定まったら、次はその計測方法の決定です。先行研究に基づいて最も妥当性が高く、信頼性がある方法を選ばなくてはなりません。例えば、「ニンゲンが食べたいと感じるかどうか」は単純にランダムに人を呼び、「これ、貴方今食べろって言われたら食べられます?」と聞いてyes/noで返答してもらうだけのdichotomous(二択)にすればいい、シンプルでしょ。…と思うかもしれませんが、これも「食べろって普通に言われたら食べませんけど銃を突き付けられたら食べますかね」みたいなyesとnoの中間の曖昧な返答をどう分類するか、何人にその質問をするのか、何百人という大人数に回答してもらう場合、一番最初の回答者と最後の回答者でリンゴの状態が変わってしまうのであれば、「同じ状況で検証した」とは言えなくなるのではないか。では写真判定をしてもらうほうがいいか、そうするとどんなカメラを使って、どのような角度で照明具合で、誰が写真を撮るのか、など、「決まり」としてあらかじめ設定しなければいけない詳細が山のように出てきます(ああ面倒くさい…ここらへんが一番労力と時間がかかるところです)。

カビやバクテリアの数を検証するとなれば、恐らく染色法(stain)を用いた検証になるのかなと思うのですが(ここらへんは専門分野ではないので間違っていたらごめんなさい)、どういったケミカルを使って何を主にターゲットとした染色をするのか、そして染色の際にリンゴの一部を採取するとしたら、その新たな「傷口」がその後腐敗に与えてしまう影響はあるのかどうかなと、やはり考えなければいけない事柄は多いです。そして、その検証を行う試験者の経験や知識も一定のものでなければなりません(例えば、カビやバクテリアの計測のベテラン専門家さん一人に一貫して実験期間中協力してもらうのが、不慣れな非・専門家が入れ替わり立ち代わりテストするよりも確実そうですが、それは実現可能なのか?など)。

●サンプル対象を明確にする
今回検証するのは「リンゴ」ですが、これは「国産リンゴ」限定でしょうか?出荷地は青森?長野?特定の農家さんが作ったもののみ?それとも海外産も加える?赤リンゴのみ?青りんごも含む?みかんやぶどうはどうします?無農薬のものなのかどうかでも、果物の状態が変わってくるかもしれませんね。先ほど「自尊心が高ければ…低ければ…」という表現もありましたので、可能であれば各リンゴの自尊心もベースライン時に計測できれば(そして両グループ、実験開始時に値が近いことが確認できれば)理想的です。

ツイートではひとつのリンゴを二つに割って検証したようですが、これではあくまでn = 1です。被験者サンプル数(n = リンゴの数)はいくつにしますか?これは、先行研究に基づいた総計学的パワー分析を行って数を決めるのが妥当ですが、求める統計的優位性と効果量を確認するには、いくつリンゴが必要になるのでしょう?

対人研究である場合、年齢、性別、日常的なアクティビティーレベル、既往歴など実に細かな被験者の選択・除外基準 (inclusion/exclusion criteria)が設定されなければいけません。リンゴも同様です。既に傷んでいるリンゴは研究対象から排除するのか?その場合、「傷んでる」かどうかは誰がどう判断するのか?リンゴの直径や重さを測ってサイズも統一するべきか?色(i.e. 一定の赤みに達していないリンゴは除外するなど)は重要要素になるのか?熟し具合はどう定義・判断する?出荷時の梱包状態も考慮するべき?

「実験施設最寄りの青空青果店の店頭に並ぶ青森産の無農薬リンゴを20個使って検証」という風に立地のみの条件に絞ってサンプル対象を限定する(convenience sampling)のはひとつの手ですが、その場合、この実験の普遍性(generalizability)に大きく不信感を持たれることになるでしょう。「ふーん、面白い結果だけど、それはあくまで青空青果の青森産無農薬リンゴを使った場合での話でしょ」「うちの近所の曇り空青果店の長野産の非・無農薬リンゴには当てはまらないかもしれないじゃん」「みかんだったらどうかは全然わからないよね」と言われてしまう、ということです。

ニンゲンに同様の結果が出る、と思い込んでしまうなんてもってのほか。元ツイートを目にして、「やっぱり人間だって罵倒ばかりされたら腐っちゃうよね…」という感想を持つ人は多いのかもしれませんが、リンゴで出た結果がニンゲンでも全く同じように当てはまるに違いない、というのはあまりに大きすぎる話の飛躍です。今回は、あくまでリンゴの話。ニンゲンでの事象が知りたければニンゲンを対象にして実験しなければ無意味です。

●実験手順を明確にする
リンゴさん実験施設到着
 ↓
リンゴさん最終スクリーニング(発送中の傷みなどがありえるため)
最終参加者決定
 ↓
各リンゴを二つに割る
 ↓
実験開始前計測
その後、左右をランダムに「誉め言葉組」か「罵倒組」に分ける
 ↓
介入(一か月褒め続ける or 罵声を浴びせ続ける)
 ↓
実験後計測
 ↓
そのあとスタッフが美味しくいただきました

…という流れが元のツイートからは最も自然かなと思うのですが、ここで注目すべきは「ランダム化 (randomization)」、「盲検法 (blinding)」、「被験者準備 (sample prep)」と「介入期間 (intervention duration)」です。
b0112009_04571221.png
二つに割ったリンゴのうち、左右のどちらが「褒め」られ、どちらが「罵倒され」るのかは非常に重要な要素ですので、コンピューターのソフトウェアなどを用いてランダムに決められるべきです。なんでこれが大事なの?と思うかもしれませんが、例えば試験者が意識的・無意識的に状態の良さそうな半分を「誉め言葉組」に入れてしまって結果が左右されたり、リンゴを切る係の人の左手にたまたまバイキンがついていて、左手で持ったリンゴの全ての条件が変わってしまった、などの可能性を除外するために無視できないステップです。

盲検法も同様に重要です。例えばニンゲンに食べらえるか食べられないかを判断してもらって腐敗度を計測する場合、この質問をする相手は「このリンゴはどの組のリンゴなのか(= ここまで褒められてきたのか、罵倒されてきたのか)」を知らない(= blinded to the group assignments)状態で回答してもらうほうが、今のリンゴの状態のみに基づいた、より公平で純粋な意見が聞けるということになります。菌やバクテリアの有無を検証する場合の専門家さんも同様です。一般の人体研究では、被験者にもこの盲検法を用いたりするんですけど(= 被験者自身が自分がどちらのグループに分類されているのか分かっていない状態で実験が進む)、そして、被験者とアウトカム計測者の両方が盲目であることを二重盲検(double-blinding)といい、より崇高な実験手法とされているのですけど、この研究ではさすがにちょっとそれは無理ですかね。

検証開始までのリンゴの準備手順も決めなければいけません。実験開始時に、空気による酸化(腐敗とは違う、と個人的にはとらえています)を防ぐために全てのリンゴを一定濃度の食塩水に等しく浸してからー、とか、へたは取るのか取らないのかとか、そういう手順の統一ことです。二つに割る際に、誰がどう割るのか、人手を使って包丁とまな板で切る場合、左右が均等な大きさであることをどう確認するのか、使う包丁・まな板や手の殺菌はひとつ切ったごとに行うのか、何を使ってどう殺菌するのか、それが本当に効果的な殺菌法と言えるのか、などなど、などなど…。加えて、たまたま「罵倒組」のリンゴの一つに菌が辿りつき、そこから芋づる的に、ぶわーっと「感染」が広がらないためにも、それなりに間隔を置いてリンゴを並べなきゃいけないとか、複数同じ条件の部屋を用意するとか、あれこれ工夫が必要になります。

介入期間も、元ツイートでは一か月になっていますが、果たして一か月がベストなのかは疑問です。一か月は、一般的に実験界ではintermediate(中期)といわれるような長さかと思うのですが、short-term(短期)やlong-term(長期)での影響はどうなのか?もしかしたら、短期では褒められたほうが腐敗が進むけど、2週間を超えたあたりから罵倒組が巻き返してくる、とか、長期で検証したら大差なかった、とか、そういう可能性もありますよね?介入期間内にどれほどの頻度で各アウトカムを測定するのかも大事なところです。

●バイアスを減らす
さぁもうここまで考慮すればもう十分だろう、科学的な検証と胸を張って言えるだろう、と考える方もいるかもしれません。本当にそうでしょうか?他にも実験結果に(うっかり)影響を与えてしまうバイアス要素はないでしょうか?

例えば、カビやバクテリアの繁殖は、一般に温度や湿度に大きな影響を受けます。実験室の温度・湿度は常に一定に保てるような環境を作り、日照などの要素も全てのリンゴにとって一律になるように完璧な環境整備をすることが求められます。実験室に人が不要に出入りすればそれだけで菌の侵入を促しかねませんから、出入りを制限したり、容器に入れて密封する場合はいつ空けるかを限定するなど、管理が必要です。実験環境は完全に無菌状態でなくてもいいと思うのですが、同じレベルの菌環境が実験開始時にあり、実験期間中も外的要素の影響を受けなかったということだけは証明できなければいけないのです。

防音も考慮しなければいけませんね。二つのリンゴ片を並べて片方をなじり、もう片方をべた褒めしても、「リンゴがどちらの声も聞こえてしまう環境」ならば介入のCross-Contaminationが起こっており、本当の意味での対比、比較ができていないことになります。片方に声をかけている際はもう片方にはその音が聞こえない環境づくりが必要です。

他に考慮すべき要素として、元ツイートへのリプライに「罵倒時に唾が飛ぶ→細菌感染」の可能性への指摘がありました。なるほど、何かが飛んできて付着するような状況が無いようにカバー的なもの、ラップのようなものはかけたほうがいいのかも知れません。声の波長や声量も影響があるのでは?という指摘もありました。これらがリンゴの状態に影響をどれほど与えるのかは分かりませんが、確かに考慮してもいい要素のように感じます。全く同じ声の波長で、音量で毎回声掛けをするというのはもはや人間離れした技ですから、その場合、録音した音源を再生するというのが「最も安定した声の提供」ということになるのかもしれません。この場合、前述の「表情」の要素はなくなりますね。


ご察しの通り、まだまだ書こうと思えば延々と書き続けられますが、このへんで今日はやめておきましょう。でも、今回私が思うことは3つです。

1) 一見アホらしいとか非科学的、スピリチュアルに見えるような主張でも、科学的に検証することは十分に可能
2) しかし、良質な研究を遂行しようと思えば、実験を行う前に調べなければいけないことがいっぱいあるし、細部にまで気を配って研究をデザインしなければいけない
3) 研究者さんまじリスペクト

エビデンスなんて嫌いさっ、何の意味もないぜ!という方たちは果たして純粋生粋な研究者さんたちがどれほど膨大な時間と手間をかけて科学的検証を日々行っているのか本当に理解しているのでしょうか。美しい研究はため息が出るほど本当に美しいです…。惚れ惚れします…。

なるほど確かに世に出回っている研究には良質なものもあれば、目も当てられないひどい質のものもあり、研究によって抽出されたエビデンスの解釈は容易ではありません。専門家であるはすの我々も、エビデンスの読み方・使い方を熟知していなければ、騙されてしまう、罠にかかってしまうのも事実です。でもエビデンスを生んでくれる彼らがいなければ、我々クリニシャンの力や世間への説得力は軽く半減しますよ。彼らが遂行、発表してくれたエビデンスを今日も美味しくいただきましょう。もぐもーぐ。
b0112009_04302539.jpg

1. Brummelman E, Nelemans SA, Thomaes S, Orobio de Castro B. When parents' praise inflates, children's self-esteem deflates. Child Dev. 2017;88(6):1799-1809. doi: 10.1111/cdev.12936.
2. Brummelman E, Thomaes S, Overbeek G, Orobio de Castro B, van den Hout MA, Bushman BJ. On feeding those hungry for praise: person praise backfires in children with low self-esteem. J Exp Psychol Gen. 2014;143(1):9-14. doi: 10.1037/a0031917.
3. Sveinsdóttir H, Ragnarsdóttir ED, Blöndal K. Praise matters: the influence of nurse unit managers' praise on nurses' practice, work environment and job satisfaction: a questionnaire study. J Adv Nurs. 2016;72(3):558-568. doi: 10.1111/jan.12849.
4. Reavis RD, Miller SE, Grimes JA, Fomukong ANM. Effort as person-focused praise: "hard worker" has negative effects for adults after a failure. J Genet Psychol. 2018;179(3):117-122. doi: 10.1080/00221325.2018.1441801.
5. Feuerbacher EN, Wynne CD. Shut up and pet me! domestic dogs (canis lupus familiaris) prefer petting to vocal praise in concurrent and single-alternative choice procedures. Behav Processes. 2015;110:47-59. doi: 10.1016/j.beproc.2014.08.019.

[PR]

  by supersy | 2018-06-07 04:30 | Just Thoughts

<< 完全帰国しました、と、しゃっく... Exhausted? Talk... >>

SEM SKIN - DESIGN by SEM EXE

AX