2.3 調査結果の分析

02 心理学研究

学習目標

  • 相関係数が変数間の関係を示すことを説明できる。
  • 相関関係は、変数間の因果関係を示すものではないことを認識する。
  • 実際には存在しない変数間の関係を探してしまう傾向があることを説明する。
  • 無作為抽出と、実験群と対照群への参加者の割り当てについて説明する。
  • 実験者や参加者の偏りが実験結果にどのように影響するかを説明できる
  • 独立変数と従属変数を識別する

アイスクリームの売り上げが増えると、犯罪の発生率も増えることをご存知ですか?

好きな味のアイスクリームを堪能することで、犯罪に走る可能性があるのでしょうか?

あるいは、犯罪を犯した後に、自分へのご褒美としてコーンを食べようと思うのでしょうか?

アイスクリームと犯罪の間に関係があることは疑いの余地がありませんが(例:Harper, 2013)、一方が他方の発生を実際に引き起こした、と判断するのはかなり愚かなことです。

アイスクリームの売り上げも犯罪率も、外の気温に関係している可能性の方がはるかに高いといえます。気温が高ければ、たくさんの人が家から出て、お互いに交流し、お互いに迷惑をかけ、時には犯罪を犯すこともあるでしょう。また、外が暖かいと、アイスクリームのような冷たいものを求める傾向があります。

二つのものの間に本当に関係があるかどうかは、どのように判断するのでしょうか?また、関係がある場合、それが偶然なのか、それとも因果関係なのかをどのように見極めればよいのでしょうか?

相関研究

相関関係correlationとは、2つ以上の変数(アイスクリームの消費量と犯罪など)の間に関係があることを意味しますが、この関係は必ずしも原因と結果を意味するものではありません。2つの変数に相関があるということは、一方の変数が変化すると、もう一方の変数も変化するということです。相関関係を測定するには、相関係数という統計値を算出します。相関係数correlation coefficientとは、変数間の関係の強さと方向性を示す-1から+1までの数値のことです。相関係数は通常、rという文字で表されます。

相関係数の数字の部分は、関係の強さを示しています。数字が1に近ければ近いほど(それが負であれ正であれ)、変数はより強く関連しており、一方の変数の変化が他方の変数の変化に伴ってより予測可能であることを意味します。数字が0に近いほど、関係が弱く、変数間の関係が予測できなくなります。例えば、相関係数が0.9の場合、相関係数が0.3の場合よりもはるかに強い関係を示します。アイスクリームと犯罪に関する上記の例は、お互いに関係がないと思われる2つの変数の例です。

相関係数の符号(正または負)は、関係の方向性を示します(図2.12)。正の相関positive correlationは、変数が同じ方向に動いていることを意味します。別の言い方をすれば、一方の変数が増加すると他方の変数も増加し、逆に一方の変数が減少すると他方の変数も減少するということを意味します。負の相関negative correlationとは、変数が反対方向に動くことを意味します。2つの変数が負の相関関係にある場合、一方の変数の減少は他方の変数の増加を伴い、その逆もまた然りです。

アイスクリームと犯罪率の例は、気温が高くなると両方の変数が増加するため、正の相関関係にあります。その他の正の相関関係の例としては、個人の身長と体重の関係や、人の年齢とシワの数の関係などがあります。また、日中の疲労感と前日の睡眠時間には負の相関があると考えられます。

負の相関の実例として、ミネソタ大学の学生研究者は、睡眠時間が5時間未満であった週の平均日数とGPAの間に弱い負の相関(r = -0.29)があることを発見しました(Lowry, Dean, & Manders, 2010)。負の相関があることは、相関がないということとは異なるということに注意してください。例えば、睡眠時間と靴のサイズには相関がないと考えられます。

先に述べたように、相関関係には予測価値があります。あなたが主要大学の入学審査委員だと想像してみてください。膨大な数の出願書類に直面していますが、入学を許可できるのは出願者のほんの一部に過ぎません。では、どのようにして入学者を決定するのでしょうか。現在の学生の大学でのGPAと、SATやACTなどの標準化テストのスコアとの相関関係を調べてみましょう。現在の学生のどの相関が最も強いかを観察することで、この情報を利用して、大学に入学を申請した学生の相対的な成功を予測することができます。

図2.12 散布図は、相関関係の強さと方向性をグラフ化したものである。相関関係が強ければ強いほど、データポイントは直線に近づく。これらの例では、(a)体重と身長には正の相関があり、(b)疲労度と睡眠時間には負の相関があり、(c)靴のサイズと睡眠時間には相関がないことがわかる。

学習へのリンク

このインタラクティブな散布図を操作して、正負の相関関係の理解を深めてください。

相関関係は因果関係を示すものではない

相関研究は、2つの変数の間に存在する関係の強さと方向性を発見できるので便利です。しかし、関係の存在を確認しても、原因と結果cause and effectについてはほとんどわからないため、相関には限界があります。

一方が他方を引き起こしているために変数が相関している場合もありますが、他の要因、つまり交絡変数confounding variable(剰余変数)が実際に対象となる変数の規則的な動きを引き起こしている可能性もあります。先ほどのアイスクリームと犯罪率の例では、温度が交絡変数となり、2つの変数の関係を説明することができます。

明確な交絡変数が特定できない場合でも、2つの変数の間に相関があるからといって、ある変数が他の変数の変化を引き起こすと考えるべきではありません。因果関係がはっきりしていて直感的に理解できる場合は、この点に不満を感じるかもしれません。米国がん協会の研究を思い出してください。彼らの研究プロジェクトは、喫煙とがんの関連性を最初に実証したものでした。喫煙ががんを引き起こすと仮定するのは合理的なように思えますが、相関研究に限って言えば、このような仮定をするのは限度を超えているでしょう。

残念ながら、相関関係の関数としての因果関係を誤って主張する人は常にいます。このような主張は、特に広告やニュース記事でよく見られます。例えば、最近の研究では、シリアルを日常的に食べている人は、ほとんど食べない人よりも健康的な体重を達成していることがわかりました(Frantzen, Treviño, Echon, Garcia-Dominic, & DiMarco, 2013; Barton et al. )

シリアルメーカーはこの結果をどのように報告しているのか考えてみてください。シリアルを食べると、本当に健康的な体重を維持できるのでしょうか?それとも、健康的な体重の人は、肥満の人やダイエットのために食事を避けている人よりも、健康的な朝食を定期的に食べる可能性が高いなど、他の説明が可能なのでしょうか(図2.13)。

図2.13 シリアルを食べると本当に健康的な体重になるのか?

相関研究は、変数間の関係を明らかにする上では非常に有効ですが、因果関係を立証できないという大きな限界があります。心理学者は、因果関係を明らかにしたいと考えていますが、そのためには、研究課題に答えるために実験を行うしかありません。次のセクションでは、科学的な実験には、代替説明を排除したり制御したりする方法が組み込まれており、ある変数の変化が別の変数の変化をどのように引き起こすかを調べることができる、ということを説明します。

錯誤相関

私たちがデータを誤って解釈してしまうのは、相関研究に基づいて誤った因果関係を主張してしまうことだけではありません。特に、非体系的な観測結果では、錯誤相関に陥ることがあります。錯誤相関illusory correlationとは、2つのものの間に関係がないのに関係があると思い込んでしまうことです。

よく知られているのは、月の満ち欠けが人間の行動に影響を与えるという錯誤相関です。月の満ち欠けが人間の行動に影響を与えている、具体的には満月のときに人は奇妙な行動をする、と熱弁を振るう人がいます(図2.14)。

図2.14 満月になると人の行動がおかしくなると多くの人が信じている。

月が私たちの地球に強い影響を与えていることは否定できません。海の潮の干満は、月の引力と密接に関係しています。そのため、私たちが月の影響を受けるのは理にかなっていると多くの人が考えています。私たちの体の大部分は水でできているのだから、というわけです。

しかし、約40の研究のメタ分析により、月と私たちの行動との関係は存在しないことが一貫して示されています(Rotton & Kelly, 1985)。月の満月時には奇異な行動に注意を払うかもしれませんが、奇異な行動の割合は月の周期を通して一定です。

なぜ私たちは、このような錯誤相関を信じてしまうのでしょうか?

多くの場合、読んだり聞いたりした情報をそのまま鵜呑みにしてしまうからです。あるいは、何かがどのように働いているかについてピンときて、その直感を裏付ける証拠を探し、その直感が間違っていることを示す証拠を無視してしまうことがあります(これは確証バイアスcomfirmation biasとして知られる)。

また、たとえ情報が非常に限られていたとしても、頭の中で最も簡単に思いつく情報をもとに、錯誤相関を見出だすこともあります。このような関係を利用して、自分の周りの世界をよりよく理解し、予測できると自信を持って言えるかもしれませんが、錯誤相関には大きな欠点があります。例えば、特定の行動は、不正確だが特定のグループに起因するという錯誤相関は、偏見的な態度の形成に関与し、最終的には差別的な行動につながるという研究結果があります(Fiedler, 2004)。

因果関係:実験を行い、データを利用する

これまで学んできたように、2つの変数の間に因果関係があることを証明するには、科学的な実験を行うしかありません。実験は、科学的な文脈では、日常生活とは異なる意味を持ちます。日常会話では、新しい髪型や新しい食べ物を試すなど、初めてのことをするときによく使います。しかし、科学的な文脈では、実験の設計と実施には正確な要件が求められます。

仮説

実験を行うためには、研究者は検証すべき具体的な仮説を持っていなければなりません。仮説を立てるには、現実世界を直接観察したり、過去の研究を精査したりする必要があることはご存じのとおりです。例えば、教室でのテクノロジーの使用が学習に悪影響を与えると考えた場合、あなたは基本的に「教室でのテクノロジーの使用は学習を低下させるので、制限すべきである」という仮説を立てました。どんな経緯でそのような仮説を立てたのでしょうか?

ノートパソコンでノートを取っているクラスメートは、手書きでノートを取っているクラスメートに比べて、クラスのテストでの成績が低いことや、コンピュータプログラムで授業を受けている人と、直接先生に会って授業を受けている人とでは、テストでの成績が異なることに気がついたのかもしれません(図2.15)。

図2.15 教室でのテクノロジーの使用は、学習にどのような影響を与えるでしょうか?

多くの場合、このような個人的な観察が特定の仮説を立てるきっかけになりますが、限られた個人的な観察や裏付けに乏しい証拠では、仮説を厳密に検証することはできません。仮説が現実のデータに裏付けられているかどうかを確認するためには、実験を行う必要があります。

実験計画

最も基本的な実験計画では、実験群と対照群の2つのグループを設定します。この2つのグループは、実験的操作という1つの違いを除いて、同じになるように設計されています。実験群experimental groupには実験的操作、つまり検証される治療法や変数(ここではテクノロジーの使用)が与えられ、対照群control groupには与えられません。実験的操作が実験群と対照群の間の唯一の違いであるため、2つの間の違いが偶然ではなく、実験的操作によるものであることを確信できます。

教室でのテクノロジーの使用を制限すべきであるという例では、実験群にはコンピュータプログラムを使って代数を学習させ、その学習結果をテストします。対照群は、従来の教室で教師から代数を教わった後、学習効果を測定します。対照群は、実験的な操作を受けないという例外を除いて、実験群と同様に扱われることが重要です。

また、代数の学習をどのように測定するかを正確に定義し、運用することが必要です。操作的定義operational definitionは、変数を正確に記述することであり、研究者が特定の実験で何をどのように測定しているのかを他の人が正確に理解するために重要です。

学習を検証する際には、教師やコンピュータプログラムから教わった内容を網羅したテストの成績を見ることになるかもしれません。また、参加者に何らかの形で提示した情報を要約してもらうことも考えられます。いずれにしても、私たちの研究を初めて聞いた人が、学習とは何を意味するのかを正確に理解できるように学習を検証することが重要です。そうすることで、データの解釈がしやすくなり、また、実験を繰り返すことができるようになります。

実験参加者が何をテクノロジーの使用と考え、何を学習と考えるかを明確にした後は、どのように実験を行うかを設定する必要があります。今回のケースでは、実験参加者に代数学を45分間学習してもらい(コンピュータプログラムまたは対面式の数学教師)、その後、45分間に学習した内容についてテストを行う。

テストを採点する人は、実験者バイアスをコントロールするために、実験群と対照群のどちらに割り当てられたかを知らないことが理想的です。実験者バイアスExperimenter biasとは、研究者の期待が研究結果を歪めてしまう可能性のことです。実験を行うには多くの計画が必要であり、研究プロジェクトに関わる人々は自分たちの仮説を支持することに利害関係があることを忘れてはいけません。もし、観察者がどの子がどのグループにいるかを知っていたら、手書きの文字が汚かったり、ちょっとした計算ミスなどの曖昧な回答をどのように解釈するかに影響を与えるかもしれません。どの子がどのグループにいるかわからないようにすることで、そうしたバイアスから守ることができます。この状況は単盲検試験single-blind studyというもので、一方のグループ(参加者)は自分がどちらのグループ(実験群または対照群)に属しているかを知らないが、実験を開発した研究者はどの参加者が各グループに属しているかを知っているということです。

二重盲検試験double-blind studyでは、研究者と参加者の両方ともグループの割り当てを知ることができません。なぜ研究者は、誰がどのグループに入っているかわからない状態で研究を行いたいのでしょうか?それは、そうすることで、実験者と参加者の両方の期待をコントロールすることができるからです。

プラシーボ効果placebo effect(プラセボ効果)という言葉をご存知であれば、なぜこれが重要な検討事項なのか、すでにお分かりいただけると思います。プラシーボ効果とは、人々の期待や信念が、ある状況下での体験に影響を与えたり、決定したりすることです。つまり、何かが起こると期待するだけで、実際にその通りになるということです。

プラシーボ効果は、新薬の効果を検証する際によく言われることです。あなたが製薬会社で働いていて、うつ病に効果のある新薬を開発したと考えているとします。その薬の効果を実証するために、2つのグループで実験を行います。実験群には薬を投与し、対照群には薬を投与しません。しかし、被験者には薬をもらったかどうかを知られたくありません。

それはなぜでしょうか?あなたがこの研究の参加者で、気分を良くすると思われる薬を飲んだところだと想像してみてください。薬の効果を期待しているので、実際に薬に含まれている薬剤ではなく、「薬を飲んだ」というだけで気分が良くなることがあります―これがプラシーボ効果です。

気分への影響が期待ではなく薬によるものであることを確認するために、対照群にはプラシーボ(この場合は砂糖の錠剤)を渡します。これで全員が薬を手にしたことになり、研究者も実験参加者も、誰が薬を手にしたのか、誰が砂糖の錠剤を手にしたのかわからなくなります。実験群と対照群の気分の違いは、実験者のバイアスや参加者の期待ではなく、薬そのものに起因することになります(図2.16)。

図2.16 対照群にプラセボ治療を行うことで、期待によるバイアスを防ぐことができる。

独立変数と従属変数

研究実験では、あるものの変化が別のものの変化を引き起こすかどうかを調べようとします。そのためには、実験では、独立変数と従属変数という2つの重要な変数(変化させることができるもの)に注意しなければなりません。

独立変数independent variableは、実験者によって操作されるもののことです。うまく設計された実験研究では、独立変数は実験群と対照群の間の唯一の重要な違いです。教室でのテクノロジーの使用が学習にどのような影響を与えるかという例では、独立変数は研究参加者の学習の種類です(図2.17)。従属変数dependent variableとは、独立変数がどの程度の影響を与えたかを研究者が測定するものです。この例では、従属変数は、参加者の学習の結果です。

図2.17 実験では、独立変数を操作することで、従属変数が変化することが期待される。

我々は、従属変数が独立変数の関数として変化することを期待しています。言い換えれば、従属変数が独立変数に従属することを期待しています。独立変数と従属変数の関係を考える良い方法は、この質問です:独立変数は従属変数にどのような影響を与えるか?先ほどの例に戻ると、コンピュータプログラムで授業を受けるのと、対面で教師から授業を受けるのとでは、どのような効果があるのでしょうか?

実験参加者の選択と割り当て

研究の計画ができたので、実験に参加してもらうための被験者を募る必要があります。私たちの研究には人間の参加者が含まれますので、誰を参加させるかを決定する必要があります。

参加者Participantとは、心理学的研究の対象者のことで、その名の通り、心理学的研究に参加する人は、その過程に積極的に参加します。心理学研究プロジェクトでは、大学生が参加者となることがよくあります。実際、心理学の下位分野における研究の大部分は、歴史的に学生を研究参加者として参加させてきました(Sears, 1986; Arnett, 2008)。

しかし、大学生は本当に一般集団を代表しているのでしょうか?大学生は、一般集団に比べて若く、高学歴で、リベラルで、多様性に欠ける傾向があります。学生を被験者にすることは一般的に認められていることですが,このような限られた研究参加者に頼ることは,結果をより大きな集団に一般化することが難しいという問題があります。

ここでは高校生を対象とした実験を想定していますが、そのためにはまず標本を作成する必要があります。標本を使用するのは、通常、集団が大きすぎるので、特定の実験にすべてのメンバーを参加させることは当然できないからです(図2.18)。

可能であれば、無作為抽出の標本を使用するべきです(他の種類の標本もありますが、この章では無作為抽出の標本に焦点を当てます)。無作為標本random sampleとは、より大きな母集団の一部で、その母集団のすべてのメンバーが等しく選択される確率を持つものです。無作為標本が好まれる理由は、標本数が十分に大きければ、参加した個人がより大きな母集団を代表していることが合理的に確認できるからです。つまり,サンプルに含まれる性別,民族,社会経済的水準,その他結果に影響を与える可能性のある特性の割合が,より大きな人口の割合に近いことを意味しています。

この例では,対象とする集団を代数学の学生と決めたとします。しかし、全ての代数学生というのは非常に大きな集団なので、その代わりに、特定の都市の全代数学生を対象とする、というように限定します。このとき、様々な所得層、家庭環境、人種、民族、宗教、地域の学生を対象とするのが望ましいです。母集団として管理しやすいので、地元の学校と協力して、実験に参加してもらいたい200人程度の代数学生を無作為に抽出することができます。

要するに、ある都市のすべての代数学生をテストすることはできないので、その都市の構成を反映した約200人のグループを見つけたいということです。代表的なグループがあれば,標本に何らかの偏りがあることを恐れることなく,調査結果をより大きな集団に一般化することができるのです。

図2.18 研究者は、(a)大きな集団、または(b)大きな集団の一部であるサンプルグループを扱うことができる。

サンプルが得られたので、実験の次の段階は、参加者を無作為に割り当てて実験群と対照群に分けることです。無作為割付random assignmentでは、すべての参加者がどちらかのグループに振り分けられる確率が等しくなります。標本の代数学生を実験群と対照群のどちらかに無作為に割り当てる統計ソフトがあります。

無作為に割り付けることは、健全な実験計画には欠かせません。十分に大きなサンプルでは、無作為に割り付けることで、グループ間に系統的差異があるとは考えられません。例えば、男性だけで構成されたグループ、特定の民族のアイデンティティを持つグループ、特定の宗教的イデオロギーを持つグループが存在する可能性は非常に低いと言えます。ここで重要なのは、もし実験開始前からグループ間に系統的差異があったとしたら、グループ間に見られる違いが何に由来するものなのかがわからないということです——その差は元々あったものなのでしょうか、それとも独立変数の操作によって生じたものなのでしょうか?

無作為割付をすることにより、実験群と対照群の間で観察された差が独立変数の操作に起因するものであると仮定することができます。

学習へのリンク

このオンライン乱数発生器を使用して、無作為抽出と割付について詳しく学んでください。

考慮すべき問題

実験によって科学者は因果関係を主張することができますが、問題がないわけではありません。真の実験では、実験者が独立変数を操作する必要があり、心理学者が解決したい多くの問題を複雑にしてしまうことがあります。

例えば、性別(独立変数)が空間記憶(従属変数)にどのような影響を与えるかを知りたいとします。空間記憶を利用した課題で男性と女性の違いを調べることはできますが、人の性別を直接コントロールすることはできません。私たちはこのような研究手法を疑似実験的なものとし、このような状況では因果関係を主張できないということを認識しています。

また、実験者は倫理的な制約を受けます。例えば、子供の頃に虐待を受けたことが、大人になってからの自尊心の低下につながるのかどうかを調べる実験を行うことはできないでしょう。そのような実験を行うためには、実験参加者の一部を虐待を受けるグループに無作為に割り当てる必要がありますが、そのような実験は倫理的に許されません。

実験結果の解釈

実験群と対照群の両方からデータを収集したら、2つの群の間に意味のある違いがあるかどうかを調べるために、統計分析を行います。統計分析statistical analysisでは、発見された差が偶然によるものである可能性(つまり意味のないものである可能性)を判断します。

例えば、ある栄養補助食品の効果について実験を行い、プラシーボ薬(栄養補助食品ではない)を飲んだ人が、栄養補助食品を飲んだ人と同じ結果になった場合、その実験では栄養補助食品に効果がないことが示されます。

一般に、心理学者は、グループ間で実際に差がなかったとしても、その差が観察される可能性が5%より小さければ、統計的に有意な差であると考えます。別の言い方をすれば、心理学者は、「偽陽性」の主張をする可能性を5パーセント以下に抑えたいと考えているのです。

実験の最大の強みは、調査結果の有意差が独立変数に起因すると断言できることです。これは、無作為抽出、無作為割付、実験者バイアスと参加者の期待感の両方の影響を制限する設計により、構成と処理が類似したグループを作ることができるからです。したがって、グループ間の差は独立変数に起因するものといえるので、これでようやく因果関係を示すことができます。暴力的なテレビ番組を見た結果、暴力的でない番組を見た場合よりも暴力的な行動が増えることがわかれば、暴力的なテレビ番組を見ることで、暴力的な行動を示すことが増えると安心して言えるでしょう。

研究報告

心理学者は、研究プロジェクトを完了すると、一般的にその結果を他の科学者と共有したいと考えます。アメリカ心理学会(APA)は、科学雑誌に投稿するための論文の書き方を詳しく説明したマニュアルを発行しています。心理学に関心のある一般読者を対象とした『Psychology Today』のような雑誌に掲載される記事とは異なり、科学雑誌は一般的に、自ら積極的に研究に携わっている専門家や学者の読者を対象とした査読付き雑誌論文peer-reviewed journal articlesを掲載しています。

学習へのリンク

パデュー大学のオンライン・ライティング・ラボ(OWL)(英語)では、APAライティング・ガイドラインの解説を行っています。

査読付き雑誌論文は、その分野の専門知識を持つ他の複数の科学者(通常は匿名)によって読まれます。これらの査読者は、著者と雑誌編集者の両方に対して、草稿の質に関するフィードバックを行います。査読者は、記述されている研究の強力な根拠、研究の実施方法の明確な記述、研究が倫理的な方法で実施された証拠を探します。研究のデザイン、方法、統計分析に不備がないかどうかも確認します。

また、研究中に得られた観察結果から著者が導き出した結論が妥当であるかどうかも確認します。査読者はさらに、その研究がその分野の知識を深める上でどれだけ価値があるかについてもコメントします。これにより、科学文献における研究結果の不必要な重複を防ぎ、各研究論文が新しい情報を提供することをある程度保証することができます。最終的には、ジャーナル編集者が査読者からのフィードバックをすべてまとめ、論文が現状のまま出版されるか(まれなケース)、修正を加えて出版されるか、あるいは出版が認められないかを判断します。

査読は、心理学研究にある程度の品質管理を与えるものです。発想や実行が乏しい研究は淘汰されますし、うまく設計された研究であっても、提案された修正によって改善される可能性があります。また、査読では、他の科学者が再現できるように研究内容が明確に記述されているかどうかも確認されます。

つまり、信頼性を判断するために異なる標本を使って実験を繰り返すことができるのです。再現実験では、最初の発見をさらに発展させた追加の測定を行うこともあります。いずれにしても、それぞれの再現実験は、元の研究結果を裏付けるより多くの証拠を提供します。発表された研究の再現に成功すれば、科学者はその研究結果を採用する傾向にありますが、失敗を繰り返せば、元の論文の正当性が疑われ、科学者は別の場所に目を向けるようになります。

例えば、ある新薬を服用すると、食生活を変えなくても健康的な体重になるという研究結果が発表されれば、医学分野では大きな進歩となります。しかし、他の科学者がその結果を再現できなければ、元の研究の主張は疑問視されるでしょう。

近年、心理学を含む多くの科学分野で、「再現性の危機」が懸念されています。最も有名な研究や科学者の中には、他の人が再現できないような研究を行っている人もいます(Shrout & Rodgers, 2018で議論されている)。

実際、ノーベル賞を受賞した有名な科学者でさえ、結果を再現することが困難であったため、最近、発表した論文を撤回しています(Nobel Priz-winning Scientist Frances Arnold retracts paper, 2020 January 3)。このような結果を受けて、一部の科学者は協力してよりオープンに活動を始めており、現在の「危機」は、実際には科学の実施方法やその結果を他者と共有する方法を改善していると主張する人もいます(Aschwanden, 2018)。

ワクチン‐自閉症の神話と研究の撤回

一部の科学者は、定期的に接種される小児用ワクチンが原因で自閉症を発症する子供がいると主張しており、実際にいくつかの査読付き出版物ではこのような主張をする研究が発表されています。しかし、その後の大規模な疫学調査により、自閉症の原因はワクチン接種ではないこと、また、ワクチンを接種しないよりも接種した方がはるかに安全であることが示唆されています。さらに、このような主張をした最初の研究のいくつかは、その後撤回されています。

発表された論文は、データの改ざんや捏造、研究デザイン上の重大な問題が原因で疑問視された場合、取り消されることがあります。取り消されると、科学界は元の出版物に重大な問題があることを知ることになります。取り消しは、研究を主導した研究者、共同研究者、研究者を雇用した機関、または論文が最初に掲載されたジャーナルの編集委員会が行うことができます。ワクチン-自閉症のケースでは、主導した研究者が小児用ワクチンと自閉症との関連性を確立することに金銭的な利益を得ていたという重大な利益相反があったため、撤回が行われました(Offit, 2008)。残念なことに、最初の研究がメディアで注目されたため、世界中の多くの親が自分の子供にワクチンを接種することをためらうようになりました(図2.19)。このような否定された研究を当てにし続けることは、重大な結果をもたらします。例えば、2019年の1月から10月の間に、米国内で22件の麻疹が突発的に発生し、1000人以上の個人が麻疹に罹患しました(Patel et al.、2019)。これは、誤りが暴かれた研究から立ち上がった反ワクチン運動が原因であると考えられます。ワクチンと自閉症の話がどのように展開されたか、またその反響については、Paul Offitポール・オフィットの著書『Autism’s False Prophets: Bad Science, Risky Medicine, and the Search for a Cure.』を見てみましょう。

図2.19 予防接種が自閉症の原因だと考える人もまだいる。

信頼性と妥当性

信頼性と妥当性は、どのような種類のデータ収集でも考慮しなければならない2つの重要なポイントです。信頼性reliabilityとは、与えられた結果が一貫して得られることです。心理学の研究においては、データを収集するために使用される機器やツールが、一貫した再現性のある方法でデータを収集することを意味します。信頼性にはいくつかの種類があります。

例えば、評価者間信頼性inter-rater reliability(2人以上の異なる観察者が、観察された内容に同意する度合い)、内的整合性internal consistency(同じ内容を測定する異なる調査項目が、互いに相関する度合い)、検査・再検査信頼性test-retest reliability(特定の測定結果が、複数回の実施で一貫している度合い)などがあります。

残念ながら、測定値に一貫性があるからといって、正しく測定できているとは限りません。例えば、朝食べたシリアルの重さを測るためのキッチンスケールを考えてみましょう。スケールの調整が適切に行われていないと、シリアルの量を常に過小に測ってしまったり、過大に測ったりしてしまいます。

スケールは一貫した結果を出すという点で非常に信頼性が高いといえますが(例えば、同じ量のシリアルをスケールに注ぐと、毎回同じ値が得られる)、その結果が正しくないわけです。ここで問題になるのが「妥当性」です。妥当性Validityとは、ある機器やツールが、その機器やツールが測定しようとしているものをどの程度正確に測定しているかということであり、妥当性の表現方法はいくつかあります。

生態学的妥当性Ecological validity(研究結果を実世界にあてはめて一般化する度合い)、構成概念妥当性construct validity(ある変数が実際に意図されたものを捉え、測定する度合い)、表面的妥当性face validity(ある変数が表面上は妥当に見える度合い)などは、研究者が考慮するいくつかのタイプに過ぎません。妥当な尺度は必然的に信頼できるものですが、その逆は必ずしも真ではありません。研究者は、高い信頼性と有効性の両方を備えた機器を使用するように努めています。

SATとACTの有効性は?

SATやACTのような標準化されたテストは、個人の大学教育への適性を測るものとされていますが、このようなテストの信頼性や妥当性はどの程度なのでしょうか?College Boardの調査によると、SATのスコアは、大学1年生のGPAに対して高い予測妥当性があるとされています(Kobrin, Patterson, Shaw, Mattern, & Barbuti, 2008)。

ここでいう予測妥当性とは、テストが大学1年生のGPAを効果的に予測する能力のことです。多くの高等教育機関が入学時にSATやACTを要求していることを考えると、この高い予測妥当性は安心できるかもしれません。

しかし、大学入試においてSATやACTのスコアが重視されることは、いくつかの面で議論を呼んでいます。まず、一部の研究者は、これらのテストには偏りがあり、少数派の学生を不利な立場に置き、大学に入学できる可能性を不当に低下させると主張しています(Santelices & Wilson, 2010)。

さらに、これらのテストが大学1年生のGPAを予測する上での有効性は非常に誇張されているという研究結果もあります。実際、SATの予測有効性は150%も過大評価されている可能性があると指摘されているのです(Rothstein, 2004)。多くの高等教育機関では、入学審査の際にSATのスコアを重視しないことを検討し始めています(Rimer, 2008)。

最近、国内外で目立った不正行為のスキャンダルがあったことで、この種のテストにかけられる監視の目はますます厳しくなっており、2019年3月現在、1000以上の高等教育機関が、入学試験におけるSATやACTのテストの要件を緩和または廃止しています(Strauss, 2019, March 19)。

おすすめ関連書籍

Amazon.co.jp: 心理学 第5版補訂版 : 鹿取 廣人, 杉本 敏夫, 鳥居 修晃, 河内 十郎: Japanese Books
Amazon.co.jp: 心理学 第5版補訂版 : 鹿取 廣人, 杉本 敏夫, 鳥居 修晃, 河内 十郎: Japanese Books

図2.13 credit: Tim Skillern

図2.14 credit: Cory Zanker

図2.15 credit: modification of work by Nikolay Georgiev/Pixabay

図2.16 credit: Elaine and Arthur Shapiro

図2.17 credit: “classroom” modification of work by Nikolay Georgiev/Pixabay; credit “note taking”: modification of work by KF/Wikimedia

図2.18 credit “crowd”: modification of work by James Cridland; credit “students”: modification of work by Laurie Sullivan

図2.19 credit: modification of work by UNICEF Sverige

Openstax,”Psychology 2e 2.3 Analyzing Findings”.https://openstax.org/books/psychology-2e/pages/2-3-analyzing-findings

タイトルとURLをコピーしました