学習目標
- オペラント条件づけを定義する
- 強化と罰の違いを説明することができる
- 強化スケジュールを区別することができる

この章の前のセクションでは、古典的条件づけとして知られる連想学習のタイプに焦点を当てました。古典的条件づけは、環境中の何かが自動的に反射を誘発し、研究者は異なる刺激に反応するように生物を訓練するものでした。ここでは、連想学習の2つ目のタイプであるオペラント条件づけについて説明します。オペラント条件づけでは、生物はある行動とその結果を関連付けることを学びます(表6.1)。快となるような結果は、その行動が将来的に繰り返される可能性を高めます。例えば、スピリットというボルチモアの国立水族館のイルカは、トレーナーが笛を吹くと空中で宙返りをします。その結果、彼女は魚を手に入れることができます。
古典的条件付けとオペラント条件づけの比較
古典的条件付け | オペラント条件付け | |
---|---|---|
条件づけの方法 | 無条件刺激(食物など)と中性刺激(ベルなど)を対にして与える。中性刺激はやがて条件刺激となり、条件反応(唾液分泌)を引き起こす。 | 学習者が将来的に望ましい行動をとる可能性が高くなるように、目標行動の後に強化または罰を与えて、行動を強めたり弱めたりする。 |
刺激のタイミング | 刺激は反応の直前に起こる。 | 刺激(強化または罰)は反応のすぐ後に起こる。 |
古典的条件付けとオペラント条件付けの違い
心理学者のB.F.Skinnerは、古典的条件付けは反射的に引き出される既存の行動に限られ、自転車に乗るなどの新しい行動は説明できないと考えました。彼は、そのような行動がどのようにして起こるのかという理論を提案しました。彼は、行動は、その行動に対して得られる結果、つまり強化と罰によって動機づけられると考えました。こうしたSkinnerの考えは、心理学者Edward Thorndikeが最初に提唱した「効果の法則」に基づいています。効果の法則によると、生物にとって満足のいく結果が続く行動は繰り返されやすく、不快な結果が続く行動は繰り返されにくいとされています( Thorndike, 1911)。基本的には、ある行動が生物に望ましい結果をもたらせば、その生物は再びそれを行う可能性が高くなりますし望ましい結果をもたらさなければ、その生物が再びそれを行う可能性は低くなります。効果の法則の例としては、雇用があります。私たちが会社に出勤する理由の1つ(多くの場合、最大の理由)は、給料をもらっているからです。もし給料をもらえなくなれば、たとえ仕事が好きであっても出勤しなくなってしまうでしょう。
Skinnerは、 Thorndikeの「効果の法則」をもとに、動物(主にネズミとハト)を使って、オペラント条件づけによって生物がどのように学習するかを調べる科学的実験を始めました(Skinner, 1938)。Skinnerは、動物たちを「スキナー箱(オペラント実験箱)」と呼ばれるオペラント条件づけ装置の中に入れました(図6.10)。スキナー箱にはレバー(ラット用)やキー(ハト用)が入っていて、動物はそれを押したりつついたりすることで、ディスペンサーを介して餌を得ることができます。スピーカーやライトは、特定の行動と関連づけるのに用いられ、レコーダーは、動物が反応した数をカウントします。

学習へのリンク
ハトのオペラント条件付けの実演動画
オペラント条件づけについて論じるときには、正、負、強化、罰といった日常的な言葉を専門的な用法で使用します。オペラント条件づけでは、正と負は良い意味でも悪い意味でもありません。正は「何かを加えること」、負は「何かを奪うこと」を意味します。強化は「行動を増加させること」を意味し、罰は「行動を減少させること」を意味します。強化には正と負があり、罰も正と負があります。すべての強化子は、ある行動反応の可能性を高めます。すべての弱化子(罰子)は、ある行動反応の可能性を減少させます。
ここで、この4つの用語、正の強化、負の強化、正の罰、負の罰を組み合わせてみましょう(表6.2)。
強化 | 罰 | |
---|---|---|
正 | 行動の可能性を増加させるために 何かが加えられる(提示される)。 | 行動の可能性を減少させるために 何かが加えられる( 提示される )。 |
負 | 行動の可能性を増加させるために 何かが取り除かれる( 除去される )。 | 行動の可能性を減少させるために 何かが取り除かれる(除去される)。 |
強化
人や動物に新しい行動を教える最も効果的な方法は、正の強化です。正の強化(提示型強化)では、望ましい刺激を加えて行動を増加させます。
例えば、5歳の息子、太郎君に「部屋をきれいにしたら、おもちゃをあげるよ」と言ったとします。太郎君は、新しいお絵かきセットが欲しくて、すぐに部屋を掃除します。
ここで、ちょっと立ち止まってみましょう。”なぜ、期待されていることをした子供にご褒美を与えなければならないのか?”と言う人もいるかもしれません。しかし実際には、私たちは生活の中で常に一貫してご褒美を与えられています。お給料もご褒美ですし、成績が良かったり、志望校に合格したりすることもご褒美です。良い仕事をして褒められたり、運転免許試験に合格したりすることもご褒美です。
学習ツールとしての正の強化は非常に効果的です。例えば、読書成績が平均以下の学区の状況を改善する最も効果的な方法の一つは、子供たちにお金を払って読ませることだったということがわかっています。具体的には、ダラスの小学2年生を対象に、本を読み、その本に関する短いクイズに合格するたびに2ドルが支払われました。そしてその結果、読解力が大幅に向上したのです(Fryer, 2010)。このプログラムについて、あなたはどう思いますか?もしSkinnerが今生きていたら、このプログラムを素晴らしいアイデアだと思うでしょう。彼は、学校で生徒の行動に影響を与えるためにオペラント条件づけの原理を使うことを強く支持していました。実際、Skinnerは、スキナー箱に加えて、学習の小さなステップごとに報酬を与えるように設計されたティーチングマシンと呼ばれるものを発明しており(Skinner, 1961)これはコンピュータによる学習支援の先駆けとなりました。Skinnerのティーチングマシンは、生徒がさまざまな教科を学習する際に、その知識をテストするものでした。生徒が問いに正解すれば、すぐに正の強化を受けて継続することができ、不正解の場合は強化を受けません。これは、生徒は次の強化を受ける機会を増やすために、さらに時間をかけて学習するという考えに基づいています(Skinner, 1961)。
負の強化(除去型強化)では、望ましくない刺激を取り除くことで行動を増加させます。例えば、自動車メーカーのシートベルトシステムは、負の強化の原理を利用したもので、シートベルトを締めるまで「ピッ、ピッ、ピッ」と鳴り続けます。あなたが望ましい行動(シートベルトを締める)をとると、その不快な音は止まるので、あなたが将来シートベルトを締める可能性が高まります。負の強化は馬の訓練にもよく使われます。騎手は手綱を引いたり、脚で圧迫してプレッシャーをかけ、馬がターンやスピードアップなどの望ましい行動をしたらプレッシャーを取り除きます。プレッシャーは、馬が取り除きたいと思っている負の刺激なのです。
罰
オペラント条件づけにおいて、負の強化と罰を混同している人は多くいますが、この2つは全く異なるメカニズムです。強化は、たとえそれが負であっても、常に行動を増加させるものでした。それに対して罰は、常に行動を減少させるものです。
正の罰では、望ましくない刺激を加えて行動を減少させます。正の罰の例としては、生徒が授業中にメールをするのをやめさせるために生徒を叱ることが挙げられます。この場合、行動(授業中のメール)を減少させるために、刺激(叱責)を加えます。負の罰では、行動を減少させるために快い刺激を取り除きます。例えば、子供が悪さをしたときに、親がお気に入りのおもちゃを取り上げることがあります。この場合、行動を減少させるために、刺激(おもちゃ)を取り除きます。
罰は、特にそれが即座に行われる場合、望ましくない行動を減少させるための1つの方法となります。例えば、あなたの4歳の息子、次郎君が弟を叩いたとします。そこであなたは次郎君に「弟を叩かない」と100回書かせます(正の罰)。そうすれば、おそらく彼はもうこの行動を繰り返さないでしょう。このような戦略は現在は一般的になっていますが、昔の子どもたちは尻叩きなどの体罰を受けることが多くありました。しかし、体罰にはいくつかの欠点があることを知っておく必要があります。まず、体罰によって恐怖心が芽生えることがあります。次郎君は罰を与えた人、つまり親であるあなたを怖がるようになるかもしれません。同様に、教師から体罰を受けた子どもは、教師を恐れ、学校を避けようとするかもしれません(Gershoff et al., 2010)。そのため、米国ではほとんどの学校が体罰を禁止しています。第二に、体罰によって子どもが攻撃的になり、反社会的な行動や非行に走りやすくなる可能性があります(Gershoff, 2002)。子供たちは、親が怒ったりイライラしたりしたときに尻叩きに頼るのを見て、今度は自分が怒ったりイライラしたりしたときに同じ行動をとるようになるかもしれません。例えば、花子が悪いことをしたときに親が花子を叩くので、花子は友達がおもちゃを分けてくれないと叩くようになるかもしれません。
正の罰が有効な場合もありますが、Skinnerは、罰の使用は起こりうる悪影響と照らし合わせて判断すべきだと提案しました。現在の心理学者や子育ての専門家は、罰よりも強化を重視しています。子供が何か良いことをしているのを見つけて、それに対してご褒美を与えることを推奨しているのです。
行動形成
Skinnerがオペラント条件づけの実験でよく用いたのが、 行動形成という方法です。行動形成(反応形成、シェイピング)では、目標とする行動だけに報酬を与えるのではなく、目標とする行動の漸次的近似にも報酬を与えます。なぜ行動形成が必要なのでしょうか?強化が働くためには、生物がまず行動を示す必要があることを忘れてはいけません。 行動形成が必要なのは、生物が自発的に最も単純な行動以外を示す可能性が極めて低いからです。行動形成では、行動を小さな達成可能なステップに分解していきます。具体的には、以下のようなステップを踏んでいきます。
- 望ましい行動に類似した反応を強化する。
- 次に、より望ましい行動に近い反応を強化する。以前に強化した反応はもう強化しない。
- 次に、さらに望ましい行動に近い反応を強化し始める。
- 望ましい行動にますます近いものを強化し続ける。
- 最後に、望ましい行動のみを強化する。
行動形成は、複雑な行動や行動連鎖を教える際によく使われます。Skinnerは行動形成を使って、ハトにスキナー箱のキーをつつくといった比較的単純な行動だけでなく、円を描くように回る、8の字を描くように歩く、さらにはピンポンをするといった、変わった行動や楽しい行動も教えていました。行動形成で重要なのは、刺激の弁別です。Pavlovの犬のことを思い出してください。Pavlovはベルの音には反応し、似たような音には反応しないように犬を訓練しました。こうした弁別は、オペラント条件づけや、行動形成においても重要です。
学習へのリンク
Skinnerのハトがピンポンをする動画
行動形成が動物に行動を教えるのに有効であることは容易に理解できますが、人間にはどのように作用するのでしょうか?例えば、子供が部屋の掃除をするようになることを目標にしている親の場合を考えてみましょう。行動形成を使って、目標に向かって段階的に習得させていきます。全ての課題を実行するのではなく、段階を設定し、それぞれの段階を強化するのです。まず、おもちゃを1つ片付けます。次に、おもちゃを5つ片付けます。その次は、10個のおもちゃを片付けるか、本や服を片付けるかを選択します。4つ目は、2つのおもちゃ以外を片付けます。そうして、彼は自分の部屋全体をきれいにします。
一次強化子と二次強化子
シール、褒め言葉、お金、おもちゃなどの報酬は、学習を強化するために使用することができます。もう一度、Skinnerのネズミの話に戻りましょう。ネズミはどのようにしてスキナー箱のレバーを押すことを学んだのでしょうか?ネズミは、レバーを押すたびに餌が与えられていました。動物にとって、食べ物は明らかに強化子といえます。
では、人間にとっては何が良い強化子となるのでしょうか?例えば、太郎君が部屋をきれいにするとおもちゃがもらえるというやり方を紹介しました。サッカー選手の三郎君はどうでしょうか?もし、三郎君がゴールを決めるたびにキャンディをあげていたら、一次強化子を使っていることになります。一次強化子とは、生得的に強化の性質を持った強化子のことです。この種の強化子は(生得的なので)学習されるものではありません。水、食べ物、睡眠、住まい、セックス、触覚などが一次強化子です。また、快楽も一次強化子です。生物はこれらのものに対する欲求を失うことはありません。ほとんどの人にとって、とても暑い日に涼しい湖に飛び込むことは強化されますし、涼しい湖は水が人を冷やしてくれる(身体的な必要性)だけでなく、喜びをもたらすので、生来強化されるものなのです。
二次強化子には本質的な価値はなく、一次強化子と結びついて初めて強化子としての価値を発揮します。例えば、三郎君がゴールを決めるたびに「ナイスシュート!」と声をかけるというように、愛情と結びついた褒め言葉は二次強化子の一例です。もう一つの例であるお金は、基本的な欲求を満たすもの(食料、水、住居などの一次強化子)や他の二次強化子を買うために使うことができて初めて価値を持ちます。もしあなたが太平洋の真ん中の離島にいて、山のようなお金を持っていたとしても、使うことができなければ、そのお金は役に立ちません。 ステッカーチャート(ごほうびシールを貼るための表)のシールはどうでしょうか?これも二次強化子です。
ステッカーチャートのシールの代わりに、トークンを使うこともあります。トークンも二次強化子ですが、これを報酬や賞品と交換することができます。トークンエコノミーと呼ばれる行動管理システム全体が、このようなトークンによる強化子の使用を中心に構築されています。トークンエコノミーは、学校、刑務所、精神病院など、さまざまな場面で行動を修正するのに非常に効果的であることがわかっています。例えば、CangiとDaly (2013)の研究では、自閉症の児童のグループにおいて、トークンエコノミーを使用することで、適切な社会的行動が増加し、不適切な行動が減少することがわかりました。自閉症の子どもたちは、つねったり叩いたりするような破壊的な行動をとる傾向があります。この研究では、子どもたちが適切な行動(叩いたりつねったりしない)をとったときには、「穏やかな手」というトークンを受け取りました。叩いたり、つねったりすると、トークンを失ってしまいます。子どもたちは、指定された量のトークンを数分間の遊び時間と交換することができました。
子どもの行動修正
親や教師は、子どもの行動を変えるために、しばしば行動変容を行います。 行動変容とは、オペラント条件づけの原理を用いて、望ましくない行動をより社会的に受け入れられる行動に切り替えることで、行動の変化を図るものです。教師や保護者の中には、いくつかの行動を列挙したご褒美シール表を作成する人もいます(図6.11)。 ステッカーチャート は、本文で説明したように、トークンエコノミーの一形態です。子どもたちが行動をするたびにシールをもらい、一定の数のシールをもらうと、賞品、つまり強化子をもらうことができます。目標は、容認できる行動を増やし、不作法な行動を減らすことです。罰を与えるのではなく、望ましい行動を強化することが最善であることを覚えておきましょう。教室では、教師は生徒が手を挙げることや、ホールで静かに歩くこと、宿題を提出することなど、さまざまな行動を強化することができます。家庭では、親がステッカーチャートを作成して、おもちゃを片付けたり、歯を磨いたり、夕食を手伝ったりしたときにご褒美を与えるとよいでしょう。 行動変容が効果的であるためには、強化が行動と結びついていなければなりません。強化は子どもにとって重要であり、一貫して行われなければなりません。
タイムアウトは、子どもの行動変容に使われるもう一つの人気のあるテクニックです。これは、負の罰の原則に基づいて動作します。子どもが望ましくない行動をすると、目の前の望ましい活動から外されます(図6.12)。例えば、太郎と弟の次郎が積み木で遊んでいるとします。次郎がお兄ちゃんに向かって積み木を投げたので、親であるあなたは「今度やったらタイムアウトにするよ」と注意します。数分後、次郎はさらに太郎にブロックを投げつけました。あなたは次郎を数分間部屋から追い出しました。戻ってきた次郎はもうブロックを投げません。
行動変容の手法としてタイムアウトを導入する場合、知っておくべき重要なポイントがいくつかあります。まず、子どもが好ましい活動から外され、好ましくない場所に置かれていることを確認します。子供にとって望ましくない活動であれば、子供にとっては活動から外される方が楽しいので、この手法は逆効果になってしまいます。次に、タイムアウトの長さが重要です。一般的には、子どもの年齢1歳につき1分が目安です。次郎は5歳なので、5分間のタイムアウトになります。タイマーを設定しておけば、子どもは自分が何分タイムアウトをしなければならないかを知ることができます。最後に、保育者として、タイムアウトの間、いくつかのガイドラインを心に留めておいてください。子どもにタイムアウトを指示するときは落ち着いて、タイムアウト中は子どもを無視して(保育者の注意がいたずらを助長する可能性があるから)、タイムアウトが終わったら子どもを抱きしめたり、優しい言葉をかけたりしてください。
強化のスケジュール
人や動物に行動を教える最善の方法は、正の強化を用いることであることを覚えておきましょう。例えば、Skinnerは正の強化を使ってネズミにスキナー箱のレバーを押すことを教えました。最初は、ネズミが箱の中を探っているときに、ランダムにレバーを押すと、餌が出てきたかもしれません。その餌を食べた後、お腹を空かせたネズミはどうしたでしょうか?もう一度レバーを叩くと、また餌が出てきました。レバーを叩くたびに餌が出てきたのです。生物が行動を起こすたびに強化子を受け取ることを「連続強化」といいます。この強化スケジュールは、誰かに行動を教えるのに最も手っ取り早い方法であり、特に新しい行動を訓練するのに有効です。この章の前半で、お座りを学んでいた犬のことを思い出してみましょう。犬がお座りするたびに、あなたはおやつを与えます。ここではタイミングが重要です。犬が目標行動(お座り)と結果(おやつをもらう)を関連付けることができるように、お座りした直後に強化子を提示すると、最も成功します。
学習へのリンク
獣医師のSophia Yin博士が、上記のステップを使って犬の行動を形成している動画
行動が訓練されると、研究者やトレーナーはしばしば別のタイプの強化スケジュールである部分強化に目を向けます。部分強化は、間欠強化とも呼ばれ、人や動物が望ましい行動をするたびに強化されるわけではありません。部分強化スケジュールにはいくつかの異なるタイプがあります(表6.3)。これらのスケジュールは、固定か変動か、時隔か比率かのいずれかで説明されます。固定とは、強化の間の反応の数、または強化の間の時間が設定されており、変化しないことを意味します。変動とは、強化の間の反応の数や強化の間の時間の量が変化することを指します。時隔は強化間の時間に基づいたスケジュール、比率は強化間の反応の数に基づいたスケジュールを意味します。
強化スケジュール | 説明 | 結果 | 例 |
---|---|---|---|
固定時隔 | 予測可能な間隔(例:5分後、10分後、15分後、20分後)で強化を行う | 適度の反応率で、強化後に大きな休止がある | 病院の患者は、患者が管理し、医師が時間を決めて行う痛み止めを使用する |
変動時隔 | 予測不能な間隔で強化を行う(例:5分後、7分後、10分後、20分後) | 適度で安定した 反応率 | Facebookをチェックする |
固定比率 | 予測可能な数の反応の後に強化を行う(例:2、4、6、8回の反応の後)。 | 強化後に休止しても高い反応率 | 出来高払いの仕事―工場労働者がx個のアイテムを製造するごとに賃金を得る |
変動比率 | 予測不能な数の反応の後に強化を行う(例:1、4、5、9回の反応の後)。 | 安定した高い反応率 | ギャンブル |
では、この4つの用語を組み合わせてみましょう。
固定時隔強化スケジュールとは、一定の時間が経過した後に行動に報酬が与えられることです。例えば、淳さんが病院で大手術を受けたとします。回復期には痛みを感じることが予想され、痛みを和らげるための処方薬が必要になります。淳さんは、患者管理型の鎮痛剤を点滴で投与されます。医師は、1時間に1回という制限を設けています。痛みがつらくなったらボタンを押して、薬を投与します。報酬(痛みの緩和)は一定の間隔でしか発生しないので、報酬が得られないときに行動を示す意味はありません。
変動時隔強化スケジュールでは、人や動物は、予測できない様々な時間に基づいて強化を得ます。真衣さんがファーストフードレストランのマネージャーだとします。たまに品質管理部門の人が真衣さんのレストランにやってきます。店内が清潔で、サービスが早ければ、そのシフトの全員が2000円のボーナスを得ることができます。真衣さんはいつ品質管理担当者が来るか分からないので、常にレストランを清潔に保ち、従業員が迅速で丁寧なサービスを提供するように心がけています。真衣さんは、ボーナスを獲得するために、迅速なサービスとレストランを清潔に保つことに関して、生産性を安定させています。
固定比率強化スケジュールでは、行動に報酬が与えられる前に発生しなければならない反応の数が設定されています。環奈さんはメガネ店でメガネを販売しており、メガネを1本売るたびに手数料を得ています。彼女は、手数料を増やすために、処方箋付きサングラスや予備のメガネを含めて、より多くのメガネを人々に売ろうとします。その人が本当に度付きのサングラスを必要としているかどうかは気にせず、環奈さんはただ自分のボーナスが欲しいだけなのです。環奈さんの手数料は品質に基づくものではなく、販売数に基づくものなので、販売する商品の品質は重要ではありません。このようなパフォーマンスの質の違いは、どの強化方法が特定の状況に最も適しているかを判断するのに役立ちます。固定比率はアウトプットの量を最適化するのに適していますが、報酬が量に基づいていない固定時隔では、アウトプットの質を高めることができます。
変動比率強化スケジュールでは、報酬を得るために必要な反応の数が変化します。これは最も強力な部分強化スケジュールです。変動比率強化スケジュールの例として、ギャンブルがあります。賢くて倹約家の女性である沙羅さんが、初めてラスベガスを訪れたとします。彼女はギャンブラーではありませんが、興味本位でスロットマシンに25セントを入れ、さらにもう1枚、もう1枚と入れていきますが、何も起こりません。2ドル分のコインを入れた後、彼女の好奇心は薄れ、もうやめようと思っていました。しかし、その時、マシンが光り、ベルが鳴り、沙羅さんは50セントを取り戻したのです。「そうこなくっちゃ!」。彼女は再び興味を持って25セント硬貨を挿入し、数分後にはすべての利益を使い果たして10ドルの赤字になってしまいました。辞めるなら今しかないかもしれません。しかし、彼女はスロットマシンにお金を入れ続けています。彼女は、次の25セントで50ドル、100ドル、あるいはそれ以上を獲得できると考え続けています。ほとんどのギャンブルの強化スケジュールは変動比率であるため、人々は次の機会に大勝ちすることを期待して挑戦し続けます。これが、ギャンブルが非常に依存性が高く、根強く残っている理由の一つです。
オペラント条件づけでは、強化された行動の消去は、強化が停止した後のある時点で起こりますが、その速度は強化スケジュールによって異なります。変動比率スケジュールでは、上述のように消去のポイントは非常にゆっくりと訪れます。しかし、それ以外の強化スケジュールでは、消去が早く訪れる場合があります。例えば、淳さんが痛み止めの薬のボタンを、医師が許可した決められた時間の前に押した場合、薬は投与されません。彼は固定時隔の強化スケジュール(1時間ごとに投薬)なので、強化が期待した時間に来ないとすぐに消去が起こります。強化スケジュールの中では、変動比率が最も生産性が高く、最も消去しにくいスケジュールです。それに対し、固定時隔は最も生産性が低く、最も消去しやすいスケジュールです(図6.13)。

ギャンブルと脳
Skinnerはギャンブルを例に挙げて、強化がない期間が長くても行動を維持できる変動比率強化スケジュールの威力を説明しています。実際、Skinnerはギャンブル依存症についての知識に自信があり、ハトを病的なギャンブラーに変えることができるとさえ主張していました(”Skinner’s Utopia,” 1971)。親が一度でも行動を許してしまうと、子供が癇癪を起こす頻度がどうなるか想像してみてください。時折の報酬は、その行動を止めることをほとんど不可能にします。
ラットを使った最近の研究では、変動比率スケジュールでの訓練だけで病的なギャンブルを引き起こすというSkinnerの考えを支持することはできませんでした(Laskowski et al., 2019)。しかし、他の研究によると、ギャンブルはほとんどの依存性薬物と同じように脳に作用するようなので、脳の化学的性質と強化スケジュールの組み合わせによってギャンブルの問題につながる可能性があります(図6.14)。具体的には、現代の研究では、ギャンブルと、神経伝達物質(脳内化学物質)であるドーパミンを使用する脳の報酬中枢の活性化との関連性が示されています(Murch & Clark, 2016)。興味深いことに、ギャンブラーは、脳内のドーパミンの「大当たり」を体験するために、勝つ必要さえありません。「ニアミス」、つまり勝ちそうになったが実際には勝てなかった場合も、ドーパミンを使う腹側線条体やその他の脳内報酬センターの活動が高まることがわかっています(Chase & Clark, 2010)。これらの脳内効果は、コカインやヘロインなどの中毒性薬物がもたらすものとほぼ同じです(Murch & Clark, 2016)。このような類似性を示す脳科学的証拠に基づき、DSM-5ではギャンブルを依存症とみなしていますが、DSMの初期バージョンではギャンブルを衝動制御障害として分類していました。
ギャンブルには、ドーパミンの他にも、ノルエピネフリンやセロトニンなどの神経伝達物質が関与しているようです(Potenza, 2013)。ノルエピネフリンは、人がストレス、興奮、スリルを感じたときに分泌されます。病的ギャンブラーは、この神経伝達物質のレベルを上げるためにギャンブルを利用しているのかもしれません。セロトニンの欠乏は、ギャンブル依存症を含む強迫行為の原因になることもあります (Potenza, 2013)。
これらの研究が示唆しているように、病的ギャンブラーの脳は他の人の脳とは異なっており、その違いがギャンブル依存症につながっているのかもしれません。しかし、真の実験を行うことができないため、原因を特定することは非常に困難です(無作為に割り当てられた参加者を問題のあるギャンブラーに変えようとすることは、倫理的に問題があります)。したがって、因果関係は実際には逆に動いているのかもしれません。おそらく、ギャンブルという行為が、一部のギャンブラーの脳内の神経伝達物質レベルを変化させているのでしょう。また、見落とされていた要因や交絡変数が、ギャンブル依存症と脳内化学物質の違いの両方に関与している可能性もあります。
認知と潜在的学習
WatsonやSkinnerのような厳格な行動主義者は、認知(思考や期待など)よりも行動の研究に専心しました。実際、Skinnerは「認知は重要ではない」という確固たる信念を持っていたため、彼の考えは徹底的行動主義とみなされました。Skinnerは心を「ブラックボックス」と呼んでおり、これは完全に未知のものであるから、研究すべきではないと考えていました。しかし、もう一人の行動主義者Edward C. Tolmanは違う意見を持っていました。Tolmanはラットを使った実験で、生物はすぐに強化を受けなくても学習できることを示しました(Tolman & Honzik, 1930; Tolman, Ritchie, & Kalish, 1946)。この発見は、「強化が即座に行われなければ学習は起こらない」という当時の一般的な考え方とは相反するものであり、学習には認知的な側面があることを示唆していました。
実験では、空腹のラットを迷路に入れて、迷路を抜けても報酬が得られないようにしました。また、迷路の最後に餌を与えられた対照群も研究しました。報酬なしのラットは、迷路を探索するうちに、迷路の配置を頭の中でイメージする認知地図を作成しました(図6.15)。そして、強化せずに10回迷路を行った後、迷路の端にあるゴールに餌を置きました。ラットは餌を意識するとすぐに、餌を与えられていた対照群と同じように、迷路を素早く通り抜けることができました。これは潜在学習と呼ばれるもので、学習は行われていますが、それを示す理由がない限り行動としては観察できないものです。

潜在学習は人間にも起こります。子どもは親の行動を見て学習し、後日、学習した内容が必要になったときに初めて発揮することがあります。例えば、玲さんのお父さんが、毎日学校まで車で送ってくれたとします。このようにして、玲さんは自分の家から学校までの道のりを学びますが、自分で運転したことがないので、道のりを学んだことを示す機会がありませんでした。ある朝、玲さんのお父さんは会議のために早退しなければならず、息子を学校まで送ることができません。代わりに玲さんは、お父さんが車で行くのと同じ道を自転車で通ります。これは潜在学習を示しています。玲さんは学校までの道のりを覚えていましたが、その知識を以前に示す必要はなかったのです。
この場所は迷路のようだ
建物の中で迷子になって、出口がわからなくなったことはありませんか?悔しいことですが、それはあなただけではありません。博物館や病院、大学の図書館など、誰もが一度は道に迷ったことがあるはずです。Tolmanのラットが迷路の認知地図を作ったように、私たちは新しい場所に行くたびに、その場所の心象風景、つまり認知地図を作ります。しかし、建物の中には、似たような場所がたくさんあったり、見通しが悪かったりして、わかりにくいものがあります。そのため、角に何があるのかを予測したり、建物から出るために左に曲がるのか右に曲がるのかを判断したりするのが難しいことが多いのです。心理学者のLaura Carlson(2010)は、認知地図に何を配置するかが、環境の中でのナビゲーションの成功に影響すると指摘しています。彼女は、建物に入るときに、壁の絵、噴水、像、エスカレーターなどの特定の特徴に注意を払うことで、認知地図に情報が追加され、後で建物から出る方法を見つけるのに役立つと提案しています。
学習へのリンク
認知マップと建物内のナビゲーションに関するCarlsonの研究については、こちらの動画で詳しくご紹介しています。
おすすめ関連書籍

図6.10 credit a: modification of work by “Silly rabbit”/Wikimedia Commons
図6.11 credit: Abigail Batchelder
図6.12 credit a: modification of work by Simone Ramella; credit b: modification of work by “Spring Dew”/Flickr
図6.14 credit: Ted Murphy
図6.15 credit: modification of work by “FutUndBeidl”/Flickr
Openstax,”Psychology 2e 6.3 Operant Conditioning”.https://openstax.org/books/psychology-2e/pages/6-3-operant-conditioning