学習成果の評価ってすごく難しいです。例えば、新人教育で「できる」「できない」ってどのように評価していますか?
その他にも学習成果の評価の場面としては、勉強会、研修などがあります。新人教育などの長期的な企画も評価の設定は必要です。例えばどのような評価があるかと言えば、勉強会後のアンケート、知識を確認するテスト、技術を確認するチェックリストなどです。今回はこれらの評価について書きたいと思います。
この記事は、研修や勉強会などの企画をする方に向けて書きます。また日々教育的に関わる場面でも知っておくと役に立つかもしれません。
この記事を読むことで、身の回りにある学習成果の評価を信頼性と妥当性の観点から考えてみることができれば嬉しいです。また、評価の性質についても今の評価が適切かどうか考えるきっかけになればと思います。
一番大切なのは目標設定!
まずは評価項目を設定する前に、なんのための評価なのかを考えなければなりません。
目標設定する際は、今の状態と目指す姿を具体的になるべく細かくイメージします。複数の人数で評価する際はこの目標を共有すること「目指す姿の共通理解」が重要です。
私が、もし勉強会を依頼されたり教育担当者になった時はこの目標設定に一番時間をかけると思います。
例えば教育についての勉強会を依頼されたら、依頼してくれた人と勉強会の対象者がどのような人か、どのような姿を目指しているかということについて対話します。ここがズレてしまうと、評価項目を設定することが難しくなるばかりか、評価を達成したとしても、なんだか期待と違う・・・なんてことが起きてしまいます。
どのような評価があるか まずは評価の種類を知る
目標が定まったらいよいよ評価項目の設定です。まずはどのような評価があるのか確認してみましょう。
評価は単純と複雑、筆記と実演の2軸で表すことができます。例えば、単純で筆記による評価には例えばのマーク式のテストがあります。複雑で実演による評価はオリンピックのフィギアスケートがあります。
青枠のポートフォリオ評価とは、評価全体を指します。例えばテストやレポートの結果などの記録、研修や学会参加の証明書などを残しておき、最終的に記録物全てで評価するといったものになります。
次に黄枠のパフォーマンス評価です。質問に答えられるか試してみることや、看護技術のチェックリストなどもここに含まれます。オレンジの部分はパフォーマンス課題と呼ばれます。より複雑な評価になります。パフォーマンス課題の評価方法としてルーブリックがあります。
身近なルーブリックにはクリニカルラダーがあります。
私は、新人教育でラサター臨床判断ルーブリックを活用していました。ルーブリックの利点はテストでは測定することが難しい思考などの概念的な評価を点数化できるという点にあります。
採用試験を思い出すと、履歴書に記載する資格欄などポートフォリオ評価の側面を持っていると考えることができます。その他に採用試験には面接や小論文などの筆記試験がある場合もあります。これらはパフォーマンス課題になります。この課題の評価基準もルーブリックなどを活用して点数化されているかもしれません。これらを総合して採用の可否を決めていると考えられます。
評価の信頼性と妥当性
信頼性と妥当性を簡単にいうと以下になります。
例えばマーク式のテストは信頼性の高い評価になります。チェックリストを使った技術テストも細かく項目が設定されていれば信頼性が高くなると思います。一方、妥当性はどうでしょうか?例えば、安全に採血ができるかということを評価したい場合、テストだけで評価できるでしょうか?妥当性を高めるにはチェックリストやシミュレーションなども必要かもしれません。
ルーブリックなどでパフォーマンスを評価する時、思考や判断力なども評価したい場合は妥当性は高くなるでしょう。ただし、評価する練習が必要になります。上記のラダーを元に評価しようと思った時、ある特定の場面をみせられたとして、それがニーズをとらえる力のⅡに当たるのかⅢに当たるのか、測定する人によってきっと変わります。複雑な評価をするときに信頼性を高めるためには、評価の練習に加えて「目指す姿の共通理解」が絶対に必要なのです。
評価のあれこれ 行動主義と構成主義
評価の性質について整理します。これが頭の中にあると自分たちがどのように評価しようとしているか整理できます。
例えばチェックリストでの評価は、実際の行動をみて、その行動が正しいか正しくないかチェックリストを通して観察可能にしています。テストも知識を観察可能な形に変換しています。これらは行動主義的な評価になります。同じ行動でもその時の判断力や思考力といった概念を総合的に評価したい場合(ルーブリックでの評価)は構成主義的な評価になります。
どちらがいいというわけではなく、信頼性や妥当性も踏まえながらどちらの評価が適切か考える必要があります。
いつ評価するのか 評価のタイミング
評価のタイミングには大きく分けて3つあります。
現状を把握するための診断的評価、中間評価にあたる形成的評価、最終的な評価である総括的評価です。診断的評価は目標設定の際に必要になるかもしれません。もっとも注目するのはやはり総括的評価だと思います。
私は個人的に形成的評価が大切だと思っています。例えば、新人教育や複数回にわたる研修などの企画では、特にです。
企画の良し悪しを評価するためには、やはり目標を達成したかということに着目すべきですが、学習成果の評価は難しいです。どうしても信頼性を担保しようとすると妥当性が低くなり、妥当性を高めようとすると信頼性が低くなってしまいます。でもやってみないとわからないこともあります。そこで、形成的評価に力を入れれば、企画を改善させるために役立つのではないかと思います。一回で全てうまくいかなくてもいいんです。PDCAサイクルを繰り返すことが重要だと思います。逆に学習者の背景が異なるはずなのに、ずっと同じ方法でやり続ける方が問題です。
その他にも、病棟の取り組みを病院全体に紹介すること場面があるかもしれません。その際に、病棟で合わせた価値観(目指す姿の共通理解)が他の病棟の人にとっては理解が難しいかもしれません。
私が説明を聞く立場だったら、「こんなことをやって目標を達成しました!」と説明されるより、企画の途中段階でどのような課題があってどう改善したかを踏まえて、結果がどうだったか知った方が納得できると思います。目標を達成しなかったとしても、次はうまくいきそうだと思えるし、企画を進めていくリーダーシップについても評価できそうです。
学習成果の評価を考えることは学習者だけでなく、学習支援者も成長させます。教育は相互作用です。
形成的評価にはこの相互作用がよく反映されているような気がします。
おまけ カークパトリックの評価の4段階!難しすぎじゃないですか?
カークパトリックの4段階評価モデルは、インストラクショナルデザインの書籍などでよく見かけます。研修などの評価は以下の4段階でするといいよと書いてあります。
勉強会などの評価に参加者にアンケートをとるのはレベル1の「反応」の評価を行っているということになります。
これを私が初めて知ったのは、教育担当者になる1年くらい前だったと思います。これはいいことを知った!早速活用してみようと、当時病棟の中の係活動で勉強会を企画した時に、これを意識して評価を考えようとしました。しかし、レベル3以降が全然思いつきませんでした。無念です。
大学院でも時々出てきました。大学院の同じコースを修了した先輩が院内全体の教育部門での活動を発表してくれた際に、課題として、自分たちが企画した研修の成果を示すためにカークパトリックの3段階目以降について明確にしていかないといけないと言っていました。
これを聞いて私も改めて、レベル3とかレベル4にはどのような評価が適切か考えましたが、データ収集ツールにある項目で評価してもなんとなくうまくいかないような気がしました。
その後、逆向き設計論や評価について学習し直す機会があり、私の中では、評価にとって目指す姿の共通理解が一番大切という結論に至りました。この時、共通の理解になるまで評価者同士で対話していれば、レベル4についての評価も納得のいくものになると思います。
例えば先輩の例のように自身の教育実践の成果を示したいとすると(院内全体の教育部門で研修の成果を明確に説明するためには)、適切な評価項目を模索するのではなく、教育部門を管轄する上司(看護部長や副部長かな?)と企画内容や評価項目について共通の理解になるように対話することが必要なんだと思います。
まとめ
私たちは測定したいものを本当に測定できているのでしょうか?信頼性と妥当性について考えられそうですか?
評価項目を設定する前の目標設定はどうでしょうか?目指す姿の共通理解がされていますか?
大きな企画だけでなく、普段の関わりにおいても相手を評価することをしていると思います。その時の評価の視点は構成主義的な評価でしたか?行動主義的な評価でしたか?
学習成果の評価を考えることは学習者だけでなく、学習支援者の成長にとっても重要です。
身の回りにある評価について少しでも考えるきっかけになれば嬉しいです。
コメント