研究方法:
一、研究設計:使用GPT-4版本的ChatGPT進行橫斷性調查,評估其在台灣2022年國家護理師執照考試中的表現。這些考試題目和正確答案可於考試結束後在台灣考選部官方網站查詢,首先由兩位人類專家分析每道題目的特性。隨後使用ChatGPT生成回答及解釋,分析其準確性,及由專家評估ChatGPT的回答和解釋之一致性。本調查於2023年4月23日至2023年5月23日間進行。台灣國家護理師執照考試涵蓋五個科目:基本護理學、基礎醫學、內外科護理學、產兒科護理學及精神與社區護理學。每個科目包含80道單選題,考生答對率超過60%(400題中答對240題)即為通過考試。
二、研究工具:
(一)考題特性
1.評估認知層次:由兩位護理專家獨立依Bloom's認知分類法評估每題的認知層次,分為由低到高的層次,包括記憶、理解、應用(低階思考技能),以及分析、評價和創造(高階思考技能)。
2.題型:本研究中的國家護理師執照考試題目採用「一道題目,四個選項」的格式。兩種可能影響ChatGPT生成答案準確性的題型。第一種是「單選題」,四個選項中只有一個是正確或最合適的,考生需選擇這個唯一正確的選項。第二種是「單選多重應答的選擇題」,題目較為複雜,多個選項是正確的,這些正確選項被彙整到四個不同的答案選項中,考生需選擇四個選項中唯一包含所有且僅有正確選項的答案。
3.臨床情境題型:考題題幹分為有或沒有臨床情境的兩類題型。有臨床情境的題型提供一個臨床情境的描述,可能要求考生判斷下一步行動。沒有臨床情境的題型則不包含情境描述,通常較為直接,可能要求回答定義、一個單一事實,或直接應用知識。
4.考題極性:題目要求選擇正確或肯定的答案,稱為「正向選擇題」。若題目要求辨識錯誤或否定的答案,則稱為「負向選擇題」。
(二)ChatGPT的回答及解釋:在本研究中,我們為ChatGPT的答案和解釋設計了兩個不同的提示。
1. ChatGPT生成答案的提示:為了獲取簡潔且準確的回答,我們在每道問題後加入「一步步思考」的指令,鼓勵ChatGPT以系統化的方式逐步解決問題。隨後使用「給我答案」指令來獲取統整的最終答案,以提高準確性。我們為400道題目設計了400個提示,並單獨傳送給ChatGPT。為避免記憶效應,每個提示都通過應用程序介面單獨調用,使每次交互獨立處理。將ChatGPT-4的溫度參數設置為0,以降低多樣性並提高一致性,確保生成的答案和解釋相同。兩位護理專家檢查了回應,若有遺漏則重新傳送提示,直到獲取有效回應。如果兩位專家未能達成一致,則由第三位專家進行協調。
2. ChatGPT解釋及人類專家驗證的提示:我們採用兩階段評估法來衡量ChatGPT對問題的理解和回答的質與量。第一階段中,我們設計了提示,要求ChatGPT「解釋每個項目」,以獲得詳細的解釋,深入了解其推理過程。第二階段,兩位護理專家檢查ChatGPT的正確答案、生成的答案及其解釋的一致性,確保不僅回答正確,且解釋在邏輯上支持該答案。如果評審之間意見不一致,則由第三位專家做協調。我們設立了四個評估類別來判斷ChatGPT的回應:正確答案與正確解釋、不正確答案與不正確解釋、不正確答案與正確解釋、以及正確答案與不正確解釋。這有助於評估ChatGPT的回應是否既正確又合乎邏輯。
P:ChatGPT (Chat-4)
I:提示(prompt)
C:人類專家
O:回答與解釋之一致性
|