西元 2025 年 01 月 09 日 第 92-2 期會訊
 新知宅急便

新知宅急便

標題:

Assessing question characteristic inuences on ChatGPT's performance and response-explanation consistency: Insights from Taiwan's Nursing Licensing Exam

評估考題特性對ChatGPT表現及和回答解釋一致性的影響:來自台灣護理師執照考試的見解

 

出處: Su, M.-C., Lin, L.-E., Lin, L.-H., & Chen, Y.-C. (2024). Assessing question characteristic influences on ChatGPT's performance and response-explanation consistency: Insights from Taiwan's Nursing Licensing Exam. International Journal of Nursing Studies, 153, 104717. https://doi.org/10.1016/j.ijnurstu.2024.104717

 

網址:https://www.sciencedirect.com/science/article/abs/pii/S0020748924000294

作者:

蘇美琴 臺北榮民總醫院居家護理師

林立恩 臺北榮民總醫院醫學研究部大數據中心研究助理

林麗華 臺北榮民總醫院護理部副主任暨國立陽明交通大學助理教授

陳育群(通訊作者) 臺北榮民總醫院醫學研究部大數據中心主任、國立陽明交通大學醫學院醫務管理研究所合聘教授、國立陽明交通大學醫學院醫學系家庭醫學科教授暨臺北榮民總醫院家庭醫學部社區醫學科主任

轉譯者:劉英妹  長庚科技大學護理系副教授

證據等級:Level IV

實證標準:Oxford Centre for Evidence-Based Medicine 2011 Levels of Evidence

實證類型/研究:橫斷性研究

問題重要性:

人工智慧(artificial intelligence, AI)正在改變護理教育,AI輔助學習的方法,能夠促進更具互動性和應用性的學習體驗,對於未來的護理教育具有深遠意義。ChatGPT可以模擬人類對話並提供教育支援,可能成為學生在模擬測試環境和題庫中進行自學的寶貴資源。ChatGPT在答題方面可能有其潛力,但其在不同考試學科中表現的差異性仍需進一步評估,特別是在護理師執照考試中面臨複雜的臨床情境題型和推理需求。因此,本研究旨在深入探討ChatGPT回答護理師執照考試問題時的準確性和解釋邏輯,並由人類專家評審其解釋,評估其在護理教育中的教育價值及其應用的潛在影響。

 

研究方法:

一、研究設計:使用GPT-4版本的ChatGPT進行橫斷性調查,評估其在台灣2022年國家護理師執照考試中的表現。這些考試題目和正確答案可於考試結束後在台灣考選部官方網站查詢,首先由兩位人類專家分析每道題目的特性。隨後使用ChatGPT生成回答及解釋,分析其準確性,及由專家評估ChatGPT的回答和解釋之一致性。本調查於2023423日至2023523日間進行。台灣國家護理師執照考試涵蓋五個科目:基本護理學、基礎醫學、內外科護理學、產兒科護理學及精神與社區護理學。每個科目包含80道單選題,考生答對率超過60%400題中答對240題)即為通過考試。

二、研究工具:

()考題特性

1.評估認知層次:由兩位護理專家獨立依Bloom's認知分類法評估每題的認知層次,分為由低到高的層次,包括記憶、理解、應用(低階思考技能),以及分析、評價和創造(高階思考技能)。

2.題型:本研究中的國家護理師執照考試題目採用「一道題目,四個選項」的格式。兩種可能影響ChatGPT生成答案準確性的題型。第一種是「單選題」,四個選項中只有一個是正確或最合適的,考生需選擇這個唯一正確的選項。第二種是「單選多重應答的選擇題」,題目較為複雜,多個選項是正確的,這些正確選項被彙整到四個不同的答案選項中,考生需選擇四個選項中唯一包含所有且僅有正確選項的答案。

3.臨床情境題型:考題題幹分為有或沒有臨床情境的兩類題型。有臨床情境的題型提供一個臨床情境的描述,可能要求考生判斷下一步行動。沒有臨床情境的題型則不包含情境描述,通常較為直接,可能要求回答定義、一個單一事實,或直接應用知識。

4.考題極性:題目要求選擇正確或肯定的答案,稱為「正向選擇題」。若題目要求辨識錯誤或否定的答案,則稱為「負向選擇題」。

()ChatGPT的回答及解釋:在本研究中,我們為ChatGPT的答案和解釋設計了兩個不同的提示。

1. ChatGPT生成答案的提示:為了獲取簡潔且準確的回答,我們在每道問題後加入「一步步思考」的指令,鼓勵ChatGPT以系統化的方式逐步解決問題。隨後使用「給我答案」指令來獲取統整的最終答案,以提高準確性。我們為400道題目設計了400個提示,並單獨傳送給ChatGPT。為避免記憶效應,每個提示都通過應用程序介面單獨調用,使每次交互獨立處理。將ChatGPT-4的溫度參數設置為0,以降低多樣性並提高一致性,確保生成的答案和解釋相同。兩位護理專家檢查了回應,若有遺漏則重新傳送提示,直到獲取有效回應。如果兩位專家未能達成一致,則由第三位專家進行協調。

2. ChatGPT解釋及人類專家驗證的提示:我們採用兩階段評估法來衡量ChatGPT對問題的理解和回答的質與量。第一階段中,我們設計了提示,要求ChatGPT「解釋每個項目」,以獲得詳細的解釋,深入了解其推理過程。第二階段,兩位護理專家檢查ChatGPT的正確答案、生成的答案及其解釋的一致性,確保不僅回答正確,且解釋在邏輯上支持該答案。如果評審之間意見不一致,則由第三位專家做協調。我們設立了四個評估類別來判斷ChatGPT的回應:正確答案與正確解釋、不正確答案與不正確解釋、不正確答案與正確解釋、以及正確答案與不正確解釋。這有助於評估ChatGPT的回應是否既正確又合乎邏輯。

 

PChatGPT (Chat-4)

I:提示(prompt)

C:人類專家

O:回答與解釋之一致性

研究結果:

1. 問題特性與GPT-4模型表現

問題的認知層級除了基礎醫學外,所有科目的問題中需要高階思維技能的比例約為50%。大部分問題採用單選題題型(n = 37192.75%),正向選擇題佔61.25%,而包含臨床情境的問題佔20.75%

ChatGPT的總體準確率為80.75%。不同科目的準確率差異顯著,基礎醫學為92.5%,精神與社區護理學為83.75%,內外科護理學為82.5%,而基本護理學和產兒科護理學均為72.5%。經專家人工審核後,ChatGPT答案總體準確率降低為74.00%

2. ChatGPT在不同考題特性下的準確率

ChatGPT生成的答案準確率與考題特性有關。對於包含臨床情境的問題,ChatGPT的表現明顯受到挑戰,其錯誤回答的粗勝算比 (crude odds ratio)2.0395%信賴區間[CI]1.16–3.54p = .01)。單選多重應答題相較於單選題更容易產生錯誤回答,粗勝算比為2.0195%CI0.88–4.60p = .01)。然而,問題的認知層級和極性對ChatGPT的準確率沒有顯著影響(p > .05)。

邏輯回歸分析顯示,包含臨床情境的問題的調整後勝算比為2.19,顯著提高了錯誤回答的可能性(95%CI1.24–3.87, p = .007)。單選多重應答題的調整後勝算比為2.37,也顯著增加了錯誤回答的機率(95%CI1.00–5.60, p = .049)。相對地,負向選擇題的調整後勝算比為1.53p = .163),低階思維技能問題的調整後勝算比為1.39p = .269)。這些結果突顯了單選多重應答題和臨床情境問題在模型預測中的重要性。

3. ChatGPT生成的答案解釋與人工審核的一致性

ChatGPT生成的答案與其解釋之間存在不一致,14.25%57題)的答案與其解釋相矛盾。87.0%的正確答案的解釋經人工專家評估其一致性,發現13.0%的正確答案的解釋為不準確,因此, ChatGPT的整體準確率下降至74%。此外,6280.52%)個錯誤回答的情況是答案和解釋均錯誤且邏輯一致,表示這些情況下ChatGPT的推理過程導致了錯誤但一致的結論。另一方面,1519.48%)個錯誤回答涉及ChatGPT提供了有效解釋但得出了錯誤的最終答案,這表明模型的推理過程存在不一致或與專家對正確答案的觀點不匹配。

 

轉譯應用:ChatGPT在台灣國家護理師執照考試中的整體正確率達到 80.75%,顯示其作為學習輔助工具的潛力。然而,該模型在面對複雜的選擇題題型和臨床情境問題時遇到困難,答案與解釋之間存在 14.25% 的不一致。經過專家人工審查後,ChatGPT 的整體正確率降至 74%,顯示其在教育應用中的回應仍需進一步發展,以解決不一致性的問題。

 

關鍵詞:一致性、人工智慧語言理解工具、人工驗證解釋、問題認知層次、題庫、題型、臨床情境描述、精確性、護理師執照考試、ChatGPT 生成答案、 ChatGPT

 

 

 國際護理榮譽學會 中華民國分會
 台北市信義區吳興街250號 護理學院A1318辦公室
 The Honor Society of Nursing, Sigma Theta Tau International,
 Lambda Beta-at-Large Chapter in Taiwan, R.O.C
聯絡電話(02)2966-1733
虛擬主機 & 網站維護威普網站