メニューを開く 検索

トップ »  医療ニュース »  2023年 »  その他診療領域 »  ChatGPTが米医師資格試験で合格ライン

ChatGPTが米医師資格試験で合格ライン

医学学習支援に活用できる可能性も

2023年02月17日 17:40

512名の医師が参考になったと回答 

イメージ画像 © Adobe Stock ※画像はイメージです

 米・Massachusetts General HospitalのTiffany Kung氏らは、大規模言語モデル(LLM)を用いた対話型人工知能(AI)ChatGPTに、米国の医師資格試験(United States Medical Licensing Exam;USMLE)の問題を解かせ、臨床的推論能力を検討。その結果、ChatGPTは特別な訓練や強化学習を行わずとも合格ラインに近い正答率を示し、整合性の高さや洞察も認められたとPLOS Digit Health2023; 2: e0000198)に発表した。将来的に、ChatGPTを人間の医学学習支援にも活用できる可能性が示唆されたという。

臨床的な推論能力を測れるよう模試問題を改変

 ChatGPTは最近開発された新しいタイプのAIモデルで、さまざまな自然言語タスクが実行できることから、注目を集めている。Kung氏らは今回、USMLEの模擬試験を用いてChatGPTの性能を評価した。

 USMLEは多肢選択式で、Step 1(基礎科学・薬学・病態生理学)、Step 2CK(臨床医学)、Step3(総合問題)―から成る。検証には、事前訓練以降に公表された最新の模試問題を用い、ChatGPTが既に学習している恐れのある問題を除外した350問を用意。各Stepの回答は①自由記述式、②正答1つの多肢選択式、③正答1つの多肢選択式かつ根拠の説明を記述する形式-とした。

 ChatGPTの出力結果は、互いに盲検化された2人の医師が正答率、解答と論拠の一致率、洞察について個別に採点した。

正答率はほぼ合格ライン、課題はStep 1

 検証の結果、ChatGPTは高い正答率を示した。判定不能な解答を除外した採点における①~③の正答率は、Step 1がそれぞれ75.0%、55.8%、64.5%、Step 2CKが61.5%、59.1%、52.4%、Step3が68.8%、61.3%、65.2%だった。

 先行するモデルの正答率は、汎用型LLMが36~50%、生物医学分野特化型のPubMedGPTが50.3%だったのに対し、ChatGPTは全領域で50%超、設問方式などによってはUSMLEの合格圏内である60%を超えている。

 Kung氏らは、ChatGPTがPubMedGPTの成績を凌駕した理由について、断定を避ける傾向がある医学分野の文献のみ学習した特化型LLMと異なり、汎用型LLMのChatGPTは、患者向けの入門書や薬剤の添付文書を含む断定的かつバランスの取れた臨床コンテンツに触れていること、問題を最新のものに限定し、既に否定されている過去のエビデンスなどが混在するリスクを排除したことなどを挙げている。

 判定不能な回答を含む正答率ではStep 1が最も低かったが、その理由について、同氏らは人間が基礎医学を難しく不透明なものだと認識していることによって起こる「モデルの学習不足」や「訓練時の人間側の判断ミス」が原因であると指摘している。これは、事前訓練型のLLMには性能を人間の能力に左右されるという脆弱性があることを意味している。

論拠の整合性は95%、優れた洞察を含む解答は89%

 解答の整合性は全体で94.6%と高く、全レベルと全設問形式において問題内容に沿った解答が提示されていた。正答と誤答における論拠の整合性は、それぞれ99.1%と85.1%と、正答できた問題において高く(P<0.001)、偶然に正答した可能性が低いことが示唆された。

 さらにKung氏らは、医学生などの学習支援におけるChatGPTの有用性を検討。その指標として、解答の論拠に独自性、非自明性、有効性など示す洞察が含まれているか検証した。

 洞察力の判定基準は、①単に用語の定義にとどまらない解答、②独創性(単一の洞察により複数の選択肢を消去できる)、③非自明性(設問に含まれない知識を演繹して解答できる)、④有効性(臨床的または数値的に正しく、方向性も間違っていない)―とした。検証の結果、全解答の88.9%に1つ以上の優れた洞察が含まれていた。

 これらの結果から、同氏らは「ChatGPTのようなLLMは、医学教育において学習者に優れた洞察や模範となる演繹的推論を示したり、できる可能性が示唆された」と結論している。また「次の段階として、臨床的な意思決定にLLMを組み入れることが可能になるかもしれない」と付言している。

※選択肢にない解答、無解答、情報不足で解答できないとChatGPTが主張した問題、誤答ではないが概略的過ぎる解答など。事前訓練における人間側の問題に起因しうる解答が含まれる

(小路浩史)

無料でいますぐ会員登録を行う

【医師限定】

初回登録で500円分のポイントをもれなく進呈!

(4月末迄/過去ご登録のある方を除く)

  • ・ ご利用無料、14.5万人の医師が利用
  • ・ 医学・医療の最新ニュースを毎日お届け
  • ・ ギフト券に交換可能なポイントプログラム
  • ・ 独自の特集・連載、学会レポートなど充実のコンテンツ

ワンクリックアンケート

グーグルマップに医療機関への不当な投稿問題、どう考える?

トップ »  医療ニュース »  2023年 »  その他診療領域 »  ChatGPTが米医師資格試験で合格ライン