患者のAI信頼度は約半数、救急の重症度判断における注意点／日本救急医学会

提供元：ケアネット

公開日：2025/03/19

　日本救急医学会の救急医療における先端テクノロジー活用特別委員会は、大規模言語モデル（LLM）が回答した救急外来受診の要否判断の正確性、回答内容に対する利用者（非医療者の一般人）の理解度について検証を行った。その結果、医学知識を持つ専門家側はLLMが救急外来受診の判断を高精度でアドバイスしていると評価した一方で、一般人側は同じ回答を見ても専門家と異なる解釈をする傾向があることが明らかになった。これにより、AIが生成する医療アドバイスに関する理解や解釈において、専門家と一般人の間に大きな隔たりがあることが示唆された。Acute Medicine & Surgery誌2025年3月12日号掲載の報告。

　本研究では、LLMとしてGPT-3.5を使用し、『緊急度判定プロトコルver.3 救急受診ガイド（家庭自己判断）』1）に基づき、計466件のシナリオ（緊急度が高いもの：314件、緊急度が低いもの：152件）について、救急受診の必要性に関する推奨を生成。その回答を、救急科専門医を含む7人の医療者が医学的観点から評価したうえで、一般人157人がどのように受け取るかをアンケート方式で検証した。

　主な結果は以下のとおり。

・専門家の評価では、LLMの回答は緊急度の高いケースの96.5％において「救急受診が必要」と適切に判断されていた。
・軽症例についても、LLMの回答は88.8％のケースで「救急受診は不要」と適切に判断されていたと専門家は評価した。
・一般人の評価では、同じLLMの回答を見ても、緊急度の高いケースについて「救急受診が必要」と解釈したのは43.0％のみで、軽症例についても「救急受診は不要」と解釈したのは32.2％だった。
・緊急受診時のLLMの回答に対する一般人の態度について、53.5％が出力結果を信頼して従ったが、27.4％は信頼したものの推奨事項には従わず、5.7％は出力結果を信頼しなかったものの推奨事項に従った。
・一般人の36.9％がLLMの提案に安心したのに対し、12.7％は相談後に不安が増したと報告した。

　研究者らは、「本結果より、LLMの回答に対し、専門家は救急外来受診の必要性を高精度で正しく判定していると判断した。一方で、一般人にはその意図を正しく解釈できないケースが多く見られたり、生成AIの推奨事項に対して相反する感情を抱いている可能性が示唆された。スマートAIは信頼できる仲間として機能することもあるが、ユーザーの期待に応えられないこともあることから、AIが提供する情報を活用する際には、医療者によるサポートや平易な言葉への置き換えなど、誤解を防ぐ工夫が求められる。とくに緊急の判断を要する場面では、AIのみに頼るのではなく専門家との連携や追加確認が重要」とし、「本研究はGPT-3.5のモデルを使用した研究であり、最新モデルでは異なる結果となる可能性がある」としている。

（ケアネット　土井舞子）

原著論文はこちら

Chie T, et al. Acute Med Surg. 2025;12:e70042.

参考文献・参考サイトはこちら

日本救急医学会：生成AIによる救急外来受診の推奨に関する妥当性研究―生成AIの回答に対する専門家と非医療者の解釈の差が明らかに―日本救急医学会「救急医療における先端テクノロジー活用特別委員会」による報告

総務省消防庁：緊急度判定プロトコルver.3