主要な大規模言語モデル(LLM)の認知機能についてモントリオール認知評価(MoCA)テストなどを用いて評価した結果、ChatGPT-4oを除いたLLMで軽度認知機能障害の兆候が認められたことを、イスラエル・Hadassah Medical CenterのRoy Dayan氏らが報告した。人間と同様に年齢が認知機能低下の重要な決定要因であり、「高齢」すなわちバージョンが古いチャットボットはMoCAテストの成績が不良である傾向がみられたという。著者は、「これらの結果は、近くAIが人間の医師に取って代わるという想定に疑問を投げ掛けるものであり、主要なチャットボットの認知機能障害は医療診断の信頼性に影響を与え、患者の信頼を損なう可能性がある」と述べている。これまで複数の研究により、LLMはさまざまな診断において人間の医師よりも優れていることが示されているが、AI自体が認知機能低下を来すかどうかは評価されていなかった。BMJ誌2024年12月20日号掲載の報告。
ChatGPT、Claude、Geminiの認知機能をMoCAテストなどで評価
研究グループは、公開されているLLMまたはチャットボットのChatGPT-4および4o(開発:OpenAI)、Claude 3.5 Sonnet(Anthropic)、およびGemini 1.0および1.5(Alphabet)を対象とし、テキストベースのプロンプトを介したLLMとのオンラインの対話について検証した。
MoCAテスト(バージョン8.1)を用い、患者に与える課題と同じ課題をLLMに与え、公式ガイドラインに従い神経科医が採点し評価した。追加の評価として、Navon図形、Cookie Theft Picture Test、Poppelreuterの錯綜図、Stroop testも実施した。
主要アウトカムは、MoCAテストの総合スコア・視空間認知/実行機能およびStroop testの結果であった。
MoCAスコアが最も良好なのはChatGPT-4o、30点満点で26点
MoCAテストの総合スコア(30点満点)は、ChatGPT-4oが26点で最も高く、次いでChatGPT-4およびClaudeが25点であり、Gemini 1.0は16点と最も低かった。
MoCAテストの視空間認知/実行機能の成績は、すべてのLLMで低いことが示された。すべてのLLMがTrail Makingの課題および視空間認知機能の時計描画を失敗し、ChatGPT-4oのみアスキーアートを使用するよう指示された後で立方体の書き写しに成功した。そのほかの主な課題である命名、注意、言語、抽象的思考などはすべてのLLMで良好であったが、Geminiは1.0および1.5ともに遅延再生の課題に失敗した。
Navon図形では、すべてのLLMが小さな「S」を認識したが、大きな「H」の構造を特定したのはChatGPT-4oとGeminiのみであった。
Cookie Theft Picture Testでは、すべてのLLMがクッキーの盗難の場面を正しく解釈できたが、前頭側頭型認知症でみられる共感の欠如が示唆された。
Poppelreuterの錯綜図では、すべてのLLMがオブジェクトを認識できなかったが、ChatGPT-4oとClaudeはほかのモデルよりわずかに良好であった。
Stroop testでは、すべてのLLMが第1段階を成功したが、第2段階を成功したのはChatGPT-4oのみであった。
(医学ライター 吉尾 幸恵)