2段階うつ病スクリーニング戦略 (2020年6月)

※この時期のUpToDateにある”What’s new in family medicine”のTopicで参考にされている文献です。

―文献名－
Levis B, Sun Y, He C, et al. Accuracy of the PHQ-2 Alone and in Combination With the PHQ-9 for Screening to Detect Major Depression: Systematic Review and Meta-analysis. JAMA. 2020;323(22):2290.

―要約－
重要性：
Patient Health Questionnaire depression module（PHQ-9）は、うつ病の検出と重症度の評価に使用される9項目の自己記入式検査である。Patient Health Questionnaire-2（PHQ-2）はPHQ-9の最初の2項目（抑うつ気分と無気力の頻度を評価する）で構成されており、PHQ-9の評価を受ける患者を特定する最初のステップとして使用することができる（Table1）。

目的：
大うつ病を検出するためのPHQ-2単独およびPHQ-9との併用の精度を評価する。DATA SOURCES MEDLINE、MEDLINE In-Process & Other Non-Indexed Citations、PsycINFO、Web of Science（2000年1月～2018年5月）。DATA SOURCES MEDLINE、MEDLINE In-Process & Other Non-Indexed Citations、PsycINFO、Web of Science（2000年1月～2018年5月）。

研究選択：
対象となるデータセットは、PHQ-2スコアと有効な診断面接による大うつ病診断とを比較した。

データの抽出と解析：
半構造化面接、完全構造化面接、ミニ国際神経精神科面接を用いた研究におけるPHQ-2単独、PHQ-9と組み合わせたPHQ-2に対して、半構造化面接を用いた研究のPHQ-9単独の感度と特異度を推定するために、二変量ランダム効果メタアナリシスを行った。 PHQ-2のスコアは0～6、PHQ-9のスコアは0〜27であった。

結果：
対象となる136件の研究のうち100件（44 318人、大うつ病患者4572人（10％）、平均年齢49 [17]歳、女性59％）から参加者の個人データを得た（Figure1、Table2）。

半構造化面接を用いた研究では、PHQ-2の感度と特異度（95％CI）は、カットオフスコアが2以上で0.91（0.88-0.94）と0.67（0.64-0.71）、3以上で0.72（0.67-0.77）と0.85（0.83-0.87）であった。感度は、半構造化面接と完全構造化面接で有意に高かった。特異性は面接の種類によって有意差はなかった。ROC曲線の下面積（AUC）は、半構造化面接では0.88（0.0-0.89）、完全構造化面接では0.82（0.81-0.84）、MINIでは0.87（0.85-0.88）であった。サブグループ間に有意差は認められなかった（Table3）。

半構造化面接では、PHQ-2が2点以上、PHQ-9が10点以上の感度（0.82 [0.76-0.86]）は、PHQ-9が10点以上の単独面接（0.86 [0.80-0.90]）と比較して有意差はなかったが、特異度は有意ではあったがわずかに高かった（0.87 [0.84-0.89] vs 0.85 [0.82-0.87]）。AUCは0.90（0.89-0.91）であった。この組み合わせにより、PHQ-9の全項目を完了する必要のある参加者数を57％（56％-58％）減少させることが推定された（Table4）。

本研究の強みは、サンプル数が多いこと、すべての研究（発表された研究だけではなく）のすべてのカットオフ値の結果が一致していること、PHQ-2の精度を基準値と参加者のサブグループ別に分けて評価していること、そして、これまでメタアナリシスでは行われていなかったPHQ-2とPHQ-9の組み合わせの評価などである。

Limitation:
第一に、公表されている131件の適格データセットのうち36件（27％）の一次データが含まれていないことである。第二に、サブグループを考慮するとほとんどの場合で改善されたが、研究間では中程度の不均一性があった。これは、精神科以外の医学的診断の有無に関するデータが40％の参加者では得られず、特定の診断についてはより高い割合で欠落していたためであり、また、多くの国や言語を代表する一次研究が少なかったためである。第三に、多くの研究では、すでにうつ病と診断されているか治療を受けている可能性のある参加者を明示的に除外していないが、現在診断されていないか治療を受けていないことが確認された参加者の分析と、これらの情報がない参加者を含むすべての参加者の分析では、統計的に有意な差はなかった。第四に、個々の参加者データのメタアナリシスにおける研究は、実施された面接に基づいて分類されているが、面接が必ずしも意図した方法で使用されているとは限らない可能性がある。半構造化面接を使用した48件の研究のうち、典型的な基準を満たさない面接官を使用した研究が3件、不明確と評価された研究が11件であった。資格のない面接官を使用したことで、基準となる基準カテゴリー間の精度推定値の差が減少した可能性がある。第5に、QUADAS-2のすべての領域においてバイアスのリスクが低いと評価された研究はほとんどなかったため、すべての評価が低い研究のみを用いた感度分析は実施されなかった。

結論と関連性：
PHQスコアと大うつ病診断を比較した研究の参加者データのメタ解析では、PHQ-2（カットオフ2）とPHQ-9（カットオフ210）の組み合わせは、PHQ-9のカットオフスコアが10以上の単独の場合と比較して、感度は同等であったが特異度は高かった。この組み合わせによるスクリーニングの臨床的・研究的価値を理解するためには、さらなる研究が必要である。

【開催日】2020年9月2日（水）