2017年 04月 15日 ( 1 )

 

Shoulder Impingement Syndrome (SIS)診断について、その3。

b0112009_10385830.png
#8 Kelly & Brittle, 2009
この研究ではUSを比較試験として用い、7つのテストの診断的価値を検証しています。US画像診断は最近の技術の進歩でより正確になってきていて…と他の論文(#7)でも書いてあったような文句が導入部に書かれていますが、その際に引用されている文献は#7でも使われていた2004年のものと2000年の論文のみで、もっと新しいはずの#6 (2006年)の論文と決定的に食い違うので、やっぱり個人的に「USをreference testとして使う」ことの正当性は低いのではと思いますが…。

被験者: 該当整形外科病院に肩のUSを撮りに来た34人の患者さん(男性20人、女性14人、中間年齢57歳、中間症状期間2年…なぜにmeanでなくてmedian?)。Inclusion criteriaは年齢が20-70歳で、指示に従う能力があり、no history of traumatic injury to the shoulderというところ(肝心な肩の症状に関する指定は一切なし)で、Exclusion criteriaは1) neurological-type pain or weakness originating from cervical spine もしくは 2) inflammatory joint diseaseがあること、だそうです。我々ATからしたら、US画像にreferされる患者の平均的criteriaが分からないのでこれは設定の甘いIn/exclusion criteriaですね。Sample sizeに関してもPower Analysisは行われておらず、かなり被験者の数は少ないなぁという印象です。

検証方法: US (肩の超音波の専門家であるひとりのradiologistが一貫しておこなう)の直後一人のphysiotherapistが7つのテスト(Neer, Hawkins-Kennedy, Painful Arc, Empty Can, Full Can, Resisted Abduction, Resisted ER)を実施。タイムラグがないのがいいですね。しかも、このPTはUSの結果を知らない(blinded)状態だったそうなので、ここも評価できます。

気になるのは「US画像がfull-thicknessがどうか不明瞭だったり、テスト結果が曖昧(陽性とも陰性ともつけがたい)だった場合は分析から省きました」という記述ですかね。実際の診療では「あれー?このテスト陰性かな、陽性かな?」と迷うような場面があるからといって「分からないから診断しない!」と投げるわけにはいきません。曖昧なケースも含めて診断できるようなツールを開発することこそに意味があるのではと思うので、「不明瞭なものは除外」というのはあまり褒められた研究デザインではありません
b0112009_12461577.png
結果: さて、結果は上の表の通りです。例によって-LRや+/-PVがなかったので全部まとめて出してみました。ハッキリ言って有効なものはほとんど確認できません。外転時の痛みが確定に有効なくらいでしょうか。それにしたって、95%CI値が報告されていないので、どれほど安定した数値なのかは残念ながら不明です。被験者の数が少ないので、95%CI幅が報告されていたとしても広いことは間違いないのではと思います。

著者の結論にも「SIS診断にこれらのテストの使用はさほど有効ではない」と書かれています。唯一面白いと思ったのが、それに続く考察で「肩周りは神経支配がリッチであるため、例えばまだまだSIS初期で、USでは変化が見受けられないけど、これらのテストでは痛みが出るという可能性も十分にあるのではないか」つまり、USという比較テストの信憑性そのものにも疑問を掲げているところでしょうか。まぁ、これを言ってしまうとGold StandardであるはずのArthroscopyもその絶対性が怪しくなってきてしまいますけども…。これ(初期の比較的asymptomaticなSISの診断)を考慮しようと思ったら、今度はSISの初期、中期、末期…みたいに患者を状態でわけて、それぞれでテストの診断価値を実証しなければいけなくなりますねぇ。興味深い考え方なんですけど、検証は難しいかな。
b0112009_10390587.png
#9 Hegedus, 2012
2006年に俺らreview article出したんだけど、あれから結構経ってoriginal researchもさらに出たし、systematic review/meta-analysisのmethodologyもかなりスタンダード化が進んだし、QUADASが進んでQUADAS-2になったりもしてるんで、もう一回新しくsystematic review/meta-analysisやりなおしますわー、という論文。

Inclusion Criteria: diagnostic accuracy studies; report SN and SP; written in English; examining adults with shoulder pain fur to musculoskeletal pathology
Exclusion Criteria: the use of equipment/devices; subjects tested under anesthesia; cadavers
Databases Used: Medline, CINAHL, EMBASE, Cochrane Library
b0112009_21041162.png
2人の研究者が別々にタイトルとabstractを読み、include or excludeを判断。意見が合わないところは話し合いで、それでも解決しなければ第3研究者によって決定。そののち、手元に残った論文の全文を読んでsystematic reviewとしての最終分析に入れるか決定。最終分析に含まれた32の論文のうち、2x2テーブルが抽出可能だった論文はmeta-analysisにも含まれたそうです。同様に、QUADAS-2に関しても2人の研究者がそれぞれindependentlyでこのツールを用いて研究の質を推し測る分析を行ったそうなんですが、QUADAS-2のagreementはk = 0.31 (95%CI 0.10-0.52)とかなりpoor (低い)値に。いやー、講習会などでも私はオリジナルQUADASのほうがまだ良かったのではないかって言ってしまったりするんですけど、そうなんですよね、QUADAS-2のほうが主観的なので、評価者によって意見の食い違いがある、つまり、inter-rater reliabilityが低いと思うんですよ…。まぁ別に今回のこのレビューそのものの悪口を言っているわけではなくて、これはツールそのもののlimitationですよね。ここまでのmethodologyはスタンダードな、いわゆる非常に丁寧に作られた良レビューという印象です。

QUADAS-2の分析から見えてきた「(今回のレビューに含まれた)多くの論文に共通するバイアス」に関する問題点は大きくふたつ。1) Patient Flow - index testとreference testの間が空きすぎ…これは以前に私も指摘した点ですね。それから、2) そもそもgold standardですらないUSをreference testに使う研究が近年増えている(n = 12)、という点も。これも私が書いていたところだ、やっぱりそうだよね!なんでUSがありきになったのか…。

Systematic reviewの部分はそんなに面白くなかったんで(オイ)、もっとワクワクするMeta-analysisの部分に飛んじゃいましょう!これはご飯三杯はいける、楽しい統計群です!下のテーブルは文中のTable 3を私が個人的に一番見やすいように修正したものなんですけど、ひとつだけ疑問があるとすれば「なんでImpingementとSLAPの上半分だけ、SNとSPを小数点以下まで求めていないの…?」という一貫性の無さですかね。数字いじるんだったらそういうところはしっかり合わせてほしかったです。んで。せっかくのmeta-analysisなので、95%CI幅を考慮しても絶対的な統計力がある「優れたテスト」はあるのか?ということで、「決定的統計力」があるものはがっつり赤に太字で、「まぁ使えないことはない」というテストはうっすら赤で、それぞれハイライトしてみました。意外というかやっぱりというか、少ないですね、良いテスト…。
b0112009_21001210.png
Impingement: NeerとHawkins-Kennedyは除外にはまぁまぁ、確定にはPainful Arcがまぁまぁ有効。
SLAP: Anteiror SlideとYergasonの確定は決定的。CrankとCompression Rotationは確定にまぁまぁ。除外に有効なものは残念ながらないが、一番マシなのはActive Compression (O'Brien's - 67%, 95%CI 51-80%)といったところか。
Anterior Instability: これはやっぱりAnterior ApprehensionからのRelocation, Surpriseのコンボをやれってことでしょうね。それぞれ確定力は決定的もしくはまぁまぁ。そして、Surpriseは除外力もまぁまぁあり。
Tendinopathy: Hawkins-Kennedyの除外力がまぁまぁ。
Labral Tear: Crankの確定力はまぁまぁ。
障害別にまとめるとこんな感じですかね。LR値は残念ながら総じて良くないです。例えばSpecificityが良くてもSensitivityが乏しいと、いわゆる「トレードオフ」状態になってしまっていて「総合的にLR値が1に近づく」という、まぁ、こういう現象が起こりえます。
b0112009_21042011.png
コンビネーションテストも紹介されてはいるんですが、95%CIがないのでここで敢えて言及する価値はないかと思います。結論としては、「使いどころによってはチカラを発揮できるテストはあるが、これさえ使えば完璧!というテストは存在しないし、コンビネーションテストもギリギリ使えるかどうか…という感じ。もっとcomprehensiveな診断方法を開発、検証する必要がある」とまとめられています。これは私も賛成です。

#10 Dinnes et al., 2003
肩の傷害の診断に、1) clinical examination, 2) US, 3) MRI, 4) MRAはどれだけ有効なのか、という大掛かりなレビュー文献。これは…誰かのdissertationでしょ?chapter形式で185ページあるし…。こういうの課題にするかね普通?ぶつぶつ…。
b0112009_12050926.png
この論文、長すぎてとてもまとめきれないので、面白いと思ったところだけ書くと…
  • Includeされた研究の多くがprimary care setting (i.e. スポーツの試合中に怪我が起こり、その場でATが診断)ではなく、誰かの手を渡って最終的に整形外科やリューマチ課などにreferされた患者であるからして(self-referもあるかもしれないけど)、これらの研究の結果が(比較的患者がunselectedである)現場でそのまま当てはまるとは限らない。
  • 上記の理由で、障害のprevalenceは高いものが多かった(i.e. RC disorderが平均で61%)。…現場での数字はきっとこれほど高くはないでしょうし、prevalenceは直接SN、SPなどの結果にも関わってくるので、これによって結論が影響を受けた可能性は十分にあり得ます。
  • 個々のSelective Tissue Testで除外に有効なのが1) Arc of Pain (SN 97%; 95-99%)/Impingement Sign (SN 97%; 95-99%); 2) IR Lag Sign (SN 97%; 83-99%, -LR 0.0; 0.0-0.2); 3) Rent Test (SN 96%; 85-99%, -LR 0.0; 0.0-0.2); 4) Neer (SN 89%; 80-94%); 5) Night Pain (SN 88%; 84-91%)。
  • 確定に有効なのは1) ER Lag Sign (SP 100%; 86-100%)/Drop Test (SP 100%; 86-100%)/Lift-Off (SP 100%; 86-100%); 2) Rent Test (SP 97%; 89-99%, +LR 30.1; 7.7-118.0)/Speed (SP 97%; 87-100%); 3) IRRST (SP 96%; 90-99%, +LR 24.8; 8.1-75.9)/IR Lag Sign (SP 96%; 80-00%)。
  • 総合的に優秀なのはRent Test (除外確定、SN、SP、+/-LR全て有効)、次にIR Lag Sign (除外確定、SN、SP、-LRは確定的)、そしてIRRST (確定、SP、+LRが確定的)というところでしょうか。しかし、これはそれぞれ異なる障害を診断するためのものなのでなんというか、わかりにくくなってしまっているまとめです。傷害別にorganizeすればよかったのでは?
b0112009_11353358.png
  • テストの組み合わせは臨床的に意味がありそうなものはなし。例えば、このまとめ(↓)によれば、7つのテストをおこなって全てが陽性だったら確定可能…って、あたりまえじゃん!って感じなので。他にも「10 tests + X-ray」なんて、ATにしては現実味がゼロ。
b0112009_12014583.png
  • 肩の傷害の診断にUSを使うことに関しては、今までに38の研究が発表されていたらしいのですが「最近使われている周波数は>10MHzが主流なのに、過去の研究では5MHz(6 studies)や7MHz(19 studies)、もしくは5MHzと7MHzのコンボ(6 studies)が使われていること多く、10MHzの研究(3 studies)のほうが圧倒的に少ないほど。バラツキが大きすぎる」とのことで。ふーむ、ここんとこは知らなかった。となると、研究間の比較の正確性がアヤしくなってきますね。
  • 加えて、超音波画像の研究は被験者のdemographicの描写が甘い、不適切なreference testを使っている、診断基準がきちんと定義されていない、USとreference testの間が空きすぎている、なども挙げられており、総合的にこれらの研究の質はかなり悪いと考えてよさそう。特に私が気になるのがretrospective (or unknown, n = 18) studiesの統計のほうがprospective (n = 11) studiesよりもSensitivity (85%; 81-85% vs 70%; 64-75%)とSpecificity (86%; 83-88% vs 81%; 76-85%)の数値がいいってことでしょうか。もうこうなってくるといよいよ過半数の研究にバイアスがあるってことじゃないかと。
b0112009_12553585.png
  • USそのもののOverall pooled SN = 80% (95%CI 78-83%)とSP = 85% (95%CI 82-87%)。RCのtear深刻度別にa: any tear; b: full-thickness; c: partial-thickness tearで見てみると(↑、個人的に重要だと思う結果に★を付けてみました)、断裂の度合いを問わず、確定にはいいけと除外はなー、という感じですね。画像診断まで取って損傷を見逃したくないというのが患者・クリニシャン双方の考えかなと思うので、このSensitivityの幅は私としては使い勝手がいいとは言えないのは、という印象です。これはLR値見ていても同じ(↓)ですね。full-thicknessのtearで陽性出たらDORが13にも跳ね上がるのだとか。しかし、陽性は有意義でも陰性はそれほど意味を持たない。
    b0112009_13061121.png
  • MRIのRC pathologyに対する診断価値を検証した研究は全部で29。Overall pooled SN = 83% (95%CI 79-86%); SP = 86% (95% CI 83-88%)ということで、USよりはほんのわずかばかり優秀。MRIに関して面白いと思ったのが、「患者の年齢が上がるとともに正確性が下がる」というところですかね。加齢に伴う組織の変化をpick upしすぎてしまうのでしょうか?
b0112009_00230568.png
  • RCのtear深刻度別にa: any tear; b: full-thickness; c: partial-thickness tearで見てみると(↑、これも確定的だと思うものに★アリ)、MRIはfull-thicknessの診断には確定・除外共にかなり有効(SN 89%; 86-92%, SP 95%; 91-95%)な反面、partial thicknessの除外力は非常に低い(Sn 44%; 36-51%, SP 90%; 87-92%)のがわかります。LR値(↓)もまぁ、この結果を反映していますよね。Full-thicknessの-LR値は完璧とは言いませんが、「陰性の場合はRC断裂の可能性は(pre-test probability 32%から)7%未満まで落ちる」のには十分な数値でもあります。臨床的意味はそこそこあるのではと私は感じています。これに基づき、最終結論では「MRIはfull-thicknessの除外に有効」とのみ書かれているので、「確定は?」と思って、nomogram使って陽性の場合のpost-test probabilityも示してみました(赤線がfull-thickness、緑がany tear、そして青がpartial thicknessです)。うーん、なるほど、確かにpre-test probabilityの32%を考慮しちゃうと、陽性の場合でもfull-thickness tearのpost-test probabilityは82%ほどと、それほど確定的ではなくなってしまうのか。なるほど。
b0112009_00520153.png
b0112009_01255933.png
  • さて、最後はMRA。MRAの診断価値を検証した研究はたった6、ということでこれは比較的コンパクトにデータがまとめられています(↓)。下の総合的な数値を見る限りでは、full-thicknessのtearにはMRAは確定も除外も決定的に有効partial tearに関しては確定が決定的に有効、ですね。MRIよりもそれぞれ数値が少しばかり高い印象です。Prevalence 平均36%を元に考えると、MRAが陽性だった場合full-thickness tearがある可能性は85%に、陰性だった場合その可能性は6%までに低下するという計算。
b0112009_03260954.png
  • まとめると、「画像診断ではfull-thicknessのほうがpartial thicknessよりも診断しやすい」というところは間違いなさそうですね。本文には「MRIに比べてUSとMRAのほうが優秀」とあったんですが…うーん?そうかなー?確かにUSとMRAが部分断裂を確定できるのに対して、MRIはその能力が少し劣るところは大きいのか?研究の質としてはUSのそれは低いものが多いかなと思ったんですけどね…。今ネットで調べてみたら、もちろん保険や場所によって差はあると思うのですが、コストはUSが一回平均$225ほど、MRIは$475くらいでMRAが$550くらいとありました。ちなみにarthroscopyは$2500-6000くらい?値段も加味すると、一番コスパが良いのはUSってことになるんでしょうか。お金に糸目はつけないんだったらさっさとMRA撮っちゃいましょ、って感じかな。
b0112009_05370319.png
そんなわけで、これでSIS診断の10文献レビュー終わりです!あーこれが終わればやっと読みたかった脳震盪の文献群に取り掛かれそう。楽しみです、ひゃっほうー。

[PR]

  by supersy | 2017-04-15 18:00 | Athletic Training | Comments(0)

SEM SKIN - DESIGN by SEM EXE

AX