Lelli Test、改め『Lever Sign Test』は結局のところ使えるの?最新エビデンスまとめその4。

2014年2月2日 Lelli's Test―ACL断裂のための新しいスペシャルテスト!?
2016年3月16日 Lelli Test、改め『Lever Sign Test』は結局のところ使えるの?最新エビデンスまとめその1。
2016年3月18日 Lelli Test、改め『Lever Sign Test』は結局のところ使えるの?最新エビデンスまとめその2。
2016年12月26日 Lelli Test、改め『Lever Sign Test』は結局のところ使えるの?最新エビデンスまとめその3。

別にシリーズ化するつもりはなかったのですが、これに関して新たな文献をふたつ入手したので、「まとめその4」です。今や一部の診断教科書に載るようにもなったLever Sign Testですが、その効果やいかに?
b0112009_11435219.png
最初はK平さんが紹介してくださったこの論文(↑)1。冒頭で、エビデンスによればACL断裂診断に最も効果的なのはsensitivityが高いLachmanにspecificityが高いPivot Shift、としながらも、これらの両テストはどちらも患者の痛み・guardingの影響を受けやすく、正しくおこなうには試験者のスキルも要ることを指摘。シンプルで、誰にでも同じようにできて、yes/noで分かりやすく白黒つけられるテストはないか?ということで、Lever Sign Testの出番ってわけです。

この研究のデザインはProspective comparative studyで、調査対象(inclusion criteria)となったのは16-60歳の、膝を何らかのメカニズムで怪我し(non-contactとcontactのどちらも含む)、膝に"subjective swelling"もしくは"objective effusion"がある患者。逆側の膝に受傷既往歴が全く無いことも条件で、この膝は「健康」な比較対象として使われたそうな。除外対象(exclusion criteria)となったのは1) 再建手術の既往歴有(ACLに限らず、全ての靭帯);2) 遠位大腿骨もしくは近位脛骨の骨折; 3) 両側膝損傷; 4) 前・後十字靭帯の損傷が明らかな場合(これ、よくわからないのできちんと説明してほしい)…で、側副靭帯や半月板の損傷が同時にあってもそれは除外対象にはならなかったとのこと。ここまで見て思うのは、(2)~(4)はconcomitant/concurrentlyってこと?それとも既往歴?特に(2)と(4)は、画像診断をもって判断するの?もうちょっとわかりやすく書いてほしい。全体的に「ん?」と思う表現が多くあまり親切な文章ではない印象。年齢幅広いから、スポーツ選手を相手に仕事するATにはそのまま結果は当てはまらないかも。それから、objective effusionはともかく、subjective swellingの定義は?あまり聞きなれない言葉だし、swellingは基本objectiveであるべきものだと思うけど?sense of fullnessのこと?それともhistory of swelling, reported by the patient?

とりあえず読み進めます。試験者は2人の整形外科医…と書くとややこしいですが、一人の患者が2人の医師に2回に渡って検査されたのではなく、2人の整形外科医のうちどちらかがそれぞれの患者を診た、というだけなので、同一の試験者が全ての試験者をテストした場合よりはバイアスの要素が強くなってきます。inter-rater reliabilityはこの研究では報告されてませんので。特筆すべきは「試験者は患者のMRIはもちろん、MOIも含む患者のhistoryに対してもblindだった」ところです。純粋にテストの精度のみを検証しようとした部分は評価できます。それから、評価時は常に「健側→患側」だったこと、実施されたテストの順はどの患者も「Lever Sign→Lachman→Anterior Drawer→Pivot Shift」と固定されていたのも同様に評価されるべきです。これは、例えばLachmanをした後に「あれ?もう一回Lever Sign Testをやりたい」と頭によぎったとしても、戻ってはならない、ということだと私は解釈しています。必ずしもこの順番にバイアスがないとも限りませんが。で、この結果をMRIと照らし合わせたよう(整形外科医とradiologistがふたりでreview、双方の意見が全ての患者で一致したそう)なのですが、MRIが対照試験としてgold standard代わりに使われているのは問題アリですね、そもそもMRIはACL断裂診断においてsensitivity 83%, specificity 88.37%くらいしかないですから。2 本来ならばarthroscopyでなければいけないはず。
b0112009_13124345.png
加えて、この論文の決定的な穴はLever Sign Testの定義にあります。この論文では「被験者の脛骨粗面の最近位部位から少しだけ遠位の場所(the patient's tibia just distal to the most proximal aspect of the tibial tubercle)」の下に拳を、「膝蓋骨から10cm近位の大腿骨顆上(the supracondylar region of the femur, 10cm cephalad or proximal to the patella)」に手を添えてLever Sign Testを行った(↑上写真)、と書いていますが、これはLelli氏が2014年に自身の論文内で発表したやり方(試験者は患者の下肢近位1/3に握った拳を入れ、もう片方の手で大腿四頭筋の遠位1/3を軽く下に押す; 過去まとめ1参照)と異なるのです。3 自分の足を使ってたった今このふたつの異なるテストのバージョンを比べてみたのですが、少なくとも私の足をモデルにした場合、Massey氏らのやり方は、Lelli氏のそれと比べて両手共にかなり膝に近くなる印象です。ハッキリと手の置き場が違います。発明者であるLelli氏の描写と異なるテストを行っても、それはLever Sign Testと言えないのでは?私はこの不一致は致命的になりうると感じますがねー…。

ほいでは、結果です。
この実験で検証された被験者91人(平均年齢28±7歳、男61人、女30人)のうち、実際にACL断裂と診断されたのは71人(prevalence 78%!!!たっか!!被験者の偏りを表している?)。Statistical Power analysisで、必要被験者数は67人と定められていたので、91人はあっぱれな数字です。この論文、2x2テーブルはあったのですが、+/-LRも95%CIも求めていなかったので(なぜ?)、私がraw dataを元にそちらも計算して、4つのテストに関する統計のテーブルを作り直してみました。結果は以下の通り。
b0112009_14124554.png
見ての通り、最も優秀なsensitivityを示したのはLachman Testで、最も高いspecificityを有していたのはPivot Shift Test。冒頭のステイトメント通りですね。肝心のLever Sign Testはというと、sensitivityは堂々の2位、specificityは最下位タイながらも80というpoint valueはまぁまぁと言ったところでしょうか。Lever Sign Testの精度をもう少し詳しく、状況別に見てみると…
b0112009_14382921.png
1) 急性vs慢性では、急性の場合のほうが除外に有効で、慢性のほうは確定に有効である(…が、全体のaccuracyは大差なし、p = 0.47)。2) 付随する靭帯の損傷がある場合、確定力が一気に低下する(…が、こちらも全体のaccuracyは大差なし, p = 0.63)。3) 半月板損傷がある場合も同様に、確定力が一気に落ちる(これはaccuracyに大差あり、p = 0.003)…ということが言えそうです。しかし残念なのが、これらの統計に関してはraw dataが提供されなかったため、2x2テーブルが作れず、95%CIは求められなかったこと。subgroupに分けての分析なのでn数が一気に落ちていることを考慮に入れれば、これらの数値の95%CI幅はさらに拡大し(= statistically underpowered)、point valueのみでの判断はより難しくなると考えていいでしょう。その他に、考察部分では、この研究で報告された数値が他の論文よりも少し高いことから、fellowshipまで積んだ整形外科医らがおこなったテストだからこれだけ精度が良かったのか?という議論もなされています。確かに、ATやPTがテストを実施した場合の数値も見てみたいものです(華麗なる次の論文への前振り…?)。受傷から診断までの期間も1日から28ヶ月と幅が広かったのも気になります。個人的には受傷後3日以内に絞った超急性期の診断価値が知りたいです。

この論文の結論としては、Lever Sign TestはLachmanやAnterior Drawer, Pivot Shiftと引けを取らないだけの優秀なテストである。急性vs慢性(p = 0.47)や、他の靭帯の損傷が有る無い(p = 0.63)に正確性(accuracy)は影響されないものの、半月板損傷がある場合にはその精度が著しく落ちる(p = 0.003)…ということですが、前述のようにデザイン上、そして統計的にぽろぽろとflawを含むので、その解釈には気を付けるべきだと思います。うーむ、面白かっただけに所々残る甘さがもったいない論文でした。

b0112009_11432140.png
一方、私が見つけたこちらの論文4 では、「今までLachmanにしてもPivot ShiftやLever Sign Testにしても、色々とsensitivity, specificityやreliabilityが報告されてきたけど、これって基本、ベテランの整形外科医によるものだよね」という観点から、「それほど経験のない医師やPAなどの人が実施した場合はどうなのかというエビデンスも必要じゃない?」と切り込んでいます。これはなるほど、ごもっともですね。

で。この研究の調査対象になったのが、1) 片側の膝の怪我を受傷し、2) 症状があり、不安定症(symptomatic instability)があって医療機関を受診した患者。3) 過去のACL再建手術はもちろん、受傷前の同側膝の怪我の既往歴、過去6週間の手術歴はないことも条件で、4) 且つこの膝の怪我は72時間以内に受傷したものではない(= 超・急性期は脱している)…というこの条件は…ATにとってはあまりありがたいものではないかな?先ほども書いたように、私はむしろ受傷直後の反応が見たいのだけど。わざわざこの規制を設けた理由はなんなんだろう?あと、symptomatic instabilityというのももう少しきちんと定義してほしいですね。本人が「ぐらつきがある」と答えればそれだけでいいのか?「instability」をどういった形で確認、推し測ったのかは明記されるべきでした。

研究のデザインとしては、16年の経験を積んだベテラン整形外科医と、6年の経験を積んだ整形外科PAがそれぞれお互いのテスト結果を知らない状態で患者に1) Lachman Test, 2) Pivot Shift Test, 3) Lever Sign Testを実施。同じ患者にそれぞれ2回、麻酔前と後で繰り返したそうな。ちなみにこの研究でおこなわれた「Lever Sign Test」は、Lelli氏の描写通り3、下肢と大腿のそれぞれの1/3という、よりシンプルなランドマークを使っています(↓)。先ほどの写真より、特にふくらはぎ側の拳が膝から離れているような気がします。
b0112009_08474163.png
さて、結果です。調査対象となった患者33人のうち、21人が男性で12人が女性でした(平均30.9±14.3歳)。ここで私が非常に疑問に感じるのは、この33人全員にACL断裂が認められた(32人が完全断裂、1人が部分断裂)ということです。この被験者群のACL断裂有病率が「たまたま」100%だったとは考えにくいです(現実的に考えてprevalenceが高すぎます)。Inclusion criteriaに「MRIによってACL断裂が認められたこと」が含まれていればこれも納得できるのですが、あれ、読み飛ばしたかなと「The inclusion criteria for this study were patient...(p.72)」のところに戻って文章を何度読み返してみても、ここにそんな記述は一切ありません。あくまで被験者は「asymptomatic instabilityを訴える膝の怪我を受傷した患者」だったはずです、それがいつの間に「ACL断裂を受傷した患者」にすり替わったのでしょう?こういう穴がある論文は滅多にないので、なんだよものすごく怪しいじゃないかとかなり疑いの目で見てしまいます。

もしベテラン医師もPAさんも「被験者がACLを断裂していて、今日再建手術に来る。その麻酔前と後にこれらのテストをするのだ」というr理解の下、この実験がおこなわれているんだとしたら、それはかなりバカバカしいです。被験者のACLが断裂していることが分かった状態でこれらのテストをおこない、「陰性だ」と気持ちよく大きな声で誰が言います?「(…あれ?なんか陰性っぽい気もするけど、でも明らかに間違えなわけだから)陽性ですね!」と言いたくなってしまうのがヒトの性ではないでしょうか?

加えて、「ACL断裂を受傷していない被験者がいない」ということは、2x2テーブルの半分(false positiveとtrue negative)が埋まらないことになります。これでは、sensitivityは計算できても、specificityは求めることができません。研究としては、かなり問題のあるデザインになります。
b0112009_10080818.png
色々言いたいことはありますが、ともあれ結論です。上の表は、本文を読んだ上で与えられた数字を元に、私が2x2テーブルを作り直したものです。表の左側がベテラン整形外科医、右がPAによる診断の数値です。この数値を見比べていると、以下のことが見えてきます。1) Lachman - やはりこのテストは経験がものを言う。もしかしたら、手の大きい整形外科医のほうが、小さいPAよりも効果的にこのテストをおこなえたという要素もあるのかもしれない(手のスパン、21.5cm vs 15.5cm)。熟練で手が大きいものなら麻酔が有る無しに関わらず非常に効果的にこのテストをおこなえるが、手が小さい、and/or経験が浅いと麻酔が無い場合の正確性は落ちる。2) Pivot Shiftは、麻酔が無い場合は臨床的価値はほとんどない。…が、やはり手の大きさか、経験年数の違いか、麻酔科でも効果にはやはり差があるようである。3) Lever Sign Testは最も経験にも、手の大きさにも、職種にも、麻酔が有る・無いに関係なく、一貫性のある結果を得られるテストなのかもしれない。こういった要素に左右されず、常になかなかの数値を出せるテストであるというのは、臨床的価値が大いに高そうである

そんなわけで、結論だけみたらかなり面白い研究なんですけど、この論文にはあまりに致命的なflawがありすぎです。文章中に「false positiveはありませんでした」と何回も出てくるんですか、「ナメてんのかっ!」という感じです。統計の理解の低い読書をだまそうとしているようで、私は全体を通じてあまりこの文章に好感は持てませんでした。

ふーむ、しかし、これまでどのLever Sign Test関連の文献を眺めてみても、数値が全ての研究に置いて毎回悪くないというのは特筆しべきことなのかもしれません。臨床的価値は多いにありそうです。続報を待ちます…。

1. Massey P, Harris J, Winston LA, Philip N, Delgado DA, McCulloch PC. (2017). Critical analysis of the lever test for diagnosis of anterior cruciate ligament insufficiency. Arthroscopy. 2017. doi:10.1016/j.arthro.2017.03.007.
2. Kostov H, Stojmenski S, Kostova E. Reliability assessment of arthroscopic findings versus MRI in ACL injuries of the knee. Acta Inform Med. 2014;22:111-114.
3. Lelli A, Di Turi RP, Spenciner DB, Dòmini M. The "Lever Sign": a new clinical test for the diagnosis of anterior cruciate ligament rupture. Knee Surg Sports Traumatol Arthrosc. 2014. doi:10.1007/s00167-014-3490-7.
4. Chong AC, Whitetree C, Priddy MC, Zimmerman PR, Haeder PR, Prohaska DJ. Evaluating different clinical diagnosis of anterior cruciate ligament ruptures in providers with different training backgrounds. Iowa Orthop J. 2017;37:71-79.

[PR]

  by supersy | 2017-09-26 20:30 | Athletic Training

<< 生死を分けるカギは?Commo... スポーツ医療におけるATと医師... >>

SEM SKIN - DESIGN by SEM EXE

AX