Tuning Fork (音叉)で骨折鑑別できる?最新システマティックレビューまとめ。

音叉と聴診器で骨折判別?(2014年4月30日)
続・音叉と聴診器で骨折判別?(2014年6月16日)

3年ほど前に音叉を使った骨折鑑別を記事にしました(↑)が、最近こんなシステマティックレビュー論文(↓)1を見つけたのでまとめてみます。3年前(2014年)にジャーナル掲載されたもので、ものすごく新しいってわけじゃないんですが、これ以降まだ他のシステマティックレビューやMeta-analysisが発表されていないので現時点では「最新」です。ちなみにこれはOpen Accessなのでどなたでも無料で読めますよー、下にリンク張っておきます。
b0112009_02365188.png
さて、以前も書いたように、スポーツの現場では「これって骨折れてるかな?それとも軟部組織のケガかな?」と判断に迷うことはよくあります。骨折という診断を下すためのX-rayはそんなに高価な画像診断ではありませんし、比較的簡単にアメリカでも行えますけど、それでもやはりradiation exposureを最低限に抑えたり、不要な画像診断は省くという判断を積極的におこなって医療費削減に努めるのは医療従事者の義務だと思うわけです。そのためにスポーツの現場で我々ATができることがあれば、そんな知識・スキル獲得に尽力すべきだという事実にゃ変わりありません。その手段としての骨折鑑別のためのTuning Fork Test(音叉テスト)はもう60年も前から使われているそうですよ。60年ってすごいな。
b0112009_03315843.png
最もシンプルに使われるTuning Fork Test(上写真左)の例としては、1) 骨折の疑いがある箇所に直接("directly over")、もしくは僅かに近位の箇所("closely proximal to the suspected fracture site")にVibrating tuning forkを置き、痛みの有無を診る。もしくは、2) 骨折の疑いのある骨の遠位骨隆起("a bony prominence distal to the fracture site")にVibrating tuning forkを置き、痛みの有無を診る…というもの(私は正直なところ(2)しかほぼ使いませんね。受傷直後に(1)やるとfalse positiveが出ることが多いような気がするんだよな)。それから、以前に紹介した、3) 聴診器を組み合わせて音のabsence/diminish度を診る、Barford Test(上写真右)というのがありますね。

今回のシステマティックレビューでは、患者の年齢やclinical setting (病院のER vs 大学のスポーツクリニック)を問わず、とにかく2012年の11月までに発表された論文で、Tuning forkを骨折鑑別に使ったものをreview。Case seriesやcase-control studies, narrative reviewは除外対象で、cross-referenceチェックもおこなわれています。2人のindependent reviewerが1) タイトルとアブストラクト、 2) Full Textとを二段階でスクリーンし、最終的にレビューに含まれたのは6つの論文(総患者数は329人、決して多くはない数字です)。

まずは、Barford Testを検証した2つの論文の詳細がこちら。
Bache & Cross (1984)
 Setting: 病院のER
 対象被験者: 100人の大腿骨折疑いの患者(平均79歳)
 比較テスト: X-ray

Moore (2009)
 Setting: 大学のAthletics/Orthopedic Clinic
 対象被験者: 37人の7日以内に受傷した骨折疑いの患者(骨問わず, 年齢幅 7-60歳)
 比較テスト: X-ray

このふたつの研究だけでもかなりheterogeneityがあるのが分かりますね…大腿骨骨折は高齢者に多い長期的なdisabilityに繋がる大怪我だし、「見逃してはいけない」危機感がその他の骨折とはレベルが違うと個人的には思います。Mooreの研究2も何度も読んだんで覚えてるんですけど、こっちもこっちで年齢・骨バラバラ(上肢下肢)でごっちゃまぜの研究ですからねー。この二つを混ぜて解釈してしまっていいものか甚だ疑問です。

それから「骨の振動で痛みがあるか診ましょう」といういわゆるTuning Fork Testを検証した研究4つがこちら。
Lesho (1997)
 Setting: 軍隊のメディカルセンター
 対象被験者: 52人の脛骨疲労骨折疑いの訓練生・隊員(平均25歳)
 比較テスト: Bone scan

Kazemi & Roscoe (2000)
 Setting: 病院のER
 対象被験者: 46人の10日以内に受傷した骨折疑いの患者(骨問わず、平均30歳)
 比較テスト: Bone scan

Dissmann & Han (2006)
 Setting: 病院のER
 対象被験者: 足首内反メカニズムで受傷、OARが陽性だった患者49人(年齢幅 12-84歳)
 比較テスト: X-ray

Wilder et al (2009)
 Setting: Runners Clinic
 対象被験者: 足部を含む下肢に疲労骨折疑いのある患者45人(平均31歳)
 比較テスト: X-ray and Bone scan

これも…被験者層、年齢幅は高校・大学・プロのアスリートを相手に仕事している方からしたら(平均79歳なんかのさっきの研究よりは)現場のそれと近い、加えて、骨は下肢に集中している(=現場でも下肢の骨折疑いのほうが多いので)ところはよりapplicableかなとは思うのですが、最低でも疲労骨折か急性の骨折かは区別したほうが良かったんじゃないですかね。サブカテゴリー作ってわけて分析したほうが良かったんじゃ…研究が少なすぎるから、そういうことをすると意味あるconclusionを引っ張ってきにくいという気持ちはわかりますけど。あとDissmann & Hanの記事3は前にもまとめました(The Ottawa Ankle Rulesより優れたものは出てきたか?骨折鑑別・最新エビデンスのReview)が、この論文・結果の臨床的価値は「Ottawa Ankle Rulesのちょい足しspecial test」としてのものであり、独立したTuning Fork Testのそれとは解釈しないほうがいいのではと思います(足首内反メカニズムでOARが陽性、という縛りはgeneralizeするには厳しすぎるのでは)。

比較テストは急性骨折はX-ray、疲労骨折はBone scanというのは十分適切だと思います(むしろ急性骨折患者46人全員にBone scan使ったKazemi & Roscoe4恐るべし)。QUADAS-2を使ってそれぞれの研究の質を推し量った、という記述はあるんですが、それをまとめた表などは記載されていませんね、妙ですね。
b0112009_01363658.png
さて、このシステマティックレビューの結果(Table 3)をもとにこんな表を作り直してみました。緑色の部分は私が個人的に「これはあったほうがいいんじゃないの」と思って元の研究論文を見直したりなどして、足した情報です。オレンジ色の部分は「95%CIから見ても優秀といっていい数字」と私が判断したものを表します。それぞれの研究の被験者は決して多くなかったので、95%CI幅は一概に広い印象です。Point valueでは優秀なものがいくつも見られます。
b0112009_01493645.png
それでは、個人的な考察です。95%CI幅は広いものもありますが、総じてSensitivity(感度)は75-92%と安定してなかり高い数字が並んでいます。-LRの値はまだ少し理想的というには高めですが、それでも総合的にTuning Forkを使った骨折判別は、rule out (除外)する力はsそこそこ強いということができそうです。記事から抜粋した上のFigure 2(↑)を見てみると、Sensitivityが中でも低め(70%代)な研究はどちらも疲労骨折を検証したもの5,6であることもわかります。急性の骨折には、コンスタントに80%以上出せています。

反してSpecificity(特異度)はというと、18-94%とかなりばらつきがあります。95%CI幅から見て優秀なもの(Moore2やDissiman & Han3)もないことはないんですが、逆に95%CI幅を考慮すると決定的にダメなもの(Bache & Cross,7 Wilder et al6)もあります。+LRも同様といったところでしょうか。つまるところ、Tuning Forkを使ったテストが仮に陽性でも、必ずしも毎回骨折があるとは限らない=rule in (確定)する力は弱い、ということになりますね。確定する力が弱いのだから、Diagnostic OR (=陽性だった場合に実際に骨折がある可能性が何倍に跳ね上がるか)もまちまちなのは当然のことです。

このシステマティックレビューの結果では「異なる周波数でも診断力に大差はなし」と書かれています。うーん、これを「結論」にしてしまうにはまだまだ研究絶対数が足りないように思いますね。考察で書かれていて確かに!と頷いたのが、「いつこのテストを使うかというタイミングも問題なのでは」というところ。骨折受傷から日にちが経ちすぎていると仮骨形成(callus formation)が始まってしまい、Barford TestもTuning Forkテストも偽陰性が生まれやすいと推測されます(実証はされていません)。これを考慮すると「Tuning Forkを使ったテストをするのであれば、何日以内に行わなければならない」的なガイドラインも将来生まれるべきなのかもしれませんね。あとは骨折のタイプにも影響される、というのはMoore2もその論文で論じていたところです。Transverse Fractureの場合はキレイに陽性が出やすいけど、Avulsion Fractureでは偽陰性になりやすい、なんて書かれていましたっけ。Hairline Fractureはどうなんだろ?骨折のタイプに関しては、このシステマティックレビューからは「Tuning Forkを使ったテストは疲労骨折よりは急性骨折のほうが有効である」ということは言えるかと思います。

最後に、ちょっと意外だったんですけどTuning Fork TestのInter-rater Reliabilityって意外と低いんですって。どれくらい低いのかは具体的には示されておらず、その論文のfull-textが3月17日現在私も手元に所有できていないので詳しくはよくわからないんですが、このシンプルに見えるテストもスタンダード化、もしくはトレーニングが必要だってことなのかもしれませんね。例えば音叉をどこに置くのかという場所決め、振動の強さ、何をもって「陽性」と判断するかの基準(激しい痛みなのか、軽い痛みや違和感でもいいのか)、受傷からのタイミング、それから掘り返すようですけど周波数の違いとか、そういったvariableもいじりながら研究を重ね、最適な評価テストプロトコルを決めていく余地がまだまだありそうです。古い研究が多かったしなー、これからもっと新しいの出ないかしら。

まーつまり超短くまとめると、除外できるが、確定はできない。疲労骨折よりは、急性骨折に有効。完璧ではないし単独で使うべきではないが、やはりcost-effectiveな、現場では有効な手段といってもいい…ってことかな。ほかの手段と合わせて使うことで正確性が上がるのはDissmann & Han3 の研究からも明らかなので、私はこれからも現場で使い続けていきたいと思います。陽性結果は慎重に判断する感じで。
b0112009_02162534.png
最後の最後に。これはおまけなんですが、Journal of Athletic TrainingではこのシステマティックレビューをNarrativeで解説したコメンタリー的な文章(↑)が2016年に掲載されました。7 内容としては私が趣味でやっているブログに非常に近いです、「この論文ではこんなことが書かれています、こういう風に解釈できますね」…という感じでまろやかに論文の読み解きをしているわけです。もちろん口調は私の文章よりもっとずっと論文調で、きっちりきれいに書かれていますけど。

あの、個人的な感覚なのであれなんですけど、こういう「論文を読めない貴方の代わりに私たちが皆さんにわかりやすいよう解説しますね」っていう記事をPeer-reviewed Journalに載っけてしまうのが恥ずかしいです。個人のブログならわかります、でもプロのジャーナルに載せてしまうって「一般的なアメリカのATはこういう面白いシステマティックレビューには自力でたどり着かないだろうし、たどり着いたところで読んでもわからないだろうから、噛み砕いて説明しておくね」と自ら言っているようで…。しかも、「読者のレベルに合わせての配慮」なのか、このコメンタリーでは95%CIに関する解説は何もしていない。Point valueのみのディスカッションです。

もしかしたら、JATのエディターさんたちが「書いてあることがさっぱりわからない」などと読者であるATから批判を受け、臨床と研究のギャップを消すべく、こういった論文を積極的に掲載しようとしているのかもしれません。この論文の筆者さんたちも「こんなに面白い論文、もっと多くの人に見てもらいたい」という気持ちでこれを書いたのでしょう。そういった方々の努力を批判するわけではないんですが、それにしたって他の、例えば医師やPTなどのジャーナルで「読みやすいように書き直した」噛み砕き論文が掲載されるなんて私は見たことがない(もしあるとしたら私の不勉強です、すみません)ので、ATのエビデンス理解力の低さが露呈しているようで情けない、恥ずかしいと感じてしまいます。正しいエビデンスに基づく医療を実践できるようなATがもっともっと増え、自主的に様々な論文に食らいついて理解しようとする…そんな姿こそが未来のスタンダードになればいいなぁと思ってます。ATの皆さん、もっと論文読みましょー、これってああいうこと?こういうこと?と頭をひねりながら読み解こうとするその過程こそがEBPなんです。慣れてきたら楽しいですよー。

1. Mugunthan K, Doust J, Kurz B, Glasziou P. Is there sufficient evidence for tuning fork tests in diagnosing fractures? A systematic review. BMJ Open. 2014;4(8):e005238. doi: 10.1136/bmjopen-2014-005238.
2. Moore MB. The use of a tuning fork and stethoscope to identify fractures. J Athl Train. 2009;44:272–274.
3. Dissmann PD, Han KH. The tuning fork test: a useful tool for improving specificity in “Ottawa positive”’ patients after ankle inversion injury. Emerg Med J. 2006;23:788–790.
4. Kazemi M, Roscoe MW. Is the tuning fork test a reliable tool in detecting acute simple fractures? Int Sports J. 2000;4:1–8.
5. Lesho EP. Can tuning forks replace bone scans for identification of tibial stress fractures? Mil Med. 1997;162:802–803.
6. Wilder RP, Vincent HK, Stewart J, et al. Clinical use of tuning forks to identify running-related stress fractures. Athl Train Sports Health Care. 2009;1:12–18.
7. Bache JB, Cross AB. The Barford test. A useful diagnostic sign in fractures of the femoral neck. Practitioner. 1984;228:305–308.
8. Toney CM, Games KE, Winkelmann ZK, Eberman LE. Using tuning-fork tests in diagnosing fractures. J Athl Train. 2016;51(6):498-499. doi: 10.4085/1062-6050-51.7.06.

[PR]

  by supersy | 2017-03-17 12:30 | Athletic Training | Comments(0)

<< PRI Vision in S... チーム医療の実践のために知って... >>

SEM SKIN - DESIGN by SEM EXE

AX