研究紹介

Natural Language Processing for Clinical Text

1. 症例報告コーパス

電子カルテのデータを利活用するため、経過記録やサマリ等の自由記載から診断や所見などの情報を抽出する技術が求められており、その研究・開発を実施するためには、入力となるテキストと出力となる注釈が必要です。当講座では実用的な注釈データの構築を研究として行っており、さらに構築した注釈データを、対象としたテキストとともに研究者に対して公開することで、日本語の医用人工知能の研究を促進します。

詳細はこちら。

 

2. UTH-BERT

Bidirectional Encoder Representations from Transformers(BERT)を初めとする汎用的言語モデルは、目的とするタスクのテキストと同じドメインのテキストで事前学習を行うことでタスク解答精度が向上すると考えられています。日本語Wikipediaで事前学習を行ったBERTモデルは、京都大学東北大学情報通信研究機構などから公開されていますが、カルテ記録を始めとする医療分野のテキストを利用するタスクへの適用性はまだ十分にわかっておりません。当講座では日本語で記載された大規模なカルテ記録をデータセットとしてBERTの事前学習を行い、そのモデルをクリエイティブ・コモンズ4.0 国際ライセンス (CC BY-NC-ND)のもとで公開しています。

詳細はこちら

Deep neural networks for renal pathology

腎疾患の正確な診断は生検腎組織の病理診断が必須にも関わらず、これを専門とする医師の数は少ないため、病理診断の結果をダブルチェックし診断の見落としを防ぐことで医師の負担を低減するような、コンピュータによる画像診断支援システムの開発が期待されています。

1. デジタル病理画像からの糸球体検出

1枚のWSI(Whole Slide Image)から糸球体を四角形で囲み検出します。一般的な物体検出と比較しWSIからの糸球体検出は3つの課題があります。

  • WSIの画像サイズは大きく、対物レンズで40倍に拡大された標本のWSIは長辺が20万ピクセルを越える場合もあるため、このサイズをそのまま用いることは現代の計算機であっても効率的ではない。
  • 糸球体は球状の組織であるが、標本を得る際に必ずしも長径が得られる角度でスライスされず、また圧による変形や破裂が生じ、画像上の二次元の糸球体は大小様々な形態を呈する。
  • 腎病理の診断は複数の染色画像を対象にするため、染色の違いに対しても糸球体の検出精度が低下せず、頑健であることが望まれる。

このような課題があるなかで、当講座のグループは対物レンズで5倍相当にダウンサンプルしたWSIを固定サイズのウィンドウで走査し、各ウィンドウに含まれる画像を、物体検出を行うために設計されたCNN(Faster R-CNN)に入力し糸球体を検出するアプローチを取りました。ウィンドウサイズは、糸球体の直径を200μm (110ピクセル) 程度と見積もり、複数の糸球体と十分な背景画像を含めることができるように、2,000×2,000μmと大きめのウィンドウを設定しました。また、ウィンドウの境界に位置する糸球体であってもより完全な形でウィンドウに含めることができるよう、隣接するウィンドウを重複して走査し、重複して検出される糸球体は一定の閾値のもとで統合する処理を追加しました。

4種類 (PAS, PAM, MT, Azan)で染色されたWSIを対象として、各染色200枚、計800枚のWSIに対して、合計約33,000個の糸球体領域を人手によりアノテーションした教師付きデータセットを作成し学習と評価に用いました。データセットに含まれる糸球体領域を、Faster-R CNNが正しく検出できたかどうかを評価する2値分類のタスクとして設定しました。5分割交差検定の結果、PAS、PAM、MT、Azanの各染色画像におけるF値はそれぞれ、0.93、0.93、0.90、0.88であり、CNNを利用しない方法に比べて高い精度であることを示しました。PAS染色のWSIから検出された糸球体の例を以下に示します。PAS染色における糸球体の検出例。学習に使うデータと評価に使うデータを分けているため、AIにとっては未知の画像に対する糸球体を検出している。黄枠が人手により正解付けられた領域、赤枠がAIの検出した領域を示す。黄枠と赤枠が重なっているものは真陽性、黄枠のみで囲まれているものが偽陰性を意味します。

 

 

Reference:

  • Kawazoe Y, Shimamoto K, Yamaguchi R, Shintani-Domoto Y, Uozaki H, Fukayama M, Ohe K. Faster R-CNN-Based Glomerular Detection in Multistained Human Whole Slide Images. Journal of Imaging. 2018; 4(7):91.

Source code:

2. 糸球体画像からの糸球体所見分類

2-1. アノテーション基準の策定

ここでは、WSIから切り出した1枚の糸球体画像がどのような所見を有するかを分類するタスクを行いました。すなわち、糸球体が半月体を有するか否か、硬化病変を有するか否かといった判断をすることに相当します。ここで、CNNを学習するためには画像と対になる正解ラベルを必要とするため、所見項目毎にスコアリング基準(正解付けの基準)を明確にする必要があります。スコアリング基準が明確でなければ、CNNの出力する結果の妥当性に疑義が生じるためです。本研究では、参加するエキスパートを含む5人の腎病理専門医師のコンセンサスのもと、PAS染色で判断できる12の所見項目を選択し、各項目のスコアリング基準を作成しました。また、100枚の糸球体画像に対して5人の専門医師がスコアリングを行い、医師間のスコアの一致度としてCohenのkappa係数を算出しました。この係数は、0から1までの値をとり、値が高いほど一致度が高いことを意味します。12の所見項目における、kappa係数の平均値は0.37〜0.4であることから、このスコアリング基準は一定の妥当性を有するものであると考えられました。

2-1. CNNによる糸球体所見の分類精度

  • 工事中

Reference:

  • Yamaguchi RKawazoe YShimamoto KEmiko Shinohara, Tatsuo Tsukamoto, Yukako Shintani-Domoto, Hajime Nagasu, Hiroshi Uozaki, Tetsuo Ushiku, Masaomi Nangaku, Naoki Kashihara, Akira Shimizu, Michio Nagata, Kazuhiko Ohe. Glomerular classification using convolutional neural networks based on defined annotation criteria and concordance evaluation among clinicians. Kidney Int Rep. doi: 10.1016/j.ekir.2020.11.037

3. 糸球体画像からの糸球体内部構造抽出

Source code: