医療デジタルツイン

統合型ヘルスケアシステムの構築

第3期戦略的イノベーション創造プログラム（SIP）「統合型ヘルスケアシステムの構築（PD：永井良三自治医科大学学長）」の支援を受けて医療デジタルツインの構築に取り組んでいます。

テーマB5: 医療機器・材料のトレーサビリティデータ収集・分析システムの構築を通じた医療機器開発・改良支援、医療資源最適化、病院経営最適化支援（代表：美代賢吾特任教授, NCGM医療情報基盤センター長）
テーマD1: 医療機関・ベンダー・システムの垣根を超えた医療データ基盤構築による組織横断的な医療情報収集の実現（代表：河添悦昌特任准教授）

Natural Language Processing for Clinical Text

1. リアルワールドテキスト処理の深化によるデータ駆動型探薬

東大G：シナジー薬のin silico探索と医療言語処理基盤の高度化

科学技術振興機構戦略的創造研究推進事業（JST CREST）バイオDX領域の支援を受けて医薬品の新しい効能の発見を進めています。

Kawazoe Y, Tsuchiya M, Shimamoto K, Seki T, Shinohara E, Yada S, Wakamiya S, Imai S, Aramaki E, Hori S. Natural language processing of electronic medical records identifies cardioprotective agents for anthracycline induced cardiotoxicity. Sci Rep. 2025 Feb 24;15(1):6678. doi: 10.1038/s41598-025-91187-6.
Kawazoe Y, Shimamoto K, Seki T, Tsuchiya M, Shinohara E, Yada S, Wakamiya S, Imai S, Hori S, Aramaki E. Post-marketing surveillance of anticancer drugs using natural language processing of electronic medical records. NPJ Digit Med. 2024 Nov 9;7(1):315. doi: 10.1038/s41746-024-01323-1.
土屋雅美, 河添悦昌, 嶋本公徳, 関倫久, 今井俊吾, 木﨑速人, 篠原恵美子, 矢田竣太郎, 若宮翔子, 荒牧英治, 堀里子．自然言語処理を用いた診療テキストデータからのがん薬物療法副作用の検出と経時的可視化手法．第22回日本臨床腫瘍学会学術集会,神戸, 2025年3月8日
井上真理, 土屋雅美, 嶋本公徳, 河添悦昌, 篠原恵美子, 矢田竣太郎, 若宮翔子, 今井俊吾, 木崎速人, 堀里子, 荒牧英治．診療記録を活用したフッ化ピリミジン系抗がん薬誘発性口内炎に対するAT2受容体拮抗薬の予防効果の検証．第34回日本医療薬学会年会,幕張, 2024年11月2日（優秀演題発表賞）
土屋雅美, 嶋本公徳, 河添悦昌, 篠原恵美子, 矢田竣太郎, 若宮翔子, 今井俊吾, 木崎速人, 堀里子, 荒牧英治．自然言語処理を用いた診療テキストデータからのがん薬物療法副作用検出と可視化手法の提案．第34回日本医療薬学会年会,幕張, 2024年11月2日
土屋雅美、河添悦昌、嶋本公徳、関倫久、今井俊吾、木﨑速人、篠原恵美子、矢田竣太郎、若宮翔子、荒牧英治、堀里子. 診療記録に自然言語処理を用いた Cape 誘発 HFS に対するセレコキシブの予防効果の検証. 第62回日本癌治療学会学術集会, 2024年10月25日

2. 症例報告コーパス

電子カルテのデータを利活用するため、経過記録やサマリ等の自由記載から診断や所見などの情報を抽出する技術が求められており、その研究・開発を実施するためには、入力となるテキストと出力となる注釈が必要です。当講座では実用的な注釈データの構築を研究として行っており、さらに構築した注釈データを、対象としたテキストとともに研究者に対して公開することで、日本語の医用人工知能の研究を促進します。

詳細はこちら。

Bidirectional Encoder Representations from Transformers（BERT）を初めとするFoundation Model（言語基盤モデル）は、目的とするタスクのテキストと同じドメインのテキストで事前学習を行うことでタスク解答精度が向上すると考えられています。日本語Wikipediaで事前学習を行ったBERT／RoBERTaモデルは、京都大学、東北大学、情報通信研究機構、早稲田大学などから公開されていますが、カルテ記録を始めとする医療分野のテキストを利用するタスクへの適用性はまだ十分にわかっておりません。当講座では日本語で記載された大規模なカルテ記録をデータセットとしてBERTの事前学習を行い、そのモデルをクリエイティブ・コモンズ4.0 国際ライセンス (CC BY-NC-ND)のもとで公開しています。

詳細はこちら。

Deep neural networks for renal pathology

腎疾患の正確な診断は生検腎組織の病理診断が必須にも関わらず、これを専門とする医師の数は少ないため、病理診断の結果をダブルチェックし診断の見落としを防ぐことで医師の負担を低減するような、コンピュータによる画像診断支援システムの開発が期待されています。

1. デジタル病理画像からの糸球体検出

１枚のWSI（Whole Slide Image）から糸球体を四角形で囲み検出します。一般的な物体検出と比較しWSIからの糸球体検出は3つの課題があります。

WSIの画像サイズは大きく、対物レンズで40倍に拡大された標本のWSIは長辺が20万ピクセルを越える場合もあるため、このサイズをそのまま用いることは現代の計算機であっても効率的ではない。
糸球体は球状の組織であるが、標本を得る際に必ずしも長径が得られる角度でスライスされず、また圧による変形や破裂が生じ、画像上の二次元の糸球体は大小様々な形態を呈する。
腎病理の診断は複数の染色画像を対象にするため、染色の違いに対しても糸球体の検出精度が低下せず、頑健であることが望まれる。

このような課題があるなかで、当講座のグループは対物レンズで5倍相当にダウンサンプルしたWSIを固定サイズのウィンドウで走査し、各ウィンドウに含まれる画像を、物体検出を行うために設計されたCNN（Faster R-CNN）に入力し糸球体を検出するアプローチを取りました。ウィンドウサイズは、糸球体の直径を200μm (110ピクセル) 程度と見積もり、複数の糸球体と十分な背景画像を含めることができるように、2,000×2,000μmと大きめのウィンドウを設定しました。また、ウィンドウの境界に位置する糸球体であってもより完全な形でウィンドウに含めることができるよう、隣接するウィンドウを重複して走査し、重複して検出される糸球体は一定の閾値のもとで統合する処理を追加しました。

4種類 (PAS, PAM, MT, Azan)で染色されたWSIを対象として、各染色200枚、計800枚のWSIに対して、合計約33,000個の糸球体領域を人手によりアノテーションした教師付きデータセットを作成し学習と評価に用いました。データセットに含まれる糸球体領域を、Faster-R CNNが正しく検出できたかどうかを評価する2値分類のタスクとして設定しました。5分割交差検定の結果、PAS、PAM、MT、Azanの各染色画像におけるF値はそれぞれ、0.93、0.93、0.90、0.88であり、CNNを利用しない方法に比べて高い精度であることを示しました。PAS染色のWSIから検出された糸球体の例を以下に示します。PAS染色における糸球体の検出例。学習に使うデータと評価に使うデータを分けているため、AIにとっては未知の画像に対する糸球体を検出している。黄枠が人手により正解付けられた領域、赤枠がAIの検出した領域を示す。黄枠と赤枠が重なっているものは真陽性、黄枠のみで囲まれているものが偽陰性を意味します。

Reference:

Kawazoe Y, Shimamoto K, Yamaguchi R, Shintani-Domoto Y, Uozaki H, Fukayama M, Ohe K. Faster R-CNN-Based Glomerular Detection in Multistained Human Whole Slide Images. Journal of Imaging. 2018; 4(7):91.

Source code:

https://github.com/jinseikenai/glomeruli_detection

2. 糸球体画像からの糸球体所見分類

2-1. アノテーション基準の策定

ここでは、WSIから切り出した１枚の糸球体画像がどのような所見を有するかを分類するタスクを行いました。すなわち、糸球体が半月体を有するか否か、硬化病変を有するか否かといった判断をすることに相当します。ここで、CNNを学習するためには画像と対になる正解ラベルを必要とするため、所見項目毎にスコアリング基準（正解付けの基準）を明確にする必要があります。スコアリング基準が明確でなければ、CNNの出力する結果の妥当性に疑義が生じるためです。本研究では、参加するエキスパートを含む5人の腎病理専門医師のコンセンサスのもと、PAS染色で判断できる12の所見項目を選択し、各項目のスコアリング基準を作成しました。また、100枚の糸球体画像に対して5人の専門医師がスコアリングを行い、医師間のスコアの一致度としてCohenのkappa係数を算出しました。この係数は、0から1までの値をとり、値が高いほど一致度が高いことを意味します。12の所見項目における、kappa係数の平均値は0.37〜0.4であることから、このスコアリング基準は一定の妥当性を有するものであると考えられました。

Reference:

Yamaguchi R, Kawazoe Y, Shimamoto K, Emiko Shinohara, Tatsuo Tsukamoto, Yukako Shintani-Domoto, Hajime Nagasu, Hiroshi Uozaki, Tetsuo Ushiku, Masaomi Nangaku, Naoki Kashihara, Akira Shimizu, Michio Nagata, Kazuhiko Ohe. Glomerular classification using convolutional neural networks based on defined annotation criteria and concordance evaluation among clinicians. Kidney Int Rep. doi: 10.1016/j.ekir.2020.11.037

3. Whole Slide Imageからの糸球体内部構造抽出

腎生検のWhole Slide Image（WSI）に含まれる糸球体の病理組織学的所見は、腎臓病の診断や重症度の層別化に重要な役割を果たします。本研究では、WSIから糸球体を検出し、糸球体内部の病理組織領域をセグメンテーションするパイプラインを開発しました。また、このパイプラインの意義を評価するため、IgA腎症（IgAN）46症例を対象に、セグメント化された領域の面積が、腎機能の予後と関連するかどうかを重回帰分析で検証しました。

2施設のWSIを利用して開発したパイプラインの5つのクラス（背景、Bowman腔, 糸球体係蹄, 半月体領域, 硬化領域）のセグメンテーション性能は、自施設のWSIに対するIoUが0.670（T to T）と0.693(K to K)、外部施設のWSIに対するIoUは0.678(T to K)と0.609(K to T)であり、外部施設のWSIに対する性能が低下する傾向にありました。これは、２施設の病理検体の作成プロトコル（検体の薄切や染色の過程）の違いによる、WSIの見た目の微細な差に影響を受けたものと考えられました。

重回帰分析解析の結果、パイプラインによって計算された硬化領域の面積は、生検後のeGFR値の傾きに有意に負の影響を与えることがわかりました。つまり、硬化領域の面積が大きいほど、腎機能の予後が悪いことを意味します。このことは、専門家の間ではよく知られている事実ですが、これをWSIから人の手を介さずに定量的に予測できることを示したことが本研究の意義であります。

Source code:

https://github.com/jinseikenai/glomeruli_segmentation

Reference:

Kawazoe Y, Shimamoto K, Yamaguchi R, Nakamura I, Yoneda K, Shinohara E, Shintani-Domoto Y, Ushiku T, Tsukamoto T, Ohe K. Computational Pipeline for Glomerular Segmentation and Association of the Quantified Regions with Prognosis of Kidney Function in IgA Nephropathy. Diagnostics. 2022; 12(12):2955.

研究紹介

医療デジタルツイン

統合型ヘルスケアシステムの構築

Natural Language Processing for Clinical Text

1. リアルワールドテキスト処理の深化によるデータ駆動型探薬

2. 症例報告コーパス

3. UTH-BERT

Deep neural networks for renal pathology

1. デジタル病理画像からの糸球体検出

Reference:

Source code:

2. 糸球体画像からの糸球体所見分類

2-1. アノテーション基準の策定

Reference:

3. Whole Slide Imageからの糸球体内部構造抽出

Source code:

Reference: