症例報告コーパス(iCorpus)

電子カルテのデータを利活用するため、経過記録やサマリ等の自由記載から診断や所見などの情報を抽出する技術が求められており、その研究・開発を実施するためには、入力となるテキストと出力となる注釈が必要です。当講座では実用的な注釈データの構築を研究として行っており、さらに構築した注釈データを、対象としたテキストとともに研究者に対して公開することで、日本語の医用人工知能の研究を促進します。

コーパス概要

本コーパスはテキストとアノテーションから構成されます。

テキストは、厚生労働省の指定難病を対象としてJStageで検索して得られた結果から、本文が公開されている症例報告の症例セクションのテキストをコピー・ペーストによりテキストデータ化したものです。図表・キャプションは含みません。

指定難病333疾患のうち102疾患を含む179件の症例報告(183ファイル)が含まれます。

症例テキストの再配布にあたっては、各症例報告の出版元の許可を得て行っております。

本コーパスに含まれる指定難病102疾患の一覧

利用規約

利用者が、東京大学大学院医学系研究科 医療AI開発学講座(以下、「本講座」という)が提供する「症例報告コーパス」(以下「本データ」という)を利用するに当たっては、本利用規約の内容を承諾したものとみなし、取り扱うものとします。

本データは、臨床医学系雑誌に掲載された症例報告の症例提示部分のテキスト(以下、「本テキスト」という)およびこれに対するアノテーションデータ(本アノテーション)から構成されます。

権利

本テキストの著作権その他の権利は、発行機関や著者等に帰属します。また、本アノテーションに関する権利は本講座に帰属します。

利用許諾の範囲

利用者は、本データを利用者自身による研究目的(以下「本目的」という)のためにのみ使用することができるものとします。また、本データは、利用者と直接に共同して研究を行う者(以下「研究グループ」という)のみが使用できるものとします。

利用者は本目的に必要な範囲を超えて本データを複製してはならないものとします。

また、利用者が研究グループ以外の者に対して本データを開示、提供、貸与、公衆送信(送信可能化を含む)、配布等を行うためには、それぞれの著作権者の承諾を得て行う必要があります。

免責

本データは現状有姿で提供されるものであり、当講座は本データにエラー、バグ等の瑕疵がないこと、本データにコンピュータウィルス等の有害情報が含まれないこと、及び本データの適法性、完全性、有用性、信頼性、非侵害性及び特定目的への適合性等を含め一切の保証をしないものとします。

前項のほか、当社は利用者に対し、利用者による本データの使用、研究成果の発表等に起因して利用者が被った損害につき一切責任を負わないものとします。

コーパスのダウンロード

ダウンロードされた場合、利用者は利用規約に同意したものとみなします。

*年月が新しいものほどアノテーションが正確に付与されています。

ツールのダウンロード

iCorpusに関連するツールを以下で公開しています。

  • brat_entity_linking
    • エンティティにUMLS CUIをアノテーションするためのBratのアドオン

参考文献

  1. Emiko Shinohara, Daisaku Shibata, Yoshimasa Kawazoe. Development of comprehensive annotation criteria for patients’ states from clinical texts. J Biomed Inform. 2022 Oct;134:104200.
  2. 篠原 恵美子,河添 悦昌,柴田 大作,嶋本 公徳,関 倫久. 医療テキストに対する網羅的な所見アノテーションのためのアノテーション基準の構築. 第25回日本医療情報学春季学術大会, 2021年6月10日.
  3. 河添 悦昌,篠原 恵美子. 希少・難治性疾患を対象とした症例報告テキストコーパスの構築. 第41回医療情報学連合大会,2021年11月19日.
  4. 河添 悦昌,篠原 恵美子. 患者状態に関する網羅的なアノテーション基準とFHIR Conditionリソースとのマッピングの検討. 第41回医療情報学連合大会,2021年11月19日.
  5. 柴田 大作,河添 悦昌,篠原 恵美子,嶋本 公徳. 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度. 第41回医療情報学連合大会,2021年11月19日. [実験コード]
  6. 柴田 大作, 河添 悦昌, 篠原 恵美子, 嶋本 公徳. 希少・難治性疾患の症例報告テキストコーパスと情報抽出精度の評価. 第36回人工知能学会全国大会, 2022年6月14日. [実験コード] [発表スライド]