IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-54748言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム
<>
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図1
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図2
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図3
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図4
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図5
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図6
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図7
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図8
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図9
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図10
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図11
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図12
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図13
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図14
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図15
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図16
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図17
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図18
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図19
  • 特開-言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024054748
(43)【公開日】2024-04-17
(54)【発明の名称】言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 16/58 20190101AFI20240410BHJP
   G06N 20/00 20190101ALI20240410BHJP
【FI】
G06F16/58
G06N20/00 130
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022161178
(22)【出願日】2022-10-05
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】100083116
【弁理士】
【氏名又は名称】松浦 憲三
(74)【代理人】
【識別番号】100170069
【弁理士】
【氏名又は名称】大原 一樹
(74)【代理人】
【識別番号】100128635
【弁理士】
【氏名又は名称】松村 潔
(74)【代理人】
【識別番号】100140992
【弁理士】
【氏名又は名称】松浦 憲政
(72)【発明者】
【氏名】一ノ瀬 晶路
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175DA02
5B175FA01
5B175FB03
(57)【要約】
【課題】画像に関するテキストから画像中の位置に関する情報の特徴を含んだ特徴量を抽出して特徴ベクトル化が可能な言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
【解決手段】画像に関連するテキストから特徴を抽出する処理をコンピュータに実行させる言語特徴抽出モデルの生成方法であって、1つ以上のプロセッサを含むシステムが、第1の画像と、第1の画像中の関心領域に関する第1の位置情報と、関心領域を説明した第1のテキストと、を含む複数の訓練データを用いた機械学習を行い、言語特徴抽出モデルである第1のモデルに第1のテキストを入力して第1の特徴量を出力させ、第2のモデルに第1の画像と第1の特徴量とを入力して第2のモデルに関心領域を推定させ、第2のモデルから出力される推定関心領域と第1の位置情報が示す正解の関心領域とが一致するように、第1のモデル及び第2のモデルを訓練する。
【選択図】図2
【特許請求の範囲】
【請求項1】
画像に関連するテキストから特徴を抽出する処理をコンピュータに実行させる言語特徴抽出モデルの生成方法であって、
1つ以上のプロセッサを含むシステムが、
第1の画像と、前記第1の画像中の関心領域に関する第1の位置情報と、前記関心領域を説明した第1のテキストと、を含む複数の訓練データを用いた機械学習を行い、
第1のモデルに前記第1のテキストを入力して前記第1のモデルから前記第1のテキストの特徴を表す第1の特徴量を出力させ、
前記第1のモデルとは異なる第2のモデルに前記第1の画像と前記第1の特徴量とを入力して前記第2のモデルに前記第1の画像中の前記関心領域を推定させ、
前記第2のモデルから出力される推定関心領域と前記第1の位置情報が示す正解の前記関心領域とが一致するように、前記第1のモデル及び前記第2のモデルを訓練することにより、
前記言語特徴抽出モデルである前記第1のモデルを生成する、
言語特徴抽出モデルの生成方法。
【請求項2】
前記システムが、
前記画像から抽出される画像特徴量と前記テキストから抽出される言語特徴量との入力を受けて両者の関連度を出力する第3のモデルを用い、
前記機械学習において、前記第3のモデルに前記第1の画像から抽出される第2の特徴量と、前記第1の特徴量とを入力して前記第3のモデルに前記第1の画像と前記第1のテキストとの関連度を推定させ、
前記第3のモデルから出力される推定関連度が正解の関連度と一致するように、前記第1のモデル及び前記第3のモデルを訓練することを含む、
請求項1に記載の言語特徴抽出モデルの生成方法。
【請求項3】
前記システムが、
入力された前記第1の画像から前記第2の特徴量を抽出する第4のモデルを用い、
前記機械学習において、
前記第4のモデルに、前記第1の画像と前記位置情報とを入力して前記第4のモデルに前記第2の特徴量を出力させ、
前記第3のモデルから出力される前記推定関連度と前記正解の関連度とが一致するように、前記第1のモデル、前記第3のモデル及び前記第4のモデルを訓練することを含む、
請求項2に記載の言語特徴抽出モデルの生成方法。
【請求項4】
前記システムが、
複数の前記テキストのそれぞれから抽出される言語特徴量の入力を受けて、前記複数の前記テキストの関連度を出力する第5のモデルを用い、
前記機械学習において、
前記第1のテキストとは別の第2のテキストを前記第1のモデルに入力することにより前記第1のモデルによって前記第2のテキストから抽出された第3の特徴量と、前記第1の特徴量とを前記第5のモデルに入力して前記第5のモデルに前記第1のテキストと前記第2のテキストとの関連度を推定させ、
前記第5のモデルから出力される推定関連度と正解の関連度とが一致するように、前記第1のモデル及び前記第5のモデルを訓練することを含む、
請求項1に記載の言語特徴抽出モデルの生成方法。
【請求項5】
前記テキスト及び前記第1のテキストは、構造化されたテキストである、
請求項1から4のいずれか一項に記載の言語特徴抽出モデルの生成方法。
【請求項6】
前記第2のテキストは、構造化されたテキストである、
請求項4に記載の言語特徴抽出モデルの生成方法。
【請求項7】
前記システムが、
前記第2のモデルにより推定された関心領域を表示させる処理を行うことを含む、
請求項1に記載の言語特徴抽出モデルの生成方法。
【請求項8】
前記位置情報は、前記第1の画像中の前記関心領域の位置を特定する座標情報を含む、
請求項1に記載の言語特徴抽出モデルの生成方法。
【請求項9】
前記第1の画像は、前記位置情報を含んだクロップ画像である、
請求項1に記載の言語特徴抽出モデルの生成方法。
【請求項10】
請求項1に記載の言語特徴抽出モデルの生成方法によって生成された前記言語特徴抽出モデルを含むプログラムが記憶される1つ以上の記憶装置と、
前記プログラムを実行する1つ以上のプロセッサと、
を備える情報処理装置。
【請求項11】
1つ以上のプロセッサと、
前記1つ以上のプロセッサが実行する命令が記憶される1つ以上の記憶装置と、を備え、
前記1つ以上のプロセッサは、
画像中の関心領域を説明したテキストを取得し、
第1のモデルに前記テキストを入力して前記第1のモデルから前記テキストの特徴を表す言語特徴量を出力させる処理を実行し、
前記第1のモデルは、
訓練用の第1の画像と、前記第1の画像中の関心領域に関する第1の位置情報と、前記関心領域を説明した第1のテキストと、を含む複数の訓練データを用いた機械学習により、
前記第1のモデルに前記第1のテキストを入力して前記第1のモデルから前記第1のテキストの特徴を表す第1の特徴量を出力させ、前記第1のモデルとは異なる第2のモデルに前記第1の画像と前記第1の特徴量とを入力して前記第2のモデルに前記第1の画像中の関心領域を推定させ、
前記第2のモデルから出力される推定関心領域と、前記第1の位置情報が示す正解の前記関心領域とが一致するように前記第1のモデル及び前記第2のモデルを訓練することによって得られるモデルである、
情報処理装置。
【請求項12】
前記1つ以上のプロセッサは、
第2の画像から抽出される画像特徴量と前記テキストから抽出される言語特徴量とを第3のモデルに入力し、前記第3のモデルから前記第2の画像と前記テキストとの関連度を出力させる、
請求項10または11に記載の情報処理装置。
【請求項13】
前記1つ以上のプロセッサは、
前記第2の画像と前記第2の画像中の関心領域に関する第2の位置情報とを取得し、
第4のモデルに前記第2の画像と前記第2の位置情報とを入力することにより、前記第4のモデルから前記画像特徴量を出力させる、
請求項12に記載の情報処理装置。
【請求項14】
前記1つ以上のプロセッサは、
前記第1のモデルによって複数の前記テキストのそれぞれから抽出された言語特徴量を第5のモデルに入力し、前記第5のモデルから前記複数の前記テキストの関連度を出力させる、
請求項10又は11に記載の情報処理装置。
【請求項15】
前記テキスト及び前記第1のテキストは、構造化されたテキストである、
請求項10又は11に記載の情報処理装置。
【請求項16】
1つ以上のプロセッサが、
画像中の関心領域を説明したテキストを取得し、
第1のモデルに前記テキストを入力して前記第1のモデルから前記テキストの特徴を表す言語特徴量を出力させる処理を実行し、
前記第1のモデルは、
訓練用の第1の画像と、前記第1の画像中の関心領域を説明した第1のテキストと、前記第1の画像中の関心領域に関する第1の位置情報と、を含む訓練データを用いた機械学習により、
前記第1のモデルに前記第1のテキストを入力して前記第1のモデルから前記第1のテキストの特徴を表す第1の特徴量を出力させ、前記第1のモデルとは異なる第2のモデルに前記第1の画像と前記第1の特徴量とを入力して前記第2のモデルに前記第1の画像中の関心領域を推定させ、
前記第2のモデルによって推定される関心領域と、前記第1の位置情報が示す関心領域とが一致するように前記第1のモデル及び前記第2のモデルを訓練することによって得られるモデルである、
情報処理方法。
【請求項17】
画像に関連するテキストから特徴を抽出する機能をコンピュータに実現させるプログラムであって、
前記コンピュータに、
画像中の関心領域を説明したテキストを取得する機能と、
第1のモデルに前記テキストを入力して前記第1のモデルから前記テキストの特徴を表す言語特徴量を出力させる機能と、を実現させ、
前記第1のモデルは、
訓練用の第1の画像と、前記第1の画像中の関心領域に関する第1の位置情報と、前記第1の画像中の関心領域を説明した第1のテキストと、を含む訓練データを用いた機械学習により、
前記第1のモデルに前記第1のテキストを入力して前記第1のモデルから前記第1のテキストの特徴を表す第1の特徴量を出力させ、前記第1のモデルとは異なる第2のモデルに前記第1の画像と前記第1の特徴量とを入力して前記第2のモデルに前記第1の画像中の関心領域を推定させ、
前記第2のモデルから出力される推定関心領域と、前記第1の位置情報が示す関心領域とが一致するように前記第1のモデル及び前記第2のモデルを訓練することによって得られるモデルである、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラムに係り、特に画像に関連するテキストを扱う自然言語処理技術及び機械学習技術に関する。
【背景技術】
【0002】
近年、言語情報としてのテキストを入力とする各種の人工知能(Artificial Intelligence:AI)の研究及び開発が盛んに行われており、製品化も進んでいる。例えば、チャットボットあるいは文章自動要約AIなどはその代表的な例である。テキストの入力に対して所望の出力を得る一般的なAIの場合、入力に用いるテキストと、そのテキストが入力されたときに出力されてほしい正解の情報とのペア(データ組)を複数組用意し、これら複数のペアを含むデータセットを用いてAIのモデルを学習させればよい。
【0003】
非特許文献1には、画像とテキストの両方からそれぞれ特徴量を抽出し、画像とテキストとの関係性を推定する方法が開示されている。
【0004】
また、特許文献1には、スライド資料からページごと画像とテキストデータを抽出し、抽出した画像のデータ量に基づいて算出されるページごとの画像特徴量と、抽出したテキストデータに含まれる単語の出現頻度に基づいて算出されるそのページのテキスト特徴量とに基づきページごとのスコア値を算出し、スライド資料の中から選択したページのスコア値の合計が最大となるようにページを選択するスライド要約装置が開示されている。
【0005】
特許文献2には、画像の外観を示す外観情報を取得する外観情報取得部と、画像における外観情報及び外観特徴抽出モデルを用いて画像の外観の特徴を示す外観特徴量を抽出する外観特徴抽出部と、画像の分類を示す分類情報を取得する分類情報取得部と、画像における分類情報及び分類テキスト特徴抽出モデルを用いて画像の分類を示す文言の特徴を示す分類テキスト特徴量を抽出する分類テキスト特徴抽出部と、画像における外観特徴量、分類テキスト特徴量及びマルチモーダルモデルを用いて、画像における画像全体の特徴である全体特徴量を抽出する全体特徴抽出部と、を備える類似画像検索システムが開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2017-049975号公報
【特許文献2】特開2021-157570号公報
【非特許文献】
【0007】
【非特許文献1】Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He,“Stacked Cross Attention forImage-Text Matching” <https://openaccess.thecvf.com/content_ECCV_2018/papers/Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.pdf>,<https://arxiv.org/pdf/1803.08024>
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、非特許文献1に記載の方法は、モデルの学習を行うために対象領域を含む画像と、対応するテキストとのペアが大量に必要である。また、近年は、一般的なAIの開発要望とは別に、テキストのデータ(言語情報)の特徴量を抽出して特徴ベクトル化する要望も増えてきている。テキストの特徴ベクトルは、テキストの特徴を示す数値ベクトルである。テキストを特徴ベクトル化することによって、例えば、画像とその画像に関するテキストから、テキストが指し示す画像中の対象物を特定するAIを作成したり、あるテキストと類似する内容が記述されたテキストを検索したり等、様々な用途に利用することができる。
【0009】
例えば、医療画像診断においては、CT(Computed Tomography)装置等を用いて撮影された画像を読影して医師が作成した所見文を含む読影レポート(テキストデータ)が過去データとして多数蓄積されており、それらのデータを活用して、医師の診断業務を補助・効率化する試みが多くなされている。このような読影レポートに含まれる所見文などのテキストを適切に特徴ベクトル化できれば、過去の類似レポート検索、あるいは類似するレポートのグループ化等、様々な用途に用いることが可能である。
【0010】
これは、いわばAIの役割分担であり、言語情報から特徴ベクトルを生成する特徴抽出AIと、言語特徴ベクトルの入力を受けて目的とする判別、分類、あるいは推定(予測)等の処理を行う用途別のAIとの組み合わせによって、目的のタスクを実現するAIシステムである。かかる役割分担型のAIシステムを実現するためには、様々な用途の処理に利用できる有用な特徴ベクトルを生成する汎用的な特徴抽出AIを実現することが望まれる。
【0011】
しかしながら、特徴抽出AIと、その抽出した特徴ベクトルを利用して目的の処理を行う用途別のAIとを組み合わせた構成を考えた場合、機械学習によって実現される特徴抽出AIが妥当な特徴ベクトルを算出できるか否かは、AI開発者にとってはブラックボックスであり、コントロールが難しい。機械学習によって出来上がるモデルは、学習(訓練)に用いるデータセットに依存する。通常、モデルの汎用性を高めるためには、現実に入力としてあり得るデータを網羅的に学習データとして大量に用意する必要がある。
【0012】
つまり、最終目的のタスクに即した精度の良い結果を出すことが可能になる妥当な言語特徴ベクトルを出力し得る言語特徴抽出AIを生成するためには、一般的に、テキストと、そのテキストに対応する正解データ(ここでは、正解特徴ベクトル)とのペアが多数必要となる。言語特徴抽出AIがテキストを特徴ベクトル化する仕組みはいわゆる「ブラックボックス」であり、どのような基準に基づいてどのような特徴ベクトルが算出されるのか説明不能であるため、妥当なAIとなるために多数の学習データが必要となる。
【0013】
その一方で、あるテキストの特徴を示す正解特徴ベクトルは、人間が正解データとして用意することは困難である。
【0014】
本開示はこのような事情に鑑みてなされたものであり、画像に関するテキストから画像中の位置に関する情報の特徴を含んだ特徴量を抽出して特徴ベクトル化が可能な言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
本開示の第1態様に係る言語特徴抽出モデルの生成方法は、画像に関連するテキストから特徴を抽出する処理をコンピュータに実行させる言語特徴抽出モデルの生成方法であって、1つ以上のプロセッサを含むシステムが、第1の画像と、第1の画像中の関心領域に関する第1の位置情報と、関心領域を説明した第1のテキストと、を含む複数の訓練データを用いた機械学習を行い、第1のモデルに第1のテキストを入力して第1のモデルから第1のテキストの特徴を表す第1の特徴量を出力させ、第1のモデルとは異なる第2のモデルに第1の画像と第1の特徴量とを入力して第2のモデルに第1の画像中の関心領域を推定させ、第2のモデルから出力される推定関心領域と第1の位置情報が示す正解の関心領域とが一致するように、第1のモデル及び第2のモデルを訓練することにより、言語特徴抽出モデルである第1のモデルを生成する。
【0016】
第1態様によれば、第1のモデルは、入力されたテキストからそのテキストが言及している画像中の関心領域の位置に関する情報の特徴を含んだ特徴量を出力するように訓練される。すなわち、第1態様によって生成される言語特徴抽出モデルは、入力されたテキストから画像中の関心領域の位置に関する特徴が埋め込まれた特徴量を出力することができる。言語特徴抽出モデルによって生成される特徴量は、例えば、画像中の関心領域と関連するテキストを特定したり、類似するテキストを抽出したりする処理において、有用なデータとなり得る。
【0017】
第1態様によれば、第1のモデル及び第2のモデルを訓練する際に、第1のモデルの出力に対する正解データとなる正解特徴量を用意する必要がなく、第1のモデルにテキストと、そのテキストで言及している画像中の関心領域の位置との関係性を学習させることが可能である。第1態様によれば、学習データが比較的少ない場合であっても、入力されたテキストから画像中の関心領域の位置の特徴を含んだ特徴量を出力し得る高性能な言語特徴抽出モデルを生成することができる。なお、「モデル」は実体的にはプログラムである。言語特徴抽出モデルの生成方法は、言語特徴抽出モデルを生産する方法と理解される。
【0018】
第2態様に係る言語特徴抽出モデルの生成方法は、第1態様に係る言語特徴抽出モデルの生成方法において、システムが、画像から抽出される画像特徴量とテキストから抽出される言語特徴量との入力を受けて両者の関連度を出力する第3のモデルを用い、機械学習において、第3のモデルに第1の画像から抽出される第2の特徴量と、第1の特徴量とを入力して第3のモデルに第1の画像と第1のテキストとの関連度を推定させ、第3のモデルから出力される推定関連度が正解の関連度と一致するように、第1のモデル及び第3のモデルを訓練することを含む構成であってもよい。
【0019】
第3態様に係る言語特徴抽出モデルの生成方法は、第2態様に係る言語特徴抽出モデルの生成方法において、システムが、入力された第1の画像から第2の特徴量を抽出する第4のモデルを用い、機械学習において、第4のモデルに、第1の画像と位置情報とを入力して第4のモデルに第2の特徴量を出力させ、第3のモデルから出力される推定関連度と正解の関連度とが一致するように、第1のモデル、第3のモデル及び第4のモデルを訓練することを含む構成であってもよい。
【0020】
第4態様に係る言語特徴抽出モデルの生成方法は、第1態様に係る言語特徴抽出モデルの生成方法において、システムが、複数のテキストのそれぞれから抽出される言語特徴量の入力を受けて、複数のテキストの関連度を出力する第5のモデルを用い、機械学習において、第1のテキストとは別の第2のテキストを第1のモデルに入力することにより第1のモデルによって第2のテキストから抽出された第3の特徴量と、第1の特徴量とを第5のモデルに入力して第5のモデルに第1のテキストと第2のテキストとの関連度を推定させ、第5のモデルから出力される推定関連度と正解の関連度とが一致するように、第1のモデル及び第5のモデルを訓練することを含む構成であってもよい。
【0021】
第5態様に係る言語特徴抽出モデルの生成方法は、第1態様から第4態様のいずれか一態様に係る言語特徴抽出モデルの生成方法において、テキスト及び第1のテキストは、構造化されたテキストであってもよい。
【0022】
第6態様に係る言語特徴抽出モデルの生成方法は、第4態様に係る言語特徴抽出モデルの生成方法において、第2のテキストは、構造化されたテキストであってもよい。
【0023】
第7態様に係る言語特徴抽出モデルの生成方法は、第1態様から第6態様のいずれか一態様に係る言語特徴抽出モデルの生成方法において、システムが、第2のモデルにより推定された関心領域を表示させる処理を行うことを含む構成であってもよい。
【0024】
第8態様に係る言語特徴抽出モデルの生成方法は、第1態様から第7態様のいずれか一態様に係る言語特徴抽出モデルの生成方法において、位置情報は、第1の画像中の関心領域の位置を特定する座標情報を含む構成であってもよい。
【0025】
第9態様に係る言語特徴抽出モデルの生成方法は、第1態様から第8態様のいずれか一態様に係る言語特徴抽出モデルの生成方法において、第1の画像は、位置情報を含んだクロップ画像であってもよい。
【0026】
第10態様に係る情報処理装置は、第1態様から第9態様のいずれか一態様に係る言語特徴抽出モデルの生成方法によって生成された言語特徴抽出モデルを含むプログラムが記憶される1つ以上の記憶装置と、プログラムを実行する1つ以上のプロセッサと、を備える。
【0027】
第11態様に係る情報処理装置は、1つ以上のプロセッサと、1つ以上のプロセッサが実行する命令が記憶される1つ以上の記憶装置と、を備え、1つ以上のプロセッサは、画像中の関心領域を説明したテキストを取得し、第1のモデルにテキストを入力して第1のモデルからテキストの特徴を表す言語特徴量を出力させる処理を実行し、第1のモデルは、訓練用の第1の画像と、第1の画像中の関心領域に関する第1の位置情報と、関心領域を説明した第1のテキストと、を含む複数の訓練データを用いた機械学習により、第1のモデルに第1のテキストを入力して第1のモデルから第1のテキストの特徴を表す第1の特徴量を出力させ、第1のモデルとは異なる第2のモデルに第1の画像と第1の特徴量とを入力して第2のモデルに第1の画像中の関心領域を推定させ、第2のモデルから出力される推定関心領域と、第1の位置情報が示す正解の関心領域とが一致するように第1のモデル及び第2のモデルを訓練することによって得られるモデルである。
【0028】
第12態様に係る情報処理装置は、第10態様又は第11態様に記載の情報処理装置において、1つ以上のプロセッサは、第2の画像から抽出される画像特徴量とテキストから抽出される言語特徴量とを第3のモデルに入力し、第3のモデルから第2の画像とテキストとの関連度を出力させる構成であってもよい。
【0029】
第13態様に係る情報処理装置は、第12態様に係る情報処理装置において、1つ以上のプロセッサは、第2の画像と第2の画像中の関心領域に関する第2の位置情報とを取得し、第4のモデルに第2の画像と第2の位置情報とを入力することにより、第4のモデルから画像特徴量を出力させる構成であってもよい。
【0030】
第14態様に係る情報処理装置は、第10態様又は第11態様に係る情報処理装置において、1つ以上のプロセッサは、第1のモデルによって複数のテキストのそれぞれから抽出された言語特徴量を第5のモデルに入力し、第5のモデルから複数のテキストの関連度を出力させる構成であってもよい。
【0031】
第15態様に係る情報処理装置は、第10態様から第14態様のいずれか一態様に係る情報処理装置において、テキスト及び第1のテキストは、構造化されたテキストであってもよい。
【0032】
第16態様に係る情報処理方法は、1つ以上のプロセッサが、画像中の関心領域を説明したテキストを取得し、第1のモデルにテキストを入力して第1のモデルからテキストの特徴を表す言語特徴量を出力させる処理を実行し、第1のモデルは、訓練用の第1の画像と、第1の画像中の関心領域を説明した第1のテキストと、第1の画像中の関心領域に関する第1の位置情報と、を含む訓練データを用いた機械学習により、第1のモデルに第1のテキストを入力して第1のモデルから第1のテキストの特徴を表す第1の特徴量を出力させ、第1のモデルとは異なる第2のモデルに第1の画像と第1の特徴量とを入力して第2のモデルに第1の画像中の関心領域を推定させ、第2のモデルによって推定される関心領域と、第1の位置情報が示す関心領域とが一致するように第1のモデル及び第2のモデルを訓練することによって得られるモデルである。
【0033】
第16態様に係る情報処理方法について、第2態様から第15態様のいずれか一態様の情報処理装置と同様の具体的態様を含む構成とすることができる。
【0034】
第17態様に係るプログラムは、画像に関連するテキストから特徴を抽出する機能をコンピュータに実現させるプログラムであって、コンピュータに、画像中の関心領域を説明したテキストを取得する機能と、第1のモデルにテキストを入力して第1のモデルからテキストの特徴を表す言語特徴量を出力させる機能と、を実現させ、第1のモデルは、訓練用の第1の画像と、第1の画像中の関心領域に関する第1の位置情報と、第1の画像中の関心領域を説明した第1のテキストと、を含む訓練データを用いた機械学習により、第1のモデルに第1のテキストを入力して第1のモデルから第1のテキストの特徴を表す第1の特徴量を出力させ、第1のモデルとは異なる第2のモデルに第1の画像と第1の特徴量とを入力して第2のモデルに第1の画像中の関心領域を推定させ、第2のモデルから出力される推定関心領域と、第1の位置情報が示す関心領域とが一致するように第1のモデル及び第2のモデルを訓練することによって得られるモデルである。
【0035】
第17態様に係るプログラムについて、第2態様から第15態様のいずれか一態様の情報処理装置と同様の具体的態様を含む構成とすることができる。
【発明の効果】
【0036】
本開示によれば、画像に関連するテキストから、画像中の関心領域の位置に関する特徴を含んだ特徴量を抽出し得る言語特徴抽出モデルを生成することができる。本開示の言語特徴抽出モデルの生成方法は、機械学習において正解データとしての特徴量を与える必要がなく、比較的少ない学習データであってもテキストと画像中の関心領域の位置との関係性を学習させることが可能であり、入力されたテキストから有用な特徴量を抽出し得る言語特徴抽出モデルを生成することができる。
【0037】
本開示の方法によって生成された言語特徴抽出モデルを用いることにより、画像中の位置情報が加味された特徴量を提供することが可能になる。本開示の言語特徴抽出モデルによって生成される特徴量は、画像とテキストと対応関係の推定や、テキスト同士の関連性の判別など、様々な用途の処理に利用することができる。
【図面の簡単な説明】
【0038】
図1図1は、本開示の実施形態に係る言語特徴抽出モデルの生成方法に用いられる学習(訓練)用のデータの例を示す説明図である。
図2図2は、第1実施形態に係る機械学習装置の機能的構成を概略的に示すブロック図である。
図3図3は、第1実施形態に係る機械学習装置のハードウェア構成の例を示すブロック図である。
図4図4は、第1実施形態に係る機械学習装置が実行する機械学習方法の例を示すフローチャートである。
図5図5は、学習済みの言語特徴抽出モデルを用いた機械学習装置の機能的構成を概略的に示すブロック図である。
図6図6は、第2実施形態に係る機械学習装置が実行する機械学習方法の例を示すフローチャートである。
図7図7は、第3実施形態に係る機械学習装置の機能的構成を概略的に示すブロック図である。
図8図8は、第3実施形態に係る機械学習装置のハードウェア構成の例を示すブロック図である。
図9図9は、第3実施形態に係る機械学習装置が実行する機械学習方法の例を示すフローチャートである。
図10図10は、第4実施形態に係る機械学習装置の機能的構成の一部を示すブロック図である。
図11図11は、第4実施形態に係る機械学習装置が実行する機械学習方法の例を示すフローチャートである。
図12図12は、第5実施形態に係る情報処理装置の機能的構成を概略的に示すブロック図である。
図13図13は、第5実施形態に係る情報処理装置のハードウェア構成の例を概略的に示すブロック図である。
図14図14は、第6実施形態に係る情報処理装置の機能的構成を概略的に示すブロック図である。
図15図15は、第7実施形態に係る機械学習装置の機能的構成を概略的に示すブロック図である。
図16図16は、第7実施形態に係る機械学習装置のハードウェア構成の例を概略的に示すブロック図である。
図17図17は、第7実施形態に係る機械学習装置が実行する機械学習方法のフローチャートである。
図18図18は、第8実施形態に係る情報処理装置の機能的構成を概略的に示すブロック図である。
図19図19は、第8実施形態に係る情報処理装置のハードウェア構成の例を示すブロック図である。
図20図20は、第9実施形態に係る情報処理装置の機能的構成を概略的に示すブロック図である。
【発明を実施するための形態】
【0039】
以下、添付図面に従って本発明の好ましい実施形態について説明する。
【0040】
《機械学習に用いるデータの例》
図1は、本開示の実施形態に係る言語特徴抽出モデルの生成方法に用いられる学習(訓練)用のデータの例を示す説明図である。ここでは、医療画像診断に用いられる画像IMjと、画像IMj内の関心領域ROIjに関する位置情報TPjと、関心領域ROIjについて記述された所見文TXjとを含む訓練データTDjの例を説明する。なお「訓練データ」は「学習データ」と同義である。画像IMj、関心領域ROIjに関する位置情報TPj及び所見文TXjは互いに関連付け(紐付け)されている。添字のjは、関連付けされたデータ組の識別符号としてのインデックス番号を表す。医療画像診断における関心領域ROIjとは主に病変領域である。
【0041】
画像IMjは、例えば、CT装置を用いて撮影されたCT画像であってよい。図1では、被検者の肺を含む胸部領域を撮影して得られたCT画像を例示しているが、撮影対象の部位は肺に限らず、心臓、肝臓、腎臓、脳など他の臓器を含む部位であってもよい。また、被検者を撮影して医療画像を生成する撮影装置は、CT装置に限らず、MRI装置、PET装置、内視鏡装置など、他の種類のモダリティであってもよい。画像IMjは、2次元スライス断層画像を連続的に撮影して得られた3次元データから構成された3次元画像であってもよいし、2次元画像であってもよい。また、「画像」という用語は、画像データの意味を含む。
【0042】
関心領域ROIjに関する位置情報TPjとは、画像IMj中におけるROIjの位置を特定し得る情報である。位置情報TPjは、画像IMj中の座標を示す座標情報であってもよいし、画像IMj中の領域又は範囲を示す情報であってもよく、これらの組み合わせであってもよい。位置情報TPjは、画像IMjに対するアノテーション情報として付与された情報であってもよいし、DICOM(Digital Imaging and Communications in Medicine)タグのような画像IMjに付属するメタ情報であってもよい。
【0043】
例えば、位置情報TPjは、ROIjの範囲を囲む矩形の四隅の座標情報、ROIjの重心点の座標情報、若しくはROIjの領域を画素単位で特定したセグメンテーションマスク画像などであってもよい。あるいはまた、画像IMj自体が関心領域ROIjを切り出したクロップ画像である場合、クロップ画像として切り出された画像領域を特定可能であればクロップ画像そのものが位置情報TPjを内包しており、位置情報TPjを備えた画像IMjであると理解される。
【0044】
画像IMjは本開示における「第1の画像」の一例であり、位置情報TPjは本開示における「第1の位置情報」の一例である。
【0045】
所見文TXjは、例えば、読影レポートに記載された文章であってよい。所見文TXjは本開示における「第1のテキスト」の一例である。ここでは、所見文TXjとして、構造化される前の自由記述型の文章形式による非構造化データであるテキストを例示するが、文章の構造解析によって構造化された構造化データを用いることも可能である。
【0046】
このような訓練データTDjは、病院などの医療機関における過去の検査事例に係る医療画像及び読影レポートのデータが関連付けされて蓄積保存されるデータベースから適当なデータをサンプリングして生成することができる。
【0047】
《第1実施形態:言語特徴抽出モデルを生成する方法の例1》
〔機械学習装置の構成例〕
図2は、第1実施形態に係る機械学習装置10の機能的構成を概略的に示すブロック図である。機械学習装置10は、第1の学習モデルである言語特徴抽出モデル12と、第2の学習モデルである領域推定モデル14と、損失演算部16と、パラメータ更新部18とを含む。機械学習装置10の各部の機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。機械学習装置10は、1台又は複数台のコンピュータを含むコンピュータシステムによって構成されてもよい。機械学習装置10は本開示における「システム」の一例である。
【0048】
言語特徴抽出モデル12には、例えば、BERT(Bidirectional Encoder Representations from Transformers)と呼ばれる自然言語処理モデルが適用される。言語特徴抽出モデル12は、テキストである所見文TXjの入力を受け付け、入力された所見文TXjに対応する特徴量を抽出して言語特徴ベクトル(所見特徴ベクトル)である所見特徴LFVjを出力する。言語特徴抽出モデル12は本開示における「第1のモデル」の一例である。所見特徴LFVjは本開示における「第1の特徴量」の一例である。
【0049】
領域推定モデル14には、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が適用される。領域推定モデル14は、画像IMjと、言語特徴ベクトルLFVjとの入力を受け付け、入力された所見文TXjで言及している画像IMj内の病変領域を推定し、推定した病変領域の位置を示す推定領域情報PAjを出力する。推定領域情報PAjは、例えば、推定した病変領域の範囲を囲む矩形(バウンディングボックス)の位置を特定する座標情報であってもよいし、推定した病変領域を画素単位で特定するセグメンテーションマスク画像などであってもよい。領域推定モデル14は本開示における「第2のモデル」の一例である。領域推定モデル14から出力された推定領域情報PAjよって示される病変領域は本開示における「推定関心領域」の一例である。
【0050】
損失演算部16は、領域推定モデル14から出力された推定領域情報PAjに示される推定病変領域と、画像IMjに紐付けされている正解の位置情報TPjが示す正解の関心領域ROIjとの誤差を示す損失(ロス)を算出する。
【0051】
パラメータ更新部18は、損失演算部16によって算出された損失に基づいて、損失が小さくなるように、領域推定モデル14及び言語特徴抽出モデル12の各モデルのパラメータの更新量を算出し、算出した更新量にしたがい各モデルのパラメータを更新する。各モデルのパラメータは、ニューラルネットワークの各層の処理に用いるフィルタのフィルタ係数(ノード間の結合の重み)及びノードのバイアスなどを含む。パラメータ更新部18は、例えば確率的勾配降下法(Stochastic Gradient Descent:SGD)などの手法により、各モデルのパラメータの最適化を行う。
【0052】
図3は、機械学習装置10のハードウェア構成の例を示すブロック図である。機械学習装置10は、プロセッサ102と、非一時的な有体物であるコンピュータ可読媒体104と、通信インターフェース106と、入出力インターフェース108と、バス110とを備える。プロセッサ102は、バス110を介してコンピュータ可読媒体104、通信インターフェース106及び入出力インターフェース108と接続される。
【0053】
機械学習装置10の形態は、特に限定されず、サーバであってもよいし、ワークステーションやパーソナルコンピュータなどであってもよい。
【0054】
プロセッサ102はCPU(Central Processing Unit)を含む。プロセッサ102はGPU(Graphics Processing Unit)を含んでもよい。コンピュータ可読媒体104は、主記憶装置であるメモリ112及び補助記憶装置であるストレージ114を含む。コンピュータ可読媒体104は、例えば、半導体メモリ、ハードディスク(Hard Disk Drive:HDD)装置、もしくはソリッドステートドライブ(Solid State Drive:SSD)装置又はこれらの複数の組み合わせであってよい。コンピュータ可読媒体104は本開示における「記憶装置」の一例である。
【0055】
機械学習装置10は、さらに、入力装置152と、表示装置154とを備えていてもよい。入力装置152は、例えば、キーボード、マウス、マルチタッチパネル、もしくはその他のポインティングデバイス、もしくは、音声入力装置、又はこれらの適宜の組み合わせによって構成される。表示装置154は、例えば、液晶ディスプレイ、有機EL(organic electro-luminescence:OEL)ディスプレイ、もしくは、プロジェクタ、又はこれらの適宜の組み合わせによって構成される。入力装置152と表示装置154とは、入出力インターフェース108を介してプロセッサ102と接続される。
【0056】
機械学習装置10は、通信インターフェース106を介して不図示の電気通信回線に接続され得る。電気通信回線は、広域通信回線であってもよいし、構内通信回線であってもよく、これらの組み合わせであってもよい。
【0057】
機械学習装置10は、通信インターフェース106を介して訓練データ保存部600などの外部装置と通信可能に接続される。訓練データ保存部600は、複数の訓練データTDjを含む訓練データセットが保存されているストレージを含む。なお、訓練データ保存部600は、機械学習装置10内のストレージ114に構築されてもよい。
【0058】
コンピュータ可読媒体104には、学習処理プログラム130及び表示制御プログラム140を含む複数のプログラム及びデータ等が記憶される。「プログラム」という用語はプログラムモジュールの概念を含む。プロセッサ102は、コンピュータ可読媒体104に記憶されたプログラムの命令を実行することにより、各種の処理部として機能する。
【0059】
学習処理プログラム130は、訓練データTDjを取得して言語特徴抽出モデル12及び領域推定モデル14の学習処理を実行させる命令を含む。すなわち、学習処理プログラム130は、データ取得プログラム132、言語特徴抽出モデル12、領域推定モデル14、損失算出プログラム136及びオプティマイザ138を含む。データ取得プログラム132は、訓練データ保存部600から訓練データTDjを取得する処理を実行させる命令を含む。
【0060】
損失算出プログラム136は、領域推定モデル14から出力された病変領域の位置を示す情報が示す推定領域情報と、言語特徴抽出モデル12に入力した所見文TXjに対応する正解の位置情報TPjとの誤差を示す損失を算出する処理を実行させる命令を含む。オプティマイザ138は、算出された損失から領域推定モデル14及び言語特徴抽出モデル12の各モデルのパラメータの更新量を算出し、各モデルのパラメータを更新する処理を実行させる命令を含む。
【0061】
表示制御プログラム140は、表示装置154への表示出力に必要な表示用信号を生成し、表示装置154の表示制御を実行させる命令を含む。
【0062】
〔機械学習方法の概要〕
図4は、第1実施形態に係る機械学習装置10が実行する機械学習方法の例を示すフローチャートである。
図4のフローチャートを実行する前に、訓練用の画像IMjと、画像IMj中のある関心領域ROIjを説明したテキストである所見文TXjと、関心領域ROIjに関する位置情報TPjとが紐付けされたデータの組である訓練データTDjを複数組用意して、訓練用のデータセットを準備しておく。
【0063】
ステップS100において、プロセッサ102は、訓練用のデータセットから画像IMjと、画像IMj中の関心領域ROIjに関する位置情報TPjと、関心領域ROIjを説明した所見文TXjとを含むデータ組を取得する。
【0064】
ステップS110において、プロセッサ102は、所見文TXjを言語特徴抽出モデル12に入力し、言語特徴抽出モデル12に所見文TXjの特徴量を示す所見特徴LFVjを抽出させ、言語特徴抽出モデル12から所見特徴LFVjの出力を得る。所見特徴LFVjは、所見文TXjを特徴ベクトル化して得られる言語特徴ベクトルで表現される。
【0065】
ステップS120において、プロセッサ102は、言語特徴抽出モデル12が出力した所見特徴LFVjと、所見文TXjに紐付けされた画像IMjとを領域推定モデル14に入力し、所見文TXjで言及している画像IMj中の関心領域(病変領域)を領域推定モデル14に推定させる。領域推定モデル14は、入力された所見特徴LFVjと画像IMjとから推定した推定領域情報PAjを出力する。
【0066】
ステップS130において、プロセッサ102は、領域推定モデル14によって推定された病変領域の推定領域情報PAjと正解の関心領域ROIjの位置情報TPjとの誤差を示す損失を算出する。
【0067】
ステップS140において、プロセッサ102は、損失を最小化するように、言語特徴抽出モデル12及び領域推定モデル14の各モデルのパラメータ更新量を算出する。
【0068】
そして、ステップS150において、プロセッサ102は、算出したパラメータ更新量に従い、言語特徴抽出モデル12及び領域推定モデル14の各モデルのパラメータを更新する。なお、損失を最小化するように各モデルを訓練することは、領域推定モデル14によって推定される推定病変領域が正解の関心領域ROIjと一致するように(両者の誤差が小さくなるように)各モデルを訓練することを意味している。上述したステップS100からステップS150の動作はミニバッチの単位で実施されてもよい。
【0069】
ステップS150の後、ステップS160において、プロセッサ102は、学習を終了するか否かを判定する。学習の終了条件は、損失の値に基づいて定められていてもよいし、パラメータの更新回数に基づいて定められていてもよい。損失の値に基づく方法としては、例えば、損失が規定の範囲内に収束していることを学習終了条件としてよい。また、更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。あるいは、訓練データとは別にモデルの性能評価用のデータセットを用意しておき、評価用のデータを用いた評価値に基づいて学習終了の可否を判定してもよい。
【0070】
ステップS160の判定結果がNo判定である場合、プロセッサ102はステップS100に戻り、学習処理を継続する。一方、ステップS160の判定結果がYes判定である場合、プロセッサ102は図4のフローチャートを終了する。
【0071】
こうして、生成された学習済み(訓練済み)の言語特徴抽出モデル12は、所見文の入力を受けて、その所見文が言及している画像中の病変領域(関心領域)に関する位置の情報が埋め込まれた所見特徴(特徴ベクトル)を出力し得るモデルとなる。つまり、言語特徴抽出モデル12が出力する所見特徴には、画像中の病変領域に関する位置を特定するために必要な情報が埋め込まれる。機械学習装置10が実行する機械学習方法は、所見文に記述された画像中の病変領域の位置を特定する情報を含んだ言語特徴ベクトルを出力する言語特徴抽出モデル12を生成する方法と理解することができ、本開示における「言語特徴抽出モデルの生成方法」の一例である。
【0072】
《第2実施形態:言語特徴抽出モデルの活用例1》
図5は、学習済みの言語特徴抽出モデル12Eを用いた機械学習装置20の機能的構成を概略的に示すブロック図である。図5に示す機械学習装置20は、画像中の関心領域に関する位置情報を備えた画像と、関心領域について説明した所見文との対応関係を判別するクロスモーダル特徴統合モデル24を生成するための学習処理を実行する。
【0073】
機械学習装置20は、言語特徴抽出モデル12Eと、画像特徴抽出モデル22と、クロスモーダル特徴統合モデル24と、損失演算部26と、パラメータ更新部28とを含む。
【0074】
訓練用のデータセットは、第1実施形態で用いたデータセットと同様であってよい。画像特徴抽出モデル22には、例えば、CNNが適用される。画像特徴抽出モデル22は、画像IMjと画像内の関心領域ROIjに関する位置情報TPjとの入力を受け付け、画像IMjの特徴量を示す画像特徴IFVjを出力する。画像特徴IFVjは、画像IMjを特徴ベクトル化して得られる画像特徴ベクトルで表現されてもよい。画像特徴IFVjは、複数チャンネルの特徴マップであってもよい。
【0075】
言語特徴抽出モデル12Eは、所見文TXiの入力を受けて、対応する所見特徴LFViを出力するように訓練された学習済みモデルである。言語特徴抽出モデル12Eに入力される所見文TXiは、画像IMjに紐付けされている所見文TXj(i=j)である場合に限らず、画像IMjに紐付けされていない所見文(i≠j)である場合もあり得る。
【0076】
クロスモーダル特徴統合モデル24は、画像特徴IFVjと所見特徴LFVjとの入力を受け付け、両者の関連性を示す関連度スコアを出力する。関連度スコアは、関連性の程度を示す数値であってよく、例えば、関連性がない場合を「0」、関連性がある場合を「1」として0から1の範囲の数値により関連性の確信度を示してもよい。
【0077】
損失演算部26は、クロスモーダル特徴統合モデル24から出力された関連度スコアと、正解の関連度スコアとの誤差を示す損失を算出する。画像特徴抽出モデル22と言語特徴抽出モデル12Eとに対して画像IMjとこれに紐付けされた所見文TXi(i=j)との組み合わせが入力される場合、正解関連度スコアは「1」と定められてよい。一方、画像特徴抽出モデル22と言語特徴抽出モデル12Eとに対して画像IMjと紐付けされていない無関係な所見文TXi(i≠j)との組み合わせが入力される場合、正解関連度スコアは「0」と定められてよい。
【0078】
パラメータ更新部28は、損失演算部26にて算出される損失が最小化するように、クロスモーダル特徴統合モデル24と画像特徴抽出モデル22との各モデルのパラメータの更新量を算出し、算出した更新量に従い各モデルのパラメータを更新する。
【0079】
機械学習装置20のハードウェア構成は、図3に示した例と同様であってよく、図3の領域推定モデル14の代わりに、クロスモーダル特徴統合モデル24を含み、損失算出プログラム136が算出する損失の損失関数と、オプティマイザ138によりパラメータの更新する対象のモデルが図3の例と異なる。
【0080】
〔機械学習方法の概要〕
図6は、第2実施形態に係る機械学習装置20が実行する機械学習方法の例を示すフローチャートである。 ステップS101において、プロセッサ102は、訓練用のデータセットから画像IMjと、画像IMj中の関心領域ROIjに関する位置情報TPjと、関心領域ROIiについて説明した(記述された)所見文TXiとのデータ組を取得する。このとき取得されたデータ組においてi=jである場合、プロセッサ102は、正解関連度スコアとして「1」を取得し、i≠jである場合、正解関連度スコアとして「0」を取得する。
【0081】
ステップS111において、プロセッサ102は、所見文TXiを言語特徴抽出モデル12Eに入力し、言語特徴抽出モデル12Eに所見特徴LFViを抽出させる。
【0082】
ステップS112において、プロセッサ102は、画像IMjと、画像IMj中の関心領域ROIjに関する位置情報TPjとを画像特徴抽出モデル22に入力し、画像特徴抽出モデル22に画像特徴IFVjを抽出させる。
【0083】
ステップS114において、プロセッサ102は、画像特徴抽出モデル22から出力された画像特徴IFVjと、言語特徴抽出モデル12Eから出力された所見特徴LFViとをクロスモーダル特徴統合モデル24に入力し、クロスモーダル特徴統合モデル24に関連度スコアを推定させる。画像特徴抽出モデル22に画像特徴IFVjを抽出させる。
【0084】
その後、ステップS128において、プロセッサ102は、クロスモーダル特徴統合モデル24から出力された関連度スコア(推定値)と、正解関連度スコアとの誤差を示す損失を算出する。
【0085】
そして、ステップS142において、プロセッサ102は、算出された損失が最小化するように、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24の各モデルのパラメータ更新量を算出する。
【0086】
ステップS152において、プロセッサ102は、算出されたパラメータ更新量に従い、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24の各モデルのパラメータを更新する。
【0087】
図6に示すステップS101~ステップS152の動作は、ミニバッチの単位で実施されてもよい。
【0088】
ステップS152の後、ステップS160において、プロセッサ102は、学習を終了するか否かを判定する。
【0089】
ステップS160の判定結果がNo判定である場合、プロセッサ102はステップS101に戻り、学習処理を継続する。一方、ステップS160の判定結果がYes判定である場合、プロセッサ102は図6のフローチャートを終了する。
【0090】
このように各モデルを学習させることにより、入力された画像と所見文とが対応するか(関連性があるか否か)を精度よく判定し得る関連度判定AIを構築することが可能である。
【0091】
《第3実施形態:言語特徴抽出モデルを生成する方法の例2》
上述の第2実施形態では、学習済みの言語特徴抽出モデル12Eのパラメータを固定としたが、第1実施形態で説明した機械学習方法と第2実施形態で説明した機械学習方法とを組み合わせて、言語特徴抽出モデル12、領域推定モデル14、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24の4つのモデルを同時に学習させる構成を採用してもよい。図7~9にその例を示す。
【0092】
図7は、第3実施形態に係る機械学習装置30の機能的構成を概略的に示すブロック図である。図7に示す構成において、図2及び図5に示す構成と同一又は類似の要素には同一の符号を付し、重複する説明は省略する。
【0093】
機械学習装置30は、言語特徴抽出モデル12、領域推定モデル14、画像特徴抽出モデル22、クロスモーダル特徴統合モデル24、損失演算部16、26及びパラメータ更新部28Aを含む。クロスモーダル特徴統合モデル24は本開示における「第3のモデル」の一例であり、画像特徴抽出モデル22は本開示における「第4のモデル」の一例である。画像特徴抽出モデル22が出力する画像特徴IFVjは本開示における「第2の特徴量」の一例である。
【0094】
パラメータ更新部28Aは、損失演算部16によって算出される第1の損失と、損失演算部26によって算出される第2の損失とを統合して得られる第3の損失に基づいて、言語特徴抽出モデル12、領域推定モデル14、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24の各モデルのパラメータ更新量を算出し、各モデルのパラメータを更新する。第1の損失と第2の損失とを統合する方法は、例えば、第1の損失と第2の損失の和、平均、又は重み付け平均などであってよい。
【0095】
すなわち、クロスモーダル特徴統合モデル24が推定する関連度スコアと、領域推定モデル14が推定する病変領域(関心領域)のそれぞれの出力が正しくなるように(正解に近づくように)、全てのモデルを学習させる。
【0096】
クロスモーダル特徴統合モデル24から出力される関連度スコアは本開示における「推定関連度」の一例である。なお、図7では、損失演算部16と損失演算部26とを区別して示しているが、損失演算部16、26は共通の演算部であってもよく、領域推定モデル14の出力に対して損失演算部16によって算出される第1の損失と、クロスモーダル特徴統合モデル24の出力に対して損失演算部26によって算出される第2の損失とを統合して第3の損失を算出する演算機能を備えていてもよい。
【0097】
このような機械学習方法を採用して、4つのモデルを同時に学習させることにより、領域推定モデル14の出力から算出される第1の損失と、クロスモーダル特徴統合モデル24の出力から算出される第2の損失とのそれぞれが、言語特徴抽出モデル12及び画像特徴抽出モデル22の学習にもフィードバックされるため各モデルの性能が向上する。
【0098】
第3実施形態によれば、言語特徴抽出モデル12から出力される所見特徴に画像中の関心領域の位置に関する特徴が埋め込まれるため、かかる所見特徴を用いてクロスモーダル特徴統合モデル24を訓練することにより、所見文と、所見文が説明している画像中の関心領域(病変領域)とを正しく紐付ける(関連付ける)ことができるようになる。
【0099】
また、図7に示す構成は、第1実施形態により学習済みの言語特徴抽出モデル12Eをファインチューニングする場合にも適用できる。
【0100】
図8は、第3実施形態に係る機械学習装置30のハードウェア構成の例を示すブロック図である。図8に示す構成について図3と異なる点を説明する。機械学習装置30のハードウェア構成は、図3に示した例と同様であってよく、図3の学習処理プログラム130の代わりに、学習処理プログラム230を含む、学習処理プログラム230は、訓練に用いるデータ組を取得して言語特徴抽出モデル12、領域推定モデル14、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24の全てのモデルの学習処理を実行させる命令を含む。学習処理プログラム230は、データ取得プログラム232と、言語特徴抽出モデル12と、領域推定モデル14と、画像特徴抽出モデル22と、クロスモーダル特徴統合モデル24と、損失算出プログラム236と、オプティマイザ238とを含む。
【0101】
データ取得プログラム232は、訓練データ保存部600から訓練用のデータ組を取得する処理を実行させる命令を含む。損失算出プログラム236は、領域推定モデル14から出力された推定領域情報と正解の位置情報TPiとの誤差を示す第1の損失を算出する処理と、クロスモーダル特徴統合モデル24から出力された関連度スコアと正解関連度スコアとの誤差を示す第2の損失を算出する処理と、第1の損失及び第2の損失を統合して第3の損失を算出する処理とを実行させる命令を含む。オプティマイザ238は、算出された第3の損失から領域推定モデル14及び言語特徴抽出モデル12の各モデルのパラメータの更新量を算出し、各モデルのパラメータを更新する処理を実行させる命令を含む。その他の構成は、図3に示す機械学習装置10の構成と同様であってよい。
【0102】
〔機械学習方法の概要〕
図9は、第3実施形態に係る機械学習装置30が実行する機械学習方法の例を示すフローチャートである。図9に示すフローチャートおいて、図4及び図6に示すフローチャートと共通するステップには同一のステップ番号を付し、重複する説明は省略する。
【0103】
図9に示すフローチャートは、図4に示すフローチャートのステップS110とS120との間にステップS112及びステップS114を含む。
【0104】
また、図4のステップS120とS130との間にステップS128を含み、図4のステップS140及びステップS150の代わりに、ステップS144及びステップS154を含む。
【0105】
ステップS144において、プロセッサ102は、ステップS128にて算出された損失とステップS130にて算出された損失とを統合した損失に基づき、損失が小さくなるように、画像特徴抽出モデル22、クロスモーダル特徴統合モデル24、言語特徴抽出モデル12、及び領域推定モデル14の各モデルのパラメータ更新量を算出する。
【0106】
ステップS154において、プロセッサ102は、算出されたパラメータ更新量に従い、各モデルのパラメータを更新する。その他のステップは、図4と同様であってよい。
【0107】
〔第3実施形態の変形例〕
第3実施形態の変形例として、例えば、画像特徴抽出モデル22については、学習済みのモデルを適用して学習の対象外とし、言語特徴抽出モデル12、領域推定モデル14、及びクロスモーダル特徴統合モデル24の3つのモデルについて、学習によるパラメータの更新を行う構成も可能である。
【0108】
《第4実施形態:構造化されたテキストを特徴ベクトル化する例》
上述した第1実施形態から第3実施形態では、文章形式の所見文のテキストを言語特徴抽出モデル12、12Eへの入力として用いる例を説明したが、言語特徴抽出モデル12、12Eへの入力は、文章形式のテキストに限らず、文章の構造解析によって得られる構造化されたテキストであってもよい。構造化されたテキストは、例えば、CSV(Comma Separated Value)形式の構造化データであってもよい。
【0109】
訓練用のデータセットにおいて、所見文TXjの代わりに、又は、所見文TXjに加えて、構造化されたテキスト(構造化所見)が用意されていてもよいし、言語特徴抽出モデル12、12Eに対する入力の前処理として、所見文の構造解析を行い、構造化データに変換してもよい。
【0110】
図10は、第4実施形態に係る機械学習装置32の機能的構成の一部を示すブロック図である。機械学習装置32は、言語特徴抽出モデル12への入力の前処理を行う処理部として文章構造解析部40を備える。文章構造解析部40は、文章形式の所見文TXjの入力を受け付け、所見文TXjの構造解析を行い、所見文TXjを構造化した構造化データTSjを生成する。図10には示さないが、機械学習装置32の他の構成は、機械学習装置10、機械学習装置20、又は機械学習装置30と同様であってよい。機械学習装置32のコンピュータ可読媒体104には、文章構造解析プログラムが記憶される。
【0111】
〔機械学習方法の例〕
図11は、機械学習装置32が実行する機械学習方法の例を示すフローチャートである。ここでは、図7図8で説明した機械学習装置30の構成に、図10の構成が追加された機械学習装置32による機械学習方法の例を説明する。図11に示すフローチャートについて、図9に示すフローチャートと共通するステップには同一のステップ番号を付し、重複する説明は省略する。
【0112】
図11においては、図9のステップS110の代わりに、ステップS102及びS111を含む。
【0113】
ステップS100の後、ステップS102において、プロセッサ102は、文章形式の所見文TXjについて構造解析を行い、所見文TXjを構造化する。
【0114】
その後、ステップS111において、プロセッサ102は、構造化されたテキスト(構造化所見を言語特徴抽出モデル12に入力し、所見特徴LFVjを生成する。その後の処理は図9に示すフローチャートと同様であってよい。
【0115】
〔第4実施形態の変形例〕
訓練用のデータセットにおいて、予め所見文TXjに対応する構造化データTSjが用意されている場合、図9に示すフローチャートのステップS100において所見文TXjを取得する代わりに、構造化所見(構造化データTSj)を取得すればよい。
【0116】
《第5実施形態:学習済み言語特徴抽出モデルの活用例2》
第5実施形態では、第4実施形態の構成を適用した第3実施形態の方法によって学習された言語特徴抽出モデル12、画像特徴抽出モデル22、クロスモーダル特徴統合モデル24を用いた情報処理装置50の例を説明する。
【0117】
図12は、第5実施形態に係る情報処理装置50の機能的構成を概略的に示すブロック図である。情報処理装置50は、データ取得部52と、文章構造解析部54と、言語特徴抽出器13と、画像特徴抽出器23と、クロスモーダル特徴統合器25と、判定結果出力部56とを含む。情報処理装置50の各部の機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。情報処理装置50は、1台又は複数台のコンピュータを含むコンピュータシステムによって構成されてもよい。情報処理装置50の形態は、特に限定されず、サーバであってもよいし、ワークステーションやパーソナルコンピュータなどであってもよく、タブレット端末などであってもよい。情報処理装置50は、例えば、読影に用いられるビューワ端末などであってもよい。
【0118】
データ取得部52は、処理対象の画像IMxと、画像IMx中の関心領域ROIxに関する位置情報TPxと、画像IMxと紐付けされていない所見文TXyとを取得する。これらのデータは、不図示のデータサーバ等から取り込まれてもよい。画像IMxは本開示における「第2の画像」の一例であり、位置情報TPxは本開示における「第2の位置情報」の一例である。所見文TXyは本開示における「テキスト」の一例である。
【0119】
画像特徴抽出器23は、学習済み画像特徴抽出モデル22を適用した処理部である。画像IMxと、画像IMx中の関心領域ROIxに関する位置情報TPxとは画像特徴抽出器23に入力される。画像特徴抽出器23は、画像IMxと、関心領域ROIxに関する位置情報TPxとの入力を受けて、画像特徴IFVxを出力する。画像特徴IFVxは本開示における「画像特徴量」の一例である。
【0120】
一方、データ取得部52を介して取得された所見文TXyは文章構造解析部54に入力され、構造化データTSyに変換される。文章構造解析部54は、図40で説明した文章構造解析部40と同様の処理部であってよい。文章構造解析部54は、所見文TXyの構造解析を行い、構造化されたテキスト(構造化所見)である構造化データTSyを出力する。
【0121】
言語特徴抽出器13は、学習済み言語特徴抽出モデル12を適用した処理部である。所見文TXyに対応する構造化データTSyは、言語特徴抽出器13に入力される。言語特徴抽出器13は、構造化データTSyの入力を受けて、所見特徴LFVyを出力する。予見特徴LFVyは本開示における「言語特徴量」の一例である。
【0122】
こうして生成された所見特徴LFVyと画像特徴IFVxとはクロスモーダル特徴統合器25に入力される。クロスモーダル特徴統合器25は、学習済みのクロスモーダル特徴統合モデル24を適用した処理部である。クロスモーダル特徴統合器25は、所見特徴LFVyと画像特徴IFVxとの入力を受けて、画像IMx中の関心領域ROIxと所見文TXyとの関連性を判定する。クロスモーダル特徴統合器25は、関連性の有無を判定して「関連性有り」又は「関連性無し」の判定結果を出力してもよいし、関連性の度合いを示す評価値(関連度スコア)を出力してもよい。
【0123】
判定結果出力部56は、クロスモーダル特徴統合器25による判定結果を出力する処理を行う。判定結果出力部56は、例えば、判定結果を表示させる処理、判定結果をデータベース等に記録する処理、判定結果を印刷させる処理及び判定結果を外部装置に送信する処理のうち少なくとも1つの処理を行う構成であってよい。
【0124】
図13は、情報処理装置50のハードウェア構成の例を概略的に示すブロック図である。情報処理装置50は、プロセッサ502と、コンピュータ可読媒体504と、通信インターフェース506と、入出力インターフェース508と、バス510と、を備える。コンピュータ可読媒体504は、メモリ512とストレージ514とを含む。また、情報処理装置50は、入力装置552及び表示装置554を備える。情報処理装置50におけるこれらの要素は、図3で説明した機械学習装置10の対応する要素と同様の構成であってよい。
【0125】
コンピュータ可読媒体504には、データ取得プログラム532と、文章構造解析プログラム534と、言語特徴抽出モデル12Eと、画像特徴抽出モデル22Eと、クロスモーダル特徴統合モデル24Eと、判別結果提示プログラム536と、表示制御プログラム540とを含む各種のプログラムやデータ等が記憶される。
【0126】
データ取得プログラム532は、処理対象のデータを取得する処理を実行させる命令を含む。文章構造解析プログラム534は、入力された文章の構造解析を行い、構造化されたテキストのデータ(構造化データ)を生成する処理を実行させる命令を含む。
【0127】
言語特徴抽出モデル12E、画像特徴抽出モデル22E及びクロスモーダル特徴統合モデル24Eのそれぞれは、第3実施形態及び第4実施形態で説明した方法によって言語特徴抽出モデル12、画像特徴抽出モデル22及びクロスモーダル特徴統合モデル24を学習させて得られた学習済みモデルである。
【0128】
判別結果提示プログラム536は、クロスモーダル特徴統合モデル24Eから出力された判定結果を提示する出力処理を実行させる命令を含む。
【0129】
また、コンピュータ可読媒体504は、文章構造解析プログラム534の解析結果である構造化データを含む解析情報を記憶する解析情報記憶領域538を含む。構造化されたテキストのデータは、文章形式の所見文と関連付けされて保存されてもよい。
【0130】
情報処理装置50は、通信インターフェース506を介して医療画像保存部610及びレポート保存部612と接続され得る。医療画像保存部610は、例えば、PACS(Picture Archiving and Communication Systems)に代表される医用画像管理システムにおけるストレージであってよい。医療画像保存部610は、DICOMの規格に準じて医療画像を保存するDICOMサーバであってもよい。
【0131】
レポート保存部612は、医療画像診断において医師によって作成された所見文を含む読影レポートを保存管理するレポート保存サーバであってもよい。あるいはまた、医療画像保存部610及びレポート保存部612として機能を併せ持つ医療データ保存サーバであってもよい。
【0132】
情報処理装置50によれば、画像と紐付けされていない所見文と、画像との関連性を判別し、関連性があると判別された画像と所見文との紐付けを行うことが可能になる。情報処理装置50が実行する処理の方法は、本開示における「情報処理方法」の一例である。
【0133】
〔第5実施形態の変形例1〕
図12では、言語特徴抽出器13が構造化所見の入力を受け付ける例を説明したが、これに限らず、言語特徴抽出器13は、文章形式の所見文の入力を受け付ける構成であってもよい。この場合、図12における文章構造解析部54は削除されてよい。
【0134】
〔第5実施形態の変形例2〕
図7等で説明した領域推定モデル14は、言語特徴抽出モデル12の学習を行うための補助的な手段として用いられ、学習後には領域推定モデル14を分離して、学習済みの言語特徴抽出モデル12を活用する例を説明したが、学習時と同様に、学習済みの領域推定モデル14を学習済みの言語特徴抽出モデル12と組み合わせて病変領域推定AIとして利用することも可能である。この病変領域推定AIは、画像と、画像に関連する所見文との入力を受け付け、所見文で言及している画像中の病変領域の推定結果を出力することができる。
【0135】
《第6実施形態:学習済み言語特徴抽出モデルの活用例3》
図14は、第6実施形態に係る情報処理装置60の機能的構成を概略的に示すブロック図である。情報処理装置60は、読影レポートが作成された際に、レポートに記載された所見文の構造解析と特徴ベクトル化とを行い、文章形式の所見文と、構造化された構造化所見と、特徴ベクトル化された所見特徴とを紐付けて保存する処理を行うことができる装置である。
【0136】
情報処理装置60は、データ取得部62と、文章構造解析部54と、言語特徴抽出器13と、コンピュータ支援診断(Computer Aided Diagnosis, Computer Aided Detection :CAD)部64と、データ保存部66とを含む。情報処理装置60の各部の機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。情報処理装置60は、1台又は複数台のコンピュータを含むコンピュータシステムによって構成されてもよい。
【0137】
データ取得部62は、読影対象の医療画像及び所見文の入力を受け付ける。データ取得部62は、医療画像保存部610又はレポート保存部612から対象のデータを自動的に取得してもよいし、入力装置からの指示に基づき対象のデータを受け付けてもよい。
【0138】
CAD部64は、入力された医療画像に対して画像処理を行い、画像診断を支援するCAD情報を生成する。CAD部64は、例えば、臓器認識プログラム及び/又は疾患検出プログラムを含んで構成される。臓器認識プログラムは、例えば、臓器セグメンテーションを行う処理モジュールを含む。臓器認識プログラムには、肺区域ラベリングプログラム、血管領域抽出プログラム及び骨ラベリングプログラムなどが含まれてもよい。
【0139】
疾患検出プログラムは、特定の疾患に対応した検出処理モジュールを含む。疾患検出プログラムとして、例えば、肺結節検出プログラム、肺結節性状分析プログラム、肺炎CADプログラム、乳腺CADプログラム、肝臓CADプログラム、脳CADプログラム及び大腸CADプログラムのうち少なくとも1つのプログラムが含まれてよい。
【0140】
このようなCAD用のプログラムは、深層学習などの機械学習を適用して目的のタスクの出力が得られるように学習された学習済みモデルを含むAI処理モジュールであってよい。
【0141】
CAD部64から出力されるCAD情報には、例えば、画像内における病変領域などの位置を示す情報、もしくは病名などのクラス分類を示す情報、又はこれらの組み合わせが含まれてよい。
【0142】
文章構造解析部54は、データ取得部52を介して取得された所見文の構造解析を行い、構造化所見を生成する。
【0143】
言語特徴抽出器13は、データ取得部52を介して取得された所見文、又は文章構造解析部54によって構造化された構造化所見の入力を受けて、所見特徴を生成する。
【0144】
情報処理装置60は、医療画像、CAD情報、所見文、構造化所見及び所見特徴を関連付けしてデータ保存部66に保存する処理を行う。情報処理装置60は、このようなデータ組をデータ保存部66に多数蓄積したデータベースを構築し得る。
【0145】
《第7実施形態:類似する所見文を検索する処理への活用例》
言語特徴抽出モデル12Eによって生成される所見特徴は、所見文同士の比較にも利用することができる。第7実施形態では、複数の所見文のそれぞれから抽出される所見特徴を用いて、所見文同士が近しい内容(関連性が高い内容)を述べているか、関連性が低い(無関係の)内容を述べているかを判別し、データベースの中から類似する所見文(関連する所見文)の候補を検索するシステムを提供する例を示す。
【0146】
図15は、第7実施形態に係る機械学習装置70の機能的構成を概略的に示すブロック図である。図15に示す構成において、図2及び図7に示す構成と同一又は類似の要素には同一の符号を付し、重複する説明は省略する。
【0147】
機械学習装置70は、言語特徴抽出モデル12A、12Bと、領域推定モデル14と、対応関係推定モデル124と、損失演算部16、126と、パラメータ更新部128とを含む。図15では、説明の便宜上、2つの言語特徴抽出モデル12A、12Bを示しているが、これらは同じ(共通の)言語特徴抽出モデル12である。
【0148】
機械学習装置70は、複数の所見文TXi、TXkの入力を受け付け、受け付けた所見文TXi、TXkのそれぞれを言語特徴抽出モデル12A、12Bに入力して、各所見文TXi、TXkに対応する所見特徴LFVi、LFVkを生成する。所見文TXi、TXkは、本開示における「第1のテキスト」及び「第2のテキスト」の一例である。所見特徴LFVi、LFVkは、本開示における「第1の特徴量」及び「第3の特徴量」の一例である。
【0149】
対応関係推定モデル124は、これら複数の所見特徴LFVi、LFVkの組み合わせの入力を受け付け、両者の対応関係を推定して関連性の度合いを示す関連度スコアを出力する。関連度スコアは、例えば、所見文同士に対応関係(関連性)があれば「1」、無ければ「0」などの値で定義されてよく、関連性の程度に応じて1から0の範囲の値を取り得る構成であってもよい。対応関係推定モデル124は本開示における「第5のモデル」の一例である。
【0150】
損失演算部126は、対応関係推定モデル124が出力した関連度スコアと正解の関連度スコアとの誤差を示す損失(第4の損失)を算出する。正解の関連度スコアは、入力に用いた複数の所見文TXi、TXkの組み合わせに対して予め関連度を評価しておき正解データとして付与されている。なお、図15に例示している2つの所見文TXi、TXkの場合、両者は類似した病変に関する内容を述べており、関連度の高い所見文同士である。
【0151】
言語特徴抽出モデル12Bと領域推定モデル14の構成、及び損失演算部16の構成とこれら各部の動作は図7で説明した例と同様であってよい。
【0152】
パラメータ更新部128は、損失演算部16から得られる第1の損失と、損失演算部126から得られる第4の損失とを統合して得られる第5の損失に基づき、対応関係推定モデル124、言語特徴抽出モデル12、及び領域推定モデル14の各モデルのパラメータ更新量を算出して、各モデルのパラメータを更新する。すなわち、対応関係推定モデル124が推定する関連度スコアと、領域推定モデル14が推定する病変領域(関心領域)のそれぞれの出力が正しくなるように(正解に近づくように)、全てのモデルを学習させる。
【0153】
なお、図15では、損失演算部16と損失演算部126とを区別して示しているが、損失演算部16、126は共通の演算部であってもよく、領域推定モデル14の出力に対して損失演算部16によって算出される第1の損失と、対応関係推定モデル124の出力に対して損失演算部126によって算出される第4の損失とを統合して第5の損失を算出する演算機能を備えていてもよい。
【0154】
図16は、機械学習装置70のハードウェア構成の例を概略的に示すブロック図である。機械学習装置70のハードウェア構成は、図8と同様であってよい。図16に示す構成について、図8に示す構成と共通する要素には同一の符号を付し、重複する説明は省略する。図16に示す構成について、図8と異なる点を説明する。
【0155】
機械学習装置70のコンピュータ可読媒体104には、学習処理プログラム230の代わりに、学習処理プログラム330が記憶される。学習処理プログラム330は、データ取得プログラム332と、言語特徴抽出モデル12と、領域推定モデル14と、対応関係推定モデル124と、損失算出プログラム336と、オプティマイザ338とを含む。
【0156】
データ取得プログラム332は、訓練データ保存部600から複数の所見文と、対応する画像とを含むデータ組を取得する処理を実行させる命令を含む。言語特徴抽出モデル12は、取得された複数の所見文の組み合わせの入力を受け付け、それぞれの所見文について所見特徴を生成する処理を実行させる命令を含む。損失算出プログラム336は、領域推定モデル14の出力から算出される第1の損失と、対応関係推定モデル124の出力から算出される第4の損失とを統合した第5の損失を算出する処理を実行させる命令を含む。
【0157】
オプティマイザ338は、算出された第5の損失から言語特徴抽出モデル12、領域推定モデル14及び対応関係推定モデル124の3つのモデルのそれぞれのパラメータの更新量を算出し、各モデルのパラメータを更新する処理を実行させる命令を含む。その他の構成は、図8の構成と同様であってよい。
【0158】
図17は、機械学習装置70が実行する機械学習方法のフローチャートである。ステップS200において、プロセッサ102は、複数の所見文TXi、TXkと、対応する画像IMi、IMkと、画像IMi、IMk中の関心領域ROIi、ROIkに関する位置情報TPi、TPkとを含むデータ組を取得する(i≠k)。
【0159】
ステップS210において、プロセッサ102は、各所見文TXi、TXkを言語特徴抽出モデル12に入力し、それぞれの所見特徴LFVi、LFVkを生成する。
【0160】
ステップS214において、プロセッサ102は、各所見特徴LFVi、LFVkを対応関係推定モデル124に入力し、両者の関連性を示す関連度スコアを推定する。
【0161】
ステップS220において、プロセッサ102は、各所見特徴TXi、TXkと画像IMi、IMkとの組み合わせを領域推定モデル14に入力し、病変領域を推定する。
【0162】
ステップS226において、プロセッサ102は、対応関係推定モデル124から出力された関連度スコアと成果の関連度スコアとの誤差を示す損失を算出する。
【0163】
ステップS230において、プロセッサ102は、領域推定モデル14によって推定された病変領域の位置と、正解の関心領域の位置との誤差を示す損失を算出する。
【0164】
ステップS240において、プロセッサ102は、ステップS226にて算出された損失とステップS230にて算出された損失とを統合した損失が小さくなるように、対応関係推定モデル124、言語特徴抽出モデル12、及び領域推定モデル14の各モデルのパラメータ更新量を算出する。
【0165】
ステップS254において、プロセッサ102は、ステップS240にて算出したパラメータ更新量に従い、各モデルのパラメータを更新する。上述したステップS200からステップS254の動作はミニバッチの単位で実施されてもよい。
【0166】
ステップS254の後、ステップS260において、プロセッサ102は、学習を終了するか否かを判定する。ステップS260は、図4のステップS160と同様の処理であってよい。
【0167】
ステップS260の判定結果がNo判定である場合、プロセッサ102は、ステップS200に戻る。ステップS260の判定結果がYes判定である場合、プロセッサ102は、図のフローチャートを終了する。
【0168】
〔第7実施形態の変形例〕
図15及び図16では、言語特徴抽出モデル12に対して文章形式の所見文を入力する例を説明したが、第4実施形態(図10)で説明したように、構造化されたテキスト(構造化所見)を言語特徴抽出モデル12に入力する構成であってもよい。
【0169】
《第8実施形態》
第8実施形態では、第7実施形態の方法によって生成された学習済みの言語特徴抽出モデル12Eを用いて所見文の対応関係を判別する処理を行う情報処理装置300の例を説明する。
【0170】
図18は、第8実施形態に係る情報処理装置300の機能的構成を概略的に示すブロック図である。情報処理装置300は、データ取得部302と、文章構造解析部54A、54Bと、言語特徴抽出器13A、13Bと、対応関係推定器125と、判定結果出力部306とを含む。情報処理装置300の各部の機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。情報処理装置300は、1台又は複数台のコンピュータを含むコンピュータシステムによって構成されてもよい。
【0171】
データ取得部302は、比較する複数の所見文TXa、TXbの組み合わせを取得する。文章構造解析部54Aは、所見文TXaの構造解析を行い、構造化データTSaを生成する。同様に、文章構造解析部54Bは、所見文TXbの構造解析を行い、構造化データTSbを生成する。図15では、説明の便宜上、2つの文章構造解析部54A、54Bを示しているが、これらは同じ(共通の)文章構造解析部54である。
【0172】
言語特徴抽出器13A、13Bは、第6実施形態で説明した機械学習方法によって言語特徴抽出モデル12を学習させた学習済みモデルを適用した処理部である。図15に示す2つの言語特徴抽出器13A、13Bは、同じ(共通の)言語特徴抽出器である。
【0173】
言語特徴抽出器13Aは、構造化データTSaの入力を受けて、対応する所見特徴LFVaを生成する。同様に、言語特徴抽出器13Bは、構造化データTSbの入力を受けて、対応する所見特徴LFVbを生成する。
【0174】
なお、言語特徴抽出器13A、13Bが構造化データTSa、TSbの代わりに、所見文TXa、TXbの入力を受けて、対応する所見特徴LFVa、LFVbを生成する構成とすることも可能である。この場合、文章構造解析部54A、54Bは省略されてよい。
【0175】
対応関係推定器125は、第6実施形態の言語特徴抽出器13は、第6実施形態に係る機械学習方法によって対応関係推定モデル124を学習させた学習済みモデルを適用した処理部である。対応関係推定器125は、所見特徴LFVa、LFVbの組み合わせの入力を受け付け、両者が対応する関係であるか否かを判定する。
【0176】
判定結果出力部306は、対応関係推定器125から出力される対応関係の判別結果の出力処理を行う。判定結果出力部306は、2つの所見文の対応関係の有無に関する判別結果を出力してもよいし、その判別結果を用いて類似所見文の候補のリストを生成し、類似所見文候補リストを出力してもよい。
【0177】
図19は、情報処理装置300のハードウェア構成の例を示すブロック図である。情報処理装置300のハードウェア構成は、図13に示した例と同様であってよい。図19に示す構成について、図13に示すと同一又は類似の要素には同一の符号を付し、重複する説明は省略する。
【0178】
情報処理装置300のコンピュータ可読媒体504には、データ取得プログラム532、文章構造解析プログラム534、言語特徴抽出モデル12E、対応関係推定モデル124E、類似所見文候補リスト生成プログラム546を含む複数のプログラムが記憶される。データ取得プログラム532は、処理対象の所見文を取得する処理を実行させる命令を含む。データ取得プログラム532は、過去のレポートが保存されている不図示のデータベースからデータを取得してもよいし、入力装置552を介してデータの入力を受け付けてもよい。
【0179】
類似所見文候補リスト生成プログラム546は、対応関係推定モデル124Eの出力を基に、不図示のデータベースから類似する所見文を検索し、抽出した類似所見文を含む類似所見文候補リストを生成する処理を実行させる命令を含む。
【0180】
また、情報処理装置300のコンピュータ可読媒体504は、所見文解析情報記憶部548を含む。所見文解析情報記憶部548には、文章構造解析プログラム534によって得られた構造化データを含む解析結果の情報が記憶される。その他の構成は、図13と同様であってよい。
【0181】
《第9実施形態》
第9実施形態では、学習済みの言語特徴抽出モデル12Eを用いて生成された所見特徴を利用して所見文の類似検索を行う情報処理装置400の例を説明する。
【0182】
図20は、第9実施形態に係る情報処理装置400の機能的構成を概略的に示すブロック図である。情報処理装置400は、所見文受付部402と、言語特徴抽出器13と、類似検索部404と、類似候補出力部406とを備える。情報処理装置400は、データベース保存部650を備えていてもよい。データベース保存部650は、情報処理装置400と通信可能に接続される外部装置であってもよい。
【0183】
情報処理装置400の各部の機能は、コンピュータのハードウェアとソフトウェアとの組み合わせによって実現し得る。情報処理装置400は、1台又は複数台のコンピュータを含むコンピュータシステムによって構成されてもよい。
【0184】
データベース保存部650には、所見文FTXjと、その所見文FTXjから抽出された所見特徴FFVjとが紐付けされた複数のデータ組を含んだデータベースが保存されている。
【0185】
第9実施形態の情報処理装置400では、過去のレポートに含まれる大量の所見文FTXjについて、それぞれ事前に言語特徴抽出器13を用いて特徴ベクトル(所見特徴FFVj)を算出しておき、所見文FTXjと所見特徴FFVjとを紐付けてデータベースに保存しておく。
【0186】
そして、所見文受付部402が類似所見文を検索したい所見文QTxを入力として受け取り、言語特徴抽出器13によって所見特徴QFvを計算する。類似検索部404は、所見特徴QFvと、事前に算出しておいた各所見特徴FFVjとのベクトル同士の距離を計算し、距離が近い複数の候補を類似所見文候補として抽出する。
【0187】
類似候補出力部406は、類似検索部404によって抽出された類似所見文候補をユーザに提示する出力処理を行う。
【0188】
このような構成によれば、所見文受付部402から受け付けた所見文QTxと類似する所見文の候補がデータベースから抽出され、候補リストとしてユーザに提示される。
【0189】
《コンピュータを動作させるプログラムについて》
上述の各実施形態において説明した機械学習装置10、機械学習装置20、機械学習装置30、機械学習装置32、機械学習装置70、情報処理装置50、情報処理装置60、情報処理装置300、及び情報処理装置400の各装置における処理機能の一部又は全部をコンピュータに実現させるプログラムを、光ディスク、磁気ディスク、もしくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。
【0190】
またこのような有体物たる非一時的なコンピュータ可読媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。
【0191】
さらに、上述の各装置における処理機能の一部又は全部をクラウドコンピューティングによって実現してもよく、また、SaaS(Software as a Service)として提供することも可能である。
【0192】
《各処理部のハードウェア構成について》
上述の各実施形態において説明した機械学習装置10等における損失演算部16、26、126、パラメータ更新部18、28、28A、128、文章構造解析部40、及び情報処理装置50等におけるデータ取得部52、62、302、文章構造解析部54、言語特徴抽出器13、画像特徴抽出器23、クロスモーダル特徴統合器25、対応関係推定器125、判定結果出力部56、306、CAD部64、所見文受付部402、類似検索部404、及び類似候補出力部406などの各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ(processor)である。
【0193】
各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるCPU、GPU、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0194】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサで構成されてもよい。例えば、1つの処理部は、複数のFPGA、あるいは、CPUとFPGAの組み合わせ、又はCPUとGPUの組み合わせによって構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0195】
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
【0196】
《本開示の実施形態による利点》
上述した本開示の各実施形態によれば、次のような効果が得られる。
【0197】
[1]言語特徴抽出モデル12は、入力された所見文又は構造化所見から、その所見文又は構造化所見が言及している画像中の関心領域の位置の特徴を含んだ特徴ベクトルである所見特徴を出力するように訓練される。本開示の実施形態で説明した方法によって生成される言語特徴抽出モデル12Eは、入力されたテキストから画像中の関心領域の位置に関する特徴が埋め込まれた特徴ベクトルを生成することができる。言語特徴抽出モデル12Eによって生成される特徴ベクトルは、例えば、画像と所見文との関連度を判別する処理や類似する所見文を検索して類似レポートの候補を提示する処理など、様々な用途に利用することができる。
【0198】
[2]本開示の実施形態で説明した方法によれば、言語特徴抽出モデル12を訓練する際に、言語特徴抽出モデル12の出力に対する正解データとなる正解特徴量(正解特徴ベクトル)を用意する必要がなく、画像IMjと画像IMj中の関心領域ROIjの位置情報TPjと、画像IMj中の関心領域ROIjについて説明した所見文又は構造化所見のテキストとのデータ組を用いて、そのテキストと画像中の関心領域の位置との関係性を学習させることができる。
【0199】
[3]本開示の実施形態で説明した方法によれば、学習データが比較的少ない場合であっても、高性能な言語特徴抽出モデル12Eを生成することができる。
【0200】
《医療画像の種類について》
本開示の技術は、CT画像に限らず、MRI(Magnetic Resonance Imaging)装置を用いて撮影されるMR画像、人体情報を投影する超音波画像及び陽電子放射断層撮影(Positron Emission Tomography:PET)装置を用いて撮影されるPET画像、内視鏡装置を用いて撮影された内視鏡画像など、様々な医療機器(モダリティ)によって撮影される各種の医療画像を対象とすることができる。本開示の技術が対象とする画像は3次元画像に限らず、2次元画像であってもよい。
【0201】
《他の応用例》
上述の実施形態では、医療画像診断における画像と所見文を例に説明したが、本開示の適用範囲はこの例に限らず、用途を問わず、各種の画像と、画像内の関心領域に関するテキストについて適用できる。例えば、構造物の画像と、その画像中の欠陥箇所に関するテキストとの組み合わせなどについても、本開示の技術を適用することができる。
【0202】
《その他》
本開示は上述した実施形態に限定されるものではなく、本開示の技術的思想の趣旨を逸脱しない範囲で種々の変形が可能である。
【符号の説明】
【0203】
10 機械学習装置
12,12A,12B,12E 言語特徴抽出モデル
13,13A,13B 言語特徴抽出器
14 領域推定モデル
16 損失演算部
18 パラメータ更新部
20 機械学習装置
22 ,22E 画像特徴抽出モデル
23 画像特徴抽出器
24,24E クロスモーダル特徴統合モデル
25 クロスモーダル特徴統合器
26 損失演算部
28,28A パラメータ更新部
30,32 機械学習装置
40 文章構造解析部
50 情報処理装置
52 データ取得部
54,54A,54B 文章構造解析部
56 判定結果出力部
60 情報処理装置
62 データ取得部
64 CAD部
66 データ保存部
70 機械学習装置
102 プロセッサ
104 コンピュータ可読媒体
106 通信インターフェース
108 入出力インターフェース
110 バス
112 メモリ
114 ストレージ
124,124E 対応関係推定モデル
125 対応関係推定器
126 損失演算部
128 パラメータ更新部
130 学習処理プログラム
132 データ取得プログラム
136 損失算出プログラム
138 オプティマイザ
140 表示制御プログラム
152 入力装置
154 表示装置
230 学習処理プログラム
232 データ取得プログラム
236 損失算出プログラム
238 オプティマイザ
300 情報処理装置
302 データ取得部
304 コンピュータ可読媒体
306 判定結果出力部
330 学習処理プログラム
332 データ取得プログラム
336 損失算出プログラム
338 オプティマイザ
400 情報処理装置
402 所見文受付部
404 類似検索部
406 類似候補出力部
502 プロセッサ
504 コンピュータ可読媒体
506 通信インターフェース
508 入出力インターフェース
510 バス
512 メモリ
514 ストレージ
532 データ取得プログラム
534 文章構造解析プログラム
536 判別結果提示プログラム
538 解析情報記憶領域
540 表示制御プログラム
546 類似所見文候補リスト生成プログラム
548 所見文解析情報記憶部
552 入力装置
554 表示装置
600 訓練データ保存部
610 医療画像保存部
612 レポート保存部
650 データベース保存部
TDj 訓練データ
IMi,IMj,IMk,IMx 画像
ROIi,ROIj,ROIk,ROIx 関心領域
TXi,TXj,TXk,TXy,TXa,TXb 所見文
LFVj,LFVy,LFVa,LFVb 所見特徴
IFVj IFVx 画像特徴
TPi,TPj,TPk,TPx 位置情報
PAj 推定領域情報
TSj,TSy,TSa,TSb 構造化データ
FTXj 所見文
FFVj 所見特徴
QTx 所見文
QFv 所見特徴
S100~S160 機械学習方法のステップ
S200~S260 機械学習方法のステップ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20