(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO/0
(43)【国際公開日】2021年2月25日
【発行日】2021年12月2日
(54)【発明の名称】訓練データ生成方法、学習済みモデル及び情報処理装置
(51)【国際特許分類】
A61B 1/045 20060101AFI20211105BHJP
A61B 1/00 20060101ALI20211105BHJP
【FI】
A61B1/045 614
A61B1/00 640
【審査請求】有
【予備審査請求】未請求
【全頁数】29
【出願番号】特願2021-541421(P2021-541421)
(21)【国際出願番号】PCT/0/0
(22)【国際出願日】2019年8月22日
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】000113263
【氏名又は名称】HOYA株式会社
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】佐藤 伶
【テーマコード(参考)】
4C161
【Fターム(参考)】
4C161CC06
4C161DD03
4C161HH55
4C161JJ18
4C161LL02
4C161QQ02
4C161YY07
4C161YY12
4C161YY14
(57)【要約】
訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。
【特許請求の範囲】
【請求項1】
内視鏡により撮影した画像を取得し、
取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する
処理をコンピュータに実行させる訓練データ生成方法。
【請求項2】
前記ラベルは、前記画像に含まれる体内部位における病変の存在もしくは不存在、病変の種類、又は病変の位置のいずれか一つに関する情報を含む
請求項1のいずれか1項に記載の訓練データ生成方法。
【請求項3】
前記音声データの認識は、前記音声データにおける発音を認識する処理を含み、
認識した発音による用語と、予め記憶されている医療用語群との対比に基づき、医療用語を特定し、
特定した医療用語に基づき、前記ラベルを生成する
請求項1又は請求項2に記載の訓練データ生成方法。
【請求項4】
前記医療用語群は、隠語と、前記隠語と同義となる標準用語とを含み、
認識した発音による用語が前記隠語である場合、前記隠語と同義となる標準用語に基づき、前記医療用語を特定する
請求項3に記載の訓練データ生成方法。
【請求項5】
前記画像と前記操作者の音声データとの関連付けは、経時要素に基づくものであり、
前記画像において、前記操作者の音声データに含まれる発声時に対応する第1画像を特定し、
特定した前記第1画像に関連付けられるラベルに、病変の存在に関する情報を含め、
前記画像において、前記第1画像以外の画像となる第2画像に関連付けられるラベルに、病変の不存在に関する情報を含める
請求項1から請求項4のいずれか1項に記載の訓練データ生成方法。
【請求項6】
前記画像は、同一の体内部位を含む拡大率の異なる複数の画像を含み、
前記拡大率の異なる複数の画像には、同一のラベルを関連付ける
請求項1から請求項5のいずれか1項に記載の訓練データ生成方法。
【請求項7】
前記内視鏡により撮影した前記画像は、動画像であり、
単位時間における前記動画像の変化量に基づいて、病変の存在の確度に関する情報を前記ラベルに含める
請求項1から請求項6のいずれか1項に記載の訓練データ生成方法。
【請求項8】
前記内視鏡の被検者による音声データを取得し、
生成した前記ラベルと、前記画像及び前記内視鏡の被検者による音声データとに基づいて、前記深層ニューラルネットワーク用の訓練データを生成する
請求項1から請求項7のいずれか1項に記載の訓練データ生成方法。
【請求項9】
前記内視鏡の種類を含む内視鏡情報を取得し、
取得した前記内視鏡情報を前記訓練データに関連付けて記憶する
請求項1から請求項8のいずれか1項に記載の訓練データ生成方法。
【請求項10】
請求項1から請求項9のいずれか1項に記載の訓練データ生成方法によって生成した前記訓練データを用いて学習させた学習済みモデル。
【請求項11】
内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部と
を備える情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、訓練データ生成方法、学習済みモデル及び情報処理装置に関する。
【背景技術】
【0002】
内視鏡画像等の医用画像から、学習モデルを使用して病変部位を自動的に検出するコンピュータ支援診断技術が開発されている。正解ラベルが付与された訓練データを用いた教師あり機械学習により、学習モデルを生成する手法が知られている。
【0003】
通常の内視鏡で撮影された画像群を訓練データに用いた第1の学習と、カプセル内視鏡で撮影された画像群を訓練データに用いた第2の学習とを組み合わせる学習方法にて学習される学習モデル及び、学習モデルを含む学習システム当該が、開示されている(例えば、特許文献1)。特許文献1の学習システムは、消化器内視鏡及びカプセル型内視鏡によって撮像した画像群から、ランドマークが写る画像とそうでない画像を予め選択し、選択した夫々の画像及び正解ラベルを記録する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2017/175282号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の学習モデルを学習されるための訓練データを生成するにあたり、画像夫々を選択し、当該選択結果に基づきこれら画像夫々に正解ラベルを付与する必要があるところ、特許文献1の学習システムにおいては、係る訓練データを効率的に生成する点については、考慮されていない。
【0006】
一つの側面では、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様における訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。
【0008】
本開示の一態様における学習済みモデルは、本開示の一態様における訓練データ生成方法によって生成した前記訓練データを用いて学習させたものである。
【0009】
本開示の一態様における情報処理装置は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部とを備える。
【発明の効果】
【0010】
本開示によれば、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施形態1に係る訓練データ生成システムの概要を示す模式図である。
【
図2】訓練データ生成システムに含まれる内視鏡装置(マイク)の構成例を示すブロック図である。
【
図3】訓練データ生成システムに含まれる情報処理装置の構成例を示すブロック図である。
【
図4】医療用語DBのデータレイアウトを例示する説明図である。
【
図5】情報処理装置等の制御部に含まれる機能部を例示する機能ブロック図である。
【
図6】情報処理装置の制御部による処理手順の一例を示すフローチャートである。
【
図7】第1学習済みモデルの生成処理に関する説明図である。
【
図8】情報処理装置の制御部による第1学習済みモデルの生成処理に関する処理手順の一例を示すフローチャートである。
【
図9】実施形態2(無声音時の訓練データ)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。
【
図10】実施形態3(拡大率)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。
【
図11】実施形態4(病変有無の確度)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。
【
図12】実施形態5(被検者の音声データ)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。
【
図13】第2学習済みモデルの生成処理に関する説明図である。
【発明を実施するための形態】
【0012】
(実施形態1)
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
図1は、実施形態1に係る訓練データ生成システムSの概要を示す模式図である。訓練データ生成システムSは、内視鏡装置10及び、内視鏡装置10と通信可能に接続される情報処理装置6を含む。
【0013】
内視鏡装置10は、内視鏡の撮影素子によって撮影した画像(撮影画像)を内視鏡用プロセッサ20に伝送し、内視鏡用プロセッサ20によってガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行うことにより、操作者が目視し易い状態にした内視鏡画像を生成する。
【0014】
内視鏡装置10には、マイク17が接続されており、マイク17により集音した医師等の発言(音声)を、音声データとして記録する。内視鏡装置10は、内視鏡画像及び音声データに対し、撮像開始時刻及び音声記録開始時刻等の経時要素を付加し又は関連付けて、内視鏡画像及び音声データにおける時間軸を対応させて、これら内視鏡画像及び音声データを記憶し、情報処理装置6に出力する。マイク17は、有線マイクに限定されず、例えばBluetooth(登録商標)等を用いた無線マイクであってもよい。
【0015】
内視鏡装置10から送信された、経時要素が付加又は関連付けされた内視鏡画像及び音声データを取得した情報処理装置6は、これら内視鏡画像及び音声データに基づき、種々の情報処理を行い、深層ニューラルネットワーク用の訓練データを生成し、記録及び出力する。
【0016】
本実施形態では、内視鏡装置10は、撮影画像、すなわち生画像を補正した内視鏡画像を情報処理装置6に出力するとしたが、これに限定されない。内視鏡装置10は、撮影画像に経時要素を付加し、撮影画像及び音声データにおける時間軸を対応させて、これら撮影画像及び音声データを記憶し、情報処理装置6に出力するものであってもよい。この場合、情報処理装置6は、撮像画像に基づき一連の処理を行い、訓練データを生成する。
【0017】
図2は、訓練データ生成システムSに含まれる内視鏡装置10の構成例を示すブロック図である。
図3は、訓練データ生成システムSに含まれる情報処理装置6の構成例を示すブロック図である。内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。表示装置50は、たとえば液晶表示装置、または、有機EL(Electro Luminescence)表示装置である。
【0018】
表示装置50はキャスター付きの収容棚16の上段に設置されている。内視鏡用プロセッサ20は、収容棚16の中段に収容されている。収容棚16は、図示を省略する内視鏡検査用ベッドの近傍に配置される。収容棚16は内視鏡用プロセッサ20に接続されたキーボード15を搭載する、引き出し式の棚を有する。
【0019】
内視鏡用プロセッサ20は、略直方体形状であり、一面にタッチパネル25を備える。タッチパネル25の下部に、読取部28が配置されている。読取部28は、たとえばUSBコネクタ、SD(Secure Digital)カードスロット、またはCD−ROM(Compact Disc Read Only Memory)ドライブ等の、可搬型記録媒体の読み書きを行なう接続用インターフェイスである。
【0020】
内視鏡40は、挿入部44、操作部43、ユニバーサルコード49およびスコープコネクタ48を有する。操作部43には、制御ボタン431が設けられている。挿入部44は長尺であり、一端が折止部45を介して操作部43に接続されている。挿入部44は、操作部43側から順に軟性部441、湾曲部442および先端部443を有する。湾曲部442は、湾曲ノブ433の操作に応じて湾曲する。挿入部44には、3軸加速度センサ、ジャイロセンサ、地磁気センサ又は磁気コイルセンサ等の物理検出装置が実装され、内視鏡40が被検者の体内に挿入された際、これら物理検出装置からの検出結果を取得するものであってもよい。
【0021】
ユニバーサルコード49は長尺であり、第一端が操作部43に、第二端がスコープコネクタ48にそれぞれ接続されている。ユニバーサルコード49は、軟性である。スコープコネクタ48は略直方体形状である。スコープコネクタ48には、送気送水用のチューブを接続する送気送水口金36(
図2参照)が設けられている。
【0022】
内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。内視鏡用プロセッサ20は、タッチパネル25および読取部28に加えて、制御部21、主記憶装置22、補助記憶装置23、通信部24、表示装置I/F(Interface)26、入力装置I/F27、内視鏡用コネクタ31、光源33、ポンプ34およびバスを備える。内視鏡用コネクタ31は、電気コネクタ311および光コネクタ312を含む。
【0023】
制御部21は、本実施の形態のプログラムを実行する演算制御装置である。制御部21には、一または複数のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はマルチコアCPU等が使用される。制御部21は、バスを介して内視鏡用プロセッサ20を構成するハードウェア各部と接続されている。
【0024】
主記憶装置22は、例えば、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の記憶装置である。主記憶装置22には、制御部21が行なう処理の途中で必要な情報および制御部21で実行中のプログラムが一時的に保存される。補助記憶装置23は、例えば、SRAM、フラッシュメモリまたはハードディスク等の記憶装置であり、主記憶装置22よりも大容量の記憶装置である。補助記憶装置23には、例えば、取得した撮影画像、生成した内視鏡画像又は、音声データデータが、中間データとして保存されるものであってもよい。
【0025】
通信部24は、有線又は無線によりネットワークを介して情報処理装置と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。タッチパネル25は、液晶表示パネル等の表示部と、表示部に積層された入力部を含む。
【0026】
表示装置I/F26は、内視鏡用プロセッサ20と表示装置50とを接続するインターフェイスである。入力装置I/F27は、内視鏡用プロセッサ20とキーボード15、マイク17等の入力装置とを接続するインターフェイスである。
【0027】
光源33は、たとえば白色LED又はキセノンランプ等の高輝度の白色光源である。光源33は、図示を省略するドライバを介してバスに接続されている。光源33の点灯、消灯および明るさの変更は、制御部21により制御される。光源33から照射した照明光は、光コネクタ312に入射する。光コネクタ312は、スコープコネクタ48と係合し、内視鏡40に照明光を供給する。
【0028】
ポンプ34は、内視鏡40の送気・送水機能用の圧力を発生させる。ポンプ34は、図示を省略するドライバを介してバスに接続されている。ポンプ34のオン、オフおよび圧力の変更は、制御部21により制御される。ポンプ34は、送水タンク35を介して、スコープコネクタ48に設けられた送気送水口金36に接続される。
【0029】
内視鏡用プロセッサ20に接続された内視鏡40の機能の概略を説明する。スコープコネクタ48、ユニバーサルコード49、操作部43および挿入部44の内部に、ファイバーバンドル、ケーブル束、送気チューブおよび送水チューブ等が挿通されている。光源33から出射した照明光は、光コネクタ312およびファイバーバンドルを介して、先端部443に設けられた照明窓から放射される。照明光により照らされた範囲を、先端部443に設けられた撮像素子で撮影する。撮像素子からケーブル束および電気コネクタ311を介して内視鏡用プロセッサ20に撮影画像が伝送される。
【0030】
情報処理装置6は、制御部62、通信部61、記憶部63及び入出力I/F64を含む。制御部62は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の計時機能を備えた演算処理装置を有し、記憶部63に記憶されたプログラムPを読み出して実行することにより、情報処理装置6に係る種々の情報処理、制御処理等を行う。又は、制御部62は量子コンピュータ用チップで構成されており、情報処理装置6は量子コンピュータであってもよい。
【0031】
記憶部63は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の揮発性記憶領域及び、EEPROM又はハードディスク等の不揮発性記憶領域を含む。記憶部63には、プログラムP及び処理時に参照するデータがあらかじめ記憶してある。記憶部63に記憶されたプログラムPは、情報処理装置6が読み取り可能な記録媒体632から読み出されたプログラムPを記憶したものであってもよい。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラムPをダウンロードし、記憶部63に記憶させたものであってもよい。記憶部63には、後述する第1学習済みモデル91及び第2学習済みモデル92の実体ファイル(深層ニューラルネットワーク(DNN)のインスタンスファイル)が保存されている。記憶部63には、後述する医療用語DB631(DataBase)が記憶されている。
【0032】
通信部61は、有線又は無線により、内視鏡装置10と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。
【0033】
入出力I/F64は、例えば、USB又はDSUB等の通信規格に準拠したものであり、入出力I/F64に接続された外部機器とシリアル通信するための通信インターフェイスである。入出力I/F64には、例えばディプレイ等の表示部7、キーボード等の入力部8が接続されており、制御部62は、入力部8から入力された実行コマンド又はイベントに基づき行った情報処理の結果を表示部7に出力する。
【0034】
図4は、医療用語DB631のデータレイアウトを例示する説明図である。医療用語DB631は、管理項目(メタデータ)として、例えば、医療用語、隠語フラグ、標準用語、用語区分、及び医療機関IDを含む。医療用語DB631は、情報処理装置6の記憶部63に記憶されており、情報処理装置6に実装されているRDBMS(Relational DataBase Management System)等のデータベース管理ソフトウェアにより構成される。
【0035】
医療用語の項目(フィールド)には、病変の名称又は症状を示す用語(病変種類名)、及び病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)が、格納される。病変の名称又は症状を示す用語(病変種類名)は、例えば、癌、ポリープ等の医学的に定義されている標準的な用語(標準用語)であり、更に実質的にこれら標準的な用語を意味する隠語を含む。隠語とは、例えば”K”であり、当該Kは、標準的な用語である癌を示すものであり、Kと癌とは同義である。病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)は、例えば、上部食道、下部食道であり、病変種類名と同様に、実質的にこれら標準的な用語を意味する隠語を含むものであってもよい。医療用語等の項目(フィールド)に格納される用語は、日本語に限定されるものでなく、英語、中国語又はドイツ語等を含む多言語対応されたものであってもよい。
【0036】
隠語フラグの項目(フィールド)には、格納されている医療用語が、隠語であるか否かを示すフラグデータが、格納される。格納されている医療用語に対し、隠語フラグを設定することにより、当該医療用語が隠語であるか否かを判定することができ、当該判定結果に基づき後処理を行うことができる。
【0037】
標準用語の項目(フィールド)には、隠語に対応する標準用語が格納される。格納されている医療用語が隠語である場合、隠語に対応する標準用語が格納される。従って、隠語から標準用語への読み替え又は変換を行うことができる。格納されている医療用語が隠語でない場合、変換等の必要がないため、標準用語の項目(フィールド)には、データが登録されないもの(null)であってもよい。
【0038】
用語区分の項目(フィールド)には、当該医療用語が、病変の種類に関する用語であるか、または病変の位置に関する用語であるかを区分する情報が格納される。医師等による発言は、病変の種類及び位置に関する事項が混在するところ、このように医療用語を区分化することにより、後述する画像に関連付ける正解データにおいて、病変の種類及び位置を区分化して含めることができる。
【0039】
医療機関IDの項目(フィールド)には、医療用語が隠語である場合、当該隠語が用いられる医療機関を識別するための医療機関IDの番号等が、格納される。隠語は、同一の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、隠語夫々には、医療機関IDが関連付けらて登録されている。従って、医療機関IDに基づき適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。
【0040】
図5は、情報処理装置6等の制御部62に含まれる機能部を例示する機能ブロック図である。内視鏡用プロセッサ20の制御部21は、主記憶装置に記憶されているプログラムを実行することにより、画像処理部211、時計部212及び情報連関部213として機能する。情報処理装置6の制御部62は、記憶部63に記憶されているプログラムPを実行することにより、取得部621、音声認識部622、医療用語抽出部623、画像抽出部624、ラベル導出部625、及び訓練データ生成部626として機能する。
【0041】
画像処理部211は、内視鏡から出力された画像(撮影画像)をガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行い、内視鏡画像として出力する。
【0042】
時計部212は、時計機能を備え、例えば、撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、情報連関部213に出力する。又は、時計部212は、撮影画像の撮像開始時刻と、音声の記録開始時刻との時間差を図り、情報連関部213に出力するものであってもよい。
【0043】
情報連関部213は、キーボード15を介して入力された医療機関ID、操作者IDを取得する。医療機関IDは、医療機関を識別するための識別子である。操作者IDは、内視鏡装置10の操作者、すなわち内視鏡装置10を用いて被検者を診察する医師を識別するための識別子である。
【0044】
情報連関部213は、接続された内視鏡から出力される内視鏡情報を取得する。内視鏡情報は、例えば気管支用内視鏡、上部消化管汎用内視鏡又は腹腔鏡等の内視鏡の種類に関する情報を含む。
【0045】
情報連関部213は、マイク17で集音された音声による音声データ、及び画像処理部211から出力された内視鏡画像を取得する。情報連関部213は、時計部212から出力される撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻等の経時要素を取得する。情報連関部213は、取得した内視鏡画像及び音声データとの関連付けを経時要素を付与することにより行う。情報連関部213は、経時要素を付与するにあたり、例えば、撮像開始時刻と内視鏡画像とを関連付ける。または、情報連関部213は、内視鏡画像を撮像するにあたり決定されるサンプリングタイム(フレームレート)に基づき、内視鏡画像に含まれる各フレーム(静止画)夫々に、当該フレームが撮像された時点を示す情報(タイムスタンプ)を付与するものであってもよい。情報連関部213は、経時要素を付与するにあたり、例えば、音声の記録開始時刻と音声データとを関連付ける。
【0046】
撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、関連付けることにより、撮影画像及び音声データが、同一の時間軸上にて進行するものとし、時間経過に基づき、内視鏡画像におけるフレーム(静止画)と、音声データにおける医師等の発音とを連関させて対応させることができる。すなわち、撮影画像が動画である場合、音声の記録開始時刻から所定時間経過した時点を特定した場合、当該時点にて撮像された撮影画像(動画)に含まれるフレーム(静止画)を特定することができる。上述のとおり、内視鏡画像は、撮影画像を補正処理したものであるため、内視鏡画像においても、当該時点にて撮像された内視鏡画像に含まれるフレーム(静止画)を特定することができることは、言うまでもない。
【0047】
情報連関部213は、撮像開始時刻と内視鏡画像とを関連付け、音声の記録開始時刻と音声データとを関連付けるとしたが、これに限定されない。撮像開始時刻と音声の記録開始時刻とが同時である場合、情報連関部213は、撮像開始時刻と音声の記録開始時刻とが同時である旨を示す情報を、内視鏡画像及び音声データに付加するものであってもよい。
【0048】
内視鏡によって撮像された撮像画像と、マイク17によって集音され記憶した音声データとが、別データであるとして説明したが、これに限定されない。情報連関部213は、撮像画像及び音声データが一体化した、例えば、AVI形式の動画データを取得又は生成するものであってもよい。この場合、内視鏡が撮像した撮像画像は、動画データにおける映像コーディックとなり、マイク17にて集音及び記憶した音声データは音声コーディックとなり、当該動画データに含まれるメタ情報により映像コーディック及び音声コーディックが同期され、撮像画像及び音声データは、経時要素によって関連付けられる。
【0049】
内視鏡画像が動画である場合、フレームレートに基づき静止画が撮影される。音声データは、サンプリングレイトに基づき、音素となる周波数がサンプリングされる。従って、内視鏡画像の撮像開始時刻からの経過時間により特定される時点と、音声の記録開始時刻からの経過時間により特定される時点は、フレームレート及びサンプリングレイトに基づき導出することができる。
【0050】
情報連関部213は、取得した医療機関ID、操作者ID、内視鏡情報、経時要素を付加した内視鏡画像及び音声データを関連付けて、情報処理装置6に出力する。情報連関部213は、これら関連付けられた複数の情報及びデータを単一のアーカイブファイルとして出力するものであってもよい。
【0051】
本実施形態では、情報連関部213は、撮像画像を補正して生成した内視鏡画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けるとしたが、これに限定されない。情報連関部213は、撮像画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けて出力するものであってもよい。この場合、情報処理装置6における各機能部は、撮像画像に基づき一連の処理を行い、訓練データを生成する。
【0052】
取得部621は、内視鏡装置10の情報連関部213から出力された医療機関ID、操作者ID、内視鏡情報、経時要素が関連付けられた内視鏡画像及び音声データを取得する。これら関連付けられた複数の情報及びデータが単一のアーカイブファイルとして出力された場合、取得部621は、当該アーカイブファイルを解凍し、個々のデータに展開するものであってもよい。
【0053】
取得部621は、操作者ID及び経時要素が関連付けられた音声データを、音声認識部622に出力する。取得部621は、内視鏡情報を訓練データ生成部626に出力する。取得部621は、経時要素が関連付けられた内視鏡画像を画像抽出部624に出力する。取得部621は、医療機関IDを医療用語抽出部623に出力する。
【0054】
音声認識部622は、例えば音響モデル、発音辞書及び言語モデル等のサブモジュールを含む。音響モデルは、周波数成分や時間変化の分析を行い、音声、すなわち発音と、音響モデルの元となる音素夫々との近似量を計算し、最も近似する音素を特定する。特定した音素の組合せにより音素列が生成される。発音辞書は、生成された音素列との一致度合いに基づき、発音された用語(単語)を特定する。言語モデルは、特定した単語による単語列(文字列)が、適切であるかを評価するために用いられるモデルであり、単語や文字列の出現確率をデータ化したものである。音声認識部622は、これらサブモジュールを用いて、入力された音声を、音波に変換し、音波から音素を特定する。特定した音素の並びを、予め登録した発音辞書とマッチングを行い単語に変換し、変換した単語による単語列(文字列)が適切な文章となるように言語モデルを用いて評価することにより文書を生成する。音声認識部622は、生成した文書を例えば文字データの形式で出力する。音声認識部622は、文字データに含まれる単語と、当該単語が発音された時点又はタイムスタンプに関する情報とを、関連付けて出力する。
【0055】
操作者IDによって特定される医師等の音声は、予め音響モデルに登録されており、音声認識部622は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。
【0056】
医療用語抽出部623は、文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出し、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。
【0057】
このように医療用語DB631に登録されている医療用語夫々と、発音とを対比することにより、医師等の操作者による発言の中に被検者に対する診断等とは無関係な事項が含まれる場合であっても、当該発言において、診断等に関連する医療用語を確実に抽出することができ、訓練データの生成精度を向上させることができる。
【0058】
医療用語抽出部623は、抽出した医療用語が発音された時点に関する情報(タイムスタンプ)を文字データから抽出し、文字データに含まれる医療用語及び当該医療用語が発音された時点を出力する。
【0059】
医療用語抽出部623は、単一の医療用語を出力するものに限定されず、複数の医療用語を出力するものであってもよい。すなわち、医療用語抽出部623は、取得した文字データにて所定の医療用語を抽出した場合、当該抽出した医療用語の前後に位置する他の医療用語との関連性又は文脈性に基づき、複数の医療用語を抽出し、一セットとして出力するものであってもよい。又は、医療用語抽出部623は、抽出した複数の医療用語を含む医師の発言による文書データを出力するものであってもよい。複数の医療用語を含む発言をまとめて抽出することにより、まとめて抽出した複数の医療用語夫々が発音された期間を特定し、当該期間にて撮像された内視鏡画像における静止画(フレーム)を特定することができる。
【0060】
文字データに含まれる医療用語が、隠語である場合、当該隠語と同義となる標準用語を、文字データに含まれる医療用語として出力するものであってもよい。操作者である医師等による発言には、医療業界における標準用語のみならず、地域、医療分野等に依拠して用いられる特有な隠語が含まれる場合があるところ、上述の医療用語DB631には、隠語及び当該隠語と同義となる標準用語が登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、隠語等が用いられることによる表現揺れを吸収し、医師等の発言から医療用語を確実に抽出することができる。
【0061】
医療用語抽出部623は、文字データに含まれる医療用語との対比に用いられる隠語において、隠語夫々に付与された医療機関IDに基づき、適用される隠語を確定するものであってもよい。隠語は、同様の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、上述の医療用語DB631には、隠語夫々には、医療機関IDが関連付付けられて、登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、取得した医療機関IDに基づき、適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。
【0062】
画像抽出部624は、医療用語が発音された時点に対応するフレーム(静止画)を、取得した内視鏡画像(動画)から抽出する。抽出するフレーム(静止画)の数は、1つに限定されず、当該医療用語が発音された期間にて撮像された全てのフレームを抽出するものであってもよい。画像抽出部624は、抽出したフレーム(静止画)を第1画像として出力する。第1画像は、医療用語が発音された時点に対応するものであり、当該時点にて撮像されたフレーム(静止画)であり、第1画像に含まれる体内部位において、病変の存在が疑われるものである。
【0063】
ラベル導出部625は、医療用語抽出部623から取得した一つ又は複数の医療用語に基づき、訓練データにおける正解データ(正解ラベル)に相当するラベルを生成し、出力する。ラベルは、例えば病変の有無、すなわち病変の存在又は不存在に関する情報である。または、ラベルは、病変の種類の名称等による症状に関する情報、または病変が発生した体内部位の場所、位置又は名称に関する情報を含むものであってもよい。
【0064】
訓練データ生成部626は、画像抽出部624から第1画像を取得し、ラベル導出部625からラベルを取得する。訓練データ生成部626は、取得した第1画像及びラベルに基づき、第1画像を問題データとし、ラベルを正解データ(正解ラベル)として、病変が存在する場合の訓練データを生成する。訓練データ生成部626は、生成した訓練データを出力して記憶部63に記憶する。訓練データ生成部626は、第1画像及びラベルを配列データの形式にて、記憶するものであってもよい。
【0065】
本実施形態において、一連の処理における各機能部を、内視鏡用プロセッサ20の制御部21による機能部夫々と、情報処理装置6の制御部62による機能部夫々とに分けて説明したが、これら機能部の分担は一例であり、これに限定されない。内視鏡用プロセッサ20の制御部21は、情報処理装置6の制御部62によって行われる全ての機能部として、機能するものであってもよい。すなわち、内視鏡用プロセッサ20が、実質的に情報処理装置6を含むものであってもよい。または、内視鏡用プロセッサ20の制御部21は、撮像素子が撮像した撮影画像及び、マイク17にて集音した音声データを出力するのみであり、情報処理装置6の制御部62は、以降の処理を行う全ての機能部として機能するものであってもよい。または、内視鏡用プロセッサ20の制御部21と、情報処理装置6の制御部62とは、例えばプロセス間通信を行うことにより、協働して一連の処理における各機能部として機能するものであってもよい。
【0066】
一回の内視鏡による検査によって、撮像された内視鏡画像及び記録された音声データが生成され、当該音声データには、医師等による複数回の発言が含まれる。これら複数回の発言には医療用語が含まれ、これら医療用語夫々が発声(発音)された時点又は期間に基づき、同時点にて撮像された内視鏡画像のフレーム(静止画)を、第1画像として特定する。医療用語が発声された時点に撮像された第1画像は、当該医療用語に関連する病変が存在するものである。従って、病変有を正解データとした場合の問題データに相当する大量の画像を効率的に抽出することができる。
【0067】
図6は、情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。本実施形態におけるフローチャートは、情報処理装置6が内視鏡装置10(内視鏡プロセッサ)から内視鏡画像等を取得するにあたり、これの前提的な処理となる内視鏡プロセッサの処理を含む。
【0068】
内視鏡プロセッサの制御部62は、操作者IDを取得する(S01)。内視鏡プロセッサの制御部62は、医療機関IDを取得する(S02)。内視鏡プロセッサの制御部62は、内視鏡の操作者である医師等によりキーボード15を介して入力された操作者ID及び医療機関IDを取得する。
【0069】
内視鏡プロセッサの制御部62は、内視鏡情報を取得する(S03)。内視鏡プロセッサの制御部62は、接続された内視鏡と、例えばチェックシーケンス等の通信を行い、当該内視鏡の種類に関する内視鏡情報を取得する。
【0070】
内視鏡プロセッサの制御部62は、撮影画像を取得し、内視鏡画像を生成する(S04)。 内視鏡プロセッサの制御部62は、取得した撮影画像に対し、シェーディング補正等の各種画像処理を行うことにより、医師等の操作者が目視し易い状態にした内視鏡画像を生成する。
【0071】
内視鏡プロセッサの制御部62は、音声データを取得する(S05)。内視鏡プロセッサの制御部62は、マイク17により集音した医師等の発言(音声)を含む音声データを取得し、補助記憶装置23等に記録する。
【0072】
内視鏡プロセッサの制御部62は、内視鏡画像及び音声データに経時要素を付加する(S06)。内視鏡プロセッサの制御部62は、内視鏡画像及び音声データにおいて時間軸上での対応がとれるように経時要素を付加する。
【0073】
内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等を出力する(S07)。内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等の取得又は生成した各種データを情報処理装置6に出力する。
【0074】
情報処理装置6の制御部62は、内視鏡装置10から、経時要素が付加された内視鏡画像及び音声データ、操作者ID等を取得する(S101)。制御部62は、内視鏡装置10から取得した各種データを記憶部63に記憶する。
【0075】
情報処理装置6の制御部62は、音声データに含まれる音声の認識処理を行う(S102)。制御部62は、音声データに含まれる音声の認識処理を行い、音声に含まれる発音に基づき、文字データを生成する。制御部62は、音声の認識処理を行うにあたり、取得した操作者IDに基づき音声を発した医師等を特定し、当該特定した医師による音声のみを認識して文字データを生成するものであってもよい。当該文字データには、文字データに含まれる用語が発音された時点に関する情報が、付与されている。上述のとおり、音声の認識処理を行うにあたり用いられる音響モデルには、操作者IDによって特定される医師等の音声が予め登録されている。制御部62は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。
【0076】
情報処理装置6の制御部62は、音声認識の結果に基づき、発音された医療用語の抽出を行う(S103)。制御部62は、音声に含まれる発音に基づき生成した文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出する。制御部62は、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。制御部62は、抽出した医療用語及び当該医療用語が発声された時点を関連付けて記憶部63に記憶する。上述のとおり、制御部62は、抽出した医療用語が隠語として医療用語DB631に登録されている場合、当該隠語と同義となる標準用語を、抽出した医療用語として記憶するものであってもよい。この場合、例えば、医師等の発言が「下部食道にK」であっても、「K」は隠語として処理され、「K」と同義となる標準用語の「癌」に変換され、「下部食道に癌」として医療用語が抽出される。
【0077】
制御部62は、医療用語DB631に登録されている隠語を適用する場合、入力された医療機関IDを用いて、適用する隠語群を確定するものであってもよい。医療用語DB631は、上述のとおり例えばRDBMSにより構成されており、医療用語のフィールドに格納される隠語夫々に対し、当該隠語が用いられる医療機関を識別する医療機関IDが登録されている。制御部62は、入力された医療機関IDを用いて、当該医療機関IDが登録されている隠語(当該医療機関IDと同一のレコードである隠語)を、適用対象の隠語群として抽出する。制御部62は、医師等の発言と、当該抽出した隠語群とを対比して、医師等の発言に含まれる隠語を特定し、特定した隠語と同義となる標準用語に変換して、医療用語を抽出する。本実施形態において、操作者ID及び医療機関IDを別個に取得するとしたが、これに限定されない。操作者IDには、当該操作者である医師等が属する医療機関を識別する番号(情報)が含まれており、制御部62は、操作者IDのみを取得し、当該操作者IDに含まれる医療機関を識別する番号を抽出する。制御部62は、抽出した当該番号(医療機関IDに相当)に基づき、医療用語DB631を用いて、適用対象の隠語群を抽出するものであってもよい。
【0078】
情報処理装置6の制御部62は、抽出した医療用語の発音時点に対応する第1画像(フレーム)を抽出する(S104)。制御部62は、抽出した医療用語の発音時点、すなわち医師等による当該医療用語を含む発言がされた期間を特定し、当該期間において撮像された内視鏡画像のフレーム(静止画)を第1画像として抽出する。
【0079】
情報処理装置6の制御部62は、抽出した医療用語に基づきラベルを導出する(S105)。抽出した医療用語が、例えば「下部食道に癌」等、複数の医療用語を含む場合、制御部62は、医療用語DB631を参照することにより、下部食道は病変の位置を示し、癌は病変の名称(種類)を示すものと判定し、判定結果に応じて、ラベルを生成(導出)する。一例として、「下部食道に癌」が抽出された場合、制御部62は、「病変:有/症状:癌/場所:下部食道」からなるラベルを生成(導出)する。
【0080】
情報処理装置6の制御部62は、第1画像及びラベルに基づき訓練データを生成する(S106)。制御部62は、抽出した医療用語が発せられた期間にて撮像されたフレームである第1画像を問題データとし、抽出した医療用語に基づき導出したラベルを正解データ(正解レベル)とする訓練データを生成する。例えば、抽出した医療用語が発せられた期間が2秒であり、フレームレートが50フレーム/秒(fps)の場合、当該抽出した医療用語に対応する第1画像は100枚となり、これら第1画像に対し同じラベルが付与されるものとなる。制御部62は、第1画像及びラベルから成る訓練データを例えば、オブジェクト型配列データの形式で生成する。または、制御部62は、第1画像及びラベルから成る訓練データを、予め構成されているデータベース(訓練データ用DB)の所定のフィールドに登録するものであってもよい。
【0081】
情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S107)。制御部62は、生成した訓練データと、内視鏡の種類等を含む内視鏡情報とを関連付けて記憶部63に記憶する。内視鏡の種類に応じて、検査対象の体内部位は異なるもとなるところ、訓練データと内視鏡情報とを関連付けて記憶することにより、内視鏡種類又は体内部位に応じた個々の学習済みモデルを生成することができる。
【0082】
図7は、第1学習済みモデル91の生成処理に関する説明図である。情報処理装置6は、生成した訓練データに基づき学習することで、内視鏡画像を入力とし、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力とする深層ニューラルネットワーク(第1学習済みモデル91)を構築(生成)する。上述のとおり、訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。
【0083】
訓練データを用いて学習された深層ニューラルネットワーク(第1学習済みモデル91)は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用が想定される。第1学習済みモデル91は、上述のごとく制御部62(CPU等)及び記憶部63を備える情報処理装置6にて用いられるものであり、このように演算処理能力を有する情報処理装置6にて実行されることにより、ニューラルネットワークシステムが構成される。すなわち、情報処理装置6の制御部62が、第1学習済みモデル91からの指令に従って、入力層に入力された内視鏡画像の特徴量を抽出する演算を行い、出力層から病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力するように動作する。
【0084】
入力層は、内視鏡画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値及び距離情報を中間層に受け渡す。中間層は、内視鏡画像の画像特徴量を抽出する複数のニューロンを有し、抽出した画像特徴量に基づくニューロンの活性状態を出力層に受け渡す。例えば第1学習済みモデル91がCNN(Convolutional Neural Network)である場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピング(圧縮)するプーリング層とが交互に連結された構成を有し、内視鏡画像の画素情報を圧縮しながら最終的に内視鏡画像の特徴量を抽出する。出力層は、当該内視鏡画像に含まれる体内部位における病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する一又は複数のニューロンを有し、中間層から出力された画像特徴量等に基づいて、病変の有無等に関する情報を出力する。当該出力される病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報は、医師等による診断支援情報として用いられる。
【0085】
本実施形態では、第1学習済みモデル91に入力されるデータは、内視鏡画像であるとして説明しているがこれに限定されない。第1学習済みモデル91に入力されるデータは、撮像素子が撮像した撮影画像であってもよい。すなわち、第1学習済みモデル91は、撮影画像及び距離情報が入力されることにより、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する。この場合、訓練データは撮影画像に基づき生成されていることが望ましい。
【0086】
情報処理装置6は、出力層から出力された値を、問題データ(第1画像)に対し、ラベル付けされた病変の有無等を含む情報、すなわち正解値(正解データ)と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば情報処理装置6は、誤差逆伝播法を用いて各種パラメータの最適化を行う。情報処理装置6は、訓練データを用いて上記の処理を行い、第1学習済みモデル91を生成し、生成した第1学習済みモデル91を記憶部63に記憶する。
【0087】
本実施形態において、情報処理装置6は、訓練データの生成及び、当該訓練データを用いた第1学習済みモデル91の生成を行うとしたが、これに限定されない。訓練データを用いた第1学習済みモデル91の生成は、訓練データの生成した情報処理装置6とは、異なる情報処理装置6で行うものであってもよい。
【0088】
図8は、情報処理装置6の制御部62による第1学習済みモデル91の生成処理に関する処理手順の一例を示すフローチャートである。情報処理装置6の制御部62は、訓練データを取得する(S120)。訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。
【0089】
このような訓練データの元データとなる内視鏡画像及び医師等の発言を記憶した音声データは、各医療機関において行われた内視鏡検査の結果データとして大量に保存されており、これら結果データを用いることにより、訓練データを大量に生成することができる。更に、音声データから医師等の発言における医療用語を抽出することにより、当該医療用語を含む発言がされた時点にて撮像された内視鏡画像のフレームを特定するため、病変が有とされるフレームを効率的に抽出し、多量の訓練データを生成する工数を削減して省力化することができる。
【0090】
情報処理装置6の制御部62は、第1学習済みモデル91を生成する(S121)。制御部62は、深層ニューラルネットワークに、取得した訓練データを用いて学習させることにより、第1学習済みモデル91を構築(生成)する。第1学習済みモデル91がニューラルネットワークである場合、中間層での演算処理に用いるパラメータは、例えば誤差逆伝播法を用いることにより、最適化される。
【0091】
本実施形態によれば、内視鏡により撮影した画像に関連付けられて記録された医師等の内視鏡の操作者による音声データの認識結果に基づき、当該画像に相関を有するラベルを導出し、画像及びラベルに基づいて、深層ニューラルネットワーク用の訓練データを生成する。訓練データにおいて、内視鏡により撮影した画像は問題データに相当し、画像と相関を有するラベルは正解データに相当するところ、正解データであるラベルを、画像と関連付けられて記録された音声データに基づき導出するため、正解データを効率的に導出することができ、訓練データを効率的に生成することができる。
【0092】
本実施形態によれば、ラベルは、画像に含まれる体内部位における病変の有無、病変の種類、又は病変の位置の少なくともいずれか一つに関する情報を含む。従って、当該画像を問題データとし、病変の有無、病変の種類又は病変の位置のいずれか一つ、又は全てを含む情報を正解データとする訓練データを、効率的に作成することができる。
【0093】
本実施形態によれば、音声データから認識した発音による用語と、医療用語DB631に予め記憶されている医療用語群との対比に基づき、前記画像と相関を有するラベルを導出するため、精度よくラベルを導出することができる。更に、医療用語DB631に予め記憶されている医療用語群は、隠語と、隠語と同義となる標準用語とを含み、認識した発音による用語が隠語である場合、隠語と同義となる標準用語に基づき、前記画像と相関を有するラベルを導出する。従って、医師等の内視鏡の操作者による発言において、隠語等が用いられ、表現揺れが発生した場合であっても、精度よくラベルを導出することができる。
【0094】
本実施形態によれば、医療用語群に含まれる用語が発声された時点に関する情報を取得し、当該用語が発せられた時点に対応する第1画像を特定する。従って、病変が疑われる体内部位が撮影された時点における第1画像を効率的に特定することができる。そして、特定した第1画像を問題データとした場合、正解データに相当するラベルに病変の存在に関する情報を含めることにより、病変有りとする訓練データを効率的に生成することができる。
【0095】
本実施形態によれば、撮像される体内部位、すなわち検査対処の体内部位に応じて、内視鏡の種類は異なるものとなる。これに対し、内視鏡の種類を含む内視鏡情報を取得し、当該内視鏡情報を訓練データに関連付けて記憶することにより、訓練データを効率的に管理し、内視鏡の種類夫々に適合した深層ニューラルネットワークに対する学習を、確実に行うことができる。
【0096】
本実施形態によれば、上述の方法により効率的に作成された訓練データを用いて深層ニューラルネットワークを学習させることにより、訓練データの生成に要する工数を削減しつつ、内視鏡により撮影した画像が入力された場合、当該画像に含まれる体内部位における病変の有無等を含む情報を出力する学習済みモデルを生成することができる。
【0097】
(実施形態2)
図9は、実施形態2(無声音時の訓練データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。
【0098】
情報処理装置6の制御部62は、実施形態1の処理S101からS105と同様に、S201からS205までの処理を行う。情報処理装置6の制御部62は、抽出した医療用語に基づき第1ラベルを導出する(S205)。情報処理装置6の制御部62は、第1画像及び第1ラベルに基づき、病変有の訓練データを生成する(S206)。S206までの処理を行うことにより、病変有等を含む第1ラベルを正解ラベルとする第1画像による訓練データを生成する。
【0099】
情報処理装置6の制御部62は、第1画像以外のフレームを第2画像として抽出する(S207)。制御部62は、取得した内視鏡画像において、第1画像として特定したフレーム(静止画)以外のフレームを第2画像として抽出し、特定する。
【0100】
情報処理装置6の制御部62は、病変無とする情報を、第2画像の第2ラベルとして導出する(S208)。第2画像は、医師等による発言がない期間(無声音の期間)、又は、医療用語が含まれない発言がされた期間にて、撮像された内視鏡画像のフレームに相当するものである。従って、制御部62は、これら第2画像に含まれる体内部位には、病変が存在しない(病変無)と判定することができる。制御部62は、例えば「病変:無/症状:無/場所:無」からなる第2ラベルを生成する。
【0101】
情報処理装置6の制御部62は、第2画像及び第2ラベルに基づき、病変無の訓練データを生成する(S209)。制御部62は、第2画像及び第2ラベルに基づき生成した訓練データ(病変無の訓練データ)を、S206で生成した訓練データ(病変有の訓練データ)に追加する。
【0102】
情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S210)。制御部62は、生成した訓練データ、すなわち病変有の訓練データと病変無の訓練データとを合体した訓練データを、実施形態1の処理(S107)と同様に記憶部63に記憶する。
【0103】
本実施形態によれば、第1画像以外の第2画像が撮像された時点においては、医療用語群に含まれる用語が発せられていないため、これら第2画像を問題データとした場合、正解データに相当するラベルに病変の不存在に関する情報を含めることにより、病変無しとする訓練データを効率的に生成することができる。
【0104】
(実施形態3)
図10は、実施形態3(拡大率)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS301からS304までの処理を行う。
【0105】
情報処理装置6の制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、拡大率が異なる画像(フレーム)を第1画像として抽出する(S305)。制御部62は、抽出した第1画像以外であって、当該第1画像の前後に位置するフレームに対し、当該フレームが第1画像と同一の体内部位を撮像したフレームであるか、及び拡大率が異なるものであるかを判定する。制御部62は、抽出した第1画像から病変に相当に特徴量を抽出し、当該第1画像以外のフレームにおいて抽出した特徴量と同様又は近似する特徴量を含むフレームであって、当該第1画像とは拡大率が異なるフレームを抽出する。制御部62は、抽出した第1画像に対し例えば、エッジ検出、予め登録されている病変に相当する色彩又は形状とのパターンマッチング等により、病変に相当に特徴量を抽出する。制御部62は、例えば、抽出した特徴量の部位のフレーム内におけるサイズを比較することにより、拡大率の同異を認識する。
【0106】
制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、当該第1画像の拡大率よりも小さい拡大率のフレームを第1画像として抽出するものであってもよい。医師等が内視鏡画像を参照して検査又は診断を行う場合、拡大率が小さい画像(フレーム)の場合は、当該画像(フレーム)に病変の存在が疑われる場合、確定的な発言を控え無言となることがあり、拡大率を大きくすることにより病変の存在を認識し医療用語を含む発言をすることが想定される。このような場合、拡大率が小さい画像(フレーム)が撮像された時点の音声データは無言となり、当該画像(フレーム)は、第1画像として抽出されないものとなるが、上記の処理を行うことにより、拡大率が大きい第1画像との連関性に基づき、当該拡大率が小さい画像(フレーム)を第1画像として抽出することができる。
【0107】
情報処理装置6の制御部62は、実施形態1の処理S105からS107と同様にS306からS308までの処理を行う。
【0108】
本実施形態によれば、拡大率の異なる複数の画像が同一の体内部位を含む場合、拡大率の異なる複数の画像のいずれかの画像を第1画像と特定した場合、当該特定したいずれかの画像よりも拡大率が小さい画像についても、第1画像と特定する。従って、拡大率を大きくした画像が撮像された時点における医師等の発言を、当該画像よりも拡大率が小さい画像に対し適用し、これら拡大率が小さい画像と相関を有するラベルを精度よく導出することができる。
【0109】
(実施形態4)
図11は、実施形態4(病変有無の確度)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS401からS404までの処理を行う。
【0110】
情報処理装置6の制御部62は、抽出した第1画像の前後に位置する複数の画像(フレーム)における変化量に基づき、病変有無の確度に関する情報を導出する(S405)。制御部62は、抽出した第1画像と、当該第1画像の前後に位置する複数の画像(フレーム)とにおいて、画素単位での変化量を導出し、導出した変化量に基づき病変有無の確度に関する情報を導出する。すなわち、抽出した第1画像との変化量が所定値以下のフレームが、例えば200枚であり、フレームレートが50fpsの場合、医師は4秒間に亘って同一の体内部位を参照しているものとなる。すなわち、この期間においては、内視鏡画像は、見た目上、停止した状態となる。このように停止した状態、すなわち抽出した第1画像との変化量が所定値以下のフレームが連続した場合、医師は判断に迷っている可能性ある。従って、制御部62は、当該連続するフレームの枚数に基づき決定される期間に応じて、病変有無等の確度に関する情報を導出する。例えば、制御部62は、当該期間が長くなるにつれて、病変有無等の確度を下げて導出するものであってもよい。
【0111】
情報処理装置6の制御部62は、抽出した医療用語及び導出した確度に基づきラベルを導出する(S406)。制御部62は、一例として、「病変:有/症状:癌/場所:下部食道/確度:80%」からなるラベルを生成する。制御部62は、実施形態1の処理S106、S107と同様にS407、S408の処理を行う。
【0112】
本実施形態によれば、病変の存在又は不存在の判断が困難な場合、医師等は内視鏡の移動を停止し、特定の体内部位を注視する傾向がある。これに対し、単位時間における動画像の変化量に基づいて、病変の存在の確度に関する情報を導出し、ラベルに含めることにより、医師等による特定の部位に対する注視度合を加味した情報をラベルに含めることができる。
【0113】
(実施形態5)
図12は、実施形態5(被検者の音声データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS501からS504までの処理を行う。本実施形態においては、マイク17によって集音し記録した音声データには、被検者による発声が含まれている。又は、情報処理装置6の制御部62は、医師等による音声データとは別個のデータとして、被検者による音声データを取得するものであってもよい。
【0114】
情報処理装置6の制御部62は、第1画像(フレーム)に対応する被検者の音声データを取得する(S505)。制御部62は、抽出した第1画像(フレーム)が撮像された時点において、発生された被検者の音声データを取得する。当該被検者の音声データの取得は、内視鏡用プロセッサ20から出力された音声データの内、当該被検者による発声が行われた期間の部分データを切り出すことにより、行われるものであってもよい。又は、制御部62は、内視鏡用プロセッサ20から出力された音声データに対し、上述した音響モデルを用いることにより、被検者による発声の音素を特定し、当該被検者による発声が行われた期間の部分データを切り出すことにより被検者の音声データを取得するものであってもよい。制御部62は、当該被検者による発声が行われた期間に基づき、撮像された時点が一致又は近接することにより対応する第1画像を特定するものであってもよい。
【0115】
情報処理装置6の制御部62は、実施形態1の処理S105と同様にS506の処理を行う。
【0116】
情報処理装置6の制御部62は、第1画像、被検者の音声データ及びラベルに基づき訓練データを生成する(S507)。制御部62は、問題データを第1画像及び被検者の音声データとし、正解データを導出したラベルとする訓練データを生成する。情報処理装置6の制御部62は、実施形態1の処理S107と同様にS508の処理を行う。
【0117】
本実施形態によれば、内視鏡の被検者による音声データを取得することにより、内視鏡により撮影した画像及び内視鏡の被検者による音声データを組み合わせた訓練データを生成することができる。このように被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92(
図13参照)用の訓練データを、効率的に生成することができる。
【0118】
図13は、第2学習済みモデル92の生成処理に関する説明図である。情報処理装置6は、第1画像及び被検者の音声データを問題データとし、病変の有無、症状及び病変の場所を正解データとする訓練データに基づき学習することで、第1画像及び被検者の音声データを入力とし、病変の有無、症状及び病変の場所を出力とする深層ニューラルネットワーク(第2学習済みモデル92)を構築(生成)する。
【0119】
第2学習済みモデル92は、第1学習済みモデル91と同様に入力層、中間層及び出力層を含む。音声データは、例えばLibROSA等の音声分析ライブラリを用いて配列化し、画像データと同様にCNNの入力データとして用いるものであってもよい。又は、マルチモーダルディープラーニングを用い、音声データが入力される入力層の次にLSTM(Long short term memory)等による自己回帰層を設け、当該自己回帰層からの出力と、CNNにより内視鏡画像の特徴量を抽出する中間層からの出力とを、全結合層により結合して出力層に受け渡すものであってよい。
【0120】
本実施形態によれば、被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92を効率的に生成することができる。
【0121】
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、請求の範囲内での全ての変更及び請求の範囲と均等の範囲が含まれることが意図される。
【符号の説明】
【0122】
S 訓練データ生成システム
10 内視鏡装置
15 キーボード
16 収容棚
17 マイク
20 内視鏡用プロセッサ
21 制御部
211 画像処理部
212 時計部
213 情報連関部
22 主記憶装置
23 補助記憶装置
24 通信部
25 タッチパネル
26 表示装置I/F
27 入力装置I/F
28 読取部
31 内視鏡用コネクタ
311 電気コネクタ
312 光コネクタ
33 光源
34 ポンプ
35 送水タンク
36 送気送水口金
40 内視鏡
43 操作部
431 制御ボタン
433 湾曲ノブ
44 挿入部
441 軟性部
442 湾曲部
443 先端部
45 折止部
48 スコープコネクタ
49 ユニバーサルコード
50 表示装置
6 情報処理装置
61 通信部
62 制御部
621 取得部
622 音声認識部
623 医療用語抽出部
624 画像抽出部
625 ラベル導出部
626 訓練データ生成部
63 記憶部
631 医療用語DB
632 記録媒体
P プログラム
64 入出力I/F
7 表示部
8 入力部
91 第1学習済みモデル
92 第2学習済みモデル
【国際調査報告】