再表2021-33303 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＨＯＹＡ株式会社の特許一覧

再表2021-33303訓練データ生成方法、学習済みモデル及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

【公報種別】再公表特許(A1)

(11)【国際公開番号】WO/0

(43)【国際公開日】2021年2月25日

【発行日】2021年12月2日

(54)【発明の名称】訓練データ生成方法、学習済みモデル及び情報処理装置

(51)【国際特許分類】

A61B 1/045 20060101AFI20211105BHJP

A61B 1/00 20060101ALI20211105BHJP

【ＦＩ】

A61B1/045 614

A61B1/00 640

【審査請求】有

【予備審査請求】未請求

【全頁数】29

【出願番号】特願2021-541421(P2021-541421)

(21)【国際出願番号】PCT/0/0

(22)【国際出願日】2019年8月22日

(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT

(71)【出願人】

【識別番号】000113263

【氏名又は名称】ＨＯＹＡ株式会社

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】佐藤伶

【テーマコード（参考）】

4C161

【Ｆターム（参考）】

4C161CC06

4C161DD03

4C161HH55

4C161JJ18

4C161LL02

4C161QQ02

4C161YY07

4C161YY12

4C161YY14

(57)【要約】

訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。

【特許請求の範囲】

【請求項1】

内視鏡により撮影した画像を取得し、
取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する
処理をコンピュータに実行させる訓練データ生成方法。

【請求項2】

前記ラベルは、前記画像に含まれる体内部位における病変の存在もしくは不存在、病変の種類、又は病変の位置のいずれか一つに関する情報を含む
請求項１のいずれか１項に記載の訓練データ生成方法。

【請求項3】

前記音声データの認識は、前記音声データにおける発音を認識する処理を含み、
認識した発音による用語と、予め記憶されている医療用語群との対比に基づき、医療用語を特定し、
特定した医療用語に基づき、前記ラベルを生成する
請求項１又は請求項２に記載の訓練データ生成方法。

【請求項4】

前記医療用語群は、隠語と、前記隠語と同義となる標準用語とを含み、
認識した発音による用語が前記隠語である場合、前記隠語と同義となる標準用語に基づき、前記医療用語を特定する
請求項３に記載の訓練データ生成方法。

【請求項5】

前記画像と前記操作者の音声データとの関連付けは、経時要素に基づくものであり、
前記画像において、前記操作者の音声データに含まれる発声時に対応する第１画像を特定し、
特定した前記第１画像に関連付けられるラベルに、病変の存在に関する情報を含め、
前記画像において、前記第１画像以外の画像となる第２画像に関連付けられるラベルに、病変の不存在に関する情報を含める
請求項１から請求項４のいずれか１項に記載の訓練データ生成方法。

【請求項6】

前記画像は、同一の体内部位を含む拡大率の異なる複数の画像を含み、
前記拡大率の異なる複数の画像には、同一のラベルを関連付ける
請求項１から請求項５のいずれか１項に記載の訓練データ生成方法。

【請求項7】

前記内視鏡により撮影した前記画像は、動画像であり、
単位時間における前記動画像の変化量に基づいて、病変の存在の確度に関する情報を前記ラベルに含める
請求項１から請求項６のいずれか１項に記載の訓練データ生成方法。

【請求項8】

前記内視鏡の被検者による音声データを取得し、
生成した前記ラベルと、前記画像及び前記内視鏡の被検者による音声データとに基づいて、前記深層ニューラルネットワーク用の訓練データを生成する
請求項１から請求項７のいずれか１項に記載の訓練データ生成方法。

【請求項9】

前記内視鏡の種類を含む内視鏡情報を取得し、
取得した前記内視鏡情報を前記訓練データに関連付けて記憶する
請求項１から請求項８のいずれか１項に記載の訓練データ生成方法。

【請求項10】

請求項１から請求項９のいずれか１項に記載の訓練データ生成方法によって生成した前記訓練データを用いて学習させた学習済みモデル。

【請求項11】

内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部と
を備える情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、訓練データ生成方法、学習済みモデル及び情報処理装置に関する。

【背景技術】

【0002】

内視鏡画像等の医用画像から、学習モデルを使用して病変部位を自動的に検出するコンピュータ支援診断技術が開発されている。正解ラベルが付与された訓練データを用いた教師あり機械学習により、学習モデルを生成する手法が知られている。

【0003】

通常の内視鏡で撮影された画像群を訓練データに用いた第１の学習と、カプセル内視鏡で撮影された画像群を訓練データに用いた第２の学習とを組み合わせる学習方法にて学習される学習モデル及び、学習モデルを含む学習システム当該が、開示されている（例えば、特許文献１）。特許文献１の学習システムは、消化器内視鏡及びカプセル型内視鏡によって撮像した画像群から、ランドマークが写る画像とそうでない画像を予め選択し、選択した夫々の画像及び正解ラベルを記録する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】国際公開第２０１７／１７５２８２号

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に記載の学習モデルを学習されるための訓練データを生成するにあたり、画像夫々を選択し、当該選択結果に基づきこれら画像夫々に正解ラベルを付与する必要があるところ、特許文献１の学習システムにおいては、係る訓練データを効率的に生成する点については、考慮されていない。

【0006】

一つの側面では、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することを目的とする。

【課題を解決するための手段】

【0007】

本開示の一態様における訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。

【0008】

本開示の一態様における学習済みモデルは、本開示の一態様における訓練データ生成方法によって生成した前記訓練データを用いて学習させたものである。

【0009】

本開示の一態様における情報処理装置は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部とを備える。

【発明の効果】

【0010】

本開示によれば、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することができる。

【図面の簡単な説明】

【0011】

【図1】実施形態１に係る訓練データ生成システムの概要を示す模式図である。

【図2】訓練データ生成システムに含まれる内視鏡装置（マイク）の構成例を示すブロック図である。

【図3】訓練データ生成システムに含まれる情報処理装置の構成例を示すブロック図である。

【図4】医療用語ＤＢのデータレイアウトを例示する説明図である。

【図5】情報処理装置等の制御部に含まれる機能部を例示する機能ブロック図である。

【図6】情報処理装置の制御部による処理手順の一例を示すフローチャートである。

【図7】第１学習済みモデルの生成処理に関する説明図である。

【図8】情報処理装置の制御部による第１学習済みモデルの生成処理に関する処理手順の一例を示すフローチャートである。

【図9】実施形態２（無声音時の訓練データ）に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。

【図10】実施形態３（拡大率）に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。

【図11】実施形態４（病変有無の確度）に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。

【図12】実施形態５（被検者の音声データ）に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。

【図13】第２学習済みモデルの生成処理に関する説明図である。

【発明を実施するための形態】

【0012】

（実施形態１）
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図１は、実施形態１に係る訓練データ生成システムＳの概要を示す模式図である。訓練データ生成システムＳは、内視鏡装置１０及び、内視鏡装置１０と通信可能に接続される情報処理装置６を含む。

【0013】

内視鏡装置１０は、内視鏡の撮影素子によって撮影した画像（撮影画像）を内視鏡用プロセッサ２０に伝送し、内視鏡用プロセッサ２０によってガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行うことにより、操作者が目視し易い状態にした内視鏡画像を生成する。

【0014】

内視鏡装置１０には、マイク１７が接続されており、マイク１７により集音した医師等の発言（音声）を、音声データとして記録する。内視鏡装置１０は、内視鏡画像及び音声データに対し、撮像開始時刻及び音声記録開始時刻等の経時要素を付加し又は関連付けて、内視鏡画像及び音声データにおける時間軸を対応させて、これら内視鏡画像及び音声データを記憶し、情報処理装置６に出力する。マイク１７は、有線マイクに限定されず、例えばＢｌｕｅｔｏｏｔｈ（登録商標）等を用いた無線マイクであってもよい。

【0015】

内視鏡装置１０から送信された、経時要素が付加又は関連付けされた内視鏡画像及び音声データを取得した情報処理装置６は、これら内視鏡画像及び音声データに基づき、種々の情報処理を行い、深層ニューラルネットワーク用の訓練データを生成し、記録及び出力する。

【0016】

本実施形態では、内視鏡装置１０は、撮影画像、すなわち生画像を補正した内視鏡画像を情報処理装置６に出力するとしたが、これに限定されない。内視鏡装置１０は、撮影画像に経時要素を付加し、撮影画像及び音声データにおける時間軸を対応させて、これら撮影画像及び音声データを記憶し、情報処理装置６に出力するものであってもよい。この場合、情報処理装置６は、撮像画像に基づき一連の処理を行い、訓練データを生成する。

【0017】

図２は、訓練データ生成システムＳに含まれる内視鏡装置１０の構成例を示すブロック図である。図３は、訓練データ生成システムＳに含まれる情報処理装置６の構成例を示すブロック図である。内視鏡装置１０は、内視鏡用プロセッサ２０と、内視鏡４０と、表示装置５０とを含む。表示装置５０は、たとえば液晶表示装置、または、有機ＥＬ（Electro Luminescence）表示装置である。

【0018】

表示装置５０はキャスター付きの収容棚１６の上段に設置されている。内視鏡用プロセッサ２０は、収容棚１６の中段に収容されている。収容棚１６は、図示を省略する内視鏡検査用ベッドの近傍に配置される。収容棚１６は内視鏡用プロセッサ２０に接続されたキーボード１５を搭載する、引き出し式の棚を有する。

【0019】

内視鏡用プロセッサ２０は、略直方体形状であり、一面にタッチパネル２５を備える。タッチパネル２５の下部に、読取部２８が配置されている。読取部２８は、たとえばＵＳＢコネクタ、ＳＤ（Secure Digital）カードスロット、またはＣＤ−ＲＯＭ（Compact Disc Read Only Memory）ドライブ等の、可搬型記録媒体の読み書きを行なう接続用インターフェイスである。

【0020】

内視鏡４０は、挿入部４４、操作部４３、ユニバーサルコード４９およびスコープコネクタ４８を有する。操作部４３には、制御ボタン４３１が設けられている。挿入部４４は長尺であり、一端が折止部４５を介して操作部４３に接続されている。挿入部４４は、操作部４３側から順に軟性部４４１、湾曲部４４２および先端部４４３を有する。湾曲部４４２は、湾曲ノブ４３３の操作に応じて湾曲する。挿入部４４には、３軸加速度センサ、ジャイロセンサ、地磁気センサ又は磁気コイルセンサ等の物理検出装置が実装され、内視鏡４０が被検者の体内に挿入された際、これら物理検出装置からの検出結果を取得するものであってもよい。

【0021】

ユニバーサルコード４９は長尺であり、第一端が操作部４３に、第二端がスコープコネクタ４８にそれぞれ接続されている。ユニバーサルコード４９は、軟性である。スコープコネクタ４８は略直方体形状である。スコープコネクタ４８には、送気送水用のチューブを接続する送気送水口金３６（図２参照）が設けられている。

【0022】

内視鏡装置１０は、内視鏡用プロセッサ２０と、内視鏡４０と、表示装置５０とを含む。内視鏡用プロセッサ２０は、タッチパネル２５および読取部２８に加えて、制御部２１、主記憶装置２２、補助記憶装置２３、通信部２４、表示装置Ｉ／Ｆ（Interface）２６、入力装置Ｉ／Ｆ２７、内視鏡用コネクタ３１、光源３３、ポンプ３４およびバスを備える。内視鏡用コネクタ３１は、電気コネクタ３１１および光コネクタ３１２を含む。

【0023】

制御部２１は、本実施の形態のプログラムを実行する演算制御装置である。制御部２１には、一または複数のＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）又はマルチコアＣＰＵ等が使用される。制御部２１は、バスを介して内視鏡用プロセッサ２０を構成するハードウェア各部と接続されている。

【0024】

主記憶装置２２は、例えば、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の記憶装置である。主記憶装置２２には、制御部２１が行なう処理の途中で必要な情報および制御部２１で実行中のプログラムが一時的に保存される。補助記憶装置２３は、例えば、ＳＲＡＭ、フラッシュメモリまたはハードディスク等の記憶装置であり、主記憶装置２２よりも大容量の記憶装置である。補助記憶装置２３には、例えば、取得した撮影画像、生成した内視鏡画像又は、音声データデータが、中間データとして保存されるものであってもよい。

【0025】

通信部２４は、有線又は無線によりネットワークを介して情報処理装置と通信するための通信モジュール又は通信インターフェイスであり、例えばｗｉｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の狭域無線通信モジュール、又は４Ｇ、ＬＴＥ等の広域無線通信モジュールである。タッチパネル２５は、液晶表示パネル等の表示部と、表示部に積層された入力部を含む。

【0026】

表示装置Ｉ／Ｆ２６は、内視鏡用プロセッサ２０と表示装置５０とを接続するインターフェイスである。入力装置Ｉ／Ｆ２７は、内視鏡用プロセッサ２０とキーボード１５、マイク１７等の入力装置とを接続するインターフェイスである。

【0027】

光源３３は、たとえば白色ＬＥＤ又はキセノンランプ等の高輝度の白色光源である。光源３３は、図示を省略するドライバを介してバスに接続されている。光源３３の点灯、消灯および明るさの変更は、制御部２１により制御される。光源３３から照射した照明光は、光コネクタ３１２に入射する。光コネクタ３１２は、スコープコネクタ４８と係合し、内視鏡４０に照明光を供給する。

【0028】

ポンプ３４は、内視鏡４０の送気・送水機能用の圧力を発生させる。ポンプ３４は、図示を省略するドライバを介してバスに接続されている。ポンプ３４のオン、オフおよび圧力の変更は、制御部２１により制御される。ポンプ３４は、送水タンク３５を介して、スコープコネクタ４８に設けられた送気送水口金３６に接続される。

【0029】

内視鏡用プロセッサ２０に接続された内視鏡４０の機能の概略を説明する。スコープコネクタ４８、ユニバーサルコード４９、操作部４３および挿入部４４の内部に、ファイバーバンドル、ケーブル束、送気チューブおよび送水チューブ等が挿通されている。光源３３から出射した照明光は、光コネクタ３１２およびファイバーバンドルを介して、先端部４４３に設けられた照明窓から放射される。照明光により照らされた範囲を、先端部４４３に設けられた撮像素子で撮影する。撮像素子からケーブル束および電気コネクタ３１１を介して内視鏡用プロセッサ２０に撮影画像が伝送される。

【0030】

情報処理装置６は、制御部６２、通信部６１、記憶部６３及び入出力Ｉ／Ｆ６４を含む。制御部６２は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の計時機能を備えた演算処理装置を有し、記憶部６３に記憶されたプログラムＰを読み出して実行することにより、情報処理装置６に係る種々の情報処理、制御処理等を行う。又は、制御部６２は量子コンピュータ用チップで構成されており、情報処理装置６は量子コンピュータであってもよい。

【0031】

記憶部６３は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の揮発性記憶領域及び、ＥＥＰＲＯＭ又はハードディスク等の不揮発性記憶領域を含む。記憶部６３には、プログラムＰ及び処理時に参照するデータがあらかじめ記憶してある。記憶部６３に記憶されたプログラムＰは、情報処理装置６が読み取り可能な記録媒体６３２から読み出されたプログラムＰを記憶したものであってもよい。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラムＰをダウンロードし、記憶部６３に記憶させたものであってもよい。記憶部６３には、後述する第１学習済みモデル９１及び第２学習済みモデル９２の実体ファイル（深層ニューラルネットワーク（ＤＮＮ）のインスタンスファイル）が保存されている。記憶部６３には、後述する医療用語ＤＢ６３１(DataBase)が記憶されている。

【0032】

通信部６１は、有線又は無線により、内視鏡装置１０と通信するための通信モジュール又は通信インターフェイスであり、例えばｗｉｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の狭域無線通信モジュール、又は４Ｇ、ＬＴＥ等の広域無線通信モジュールである。

【0033】

入出力Ｉ／Ｆ６４は、例えば、ＵＳＢ又はＤＳＵＢ等の通信規格に準拠したものであり、入出力Ｉ／Ｆ６４に接続された外部機器とシリアル通信するための通信インターフェイスである。入出力Ｉ／Ｆ６４には、例えばディプレイ等の表示部７、キーボード等の入力部８が接続されており、制御部６２は、入力部８から入力された実行コマンド又はイベントに基づき行った情報処理の結果を表示部７に出力する。

【0034】

図４は、医療用語ＤＢ６３１のデータレイアウトを例示する説明図である。医療用語ＤＢ６３１は、管理項目（メタデータ）として、例えば、医療用語、隠語フラグ、標準用語、用語区分、及び医療機関ＩＤを含む。医療用語ＤＢ６３１は、情報処理装置６の記憶部６３に記憶されており、情報処理装置６に実装されているＲＤＢＭＳ（Relational DataBase Management System）等のデータベース管理ソフトウェアにより構成される。

【0035】

医療用語の項目（フィールド）には、病変の名称又は症状を示す用語（病変種類名）、及び病変が発生している位置、場所又は体内部位の名称を示す用語（病変位置名）が、格納される。病変の名称又は症状を示す用語（病変種類名）は、例えば、癌、ポリープ等の医学的に定義されている標準的な用語（標準用語）であり、更に実質的にこれら標準的な用語を意味する隠語を含む。隠語とは、例えば”Ｋ”であり、当該Ｋは、標準的な用語である癌を示すものであり、Ｋと癌とは同義である。病変が発生している位置、場所又は体内部位の名称を示す用語（病変位置名）は、例えば、上部食道、下部食道であり、病変種類名と同様に、実質的にこれら標準的な用語を意味する隠語を含むものであってもよい。医療用語等の項目（フィールド）に格納される用語は、日本語に限定されるものでなく、英語、中国語又はドイツ語等を含む多言語対応されたものであってもよい。

【0036】

隠語フラグの項目（フィールド）には、格納されている医療用語が、隠語であるか否かを示すフラグデータが、格納される。格納されている医療用語に対し、隠語フラグを設定することにより、当該医療用語が隠語であるか否かを判定することができ、当該判定結果に基づき後処理を行うことができる。

【0037】

標準用語の項目（フィールド）には、隠語に対応する標準用語が格納される。格納されている医療用語が隠語である場合、隠語に対応する標準用語が格納される。従って、隠語から標準用語への読み替え又は変換を行うことができる。格納されている医療用語が隠語でない場合、変換等の必要がないため、標準用語の項目（フィールド）には、データが登録されないもの（ｎｕｌｌ）であってもよい。

【0038】

用語区分の項目（フィールド）には、当該医療用語が、病変の種類に関する用語であるか、または病変の位置に関する用語であるかを区分する情報が格納される。医師等による発言は、病変の種類及び位置に関する事項が混在するところ、このように医療用語を区分化することにより、後述する画像に関連付ける正解データにおいて、病変の種類及び位置を区分化して含めることができる。

【0039】

医療機関ＩＤの項目（フィールド）には、医療用語が隠語である場合、当該隠語が用いられる医療機関を識別するための医療機関ＩＤの番号等が、格納される。隠語は、同一の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、隠語夫々には、医療機関ＩＤが関連付けらて登録されている。従って、医療機関ＩＤに基づき適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。

【0040】

図５は、情報処理装置６等の制御部６２に含まれる機能部を例示する機能ブロック図である。内視鏡用プロセッサ２０の制御部２１は、主記憶装置に記憶されているプログラムを実行することにより、画像処理部２１１、時計部２１２及び情報連関部２１３として機能する。情報処理装置６の制御部６２は、記憶部６３に記憶されているプログラムＰを実行することにより、取得部６２１、音声認識部６２２、医療用語抽出部６２３、画像抽出部６２４、ラベル導出部６２５、及び訓練データ生成部６２６として機能する。

【0041】

画像処理部２１１は、内視鏡から出力された画像（撮影画像）をガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行い、内視鏡画像として出力する。

【0042】

時計部２１２は、時計機能を備え、例えば、撮影画像の撮像開始時刻及びマイク１７による音声の記録開始時刻を取得し、情報連関部２１３に出力する。又は、時計部２１２は、撮影画像の撮像開始時刻と、音声の記録開始時刻との時間差を図り、情報連関部２１３に出力するものであってもよい。

【0043】

情報連関部２１３は、キーボード１５を介して入力された医療機関ＩＤ、操作者ＩＤを取得する。医療機関ＩＤは、医療機関を識別するための識別子である。操作者ＩＤは、内視鏡装置１０の操作者、すなわち内視鏡装置１０を用いて被検者を診察する医師を識別するための識別子である。

【0044】

情報連関部２１３は、接続された内視鏡から出力される内視鏡情報を取得する。内視鏡情報は、例えば気管支用内視鏡、上部消化管汎用内視鏡又は腹腔鏡等の内視鏡の種類に関する情報を含む。

【0045】

情報連関部２１３は、マイク１７で集音された音声による音声データ、及び画像処理部２１１から出力された内視鏡画像を取得する。情報連関部２１３は、時計部２１２から出力される撮影画像の撮像開始時刻及びマイク１７による音声の記録開始時刻等の経時要素を取得する。情報連関部２１３は、取得した内視鏡画像及び音声データとの関連付けを経時要素を付与することにより行う。情報連関部２１３は、経時要素を付与するにあたり、例えば、撮像開始時刻と内視鏡画像とを関連付ける。または、情報連関部２１３は、内視鏡画像を撮像するにあたり決定されるサンプリングタイム（フレームレート）に基づき、内視鏡画像に含まれる各フレーム（静止画）夫々に、当該フレームが撮像された時点を示す情報（タイムスタンプ）を付与するものであってもよい。情報連関部２１３は、経時要素を付与するにあたり、例えば、音声の記録開始時刻と音声データとを関連付ける。

【0046】

撮影画像の撮像開始時刻及びマイク１７による音声の記録開始時刻を取得し、関連付けることにより、撮影画像及び音声データが、同一の時間軸上にて進行するものとし、時間経過に基づき、内視鏡画像におけるフレーム（静止画）と、音声データにおける医師等の発音とを連関させて対応させることができる。すなわち、撮影画像が動画である場合、音声の記録開始時刻から所定時間経過した時点を特定した場合、当該時点にて撮像された撮影画像（動画）に含まれるフレーム（静止画）を特定することができる。上述のとおり、内視鏡画像は、撮影画像を補正処理したものであるため、内視鏡画像においても、当該時点にて撮像された内視鏡画像に含まれるフレーム（静止画）を特定することができることは、言うまでもない。

【0047】

情報連関部２１３は、撮像開始時刻と内視鏡画像とを関連付け、音声の記録開始時刻と音声データとを関連付けるとしたが、これに限定されない。撮像開始時刻と音声の記録開始時刻とが同時である場合、情報連関部２１３は、撮像開始時刻と音声の記録開始時刻とが同時である旨を示す情報を、内視鏡画像及び音声データに付加するものであってもよい。

【0048】

内視鏡によって撮像された撮像画像と、マイク１７によって集音され記憶した音声データとが、別データであるとして説明したが、これに限定されない。情報連関部２１３は、撮像画像及び音声データが一体化した、例えば、ＡＶＩ形式の動画データを取得又は生成するものであってもよい。この場合、内視鏡が撮像した撮像画像は、動画データにおける映像コーディックとなり、マイク１７にて集音及び記憶した音声データは音声コーディックとなり、当該動画データに含まれるメタ情報により映像コーディック及び音声コーディックが同期され、撮像画像及び音声データは、経時要素によって関連付けられる。

【0049】

内視鏡画像が動画である場合、フレームレートに基づき静止画が撮影される。音声データは、サンプリングレイトに基づき、音素となる周波数がサンプリングされる。従って、内視鏡画像の撮像開始時刻からの経過時間により特定される時点と、音声の記録開始時刻からの経過時間により特定される時点は、フレームレート及びサンプリングレイトに基づき導出することができる。

【0050】

情報連関部２１３は、取得した医療機関ＩＤ、操作者ＩＤ、内視鏡情報、経時要素を付加した内視鏡画像及び音声データを関連付けて、情報処理装置６に出力する。情報連関部２１３は、これら関連付けられた複数の情報及びデータを単一のアーカイブファイルとして出力するものであってもよい。

【0051】

本実施形態では、情報連関部２１３は、撮像画像を補正して生成した内視鏡画像に経時要素を付加し、音声データ及び操作者ＩＤ等の他データを関連付けるとしたが、これに限定されない。情報連関部２１３は、撮像画像に経時要素を付加し、音声データ及び操作者ＩＤ等の他データを関連付けて出力するものであってもよい。この場合、情報処理装置６における各機能部は、撮像画像に基づき一連の処理を行い、訓練データを生成する。

【0052】

取得部６２１は、内視鏡装置１０の情報連関部２１３から出力された医療機関ＩＤ、操作者ＩＤ、内視鏡情報、経時要素が関連付けられた内視鏡画像及び音声データを取得する。これら関連付けられた複数の情報及びデータが単一のアーカイブファイルとして出力された場合、取得部６２１は、当該アーカイブファイルを解凍し、個々のデータに展開するものであってもよい。

【0053】

取得部６２１は、操作者ＩＤ及び経時要素が関連付けられた音声データを、音声認識部６２２に出力する。取得部６２１は、内視鏡情報を訓練データ生成部６２６に出力する。取得部６２１は、経時要素が関連付けられた内視鏡画像を画像抽出部６２４に出力する。取得部６２１は、医療機関ＩＤを医療用語抽出部６２３に出力する。

【0054】

音声認識部６２２は、例えば音響モデル、発音辞書及び言語モデル等のサブモジュールを含む。音響モデルは、周波数成分や時間変化の分析を行い、音声、すなわち発音と、音響モデルの元となる音素夫々との近似量を計算し、最も近似する音素を特定する。特定した音素の組合せにより音素列が生成される。発音辞書は、生成された音素列との一致度合いに基づき、発音された用語（単語）を特定する。言語モデルは、特定した単語による単語列（文字列）が、適切であるかを評価するために用いられるモデルであり、単語や文字列の出現確率をデータ化したものである。音声認識部６２２は、これらサブモジュールを用いて、入力された音声を、音波に変換し、音波から音素を特定する。特定した音素の並びを、予め登録した発音辞書とマッチングを行い単語に変換し、変換した単語による単語列（文字列）が適切な文章となるように言語モデルを用いて評価することにより文書を生成する。音声認識部６２２は、生成した文書を例えば文字データの形式で出力する。音声認識部６２２は、文字データに含まれる単語と、当該単語が発音された時点又はタイムスタンプに関する情報とを、関連付けて出力する。

【0055】

操作者ＩＤによって特定される医師等の音声は、予め音響モデルに登録されており、音声認識部６２２は、記録された音声が内視鏡の操作者である医師であるか、被検者（患者）等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。

【0056】

医療用語抽出部６２３は、文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出し、抽出した単語夫々と、医療用語ＤＢ６３１に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。

【0057】

このように医療用語ＤＢ６３１に登録されている医療用語夫々と、発音とを対比することにより、医師等の操作者による発言の中に被検者に対する診断等とは無関係な事項が含まれる場合であっても、当該発言において、診断等に関連する医療用語を確実に抽出することができ、訓練データの生成精度を向上させることができる。

【0058】

医療用語抽出部６２３は、抽出した医療用語が発音された時点に関する情報（タイムスタンプ）を文字データから抽出し、文字データに含まれる医療用語及び当該医療用語が発音された時点を出力する。

【0059】

医療用語抽出部６２３は、単一の医療用語を出力するものに限定されず、複数の医療用語を出力するものであってもよい。すなわち、医療用語抽出部６２３は、取得した文字データにて所定の医療用語を抽出した場合、当該抽出した医療用語の前後に位置する他の医療用語との関連性又は文脈性に基づき、複数の医療用語を抽出し、一セットとして出力するものであってもよい。又は、医療用語抽出部６２３は、抽出した複数の医療用語を含む医師の発言による文書データを出力するものであってもよい。複数の医療用語を含む発言をまとめて抽出することにより、まとめて抽出した複数の医療用語夫々が発音された期間を特定し、当該期間にて撮像された内視鏡画像における静止画（フレーム）を特定することができる。

【0060】

文字データに含まれる医療用語が、隠語である場合、当該隠語と同義となる標準用語を、文字データに含まれる医療用語として出力するものであってもよい。操作者である医師等による発言には、医療業界における標準用語のみならず、地域、医療分野等に依拠して用いられる特有な隠語が含まれる場合があるところ、上述の医療用語ＤＢ６３１には、隠語及び当該隠語と同義となる標準用語が登録されている。従って、医療用語抽出部６２３は、医療用語ＤＢ６３１を参照することにより、隠語等が用いられることによる表現揺れを吸収し、医師等の発言から医療用語を確実に抽出することができる。

【0061】

医療用語抽出部６２３は、文字データに含まれる医療用語との対比に用いられる隠語において、隠語夫々に付与された医療機関ＩＤに基づき、適用される隠語を確定するものであってもよい。隠語は、同様の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、上述の医療用語ＤＢ６３１には、隠語夫々には、医療機関ＩＤが関連付付けられて、登録されている。従って、医療用語抽出部６２３は、医療用語ＤＢ６３１を参照することにより、取得した医療機関ＩＤに基づき、適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。

【0062】

画像抽出部６２４は、医療用語が発音された時点に対応するフレーム（静止画）を、取得した内視鏡画像（動画）から抽出する。抽出するフレーム（静止画）の数は、１つに限定されず、当該医療用語が発音された期間にて撮像された全てのフレームを抽出するものであってもよい。画像抽出部６２４は、抽出したフレーム（静止画）を第１画像として出力する。第１画像は、医療用語が発音された時点に対応するものであり、当該時点にて撮像されたフレーム（静止画）であり、第１画像に含まれる体内部位において、病変の存在が疑われるものである。

【0063】

ラベル導出部６２５は、医療用語抽出部６２３から取得した一つ又は複数の医療用語に基づき、訓練データにおける正解データ（正解ラベル）に相当するラベルを生成し、出力する。ラベルは、例えば病変の有無、すなわち病変の存在又は不存在に関する情報である。または、ラベルは、病変の種類の名称等による症状に関する情報、または病変が発生した体内部位の場所、位置又は名称に関する情報を含むものであってもよい。

【0064】

訓練データ生成部６２６は、画像抽出部６２４から第１画像を取得し、ラベル導出部６２５からラベルを取得する。訓練データ生成部６２６は、取得した第１画像及びラベルに基づき、第１画像を問題データとし、ラベルを正解データ（正解ラベル）として、病変が存在する場合の訓練データを生成する。訓練データ生成部６２６は、生成した訓練データを出力して記憶部６３に記憶する。訓練データ生成部６２６は、第１画像及びラベルを配列データの形式にて、記憶するものであってもよい。

【0065】

本実施形態において、一連の処理における各機能部を、内視鏡用プロセッサ２０の制御部２１による機能部夫々と、情報処理装置６の制御部６２による機能部夫々とに分けて説明したが、これら機能部の分担は一例であり、これに限定されない。内視鏡用プロセッサ２０の制御部２１は、情報処理装置６の制御部６２によって行われる全ての機能部として、機能するものであってもよい。すなわち、内視鏡用プロセッサ２０が、実質的に情報処理装置６を含むものであってもよい。または、内視鏡用プロセッサ２０の制御部２１は、撮像素子が撮像した撮影画像及び、マイク１７にて集音した音声データを出力するのみであり、情報処理装置６の制御部６２は、以降の処理を行う全ての機能部として機能するものであってもよい。または、内視鏡用プロセッサ２０の制御部２１と、情報処理装置６の制御部６２とは、例えばプロセス間通信を行うことにより、協働して一連の処理における各機能部として機能するものであってもよい。

【0066】

一回の内視鏡による検査によって、撮像された内視鏡画像及び記録された音声データが生成され、当該音声データには、医師等による複数回の発言が含まれる。これら複数回の発言には医療用語が含まれ、これら医療用語夫々が発声（発音）された時点又は期間に基づき、同時点にて撮像された内視鏡画像のフレーム（静止画）を、第１画像として特定する。医療用語が発声された時点に撮像された第１画像は、当該医療用語に関連する病変が存在するものである。従って、病変有を正解データとした場合の問題データに相当する大量の画像を効率的に抽出することができる。

【0067】

図６は、情報処理装置６の制御部６２による処理手順の一例を示すフローチャートである。情報処理装置６は、例えば、自装置に接続されている入力部８からの入力内容に基づき、当該フローチャートの処理を開始する。本実施形態におけるフローチャートは、情報処理装置６が内視鏡装置１０（内視鏡プロセッサ）から内視鏡画像等を取得するにあたり、これの前提的な処理となる内視鏡プロセッサの処理を含む。

【0068】

内視鏡プロセッサの制御部６２は、操作者ＩＤを取得する（Ｓ０１）。内視鏡プロセッサの制御部６２は、医療機関ＩＤを取得する（Ｓ０２）。内視鏡プロセッサの制御部６２は、内視鏡の操作者である医師等によりキーボード１５を介して入力された操作者ＩＤ及び医療機関ＩＤを取得する。

【0069】

内視鏡プロセッサの制御部６２は、内視鏡情報を取得する（Ｓ０３）。内視鏡プロセッサの制御部６２は、接続された内視鏡と、例えばチェックシーケンス等の通信を行い、当該内視鏡の種類に関する内視鏡情報を取得する。

【0070】

内視鏡プロセッサの制御部６２は、撮影画像を取得し、内視鏡画像を生成する（Ｓ０４）。内視鏡プロセッサの制御部６２は、取得した撮影画像に対し、シェーディング補正等の各種画像処理を行うことにより、医師等の操作者が目視し易い状態にした内視鏡画像を生成する。

【0071】

内視鏡プロセッサの制御部６２は、音声データを取得する（Ｓ０５）。内視鏡プロセッサの制御部６２は、マイク１７により集音した医師等の発言（音声）を含む音声データを取得し、補助記憶装置２３等に記録する。

【0072】

内視鏡プロセッサの制御部６２は、内視鏡画像及び音声データに経時要素を付加する（Ｓ０６）。内視鏡プロセッサの制御部６２は、内視鏡画像及び音声データにおいて時間軸上での対応がとれるように経時要素を付加する。

【0073】

内視鏡プロセッサの制御部６２は、経時要素を付加した内視鏡画像及び音声データ、操作者ＩＤ等を出力する（Ｓ０７）。内視鏡プロセッサの制御部６２は、経時要素を付加した内視鏡画像及び音声データ、操作者ＩＤ等の取得又は生成した各種データを情報処理装置６に出力する。

【0074】

情報処理装置６の制御部６２は、内視鏡装置１０から、経時要素が付加された内視鏡画像及び音声データ、操作者ＩＤ等を取得する（Ｓ１０１）。制御部６２は、内視鏡装置１０から取得した各種データを記憶部６３に記憶する。

【0075】

情報処理装置６の制御部６２は、音声データに含まれる音声の認識処理を行う（Ｓ１０２）。制御部６２は、音声データに含まれる音声の認識処理を行い、音声に含まれる発音に基づき、文字データを生成する。制御部６２は、音声の認識処理を行うにあたり、取得した操作者ＩＤに基づき音声を発した医師等を特定し、当該特定した医師による音声のみを認識して文字データを生成するものであってもよい。当該文字データには、文字データに含まれる用語が発音された時点に関する情報が、付与されている。上述のとおり、音声の認識処理を行うにあたり用いられる音響モデルには、操作者ＩＤによって特定される医師等の音声が予め登録されている。制御部６２は、記録された音声が内視鏡の操作者である医師であるか、被検者（患者）等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。

【0076】

情報処理装置６の制御部６２は、音声認識の結果に基づき、発音された医療用語の抽出を行う（Ｓ１０３）。制御部６２は、音声に含まれる発音に基づき生成した文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出する。制御部６２は、抽出した単語夫々と、医療用語ＤＢ６３１に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。制御部６２は、抽出した医療用語及び当該医療用語が発声された時点を関連付けて記憶部６３に記憶する。上述のとおり、制御部６２は、抽出した医療用語が隠語として医療用語ＤＢ６３１に登録されている場合、当該隠語と同義となる標準用語を、抽出した医療用語として記憶するものであってもよい。この場合、例えば、医師等の発言が「下部食道にＫ」であっても、「Ｋ」は隠語として処理され、「Ｋ」と同義となる標準用語の「癌」に変換され、「下部食道に癌」として医療用語が抽出される。

【0077】

制御部６２は、医療用語ＤＢ６３１に登録されている隠語を適用する場合、入力された医療機関ＩＤを用いて、適用する隠語群を確定するものであってもよい。医療用語ＤＢ６３１は、上述のとおり例えばＲＤＢＭＳにより構成されており、医療用語のフィールドに格納される隠語夫々に対し、当該隠語が用いられる医療機関を識別する医療機関ＩＤが登録されている。制御部６２は、入力された医療機関ＩＤを用いて、当該医療機関ＩＤが登録されている隠語（当該医療機関ＩＤと同一のレコードである隠語）を、適用対象の隠語群として抽出する。制御部６２は、医師等の発言と、当該抽出した隠語群とを対比して、医師等の発言に含まれる隠語を特定し、特定した隠語と同義となる標準用語に変換して、医療用語を抽出する。本実施形態において、操作者ＩＤ及び医療機関ＩＤを別個に取得するとしたが、これに限定されない。操作者ＩＤには、当該操作者である医師等が属する医療機関を識別する番号（情報）が含まれており、制御部６２は、操作者ＩＤのみを取得し、当該操作者ＩＤに含まれる医療機関を識別する番号を抽出する。制御部６２は、抽出した当該番号（医療機関ＩＤに相当）に基づき、医療用語ＤＢ６３１を用いて、適用対象の隠語群を抽出するものであってもよい。

【0078】

情報処理装置６の制御部６２は、抽出した医療用語の発音時点に対応する第１画像（フレーム）を抽出する（Ｓ１０４）。制御部６２は、抽出した医療用語の発音時点、すなわち医師等による当該医療用語を含む発言がされた期間を特定し、当該期間において撮像された内視鏡画像のフレーム（静止画）を第１画像として抽出する。

【0079】

情報処理装置６の制御部６２は、抽出した医療用語に基づきラベルを導出する（Ｓ１０５）。抽出した医療用語が、例えば「下部食道に癌」等、複数の医療用語を含む場合、制御部６２は、医療用語ＤＢ６３１を参照することにより、下部食道は病変の位置を示し、癌は病変の名称（種類）を示すものと判定し、判定結果に応じて、ラベルを生成（導出）する。一例として、「下部食道に癌」が抽出された場合、制御部６２は、「病変：有／症状：癌／場所：下部食道」からなるラベルを生成（導出）する。

【0080】

情報処理装置６の制御部６２は、第１画像及びラベルに基づき訓練データを生成する（Ｓ１０６）。制御部６２は、抽出した医療用語が発せられた期間にて撮像されたフレームである第１画像を問題データとし、抽出した医療用語に基づき導出したラベルを正解データ（正解レベル）とする訓練データを生成する。例えば、抽出した医療用語が発せられた期間が２秒であり、フレームレートが５０フレーム／秒（fps）の場合、当該抽出した医療用語に対応する第１画像は１００枚となり、これら第１画像に対し同じラベルが付与されるものとなる。制御部６２は、第１画像及びラベルから成る訓練データを例えば、オブジェクト型配列データの形式で生成する。または、制御部６２は、第１画像及びラベルから成る訓練データを、予め構成されているデータベース（訓練データ用ＤＢ）の所定のフィールドに登録するものであってもよい。

【0081】

情報処理装置６の制御部６２は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部６３に記憶する（Ｓ１０７）。制御部６２は、生成した訓練データと、内視鏡の種類等を含む内視鏡情報とを関連付けて記憶部６３に記憶する。内視鏡の種類に応じて、検査対象の体内部位は異なるもとなるところ、訓練データと内視鏡情報とを関連付けて記憶することにより、内視鏡種類又は体内部位に応じた個々の学習済みモデルを生成することができる。

【0082】

図７は、第１学習済みモデル９１の生成処理に関する説明図である。情報処理装置６は、生成した訓練データに基づき学習することで、内視鏡画像を入力とし、病変の有無、病変の種類（症状）及び病変の場所の少なくとも一つを含む情報を出力とする深層ニューラルネットワーク（第１学習済みモデル９１）を構築（生成）する。上述のとおり、訓練データは、医師等の発言に基づき特定された問題データとなる第１画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。

【0083】

訓練データを用いて学習された深層ニューラルネットワーク（第１学習済みモデル９１）は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用が想定される。第１学習済みモデル９１は、上述のごとく制御部６２（ＣＰＵ等）及び記憶部６３を備える情報処理装置６にて用いられるものであり、このように演算処理能力を有する情報処理装置６にて実行されることにより、ニューラルネットワークシステムが構成される。すなわち、情報処理装置６の制御部６２が、第１学習済みモデル９１からの指令に従って、入力層に入力された内視鏡画像の特徴量を抽出する演算を行い、出力層から病変の有無、病変の種類（症状）及び病変の場所の少なくとも一つを含む情報を出力するように動作する。

【0084】

入力層は、内視鏡画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値及び距離情報を中間層に受け渡す。中間層は、内視鏡画像の画像特徴量を抽出する複数のニューロンを有し、抽出した画像特徴量に基づくニューロンの活性状態を出力層に受け渡す。例えば第１学習済みモデル９１がＣＮＮ（Convolutional Neural Network）である場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピング（圧縮）するプーリング層とが交互に連結された構成を有し、内視鏡画像の画素情報を圧縮しながら最終的に内視鏡画像の特徴量を抽出する。出力層は、当該内視鏡画像に含まれる体内部位における病変の有無、病変の種類（症状）及び病変の場所の少なくとも一つを含む情報を出力する一又は複数のニューロンを有し、中間層から出力された画像特徴量等に基づいて、病変の有無等に関する情報を出力する。当該出力される病変の有無、病変の種類（症状）及び病変の場所の少なくとも一つを含む情報は、医師等による診断支援情報として用いられる。

【0085】

本実施形態では、第１学習済みモデル９１に入力されるデータは、内視鏡画像であるとして説明しているがこれに限定されない。第１学習済みモデル９１に入力されるデータは、撮像素子が撮像した撮影画像であってもよい。すなわち、第１学習済みモデル９１は、撮影画像及び距離情報が入力されることにより、病変の有無、病変の種類（症状）及び病変の場所の少なくとも一つを含む情報を出力する。この場合、訓練データは撮影画像に基づき生成されていることが望ましい。

【0086】

情報処理装置６は、出力層から出力された値を、問題データ（第１画像）に対し、ラベル付けされた病変の有無等を含む情報、すなわち正解値（正解データ）と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み（結合係数）、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば情報処理装置６は、誤差逆伝播法を用いて各種パラメータの最適化を行う。情報処理装置６は、訓練データを用いて上記の処理を行い、第１学習済みモデル９１を生成し、生成した第１学習済みモデル９１を記憶部６３に記憶する。

【0087】

本実施形態において、情報処理装置６は、訓練データの生成及び、当該訓練データを用いた第１学習済みモデル９１の生成を行うとしたが、これに限定されない。訓練データを用いた第１学習済みモデル９１の生成は、訓練データの生成した情報処理装置６とは、異なる情報処理装置６で行うものであってもよい。

【0088】

図８は、情報処理装置６の制御部６２による第１学習済みモデル９１の生成処理に関する処理手順の一例を示すフローチャートである。情報処理装置６の制御部６２は、訓練データを取得する（Ｓ１２０）。訓練データは、医師等の発言に基づき特定された問題データとなる第１画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。

【0089】

このような訓練データの元データとなる内視鏡画像及び医師等の発言を記憶した音声データは、各医療機関において行われた内視鏡検査の結果データとして大量に保存されており、これら結果データを用いることにより、訓練データを大量に生成することができる。更に、音声データから医師等の発言における医療用語を抽出することにより、当該医療用語を含む発言がされた時点にて撮像された内視鏡画像のフレームを特定するため、病変が有とされるフレームを効率的に抽出し、多量の訓練データを生成する工数を削減して省力化することができる。

【0090】

情報処理装置６の制御部６２は、第１学習済みモデル９１を生成する（Ｓ１２１）。制御部６２は、深層ニューラルネットワークに、取得した訓練データを用いて学習させることにより、第１学習済みモデル９１を構築（生成）する。第１学習済みモデル９１がニューラルネットワークである場合、中間層での演算処理に用いるパラメータは、例えば誤差逆伝播法を用いることにより、最適化される。

【0091】

本実施形態によれば、内視鏡により撮影した画像に関連付けられて記録された医師等の内視鏡の操作者による音声データの認識結果に基づき、当該画像に相関を有するラベルを導出し、画像及びラベルに基づいて、深層ニューラルネットワーク用の訓練データを生成する。訓練データにおいて、内視鏡により撮影した画像は問題データに相当し、画像と相関を有するラベルは正解データに相当するところ、正解データであるラベルを、画像と関連付けられて記録された音声データに基づき導出するため、正解データを効率的に導出することができ、訓練データを効率的に生成することができる。

【0092】

本実施形態によれば、ラベルは、画像に含まれる体内部位における病変の有無、病変の種類、又は病変の位置の少なくともいずれか一つに関する情報を含む。従って、当該画像を問題データとし、病変の有無、病変の種類又は病変の位置のいずれか一つ、又は全てを含む情報を正解データとする訓練データを、効率的に作成することができる。

【0093】

本実施形態によれば、音声データから認識した発音による用語と、医療用語ＤＢ６３１に予め記憶されている医療用語群との対比に基づき、前記画像と相関を有するラベルを導出するため、精度よくラベルを導出することができる。更に、医療用語ＤＢ６３１に予め記憶されている医療用語群は、隠語と、隠語と同義となる標準用語とを含み、認識した発音による用語が隠語である場合、隠語と同義となる標準用語に基づき、前記画像と相関を有するラベルを導出する。従って、医師等の内視鏡の操作者による発言において、隠語等が用いられ、表現揺れが発生した場合であっても、精度よくラベルを導出することができる。

【0094】

本実施形態によれば、医療用語群に含まれる用語が発声された時点に関する情報を取得し、当該用語が発せられた時点に対応する第１画像を特定する。従って、病変が疑われる体内部位が撮影された時点における第１画像を効率的に特定することができる。そして、特定した第１画像を問題データとした場合、正解データに相当するラベルに病変の存在に関する情報を含めることにより、病変有りとする訓練データを効率的に生成することができる。

【0095】

本実施形態によれば、撮像される体内部位、すなわち検査対処の体内部位に応じて、内視鏡の種類は異なるものとなる。これに対し、内視鏡の種類を含む内視鏡情報を取得し、当該内視鏡情報を訓練データに関連付けて記憶することにより、訓練データを効率的に管理し、内視鏡の種類夫々に適合した深層ニューラルネットワークに対する学習を、確実に行うことができる。

【0096】

本実施形態によれば、上述の方法により効率的に作成された訓練データを用いて深層ニューラルネットワークを学習させることにより、訓練データの生成に要する工数を削減しつつ、内視鏡により撮影した画像が入力された場合、当該画像に含まれる体内部位における病変の有無等を含む情報を出力する学習済みモデルを生成することができる。

【0097】

（実施形態２）
図９は、実施形態２（無声音時の訓練データ）に係る情報処理装置６の制御部６２による処理手順の一例を示すフローチャートである。情報処理装置６は、例えば、自装置に接続されている入力部８からの入力内容に基づき、当該フローチャートの処理を開始する。

【0098】

情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０１からＳ１０５と同様に、Ｓ２０１からＳ２０５までの処理を行う。情報処理装置６の制御部６２は、抽出した医療用語に基づき第１ラベルを導出する（Ｓ２０５）。情報処理装置６の制御部６２は、第１画像及び第１ラベルに基づき、病変有の訓練データを生成する（Ｓ２０６）。Ｓ２０６までの処理を行うことにより、病変有等を含む第１ラベルを正解ラベルとする第１画像による訓練データを生成する。

【0099】

情報処理装置６の制御部６２は、第１画像以外のフレームを第２画像として抽出する（Ｓ２０７）。制御部６２は、取得した内視鏡画像において、第１画像として特定したフレーム（静止画）以外のフレームを第２画像として抽出し、特定する。

【0100】

情報処理装置６の制御部６２は、病変無とする情報を、第２画像の第２ラベルとして導出する（Ｓ２０８）。第２画像は、医師等による発言がない期間（無声音の期間）、又は、医療用語が含まれない発言がされた期間にて、撮像された内視鏡画像のフレームに相当するものである。従って、制御部６２は、これら第２画像に含まれる体内部位には、病変が存在しない（病変無）と判定することができる。制御部６２は、例えば「病変：無／症状：無／場所：無」からなる第２ラベルを生成する。

【0101】

情報処理装置６の制御部６２は、第２画像及び第２ラベルに基づき、病変無の訓練データを生成する（Ｓ２０９）。制御部６２は、第２画像及び第２ラベルに基づき生成した訓練データ（病変無の訓練データ）を、Ｓ２０６で生成した訓練データ（病変有の訓練データ）に追加する。

【0102】

情報処理装置６の制御部６２は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部６３に記憶する（Ｓ２１０）。制御部６２は、生成した訓練データ、すなわち病変有の訓練データと病変無の訓練データとを合体した訓練データを、実施形態１の処理（Ｓ１０７）と同様に記憶部６３に記憶する。

【0103】

本実施形態によれば、第１画像以外の第２画像が撮像された時点においては、医療用語群に含まれる用語が発せられていないため、これら第２画像を問題データとした場合、正解データに相当するラベルに病変の不存在に関する情報を含めることにより、病変無しとする訓練データを効率的に生成することができる。

【0104】

（実施形態３）
図１０は、実施形態３（拡大率）に係る情報処理装置６の制御部６２による処理手順の一例を示すフローチャートである。情報処理装置６は、実施形態１と同様に、例えば、自装置に接続されている入力部８からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０１からＳ１０４と同様にＳ３０１からＳ３０４までの処理を行う。

【0105】

情報処理装置６の制御部６２は、抽出した第１画像と同一の体内部位を撮像した画像（フレーム）であって、拡大率が異なる画像（フレーム）を第１画像として抽出する（Ｓ３０５）。制御部６２は、抽出した第１画像以外であって、当該第１画像の前後に位置するフレームに対し、当該フレームが第１画像と同一の体内部位を撮像したフレームであるか、及び拡大率が異なるものであるかを判定する。制御部６２は、抽出した第１画像から病変に相当に特徴量を抽出し、当該第１画像以外のフレームにおいて抽出した特徴量と同様又は近似する特徴量を含むフレームであって、当該第１画像とは拡大率が異なるフレームを抽出する。制御部６２は、抽出した第１画像に対し例えば、エッジ検出、予め登録されている病変に相当する色彩又は形状とのパターンマッチング等により、病変に相当に特徴量を抽出する。制御部６２は、例えば、抽出した特徴量の部位のフレーム内におけるサイズを比較することにより、拡大率の同異を認識する。

【0106】

制御部６２は、抽出した第１画像と同一の体内部位を撮像した画像（フレーム）であって、当該第１画像の拡大率よりも小さい拡大率のフレームを第１画像として抽出するものであってもよい。医師等が内視鏡画像を参照して検査又は診断を行う場合、拡大率が小さい画像（フレーム）の場合は、当該画像（フレーム）に病変の存在が疑われる場合、確定的な発言を控え無言となることがあり、拡大率を大きくすることにより病変の存在を認識し医療用語を含む発言をすることが想定される。このような場合、拡大率が小さい画像（フレーム）が撮像された時点の音声データは無言となり、当該画像（フレーム）は、第１画像として抽出されないものとなるが、上記の処理を行うことにより、拡大率が大きい第１画像との連関性に基づき、当該拡大率が小さい画像（フレーム）を第１画像として抽出することができる。

【0107】

情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０５からＳ１０７と同様にＳ３０６からＳ３０８までの処理を行う。

【0108】

本実施形態によれば、拡大率の異なる複数の画像が同一の体内部位を含む場合、拡大率の異なる複数の画像のいずれかの画像を第１画像と特定した場合、当該特定したいずれかの画像よりも拡大率が小さい画像についても、第１画像と特定する。従って、拡大率を大きくした画像が撮像された時点における医師等の発言を、当該画像よりも拡大率が小さい画像に対し適用し、これら拡大率が小さい画像と相関を有するラベルを精度よく導出することができる。

【0109】

（実施形態４）
図１１は、実施形態４（病変有無の確度）に係る情報処理装置６の制御部６２による処理手順の一例を示すフローチャートである。情報処理装置６は、実施形態１と同様に、例えば、自装置に接続されている入力部８からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０１からＳ１０４と同様にＳ４０１からＳ４０４までの処理を行う。

【0110】

情報処理装置６の制御部６２は、抽出した第１画像の前後に位置する複数の画像（フレーム）における変化量に基づき、病変有無の確度に関する情報を導出する（Ｓ４０５）。制御部６２は、抽出した第１画像と、当該第１画像の前後に位置する複数の画像（フレーム）とにおいて、画素単位での変化量を導出し、導出した変化量に基づき病変有無の確度に関する情報を導出する。すなわち、抽出した第１画像との変化量が所定値以下のフレームが、例えば２００枚であり、フレームレートが５０ｆｐｓの場合、医師は４秒間に亘って同一の体内部位を参照しているものとなる。すなわち、この期間においては、内視鏡画像は、見た目上、停止した状態となる。このように停止した状態、すなわち抽出した第１画像との変化量が所定値以下のフレームが連続した場合、医師は判断に迷っている可能性ある。従って、制御部６２は、当該連続するフレームの枚数に基づき決定される期間に応じて、病変有無等の確度に関する情報を導出する。例えば、制御部６２は、当該期間が長くなるにつれて、病変有無等の確度を下げて導出するものであってもよい。

【0111】

情報処理装置６の制御部６２は、抽出した医療用語及び導出した確度に基づきラベルを導出する（Ｓ４０６）。制御部６２は、一例として、「病変：有／症状：癌／場所：下部食道／確度：８０％」からなるラベルを生成する。制御部６２は、実施形態１の処理Ｓ１０６、Ｓ１０７と同様にＳ４０７、Ｓ４０８の処理を行う。

【0112】

本実施形態によれば、病変の存在又は不存在の判断が困難な場合、医師等は内視鏡の移動を停止し、特定の体内部位を注視する傾向がある。これに対し、単位時間における動画像の変化量に基づいて、病変の存在の確度に関する情報を導出し、ラベルに含めることにより、医師等による特定の部位に対する注視度合を加味した情報をラベルに含めることができる。

【0113】

（実施形態５）
図１２は、実施形態５（被検者の音声データ）に係る情報処理装置６の制御部６２による処理手順の一例を示すフローチャートである。情報処理装置６は、実施形態１と同様に、例えば、自装置に接続されている入力部８からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０１からＳ１０４と同様にＳ５０１からＳ５０４までの処理を行う。本実施形態においては、マイク１７によって集音し記録した音声データには、被検者による発声が含まれている。又は、情報処理装置６の制御部６２は、医師等による音声データとは別個のデータとして、被検者による音声データを取得するものであってもよい。

【0114】

情報処理装置６の制御部６２は、第１画像（フレーム）に対応する被検者の音声データを取得する（Ｓ５０５）。制御部６２は、抽出した第１画像（フレーム）が撮像された時点において、発生された被検者の音声データを取得する。当該被検者の音声データの取得は、内視鏡用プロセッサ２０から出力された音声データの内、当該被検者による発声が行われた期間の部分データを切り出すことにより、行われるものであってもよい。又は、制御部６２は、内視鏡用プロセッサ２０から出力された音声データに対し、上述した音響モデルを用いることにより、被検者による発声の音素を特定し、当該被検者による発声が行われた期間の部分データを切り出すことにより被検者の音声データを取得するものであってもよい。制御部６２は、当該被検者による発声が行われた期間に基づき、撮像された時点が一致又は近接することにより対応する第１画像を特定するものであってもよい。

【0115】

情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０５と同様にＳ５０６の処理を行う。

【0116】

情報処理装置６の制御部６２は、第１画像、被検者の音声データ及びラベルに基づき訓練データを生成する（Ｓ５０７）。制御部６２は、問題データを第１画像及び被検者の音声データとし、正解データを導出したラベルとする訓練データを生成する。情報処理装置６の制御部６２は、実施形態１の処理Ｓ１０７と同様にＳ５０８の処理を行う。

【0117】

本実施形態によれば、内視鏡の被検者による音声データを取得することにより、内視鏡により撮影した画像及び内視鏡の被検者による音声データを組み合わせた訓練データを生成することができる。このように被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第２学習済みモデル９２（図１３参照）用の訓練データを、効率的に生成することができる。

【0118】

図１３は、第２学習済みモデル９２の生成処理に関する説明図である。情報処理装置６は、第１画像及び被検者の音声データを問題データとし、病変の有無、症状及び病変の場所を正解データとする訓練データに基づき学習することで、第１画像及び被検者の音声データを入力とし、病変の有無、症状及び病変の場所を出力とする深層ニューラルネットワーク（第２学習済みモデル９２）を構築（生成）する。

【0119】

第２学習済みモデル９２は、第１学習済みモデル９１と同様に入力層、中間層及び出力層を含む。音声データは、例えばLibROSA等の音声分析ライブラリを用いて配列化し、画像データと同様にＣＮＮの入力データとして用いるものであってもよい。又は、マルチモーダルディープラーニングを用い、音声データが入力される入力層の次にＬＳＴＭ（Long short term memory）等による自己回帰層を設け、当該自己回帰層からの出力と、ＣＮＮにより内視鏡画像の特徴量を抽出する中間層からの出力とを、全結合層により結合して出力層に受け渡すものであってよい。

【0120】

本実施形態によれば、被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第２学習済みモデル９２を効率的に生成することができる。

【0121】

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、請求の範囲内での全ての変更及び請求の範囲と均等の範囲が含まれることが意図される。

【符号の説明】

【0122】

Ｓ訓練データ生成システム
１０内視鏡装置
１５キーボード
１６収容棚
１７マイク
２０内視鏡用プロセッサ
２１制御部
２１１画像処理部
２１２時計部
２１３情報連関部
２２主記憶装置
２３補助記憶装置
２４通信部
２５タッチパネル
２６表示装置Ｉ／Ｆ
２７入力装置Ｉ／Ｆ
２８読取部
３１内視鏡用コネクタ
３１１電気コネクタ
３１２光コネクタ
３３光源
３４ポンプ
３５送水タンク
３６送気送水口金
４０内視鏡
４３操作部
４３１制御ボタン
４３３湾曲ノブ
４４挿入部
４４１軟性部
４４２湾曲部
４４３先端部
４５折止部
４８スコープコネクタ
４９ユニバーサルコード
５０表示装置
６情報処理装置
６１通信部
６２制御部
６２１取得部
６２２音声認識部
６２３医療用語抽出部
６２４画像抽出部
６２５ラベル導出部
６２６訓練データ生成部
６３記憶部
６３１医療用語ＤＢ
６３２記録媒体
Ｐプログラム
６４入出力Ｉ／Ｆ
７表示部
８入力部
９１第１学習済みモデル
９２第２学習済みモデル

【図1】