(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】表示方法、プログラム、表示システム、及び、評価システム
(51)【国際特許分類】
A61B 6/00 20060101AFI20231205BHJP
G06T 7/00 20170101ALI20231205BHJP
G06F 3/048 20130101ALI20231205BHJP
【FI】
A61B6/00 360Z
G06T7/00 612
G06T7/00 350B
A61B6/00 330A
G06F3/048
(21)【出願番号】P 2021085547
(22)【出願日】2021-05-20
【審査請求日】2022-12-12
(73)【特許権者】
【識別番号】000006231
【氏名又は名称】株式会社村田製作所
(74)【代理人】
【識別番号】100145403
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100135703
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】嶋末 陽介
【審査官】遠藤 直恵
(56)【参考文献】
【文献】特開2004-337596(JP,A)
【文献】国際公開第2020/054604(WO,A1)
【文献】米国特許出願公開第2004/0225223(US,A1)
【文献】国際公開第2008/142831(WO,A1)
【文献】米国特許出願公開第2008/0285826(US,A1)
【文献】特開2018-099240(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 6/00-6/14、1/00-1/32
G06T 7/00-7/90
G06F 3/01-3/04895
(57)【特許請求の範囲】
【請求項1】
対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記動画表示領域は、前記対象動画において表示中のフレームの位置を示す機能、及び、前記対象動画において表示するフレームを変更する機能を備える操作領域を含み、
前記シーン情報表示領域は、前記複数のシーンの位置をそれぞれ表示する複数のシーン表示バーを含み、
前記イベント表示領域は、前記イベントフレームの位置を表示するイベント表示バーを含み、
前記複数のシーン表示バー及び前記イベント表示バーは、前記操作領域と対応付けて配置される
、
表示方法。
【請求項2】
前記操作領域は、前記対象動画において表示中のフレームの位置を示すスライダと、前記スライダが移動可能な棒状の領域であるスライダバーとを含み、
前記複数のシーン表示バー及び前記イベント表示バーは、前記操作領域のスライダバーと同じ長さで位置を揃えて配置される、
請求項
1に記載の表示方法。
【請求項3】
前記イベント表示領域は、前記所定のイベントの発生するシーンに属する前記イベントフレームの位置を表示し、前記所定のイベントの発生しないシーンに属する前記イベントフレームの位置を表示しない、
請求項
1又は2に記載の表示方法。
【請求項4】
対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記イベント表示領域は、前記対象動画のフレームが前記イベントフレームであるかどうかを異なる方法で判定する第1及び第2判定処理の結果の整合性に応じて前記イベントフレームの位置の表示の態様を異ならせる
、
表示方法。
【請求項5】
前記動画表示領域に表示される前記対象動画の前記イベントフレームには前記所定のイベントが発生している領域を示すマークが付されている、
請求項1~
4のいずれか一つに記載の表示方法。
【請求項6】
対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う判定ステップ
と、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記判定ステップは、
前記対象動画の複数のフレームを前記複数のシーンに分類する分類処理と、
前記対象動画の複数のフレームの各々が前記イベントフレームであるかどうかを判定する判定処理と、
を含み、
前記イベント表示領域は、前記分類処理の結果と前記判定処理の結果との整合性がない前記イベントフレームの位置を表示しない
、
表示方法。
【請求項7】
前記分類処理は、前記対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデルに、前記対象動画の複数のフレームの各々を与えることで、前記対象動画の複数のフレームを前記複数のシーンに分類する、
請求項
6に記載の表示方法。
【請求項8】
前記判定処理は、
前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデルに、前記対象動画の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第1判定処理と、
前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデルに、前記対象動画の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第2判定処理と、
前記第2判定処理の前記第2検出モデルが前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、
前記第1判定処理の結果と前記第2判定処理の結果と前記根拠可視化処理の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理と、
を含み、
前記総合判定処理は、前記第1判定処理の結果と前記第2判定処理の結果とで前記所定のイベントの種類が一致し、かつ、前記第1判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する、
請求項
6又は7に記載の表示方法。
【請求項9】
前記イベント表示領域は、前記第1判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致しないことを示す、
請求項
8に記載の表示方法。
【請求項10】
前記対象動画は、嚥下造影検査で撮像される前記対象物としての人が食物を口から食べる様子のX線動画であり、
前記所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含み、
前記複数のシーンは、先行期と、準備期と、口腔期と、咽頭期と、食道期との少なくとも2つを含む、
請求項1~
9のいずれか一つに記載の表示方法。
【請求項11】
請求項1~
10のいずれか一つに記載の表示方法を、演算回路に実行させるための、
プログラム。
【請求項12】
対象物が写る対象動画を記憶する記憶装置と、
前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路と、
を備え、
前記演算回路は、
前記対象動画の所定のフレーム
を複数のシーンに分類する分類処理と、
前記対象動画の所定のフレームに基づいて前記所定のイベントが生じているかどうかを判定する判定処理と、
前記分類処理の結果と前記判定処理の結果との整合性に基づいて前記所定のイベントが発生しているかどうかを判定する整合性判定処理と、
を実行する、
評価システム。
【請求項13】
対象物が写る対象動画を記憶する記憶装置と、
前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路と、
を備え、
前記演算回路は、
前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデルに、前記対象動画の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第1判定処理と、
前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデルに、前記対象動画の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第2判定処理と、
前記第2判定処理の前記第2検出モデルが前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、
前記第1判定処理の結果と前記第2判定処理の結果と前記根拠可視化処理の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理と、
を実行し、
前記総合判定処理は、前記第1判定処理の結果と前記第2判定処理の結果とで前記所定のイベントの種類が一致し、かつ、前記第1判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する、
評価システム
。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、表示方法、プログラム、表示システム、及び、評価システムに関する。
【背景技術】
【0002】
特許文献1は、画像処理装置を開示する。特許文献1に開示された画像処理装置では、制御部が、被写体の動態を放射線撮影することにより取得された動画像の複数のフレーム画像のそれぞれから被写体の変化を表す特徴量を算出し、算出された特徴量が予め定められた条件を満たすフレーム画像を確認表示用のフレーム画像として抽出する。また、抽出された確認表示用のフレーム画像に対し、他のフレーム画像に先行して画像処理パラメータを適用して画像処理を施し、画像処理されたフレーム画像を表示部に表示させる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、テンプレートマッチングによって特定の瞬間のフレームを特定して表示する。しかしながら、特許文献1では、指定した身体動作のイベントの時点しか特定して表示できず、放射線動画像に含まれる身体動作の情報は断片的にしか得られない。その結果、被写体の評価のための情報が不足して評価を高精度で迅速に行うことが難しい場合がある。
【0005】
本開示は、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える表示方法、プログラム、表示システム、及び、評価システムを提供する。
【課題を解決するための手段】
【0006】
本開示の一態様の表示方法は、対象物が写る対象動画を取得する取得ステップと、取得ステップで取得した対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップとを含む。評価画面は、対象動画を表示する動画表示領域と、対象物に関する複数のシーンへの対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、対象動画の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域とを含む。
【0007】
本開示の一態様のプログラムは、上記の表示方法を、演算回路に実行させるためのプログラムである。
【0008】
本開示の一態様の表示システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する演算回路とを備える。評価画面は、対象動画を表示する動画表示領域と、対象物に関する複数のシーンへの対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、対象動画の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域とを含む。
【0009】
本開示の一態様の評価システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路とを備える。演算回路は、対象動画の所定のフレームを複数のシーンに分類する分類処理と、対象動画の所定のフレームに基づいて所定のイベントが生じているかどうかを判定する判定処理と、分類処理の結果と判定処理の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する整合性判定処理とを実行する。
【0010】
本開示の一態様の評価システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路とを備える。演算回路は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデルに、対象動画の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第1判定処理と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデルに、対象動画の所定のフレームを与えることで、所定のイベントの種類を取得する第2判定処理と、第2判定処理の第2検出モデルが所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、第1判定処理の結果と第2判定処理の結果と根拠可視化処理の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理とを実行する。総合判定処理は、第1判定処理の結果と第2判定処理の結果とで所定のイベントの種類が一致し、かつ、第1判定処理の第1検出モデルから得られる発生領域と、根拠可視化処理から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。
【発明の効果】
【0011】
本開示の態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【図面の簡単な説明】
【0012】
【
図1】一実施の形態の表示方法の一例のフローチャート
【
図2】対象物に生じる所定のイベントの一例の概略説明図
【
図3】
図1の表示方法で表示される評価画面の第1例の説明図
【
図4】
図1の表示方法で表示される評価画面の第2例の説明図
【
図5】
図1の表示方法で表示される評価画面の第3例の説明図
【
図6】
図1の表示方法で表示される評価画面の第4例の説明図
【
図7】
図1の表示方法を実行する評価システムの構成例のブロック図
【
図8】
図7の評価システムが備える表示システムの構成例のブロック図
【
図9】
図8の表示システムでのデータの流れの一例の説明図
【
図10】
図7の評価システムが備える学習システムの構成例のブロック図
【
図11】
図7の評価システムが備える入力システムの構成例のブロック図
【
図12】
図7の評価システムの動作の一例を示すシーケンス図
【発明を実施するための形態】
【0013】
[1.実施の形態]
[1.1 概要]
図1は、一実施の形態の表示方法の一例のフローチャートである。
図1の表示方法は、対象物に所定のイベントが生じているかどうかの所定の検査に用いられる。所定の検査は、例えば、嚥下造影検査(videofluoroscopic examination of swallowing:VF)である。嚥下造影検査は、バリウム等の造影剤を含んだ水分又は食物を嚥下する様子をX線により撮影して得られるX線動画から口から食べる機能に異常がないか調べる検査である。したがって、表示方法は、嚥下造影検査において対象物のX線動画の読影に利用される。
【0014】
図2は、対象物に生じる所定のイベントの一例の概略説明図である。
図2において、対象物は人である。所定のイベントは、例えば、異常状態である。嚥下造影検査の場合、所定のイベントは、人(患者)が食物を食べる際に発生する病態である。
図2の所定のイベントは、咽頭残留と誤嚥とを含む。咽頭残留は、
図2に示すように、人が嚥下した食物を飲み込めず、食塊が咽頭に残ってしまう状態である。食塊は、食物を口に入れた時に噛み砕き、唾液と混ぜ合わせてできた飲み込む前の塊である。なお、食物が咽頭に入り嚥下が起こらないで残った状態は「咽頭残留」ではなく「貯留」として区別される。誤嚥は、
図2に示すように、食塊や分泌物が声門を越えて気道に入ってしまう状態である。誤嚥は、さらに嚥下前誤嚥、嚥下中誤嚥、及び嚥下後誤嚥に分類されるが、本実施の形態では、これらはまとめて誤嚥として扱われる。
【0015】
図1の表示方法は、対象物が写る対象動画を取得する取得ステップ(S10)と、取得ステップで取得した対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップ(S20)とを含む。
図3~
図7は、表示方法で表示される評価画面G1の第1例~第7例の説明図である。評価画面G1は、対象動画D1を表示する動画表示領域R1と、対象物に関する複数のシーンへの対象動画D1の複数のフレームの分類の結果を表示するシーン情報表示領域R2と、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域R3とを含む。
【0016】
この表示方法によれば、イベント表示領域R3を参照することで、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を把握できるから、対象動画D1からイベントフレームを容易に検索することができる。そのため、対象物に所定のイベントが生じているかどうかの評価のために、対象動画D1の全てを確認しなくても済む。また、シーン情報表示領域R2を参照することで、対象物に関する複数のシーンへの対象動画D1の複数のフレームの分類を把握できるから、所定のイベントが生じたシーンを容易に把握できる。これによって、所定のイベントの種類と所定のイベントが生じたシーンとの整合性を考慮して、対象物に所定のイベントが生じているかどうかの評価が可能となる。したがって、この表示方法によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0017】
[1.2 詳細]
図1の表示方法は、
図7に示す評価システム1により実行される。以下、
図7の評価システム1について詳細に説明する。
図7の評価システム1は、表示システム2と、学習システム3と、入力システム4と、撮像システム5とを備える。表示システム2は、学習システム3と通信ネットワーク61を介して通信可能に接続される。学習システム3は、入力システム4と通信ネットワーク62を介して通信可能に接続される。
【0018】
撮像システム5は、対象物が写る対象動画D1を撮像する。本実施の形態において、対象動画D1は、嚥下造影検査で撮像される対象物としての人が食物を食べる様子のX線動画である。撮像システム5は、表示システム2に接続される。撮像システム5は、対象動画D1を表示システム2に出力する。
【0019】
[1.2.1 表示システム]
図8は、表示システム2の構成例のブロック図である。表示システム2は、インタフェース(入出力装置21及び通信装置22)と、記憶装置23と、演算回路24とを備える。表示システム2は、例えば、1台の端末装置で実現される。端末装置としては、パーソナルコンピュータ(デスクトップコンピュータ、ラップトップコンピュータ)、携帯端末(スマートフォン、タブレット端末、ウェアラブル端末等)等が挙げられる。
【0020】
入出力装置21は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置21は、表示システム2への情報の入力、及び、表示システム2からの情報の出力に利用される。入出力装置21は、1以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス(マウス、トラックボール等)、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。
【0021】
通信装置22は、外部装置又はシステムと通信可能に接続される。通信装置22は、通信ネットワーク61を通じた学習システム3との通信に用いられる。通信装置22は、1以上の通信インタフェースを備える。通信装置22は、通信ネットワーク61に接続可能であり、通信ネットワーク61を通じた通信を行う機能を有する。通信装置22は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。
【0022】
記憶装置23は、演算回路24が利用する情報及び演算回路24で生成される情報を記憶するために用いられる。記憶装置23は、1以上のストレージ(非一時的な記憶媒体)を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ(SSD)のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びNAS(network-attached storage)型のいずれであってもよい。なお、表示システム2は、複数の記憶装置23を備えてよい。複数の記憶装置23には情報が分散されて記憶されてよい。
【0023】
記憶装置23に記憶される情報は、対象動画D1と、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22を含む。
図9では、記憶装置23が、対象動画D1と、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22との全てを記憶している状態を示している。対象動画D1と、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22とは常に記憶装置23に記憶されている必要はなく、演算回路24で必要とされるときに記憶装置23に記憶されていればよい。分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22とについては後に説明する。
【0024】
演算回路24は、表示システム2の動作を制御する回路である。演算回路24は、入出力装置21及び通信装置22に接続され、記憶装置23にアクセス可能である。演算回路24は、例えば、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。1以上のプロセッサが(1以上のメモリ又は記憶装置23に記憶された)プログラムを実行することで、演算回路24としての機能を実現する。プログラムは、ここでは記憶装置23に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。
【0025】
演算回路24は、
図1に示す表示方法を実行する。
図1の表示方法は、取得ステップS1と、判定ステップS2と、表示ステップS3とを含む。
【0026】
取得ステップS1は、インタフェース(入出力装置21及び通信装置22)を通じて対象動画D1を取得して記憶装置23に記憶させる。表示システム2では、入出力装置21と通信装置22を利用して対象動画D1の入力が可能である。表示システム2は、撮像システム5と通信可能に接続される。表示システム2は、撮像システム5で生成された対象動画D1を、撮像システム5から取得できる。
【0027】
判定ステップS2は、取得ステップS1で取得した対象動画D1に基づいて対象物に所定のイベントが生じているかどうかの判定を行う。判定ステップS2での判定の結果は表示ステップS3で利用される。
図1の判定ステップS2は、分類処理S21と、判定処理S22と、総合判定処理S23とを含む。
【0028】
分類処理S21は、対象動画D1の複数のフレームを対象物に関する複数のシーンに分類する。対象物に関する複数のシーンは、例えば、解剖学的観点に基づいて対象物の動作を分類することで設定される。本実施の形態では、人が食物を食べる動作を解剖学的観点から複数のシーンに分類している。複数のシーンは、例えば、先行期と、準備期と、口腔期と、咽頭期と、食道期とを含む。先行期は、例えば、人が食物を認識し、口に取り込むまでの期間である。準備期は、食物を口に取り込み、咀嚼を終えるまでの期間である。口腔期は、食塊が咽頭へ移動を開始した時から始まる期間である。口腔期の終期は、例えば、食塊が咽頭へ移動し終えた時である。咽頭期は、食塊の先端が下顎枝後端を越えた時から始まる期間である。咽頭期の終期は、例えば、食塊の末端が下顎枝後端を越えた時である。食道期は、食塊の先端が食道に入った時から始まる期間である。食道期の終期は、食塊の末端が食道に入った時である。なお、複数のシーンは、時間的に区切られているが、必ずしも互いに独立していなくてもよい。つまり、シーン同士が部分的に重複していてもよい。例えば、咽頭期と食道期とは部分的に重複している。
【0029】
分類処理S21は、分類モデルM1に、対象動画D1の複数のフレームの各々を与えることで、対象動画D1の複数のフレームを複数のシーンに分類する。分類モデルM1は、対象物が写るフレームの入力に対して、入力されたフレームが属するシーンを出力するように学習されたモデル(学習済みモデル)である。つまり、分類モデルM1は、対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである。分類モデルM1は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームが属するシーンを正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって生成される学習済みモデルから得られる。分類モデルM1の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとしてシーンの名称を示すラベル情報を付加することで生成される。下記表1は、分類モデルM1の生成に用いる学習用データセットの一例を示す。表1中のNは任意の整数を示す。分類モデルM1に用いるモデルには、ResNetを用いることができる。分類モデルM1に用いるモデルは、その他の従来周知の推論プログラムであってよい。
【0030】
【0031】
判定処理S22は、対象動画D1の複数のフレームの各々がイベントフレームであるかどうかを判定する。イベントフレームは、対象物に所定のイベントが生じているフレームである。本実施の形態では、所定のイベントは、咽頭残留と誤嚥とを含む。そのため、イベントフレームは、対象物に咽頭残留が生じている第1イベントフレームと、対象物に誤嚥が生じている第2イベントフレームとに分類される。
【0032】
図1の判定処理S22は、第1判定処理S221と、第2判定処理S222と、根拠可視化処理S223と、総合判定処理S224とを含む。
【0033】
第1判定処理S221は、第1検出モデルM2に、対象動画D1の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する。第1判定処理S221によれば、第1検出モデルM2に、対象動画D1の複数のフレームを与えることで、対象動画D1の複数のフレームの各々がイベントフレームであるかどうかを判定することができる。第1検出モデルM2は、対象物が写るフレームの入力に対して、所定のイベントの種類及び所定のイベントが発生している発生領域を出力するように学習されたモデル(学習済みモデル)である。つまり、第1検出モデルM2は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである。第1検出モデルM2に入力されたフレームがイベントフレームでない場合、第1判定処理S221の結果は、所定のイベントが発生している発生領域及び所定のイベントの種類については「なし」となる。第1検出モデルM2に入力されたフレームがイベントフレームである場合、第1判定処理S221の結果は、所定のイベントが発生している発生領域及び所定のイベントの種類を示す。
【0034】
第1検出モデルM2は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで所定のイベントが発生している箇所及び入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって生成される学習済みモデルから得られる。第1検出モデルM2の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報及び所定のイベントの発生領域を示す位置情報を付加することで生成される。下記表2は、第1検出モデルM2の生成に用いる学習用データセットの一例を示す。表2中のNは任意の整数を示す。位置情報は、フレーム中の発生領域を示すバウンディングボックスを示す。バウンディングボックスは、例えば、フレームの画素の位置をxy軸の数値で表す。xminはバウンディングボックスのx座標の最小値である。yminはバウンディングボックスのy座標の最小値である。xmaxはバウンディングボックスのx座標の最大値である。ymaxはバウンディングボックスのy座標の最大値である。第1検出モデルM2に用いるモデルには、YOLOを用いることができる。第1検出モデルM2に用いるモデルは、その他の従来周知の推論プログラムであってよい。
【0035】
【0036】
第2判定処理S222は、第2検出モデルM3に、対象動画D1の所定のフレームを与えることで、所定のイベントの種類を取得する。第2判定処理S222によれば、対象動画D1の複数のフレームを与えることで、対象動画D1の複数のフレームの各々がイベントフレームであるかどうかを判定することができる。第2検出モデルM3は、第1検出モデルM2とは異なり、対象物が写るフレームの入力に対して、所定のイベントの種類を出力するように学習されたモデル(学習済みモデル)である。つまり、第2検出モデルM3は、対象物が写るフレームとフレームにおいて発生している所定のイベントの種類との対応関係を学習した学習済みモデルである。第2検出モデルM3に入力されたフレームがイベントフレームでない場合、第2判定処理S222の結果は、所定のイベントの種類については「なし」となる。第2検出モデルM3に入力されたフレームがイベントフレームである場合、第2判定処理S222の結果は、所定のイベントの種類を示す。
【0037】
第2検出モデルM3は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって生成される学習済みモデルから得られる。第2検出モデルM3の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報を付加することで生成される。下記表3は、第2検出モデルM3の生成に用いる学習用データセットの一例を示す。表3中のNは任意の整数を示す。第2検出モデルM3に用いるモデルには、ResNetを用いることができる。第2検出モデルM3に用いるモデルは、その他の従来周知の推論プログラムであってよい。
【0038】
【0039】
根拠可視化処理S223は、第2判定処理S222の第2検出モデルM3が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める。注目領域は、例えば、XAI(説明可能なAI)技術を利用して取得することができる。XAI技術としては、XRAIを用いることができる。XRAIを用いることで、フレームにおいて第2検出モデルM3の判断に影響を及ぼした度合い示すヒートマップを得ることができる。ヒートマップに基づき、第2検出モデルM3の判断に影響を及ぼした度合いが高い領域を、注目領域として抽出することができる。
【0040】
総合判定処理S224は、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とに基づいて対象動画D1の複数のフレームにイベントフレームがあるかどうかを判定する。つまり、総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とに基づいて対象動画D1の所定のフレームにおいて所定のイベントが生じているかどうかを判定する。具体的には、総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致し、かつ、第1判定処理S221の第1検出モデルM2から得られる発生領域と、根拠可視化処理S223から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。発生領域と注目領域とが一致するかどうかは、発生領域と注目領域との重なり度合いと発生領域の中心位置と注目領域の中心位置との距離との少なくとも一方を用いて判断されてよい。発生領域と注目領域との重なり度合いが所定の閾値以上であれば、発生領域と注目領域とが一致すると判断してよい。発生領域の中心位置と注目領域の中心位置との距離が所定の閾値以下であれば、発生領域と注目領域とが一致すると判断してよい。
【0041】
総合判定処理S224は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致するが、第1判定処理S221の第1検出モデルM2から得られる発生領域と、根拠可視化処理S223から得られる注目領域とが一致しない場合に、所定のイベントが生じているが、要確認と判断する。総合判定処理S224は、要確認と判断した所定のフレームに関する情報を、第1要確認情報D21として記憶装置23に記憶させる。第1要確認情報D21は、要確認と判断されたフレームについての、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とを含み得る。
【0042】
総合判定処理S224は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致しない場合、第2判定処理S222の結果を優先する。第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致しない場合とは、第1判定処理S221の結果と第2判定処理S222の結果との一方が所定のイベントの発生がなしとなる場合を含む。総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果とがいずれも所定のイベントの発生がなしの場合、所定のフレームにおいて所定のイベントが発生していないと判断する。
【0043】
整合性判定処理S23は、分類処理S21の結果と判定処理S22の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する。整合性判定処理S23は、分類処理S21の結果と判定処理S22の結果との整合性がない場合には所定のイベントが発生していないと判定する。本実施の形態では、整合性判定処理S23は、第2判定処理S222の結果を判定処理S22の結果として利用する。整合性は、判定処理S22の結果が示す所定のイベントが分類処理S21の結果が示すシーンで発生可能かどうかにより判断される。所定のイベントは、咽頭残留と誤嚥とがあるが、咽頭残留及び誤嚥が発生するシーンは限られている。咽頭残留は、先行期、準備期、口腔期、咽頭期では発生せず、食道期でしか発生しない。誤嚥は、先行期、準備期、口腔期では発生せず、咽頭期及び食道期でしか発生しない。したがって、所定のイベントとシーンとの組み合わせが正しいかどうかで分類処理S21の結果と判定処理S22の結果の正しさを確認できる。つまり、判定処理S22の結果が示す所定のイベントが分類処理S21の結果が示すシーンで発生し得ない場合、分類処理S21の結果と判定処理S22の結果との少なくとも一方が誤っていると考えられる。本実施の形態では、判定処理S22の結果が示す所定のイベントが分類処理S21の結果が示すシーンで発生し得ない場合、判定処理S22の結果が誤っているとする。整合性判定処理S23は、整合性の判断のために、シーンと所定のイベントとの正しい組み合わせを示すテーブルを用いる。下記表4は、シーンと所定のイベントとの正しい組み合わせを示すテーブルの一例を示す。
【0044】
【0045】
整合性判定処理S23は、対象動画D1において、判定処理S22の結果が示す所定のイベントが分類処理S21の結果が示すシーンで発生し得ないフレームについては、要確認と判断する。整合性判定処理S23は、要確認と判断したフレームに関する情報を、第2要確認情報D22として記憶装置23に記憶させる。第2要確認情報D22は、要確認と判断されたフレームについての、判定処理S22の結果と分類処理S21の結果とを含み得る。
【0046】
表示ステップS3は、取得ステップS1で取得した対象動画D1に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面G1を表示する。つまり、表示ステップS3は、評価画面G1を作成して出力する。表示ステップS3は、取得ステップS1で取得した対象動画D1と、判定ステップS2での判定の結果とを用いて、評価画面G1を作成する。判定ステップS2での判定の結果は、分類処理S21の結果、判定処理S22の結果(ここでは総合判定処理S223の結果)、及び、整合性判定処理S23の結果を含む。本実施の形態では、評価画面G1は、表示システム2の入出力装置21のディスプレイに表示される。
【0047】
次に、評価画面G1について
図3~
図6を参照して説明する。なお、
図3~
図6において、符号及び当該符号の付随物(指示線や矢印等)は、評価画面G1の説明のために記載されており、評価画面G1自体に含まれているわけではない。
【0048】
図3の評価画面G1は初期状態である。評価画面G1は、動画表示領域R1と、シーン情報表示領域R2と、イベント表示領域R3とを含む。
【0049】
動画表示領域R1は、対象動画D1を表示する。動画表示領域R1は、対象動画D1と総合判定処理S224の結果を利用して生成される。動画表示領域R1は、操作領域SB1を含む。操作領域SB1は、例えば、対象動画D1において表示中のフレームの位置を示す機能、及び、対象動画D1において表示するフレームを変更する機能を備える。操作領域SB1は、例えば、シークバーである。操作領域SB1は、対象動画D1において表示中のフレームの位置を示すスライダSB2と、スライダが移動可能な棒状の領域であるスライダバーSB3とを含む。スライダバーSB3上でスライダSB2を移動させることで、動画表示領域R1に表示される対象動画D1のフレームの変更が可能である。操作領域SB1により、対象動画D1の複数のフレームからの所望のフレームの探索が容易になる。動画表示領域R1は、対象動画D1と総合判定処理S224の結果を利用して生成される。
【0050】
シーン情報表示領域R2は、対象物に関する複数のシーンへの対象動画D1の複数のフレームの分類の結果を表示する。本実施の形態では、シーン情報表示領域R2は、分類処理S21の結果を表示する。シーン情報表示領域R2は、分類処理S21の結果を利用して生成される。シーン情報表示領域R2は、ラベルL1-1~L1-5(以下、総称して符号L1を付す)と、複数のシーンの位置をそれぞれ表示する複数のシーン表示バーT1-1~T1-5(以下、総称して符号T1を付す)とを表示する。ラベルL1-1及びシーン表示バーT1-1は先行期に対応する。ラベルL1-2及びシーン表示バーT1-2は準備期に対応する。ラベルL1-3及びシーン表示バーT1-3は口腔期に対応する。ラベルL1-4及びシーン表示バーT1-4は咽頭期に対応する。ラベルL1-5及びシーン表示バーT1-5は食道期に対応する。ラベルL1-1~L1-5は、それぞれ対応するシーンを示す「先行期」、「準備期」、「口腔期」、「咽頭期」、「食道期」というテキストを表示する。シーン表示バーT1は、対応するシーンに属するフレームの位置を示す。複数のシーン表示バーT1-1~T1-5は、それぞれラベルL1-1~L1-5の隣に配置される。複数のシーン表示バーT1-1~T1-5は、動画表示領域R1の操作領域SB1と対応付けて配置されている。より詳細には、シーン表示バーT1-1~T1-5は、操作領域SB1のスライダバーSB3と同じ長さで位置を揃えて配置される。これによって、シーン表示バーT1-1~T1-5それぞれが対応するシーンが操作領域SB1のスライダバーSB3のどの部分か、つまり、対象動画D1のどの部分かをより容易に判断できる。
図3では、シーン表示バーT1においてハッチングで示す部分が、シーン表示バーT1が対応するシーンに属するフレームの位置を示している。したがって、所望のシーンに対応するシーン表示バーT1を参照して操作領域SB1のスライダSB2を操作することで、動画表示領域R1に表示中の対象動画D1のフレームを所望のシーンに属するフレームに変更できる。
【0051】
イベント表示領域R3は、対象動画D1の複数のフレームに対象物に所定のイベントが生じているイベントフレームがあるかどうかの判定の結果を表示する。対象動画D1の複数のフレームに対象物に所定のイベントが生じているイベントフレームがあるかどうかの判定の結果は、判定ステップS2から得られる。イベント表示領域R3は、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類とを表示する。イベント表示領域R3は、整合性判定処理S23の結果を利用して生成される。
【0052】
イベント表示領域R3は、ラベルL2と、イベント表示バーT2とを表示する。所定のイベントは、異常状態であり、ラベルL2は、「異常」とういテキストを表示する。バーT2は、イベントフレームの位置を表示する。本実施の形態では、イベント表示バーT2は、ラベルL2の隣に、動画表示領域R1の操作領域SB1と対応付けて配置されている。より詳細には、イベント表示バーT2は、操作領域SB1のスライダバーSB3と同じ長さで位置を揃えて配置される。これによって、イベント表示バーT2が表示するイベントフレームが操作領域SB1のスライダバーSB3のどの部分か、つまり、対象動画D1のどの部分かをより容易に判断できる。
図3では、イベント表示バーT2においてハッチングで示す部分が、イベントフレームの位置を示している。したがって、イベント表示バーT2を参照して操作領域SB1のスライダSB2を操作することで、動画表示領域R1に表示中の対象動画D1のフレームをイベントフレームに変更できる。本実施の形態では、イベントフレームは、対象物に咽頭残留が生じている第1イベントフレームと、対象物に誤嚥が生じている第2イベントフレームとである。イベント表示領域R3は、第1イベントフレームと第2イベントフレームとを区別するため、ラベルL3-1,L3-2(以下、総称して符号L3を付す)を表示する。ラベルL3は、イベントフレームに対応する所定のイベントの情報を示す。
図3では、ラベルL3は、イベントフレームに対応する所定のイベントの種類を示す。ラベルL3-1は「咽頭残留」という第1イベントフレームに対応するテキストを示し、ラベルL3-2は「誤嚥」という第2イベントフレームに対応するテキストを示す。ラベルL3は、対象動画D1の複数のフレームにイベントフレームがある場合に表示される。
【0053】
図4は、操作領域SB1のスライダSB2を操作して動画表示領域R1に表示中の対象動画D1のフレームを第1イベントフレームにした評価画面G1を示す。
図4では、動画表示領域R1には、対象動画D1の複数のフレームのうち第1イベントフレームが表示されている。
図4において、動画表示領域R1に表示される対象動画D1の第1イベントフレームには所定のイベントの発生領域を示すマークP1が付されている。マークP1は、第1検出モデルM1から出力される位置情報に基づいて設定される。
図4では、マークP1は、矩形のボックスである。
【0054】
図5は、操作領域SB1のスライダSB2を操作して動画表示領域R1に表示中の対象動画D1のフレームを第2イベントフレームにした評価画面G1を示す。
図5では、動画表示領域R1には、対象動画D1の複数のフレームのうち第2イベントフレームが表示されている。
図5において、動画表示領域R1に表示される対象動画D1の第2イベントフレームには所定のイベントの発生領域を示すマークP1が付されている。マークP1は、第1検出モデルM1から出力される位置情報に基づいて設定される。
図5では、マークP1は、矩形のボックスである。
【0055】
上述したように、判定ステップS2は、総合判定処理S223を含む。総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致するが、第1判定処理S221の第1検出モデルM2から得られる発生領域と、第2判定処理S222の第2検出モデルM3が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域とが一致しない場合に、所定のイベントが生じているが、要確認と判断する。この場合のイベント表示領域R3について
図6を参照して説明する。
【0056】
図6は、
図5と同様に、操作領域SB1のスライダSB2を操作して動画表示領域R1に表示中の対象動画D1のフレームを第2イベントフレームにした評価画面G1を示す。
図6では、ラベルL3-1で示される第1イベントフレームについては、要確認と判断されておらず、ラベルL3-2で示される第2イベントフレームについては、要確認と判断されている。
図6では、イベント表示バーT2において第1イベントフレームに対応するハッチングの部分と第2イベントフレームに対応するハッチングの部分とが異なる態様で表示されている。つまり、イベント表示領域R3は、対象動画D1のフレームがイベントフレームであるかどうかを異なる方法で判定する第1及び第2判定処理S221,S222の結果の整合性に応じてイベントフレームの表示の態様を異ならせる。このように、イベント表示領域R3は、第1判定処理S221の第1検出モデルM2から得られる発生領域と、第2判定処理S222の第2検出モデルM2が所定のイベントが発生していると判断した根拠となる注目領域とが一致しないことを示す。また、
図6では、動画表示領域R1に表示される対象動画D1のイベントフレームには、発生領域を示すマークP1と、注目領域を示すマークP2とが付されている。マークP1は、第1検出モデルM1から出力される位置情報に基づいて設定される。マークP2は、第2検出モデルM3の判断に影響を及ぼした度合い示すヒートマップに基づき設定される。マークP2は、マークP2が設定されている領域でのヒートマップの画像を示す。
【0057】
このように、表示ステップS3は、取得ステップS1で取得した対象動画D1に、判定ステップS2での判定の結果に基づいてマークP1,P2を付して、動画表示領域R1に表示するための対象動画D1を生成する。
【0058】
上述したように、判定ステップS2は、整合性判定処理S23を含む。整合性判定処理S23は、分類処理S21の結果と判定処理S22の結果との整合性がない場合には所定のイベントが発生していないと判定する。そのため、イベント表示領域R3は、分類処理S21の結果と判定処理S22の結果との整合性がないイベントフレームを表示しない。つまり、イベント表示領域R3は、所定のイベントの発生しないシーンに属するイベントフレームを表示しない。
【0059】
次に、表示システム2の動作の一例について
図9を参照して説明する。
図9は、表示システム2のデータの流れの一例の説明図である。表示システム2においては、対象動画D1を利用して分類処理S21、第1判定処理S221、及び第2判定処理S222が実行されて、分類処理S21の結果D11、第1判定処理S221の結果D12、及び第2判定処理S222の結果D13が得られる。分類処理S21の結果D11は、対象動画D1の各フレームが属するシーンを示す。第1判定処理S221の結果D12は、対象動画D1の各フレームについて所定のイベントの種類と発生領域を示す。第2判定処理S222の結果D13は、対象動画D1の各フレームについて所定のイベントの種類を示す。
【0060】
第2判定処理S222の結果D13を利用して根拠可視化処理S223が実行され、根拠可視化処理S223の結果D14が得られる。根拠可視化処理S223の結果D14は、第2判定処理S222の第2検出モデルM3が所定のイベントが発生していると判断した根拠となる注目領域D14が得られる。
【0061】
第1判定処理S221の結果D12、第2判定処理S222の結果D13、及び根拠可視化処理S223の結果D14を利用して総合判定処理S224が実行され、総合判定処理S224の結果D15が得られる。総合判定処理S224の結果D15は、対象動画D1の各フレームについて所定のイベントの種類、発生領域、注目領域、要確認かどうか等の情報を含む。
【0062】
分類処理S21の結果D11、及び第2判定処理S222の結果D13を利用して整合性判定処理S23が実行され、整合性判定処理S23の結果D16が得られる。整合性判定処理S23の結果D16は、対象動画D1の各フレームについて所定のイベントが発生しているかどうかの情報を含む。
【0063】
対象動画D1、分類処理S21の結果D11、総合判定処理S224の結果D15、及び整合性判定処理S23の結果D16を利用して表示ステップS3が実行されて、評価画面G1が表示される。
【0064】
このようにして、表示システム2は、対象動画D1から評価画面G1を作成して表示する。
【0065】
以上述べた表示システム2は、整合性判定処理S23を実行する。整合性判定処理S23によれば、所定のイベント(病態)の推定結果に別の解剖学的情報の推定結果(シーンの分類結果)を組み合わせ、解剖学的に生じ得ない所定のイベント(病態)の推定結果を補正することで、解剖学的に生じ得ない所定のイベント(病態)の推定結果を出力する可能性を低減できる。本実施の形態では、このような整合性判定処理S23は、シーンの推定結果と所定のイベントの種類の推定結果を組み合わせた機械学習モデルの偽陽性率低減処理方法であるともいえる。つまり、解剖学的に生じ得ない推定結果を除去することで偽陽性率を低下させることができるため、機械学習モデルの精度が向上する。その結果、機械学習モデルが解剖学的に生じ得ない病態推定結果を表示する可能性を小さくする。特に、本実施の形態では、患者の動態を反映した動画像D1において、機械学習もしくは画像処理を用いて「病態の推定結果」と「解剖学的知見に基づいた病態以外の情報の推定結果」を組み合わせることで解剖学的に生じ得ない病態の出力結果を排除することで診断ミスのリスクを低減することが可能である。
【0066】
表示システム2は、総合判定処理S224を実行する。総合判定処理S224によれば、物体検出の機械学習モデルである第1検出モデルM2が所定のイベント(病態)の推定に利用した領域(発生領域)と、判断根拠可視化技術によって画像分類の機械学習モデルである第2検出モデルM3が病態(所定のイベント)の推定に利用した領域(注目領域)を組み合わせることで、新しく評価する対象動画D1のフレームに写る対象物が未知の症状を抱えている可能性の示唆、又は対象動画D1のフレームが学習済みモデル(第1検出モデルM2又は第2検出モデルM3)の学習用データセットに含まれていない未知データである可能性を示唆し、ユーザに注意を喚起することが可能になる。換言すれば、総合判定処理S224は、発生領域を固定して学習させた物体検出用途の機械学習モデル(第1検出モデルM2)の発生領域と、発生領域を指定せずに学習させた画像分類用途の機械学習モデル(第2検出モデルM3)の注目領域の差分を求めることによる、機械学習モデルの推定結果の信頼性評価方法である。これによって、新しく入力するデータ(対象動画D1のフレーム)が、未知の症状を含むデータであるか、もしくは機械学習モデルの学習データには含まれていない機械学習モデルにとって未知のデータである可能性を示唆する特徴量を算出することができる。これによって、新しく入力されたデータが未知の症状を含む可能性があるデータもしくは機械学習モデルにとって未知のデータかを判定し、ユーザに注意を促す表示を行うことが可能となる。また、画像分類を行う機械学習モデルはノイズによる誤判定が生じる事例が存在するが、このように多角的な視点から推定結果を補正することにより、ロバスト性を向上させることができる。
【0067】
表示システム2は、表示ステップS3において、整合性判定処理S23の結果及び総合判定処理S224の結果と、対象動画D1とに基づいた評価画面G1を表示することにより、ユーザによる評価の効率を高めることができ、異常の見落とし低減にも寄与する。特に、本実施の形態では、嚥下造影検査において、医師用による読影の効率を高めることができる。特に、評価画面G1は、対象動画D1、分類処理S21の結果、総合判定処理S224の結果、及び整合性判定処理S23の結果を利用して表示される。分類処理S21の結果は、対象動画D1のフレームが属するシーンを示す。総合判定処理S224の結果、及び整合性判定処理S23の結果は、複合的な観点から判断した所定のイベントの推定結果を示す。評価画面G1は、分類処理S21の結果、総合判定処理S224の結果、及び整合性判定処理S23の結果を、対象動画D1のフレームと同期した(対応した)情報として表示する。そのため、対象動画D1の特定時刻での対象物の動態、異常、未知データの可能性を俯瞰的に把握できる。特に、複合的に信頼性を評価した推定結果を表示することで、新しく入力されたデータが未知のデータである可能性に対して確認が必要な箇所を示し、誤診断防止の機会を提供する。また、対象動画D1の異常個所の見落としを低減することができる。また、対象動画D1のどの時間にどんな動作が行われているかが俯瞰できる。本実施の形態では、対象動画D1の各フレームを解剖学的情報であるシーン(先行期、準備期、口腔期、咽頭期、食道期)に分類することで、摂食嚥下の読影業務において、対象動画D1内の摂食嚥下の動態情報全体が俯瞰的に把握できる。また、対象動画D1全体のシーンを対象動画D1の時系列情報と同期して表示することで、反復して行われる対象動画D1の読影作業の効率が高まる。また、ユーザが対象物の動態を反映した対象動画D1の各時刻における解剖学的状態や病態、注意事項を俯瞰して確認できる。
【0068】
[1.2.2 学習システム]
図10は、学習システム3の構成例のブロック図である。学習システム3は、インタフェース(入出力装置31及び通信装置32)と、記憶装置33と、演算回路34とを備える。学習システム3は、例えば、1台のサーバで実現される。
【0069】
入出力装置31は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置31は、学習システム3への情報の入力、及び、学習システム3からの情報の出力に利用される。入出力装置31は、1以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス(マウス、トラックボール等)、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。
【0070】
通信装置32は、外部装置又はシステムと通信可能に接続される。通信装置32は、通信ネットワーク61を通じた学習システム3との通信、及び、通信ネットワーク62を通じた入力システム4との通信に用いられる。通信装置32は、1以上の通信インタフェースを備える。通信装置32は、通信ネットワーク61,62に接続可能であり、通信ネットワーク61,62を通じた通信を行う機能を有する。通信装置32は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。
【0071】
記憶装置33は、演算回路34が利用する情報及び演算回路34で生成される情報を記憶するために用いられる。記憶装置33は、1以上のストレージ(非一時的な記憶媒体)を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ(SSD)のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びNAS型のいずれであってもよい。なお、学習システム3は、複数の記憶装置33を備えてよい。複数の記憶装置33には情報が分散されて記憶されてよい。
【0072】
記憶装置33に記憶される情報は、データベースD3と、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42とを含む。データベースD3には、例えば、複数の異なる対象物に関する複数の対象動画D1が登録される。データベースD3に登録されている対象動画D1は、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3との作成に利用され得る。
図10では、記憶装置33が、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42との全てを記憶している状態を示している。分類モデルM1と、第1検出モデルM2と、第2検出モデルM3と、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42とは常に記憶装置33に記憶されている必要はなく、演算回路34で必要とされるときに記憶装置33に記憶されていればよい。
【0073】
演算回路34は、学習システム3の動作を制御する回路である。演算回路34は、入出力装置31及び通信装置32に接続され、記憶装置33にアクセス可能である。演算回路34は、例えば、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。1以上のプロセッサが(1以上のメモリ又は記憶装置33に記憶された)プログラムを実行することで、演算回路34としての機能を実現する。プログラムは、ここでは記憶装置33に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。
【0074】
演算回路34は、学習処理と、追加学習処理とを実行する。
【0075】
学習処理は、分類モデルM1と、第1検出モデルM2と、第2検出モデルM3とを生成する。
【0076】
学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームが属するシーンを正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって、分類モデルM1を生成する。分類モデルM1の生成に用いる学習用データセットは、例えば、データベースD3に登録されている複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとしてシーンの名称を示すラベル情報を付加することで生成される。
【0077】
学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで所定のイベントが発生している箇所及び入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって、第1検出モデルM2を生成する。第1検出モデルM2の生成に用いる学習用データセットは、例えば、データベースD3に登録されている複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報及び所定のイベントの発生領域を示す位置情報を付加することで生成される。
【0078】
学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習(教師あり学習)を実行することによって、第2検出モデルM3を生成する。第2検出モデルM3の生成に用いる学習用データセットは、例えば、データベースD3に登録されている複数の異なる対象物に関する複数の対象動画D1の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報を付加することで生成される。
【0079】
追加学習処理は、第1検出モデルM2と、第2検出モデルM3とについて追加学習を実行する。追加学習には、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42とが利用される。
【0080】
第1要確認情報D21は、総合判定処理S224で要確認と判断されたフレームに関する情報である。第1要確認情報D21は、要確認と判断されたフレームについての、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とを含む。つまり、要確認と判断されたフレームについては、総合判定処理S224の判断の結果の信頼性が低い。そのため、別途、所定のイベントについて詳細な知見を持つ人(エキスパート)に確認を求め、その結果を、第1回答情報D41として取得する。つまり、第1回答情報D41は、第1要確認情報D21に対して確認を行った結果を示す。より詳細には、第1回答情報D41は、要確認と判断されたフレームについて、エキスパートが判断した所定のイベントの種類及び発生領域を示す。本実施の形態では、第1回答情報D41は、入力システム4から得られる。
【0081】
第2要確認情報D22は、整合性判定処理S23で要確認と判断されたフレームに関する情報である。第2要確認情報D22は、要確認と判断されたフレームについての、判定処理S22の結果と分類処理S21の結果とを含む。つまり、要確認と判断されたフレームについては、整合性判定処理S23の判断の結果の信頼性が低い。そのため、別途、所定のイベントについて詳細な知見を持つ人(エキスパート)に確認を求め、その結果を、第2回答情報D42として取得する。つまり、第2回答情報D42は、第2要確認情報D22に対して確認を行った結果を示す。より詳細には、第2回答情報D42は、要確認と判断されたフレームについて、エキスパートが判断した所定のイベントの種類及び発生領域を示す。本実施の形態では、第2回答情報D42は、入力システム4から得られる。
【0082】
追加学習処理は、例えば、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42に基づいて要確認と判断されたフレームについて、第1検出モデルM2用の学習用データセットを生成し、この学習用データセットを用いて第1検出モデルM2の追加学習を実行する。これによって、要確認と判断されたフレームについて正しい所定のイベントの種類と発生領域を、第1検出モデルM2が学習することになり、第1検出モデルM2の精度の向上が図れる。追加学習処理によって追加学習された第1検出モデルM2は、例えば、通信ネットワーク61を通じて表示システム2に送信され、表示システム2の記憶装置23に記憶される。これによって、第1検出モデルM2が更新される。
【0083】
追加学習処理は、例えば、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42に基づいて要確認と判断されたフレームについて、第2検出モデルM3用の学習用データセットを生成し、この学習用データセットを用いて第2検出モデルM3の追加学習を実行する。これによって、要確認と判断されたフレームについて正しい所定のイベントの種類を、第2検出モデルM3が学習することになり、第2検出モデルM3の精度の向上が図れる。追加学習処理によって追加学習された第2検出モデルM3は、例えば、通信ネットワーク61を通じて表示システム2に送信され、表示システム2の記憶装置23に記憶される。これによって、第2検出モデルM3が更新される。
【0084】
[1.2.3 入力システム]
図11は、入力システム4の構成例のブロック図である。入力システム4は、インタフェース(入出力装置41及び通信装置42)と、記憶装置43と、演算回路44とを備える。入力システム4は、例えば、1台の端末装置で実現される。端末装置としては、パーソナルコンピュータ(デスクトップコンピュータ、ラップトップコンピュータ)、携帯端末(スマートフォン、タブレット端末、ウェアラブル端末等)等が挙げられる。
【0085】
入出力装置41は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置41は、入力システム4への情報の入力、及び、入力システム4からの情報の出力に利用される。入出力装置41は、1以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス(マウス、トラックボール等)、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。
【0086】
通信装置42は、外部装置又はシステムと通信可能に接続される。通信装置42は、通信ネットワーク62を通じた学習システム3との通信に用いられる。通信装置42は、1以上の通信インタフェースを備える。通信装置42は、通信ネットワーク62に接続可能であり、通信ネットワーク62を通じた通信を行う機能を有する。通信装置42は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。
【0087】
記憶装置43は、演算回路44が利用する情報及び演算回路44で生成される情報を記憶するために用いられる。記憶装置43は、1以上のストレージ(非一時的な記憶媒体)を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ(SSD)のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びNAS型のいずれであってもよい。なお、入力システム4は、複数の記憶装置43を備えてよい。複数の記憶装置43には情報が分散されて記憶されてよい。
【0088】
記憶装置43に記憶される情報は、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42とを含む。
図11では、記憶装置23が、第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42との全てを記憶している状態を示している。第1要確認情報D21と、第2要確認情報D22と、第1回答情報D41と、第2回答情報D42とは常に記憶装置43に記憶されている必要はなく、演算回路44で必要とされるときに記憶装置43に記憶されていればよい。
【0089】
演算回路44は、入力システム4の動作を制御する回路である。演算回路44は、入出力装置41及び通信装置42に接続され、記憶装置43にアクセス可能である。演算回路44は、例えば、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。1以上のプロセッサが(1以上のメモリ又は記憶装置43に記憶された)プログラムを実行することで、演算回路44としての機能を実現する。プログラムは、ここでは記憶装置43に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。
【0090】
演算回路44は、第1確認処理と第2確認処理とを実行する。
【0091】
第1確認処理は、第1要確認情報D21に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置41により表示し、確認の結果の入力を要求する。これによって、所定のイベントについて詳細な知見を持つ人(エキスパート)が、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を確認して、確認の結果を入出力装置41により入力することができる。入出力装置41により入力された確認の結果に基づいて、第1回答情報D41が生成され、記憶装置43に記憶される。第1回答情報D41は、通信ネットワーク62を通じて、学習システム3に送信され得る。
【0092】
第2確認処理は、第2要確認情報D22に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置41により表示し、確認の結果の入力を要求する。これによって、所定のイベントについて詳細な知見を持つ人(エキスパート)が、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を確認して、確認の結果を入出力装置41により入力することができる。入出力装置41により入力された確認の結果に基づいて、第2回答情報D42が生成され、記憶装置43に記憶される。第2回答情報D42は、通信ネットワーク62を通じて、学習システム3に送信され得る。
【0093】
[1.3 動作]
次に、評価システム1の動作の一例について
図12を参照して説明する。
図12は、評価システム1の動作の一例を示すシーケンス図である。撮像システム5により、対象動画D1が撮像される(E1)。対象動画D1は、撮像システム5から表示システム2に出力される。表示システム2は、表示方法を実行し(E2)、これによって、評価画面G1が表示される。表示システム2は、要確認情報(第1要確認情報D21、第2要確認情報D22)がある場合には、要確認情報を学習システム3に出力する。学習システム3は、要確認情報D2について回答情報(第1回答情報D41、第2回答情報D42)を得るために、要確認情報を入力システム4に出力する(E3)。入力システム4は、確認処理を実行し、要確認情報に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置41により表示し、確認の結果の入力を要求する(E4)。入力システム4は、入力された確認の結果に基づいて、回答情報D4を生成して学習システム3に出力する。学習システム3は、追加学習処理を実行し(E5)、追加学習後の第1及び第2検出モデルM2,M3を更新情報として、表示システム2に出力する。表示システム2は、追加学習された第1及び第2検出モデルM2,M3を記憶装置23に記憶することによって、第1及び2検出モデルM2,M3を更新する(E6)。
【0094】
[1.4 効果等]
以上述べた表示方法は、対象物が写る対象動画D1を取得する取得ステップS1と、取得ステップS1で取得した対象動画D1に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面G1を表示する表示ステップS3とを含む。評価画面G1は、対象動画D1を表示する動画表示領域R1と、対象物に関する複数のシーンへの対象動画D1の複数のフレームの分類の結果を表示するシーン情報表示領域R2と、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置及び所定のイベントの種類を表示するイベント表示領域R3とを含む。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0095】
また、表示方法において、動画表示領域R1は、対象動画D1において表示中のフレームの位置を示す機能、及び、対象動画D1において表示するフレームを変更する機能を備える操作領域SB1を含む。シーン情報表示領域R2は、複数のシーンの位置をそれぞれ表示する複数のシーン表示バーT1-1~T1-5を含む。イベント表示領域R3は、イベントフレームの位置を表示するイベント表示バーT2を含む。複数のシーン表示バーT1-1~T1-5及びイベント表示バーT2は、操作領域SB1と対応付けて配置される。この態様によれば、シーン表示バーT1-1~T1-5が表示するシーン及びイベント表示バーT2が表示するイベントフレームが対象動画D1のどの部分かをより容易に判断できる。
【0096】
また、表示方法において、操作領域SB1は、対象動画D1において表示中のフレームの位置を示すスライダSB2と、スライダSB2が移動可能な棒状の領域であるスライダバーSB3とを含む。複数のシーン表示バーT1-1~T1-5及びイベント表示バーT2は、操作領域SB1のスライダバーSB3と同じ長さで位置を揃えて配置される。この態様によれば、シーン表示バーT1-1~T1-5が表示するシーン及びイベント表示バーT2が表示するイベントフレームが対象動画D1のどの部分かをより容易に判断できる。
【0097】
また、表示方法において、イベント表示領域R3は、所定のイベントの発生するシーンに属するイベントフレームの位置を表示し、所定のイベントの発生しないシーンに属するイベントフレームの位置を表示しない。この構成によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。
【0098】
また、表示方法において、イベント表示領域R3は、対象動画D1のフレームがイベントフレームであるかどうかを異なる方法で判定する第1及び第2判定処理S221,S222の結果の整合性に応じてイベントフレームの位置の表示の構成を異ならせる。この構成によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。
【0099】
また、表示方法において、動画表示領域R1に表示される対象動画D1のイベントフレームには所定のイベントが発生している領域を示すマークP1,P2が付されている。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0100】
また、表示方法は、取得ステップS1で取得した対象動画D1に基づいて対象物に所定のイベントが生じているかどうかの判定を行う判定ステップS2をさらに含む。判定ステップS2は、対象動画D1の複数のフレームを複数のシーンに分類する分類処理S21と、対象動画D1の複数のフレームの各々がイベントフレームであるかどうかを判定する判定処理S22とを含む。イベント表示領域R3は、分類処理S21の結果と判定処理S22の結果との整合性がないイベントフレームの位置を表示しない。この構成によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。
【0101】
また、表示方法において、分類処理S21は、対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデルM1に、対象動画D1の複数のフレームの各々を与えることで、対象動画D1の複数のフレームを複数のシーンに分類する。この構成によれば、対象動画D1の複数のフレームを複数のシーンに分類する精度の向上が図れる。
【0102】
また、表示方法において、判定処理S22は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデルM2に、対象動画D1の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第1判定処理S221と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデルM3に、対象動画D1の所定のフレームを与えることで、所定のイベントの種類を取得する第2判定処理S222と、第2判定処理S222の第2検出モデルM3が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理S223と、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理S224とを含む。総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致し、かつ、第1判定処理S221の結果から得られる発生領域と、根拠可視化処理S223の結果から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。この構成によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。
【0103】
また、表示方法において、イベント表示領域R3は、第1判定処理S221の結果から得られる発生領域と、根拠可視化処理S223の結果から得られる注目領域とが一致しないことを示す。この構成によれば、誤評価の可能性を低減できる。
【0104】
また、表示方法において、対象動画D1は、嚥下造影検査で撮像される対象物としての人が食物を口から食べる様子のX線動画である。所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含む。この構成によれば、嚥下造影検査において咽頭残留と誤嚥との少なくとも一方が生じているかどうかの評価を高精度で容易に行える。
【0105】
以上述べた表示方法は、演算回路24がプログラムを実行することにより実現される。このプログラムは、上記の表示方法を、演算回路24に実行させるためのプログラムである。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0106】
以上述べた表示システム2は、対象物が写る対象動画D1を記憶する記憶装置23と、対象動画D1に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面G1を生成する演算回路24とを備える。評価画面G1は、対象動画D1を表示する動画表示領域R1と、対象物に関する複数のシーンへの対象動画D1の複数のフレームの分類の結果を表示するシーン情報表示領域R2と、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域R3とを含む。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0107】
以上述べた評価システム1は、対象物が写る対象動画D1を記憶する記憶装置23と、対象動画D1に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路24とを備える。演算回路24は、対象動画D1の所定のフレームを複数のシーンに分類する分類処理S21と、対象動画D1の所定のフレームに基づいて所定のイベントが生じているかどうかを判定する判定処理S22と、分類処理の結果と判定処理の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する整合性判定処理S23とを実行する。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0108】
以上述べた評価システム1は、対象物が写る対象動画D1を記憶する記憶装置23と、対象動画D1に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路24とを備える。演算回路24は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデルM2に、対象動画D1の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第1判定処理S221と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデルM3に、対象動画D1の所定のフレームを与えることで、所定のイベントの種類を取得する第2判定処理S222と、第2判定処理S222の第2検出モデルM3が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理S223と、第1判定処理S221の結果と第2判定処理S222の結果と根拠可視化処理S223の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理S224とを実行する。総合判定処理S223は、第1判定処理S221の結果と第2判定処理S222の結果とで所定のイベントの種類が一致し、かつ、第1判定処理S221の結果から得られる発生領域と、根拠可視化処理S223の結果から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0109】
[2.変形例]
本開示の実施の形態は、上記実施の形態に限定されない。上記実施の形態は、本開示の課題を達成できれば、設計等に応じて種々の変更が可能である。以下に、上記実施の形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。
【0110】
一変形例において、表示方法は、必ずしも判定ステップS20を含んでいる必要はない。表示方法の表示ステップS30は、表示システム2とは別のシステムにより実行された判定ステップS20の結果を取得してよい。
【0111】
一変形例において、表示方法は、嚥下造影検査以外にも適用できる。表示方法は、例えば、人体の便生成のプロセスの検査にも適用可能である。この場合、対象動画D1は、人体の小腸及び大腸のX線動画であってよい。小腸から大腸には、液状の消化物が入る。そして、大腸を進行することで、消化物は、液状から、半流動状、粥状、半粥状と変化し、固形化し、固い便となる。一般に、大腸は、上行結腸、横行結腸、下行結腸、S状結腸、及び直腸を含む。そして、大腸の各部位と消化物の状態とは関係している。上行結腸では、消化物は液状又は半液状である。横行結腸では、消化物は半液状、粥状、又は半粥状である。下行結腸では、消化物は半粥状又は固形化している。S状結腸では、消化物は固形化又は固い便である。直腸では、消化物は固い便である。そのため、上行結腸入口において、消化物が固い便と判断され場合には、この判断は誤りである可能性が高い。よって、変形例では、所定のイベントは、大腸の便(消化物)の状態である、液状、半流動状、粥状、半粥状、固形状、及び固い便の少なくとも一つを含んでよい。複数のシーンは、消化物がある大腸の部位として、上行結腸、横行結腸、下行結腸、S状結腸、及び直腸の少なくとも2つを含んでよい。これによって、人体の便生成のプロセスの検査についての消化物の状態の評価を高精度で容易に行える。
【0112】
一変形例では、表示方法は、例えば、骨格情報を利用した作業分析にも適用可能である。この場合、対象動画D1は、所定の作業を実行する人の動画であってよい。所定のイベントは、所定の作業に含まれる人の動作であってよい。骨格情報を利用することで対象動画D1から人の動作を検出できる。所定の作業は、例えば、組み立て作業がある。組み立て作業は、例えば、人がピンセットを用いて部品を組み合わせて完成品を作製する。組み立て作業に含まれる人の動作としては、ピンセット保持、部品除去、部品の組み合わせ、肉眼検査、顕微鏡検査、検査終了品の完成品箱への投入、ペン保持、ボードへの記入、及び、組み立て準備の工程が挙げられる。ここで、ピンセット保持、部品除去、部品の組み合わせ、肉眼検査、顕微鏡検査、検査終了品の完成品箱への投入、ペン保持、ボードへの記入、及び、組み立て準備の工程は、類似の工程が存在し得る小分類の工程である。これらの小分類の工程は、特徴が大きく異なる大分類の工程に分類され得る。例えば、ピンセット保持、部品除去、及び部品の組み合わせの工程は、組み立ての工程に分類される。肉眼検査、顕微鏡検査、及び検査終了品の完成品箱への投入の工程は、品質検査の工程に分類される。ペン保持、ボードへの記入、及び組み立て準備の工程は、記録の工程に分類される。対象動画D1から所定のイベントとして小分類を検出する場合、小分類と大分類との組み合わせが異なる場合には、小分類の検出が誤りである可能性が高い。記録の工程において、ピンセット保持が検出された場合、ピンセット保持が誤りであり、実際は記録の工程においてピンセット保持に類似するペン保持である可能性がある。そのため、ピンセット保持をペン保持に修正するか、ピンセット保持を誤判定として無視するといった対処が可能である。よって、変形例では、所定のイベントは、所定の作業に含まれる人の動作(小分類)に対応してよい。複数のシーンは、所定の作業において特徴が大きく異なる大分類の工程に対応してよい。これによって、骨格情報を利用した作業分析を高精度で容易に行える。
【0113】
一変形例では、対象物は人に限らず、状態が変化する物であればよく、対象物は生物又は無生物であってよい。
【0114】
一変形例では、評価画面G1は、表示システム2の入出力装置21のディスプレイに限らず、表示システム2に通信可能に接続されるコンピュータシステムのディスプレイに表示されてもよい。
【0115】
一変形例では、評価画面G1のイベント表示領域R3は、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との両方ではなく、所定のイベントの種類のみを表示してもよい。所定のイベントの種類から所定のイベントの発生しているシーンが類推できる場合には、所定のイベントの種類を表示することで、間接的に、所定のイベントの発生しているフレームの位置を示すことができる。評価画面G1は、シーン情報表示領域R2を含んでいるから、類推したシーンに対応するフレームを容易に見つけることができる。類推したシーンに対応するフレームに所定のイベントが発見できない場合には、誤検出であると判断できる。このように、評価画面G1のイベント表示領域R3は、対象動画D1の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示してよい。
【0116】
一変形例では、表示方法は、必ずしも判定ステップS2を含む必要はない。例えば、表示システム2は、対象動画D1を外部装置に出力して外部装置に判定ステップS2を実行させ、判定ステップS2の結果を外部装置から取得して表示ステップS3を実行することができる。
【0117】
一変形例では、評価システム1は、必ずしも撮像システム5を備えている必要はない。表示システム2は、外部又は内部の記憶装置から対象動画D1を取得してよい。評価システム1は、学習システム3及び入力システム4を備えていなくてもよい。つまり、第1検出モデルM2及び第2検出モデルM3についての追加学習は必須の構成ではない。評価システム1は、表示システム2全体を含んでいる必要はなく、少なくとも判定ステップS2を実行する機能を有していてよい。つまり、評価システム1は、外部装置から得た対象動画D1に対して判定ステップS2を実行し、判定ステップS2の結果を外部装置に出力してよい。この場合、外部装置が、判定ステップS2の結果を表示する。つまり、評価システム1自体が、評価画面G1を表示する構成を備えていなくてもよい。
【0118】
一変形例では、評価システム1において、表示システム2、学習システム3、及び入力システム4がそれぞれ異なるコンピュータシステムで実現されることは必須ではない。表示システム2、学習システム3、及び入力システム4は単一のコンピュータシステムで実現されてもよい。
【0119】
一変形例では、表示システム2、学習システム3、及び入力システム4は、それぞれ、入出力装置21,31,41と通信装置22,32,42との両方を備える必要はない。
【0120】
一変形例では、表示システム2、学習システム3、及び入力システム4の各々は、複数のコンピュータシステムで実現されてもよい。つまり、表示システム2、学習システム3、及び入力システム4の各々における複数の機能(構成要素)が、1つの筐体内に集約されていることは必須ではなく、表示システム2、学習システム3、及び入力システム4の各々の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、表示システム2、学習システム3、及び入力システム4の各々の少なくとも一部の機能、例えば、演算回路24,34,44の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
【0121】
[3.態様]
上記実施の形態及び変形例から明らかなように、本開示は、下記の態様を含む。以下では、実施の形態との対応関係を明示するためだけに、符号を括弧付きで付している。
【0122】
第1の態様は、表示方法であって、対象物が写る対象動画(D1)を取得する取得ステップ(S1)と、前記取得ステップ(S1)で取得した前記対象動画(D1)に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面(G1)を表示する表示ステップ(S3)とを含む。前記評価画面(G1)は、前記対象動画(D1)を表示する動画表示領域(R1)と、前記対象物に関する複数のシーンへの前記対象動画(D1)の複数のフレームの分類の結果を表示するシーン情報表示領域(R2)と、前記対象動画(D1)の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域(R3)とを含む。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0123】
第2の態様は、第1の態様に基づく表示方法である。第2の態様において、前記動画表示領域(R1)は、前記対象動画(D1)において表示中のフレームの位置を示す機能、及び、前記対象動画(D1)において表示するフレームを変更する機能を備える操作領域(SB1)を含む。前記シーン情報表示領域(R2)は、前記複数のシーンの位置をそれぞれ表示する複数のシーン表示バー(T1-1~T1-5)を含む。前記イベント表示領域(R3)は、前記イベントフレームの位置を表示するイベント表示バー(T2)を含む。前記複数のシーン表示バー(T1-1~T1-5)及び前記イベント表示バー(T2)は、前記操作領域(SB1)と対応付けて配置される。この態様によれば、シーン表示バー(T1-1~T1-5)が表示するシーン及びイベント表示バー(T2)が表示するイベントフレームが対象動画(D1)のどの部分かをより容易に判断できる。
【0124】
第3の態様は、第2の態様に基づく表示方法である。第3の態様において、前記操作領域(SB1)は、前記対象動画(D1)において表示中のフレームの位置を示すスライダ(SB2)と、前記スライダ(SB2)が移動可能な棒状の領域であるスライダバー(SB3)とを含む。前記複数のシーン表示バー(T1-1~T1-5)及び前記イベント表示バー(T2)は、前記操作領域(SB1)のスライダバー(SB3)と同じ長さで位置を揃えて配置される。この態様によれば、シーン表示バー(T1-1~T1-5)が表示するシーン及びイベント表示バー(T2)が表示するイベントフレームが対象動画(D1)のどの部分かをより容易に判断できる。
【0125】
第4の態様は、第1~第3の態様のいずれか一つに基づく表示方法である。第4の態様において、前記イベント表示領域(R3)は、前記所定のイベントの発生するシーンに属する前記イベントフレームの位置を表示し、前記所定のイベントの発生しないシーンに属する前記イベントフレームの位置を表示しない。この態様によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。
【0126】
第5の態様は、第1~第4の態様のいずれか一つに基づく表示方法である。第5の態様において、前記イベント表示領域(R3)は、前記対象動画(D1)のフレームが前記イベントフレームであるかどうかを異なる方法で判定する第1及び第2判定処理(S221,S222)の結果の整合性に応じて前記イベントフレームの位置の表示の態様を異ならせる。この態様によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。
【0127】
第6の態様は、第1~第5の態様のいずれか一つに基づく表示方法である。第6の態様において、前記動画表示領域(R1)に表示される前記対象動画(D1)の前記イベントフレームには前記所定のイベントが発生している領域を示すマーク(P1,P2)が付されている。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0128】
第7の態様は、第1~第6の態様のいずれか一つに基づく表示方法である。第7の態様において、前記表示方法は、前記取得ステップ(S1)で取得した前記対象動画(D1)に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う判定ステップ(S2)をさらに含む。前記判定ステップ(S2)は、前記対象動画(D1)の複数のフレームを前記複数のシーンに分類する分類処理(S21)と、前記対象動画(D1)の複数のフレームの各々が前記イベントフレームであるかどうかを判定する判定処理(S22)とを含む。前記イベント表示領域(R3)は、前記分類処理(S21)の結果と前記判定処理(S22)の結果との整合性がない前記イベントフレームの位置を表示しない。この態様によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。
【0129】
第8の態様は、第7の態様に基づく表示方法である。第8の態様において、前記分類処理(S21)は、前記対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデル(M1)に、前記対象動画(D1)の複数のフレームの各々を与えることで、前記対象動画(D1)の複数のフレームを前記複数のシーンに分類する。この態様によれば、対象動画(D1)の複数のフレームを複数のシーンに分類する精度の向上が図れる。
【0130】
第9の態様は、第7又は第8の態様に基づく表示方法である。第9の態様において、前記判定処理(S22)は、前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデル(M2)に、前記対象動画(D1)の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第1判定処理(S221)と、前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデル(M3)に、前記対象動画(D1)の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第2判定処理(S222)と、前記第2判定処理(S222)の前記第2検出モデル(M3)が前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理(S223)と、前記第1判定処理(S221)の結果と前記第2判定処理(S222)の結果と前記根拠可視化処理(S223)の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理(S224)とを含む。前記総合判定処理(S223)は、前記第1判定処理(S221)の結果と前記第2判定処理(S222)の結果とで前記所定のイベントの種類が一致し、かつ、前記第1判定処理(S221)の結果から得られる前記発生領域と、前記根拠可視化処理(S223)の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する。この態様によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。
【0131】
第10の態様は、第9の態様に基づく表示方法である。第10態様において、前記イベント表示領域(R3)は、前記第1判定処理(S221)の結果から得られる前記発生領域と、前記根拠可視化処理(S223)の結果から得られる前記注目領域とが一致しないことを示す。この態様によれば、誤評価の可能性を低減できる。
【0132】
第11の態様は、第1~第10の態様のいずれか一つに基づく表示方法である。第11の態様において、前記対象動画(D1)は、嚥下造影検査で撮像される前記対象物としての人が食物を口から食べる様子のX線動画である。前記所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含む。前記複数のシーンは、先行期と、準備期と、口腔期と、咽頭期と、食道期との少なくとも2つを含む。この態様によれば、嚥下造影検査において咽頭残留と誤嚥との少なくとも一方が生じているかどうかの評価を高精度で容易に行える。
【0133】
第12の態様は、第1~第11の態様のいずれか一つの表示方法を、演算回路(24)に実行させるためのプログラムである。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0134】
第13の態様は、表示システム(2)であって、対象物が写る対象動画(D1)を記憶する記憶装置(23)と、前記対象動画(D1)に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面(G1)を生成する演算回路(24)とを備える。前記評価画面(G1)は、前記対象動画(D1)を表示する動画表示領域(R1)と、前記対象物に関する複数のシーンへの前記対象動画(D1)の複数のフレームの分類の結果を表示するシーン情報表示領域(R2)と、前記対象動画(D1)の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域(R3)とを含む。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0135】
第14の態様は、評価システム(1)であって、対象物が写る対象動画(D1)を記憶する記憶装置(23)と、前記対象動画(D1)に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路(24)とを備える。前記演算回路(24)は、前記対象動画(D1)の所定のフレームを複数のシーンに分類する分類処理(S21)と、前記対象動画(D1)の所定のフレームに基づいて前記所定のイベントが生じているかどうかを判定する判定処理(S22)と、前記分類処理の結果と前記判定処理の結果との整合性に基づいて前記所定のイベントが発生しているかどうかを判定する整合性判定処理(S23)とを実行する。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0136】
第15の態様は、評価システム(1)であって、対象物が写る対象動画(D1)を記憶する記憶装置(23)と、前記対象動画(D1)に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路(24)とを備える。前記演算回路(24)は、前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第1検出モデル(M2)に、前記対象動画(D1)の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第1判定処理(S221)と、前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第2検出モデル(M3)に、前記対象動画(D1)の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第2判定処理(S222)と、前記第2判定処理(S222)の前記第2検出モデル(M3)が前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理(S223)と、前記第1判定処理(S221)の結果と前記第2判定処理(S222)の結果と前記根拠可視化処理(S223)の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理(S224)とを実行する。前記総合判定処理(S223)は、前記第1判定処理(S221)の結果と前記第2判定処理(S222)の結果とで前記所定のイベントの種類が一致し、かつ、前記第1判定処理(S221)の結果から得られる前記発生領域と、前記根拠可視化処理(S223)の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。
【0137】
[4.用語]
本開示では、機械学習に関する用語を以下のように定義して用いる。
【0138】
「学習済みモデル」とは「学習済みパラメータ」が組み込まれた「推論プログラム」をいう。
【0139】
「学習済みパラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ(係数)をいう。学習済みパラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。学習済みパラメータは、学習の目的にあわせて調整されているものの、単体では単なるパラメータ(数値等の情報)にすぎず、これを推論プログラムに組み込むことで初めて学習済みモデルとして機能する。例えば、ディープラーニングの場合には、学習済みパラメータの中で主要なものとしては、各ノード間のリンクの重み付けに用いられるパラメータ等がこれに該当する。
【0140】
「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。例えば、入力として与えられた画像に対して、学習の結果として取得された学習済みパラメータを適用し、当該画像に対する結果(認証や判定)を出力するための一連の演算手順を規定したプログラムである。
【0141】
「学習用データセット」とは、訓練データセットともいい、生データに対して、欠測値や外れ値の除去等の前処理や、ラベル情報(正解データ)等の別個のデータの付加等、あるいはこれらを組み合わせて、変換・加工処理を施すことによって、対象とする学習の手法による解析を容易にするために生成された二次的な加工データをいう。学習用データセットには、生データに一定の変換を加えていわば「水増し」されたデータを含むこともある。
【0142】
「生データ」とは、ユーザやベンダ、その他の事業者や研究機関等により一次的に取得されたデータであって、データベースに読み込むことができるよう変換・加工処理されたものをいう。なお、「生データ」を加工せずに学習を行うことは排除されない。その場合には、「生データ」自体が「学習用データセット」と呼ばれ得る。
【0143】
「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。
【0144】
「追加学習」とは、既存の学習済みモデルに、異なる学習用データセットを適用して、更なる学習を行うことで、新たに学習済みパラメータを生成することを意味する。
【産業上の利用可能性】
【0145】
本開示は、表示方法、プログラム(コンピュータプログラム)、表示システム、及び、評価システムに適用可能である。具体的には、対象物が写る対象動画に基づいて対象物に所定のイベントが生じているかどうかを評価するための表示方法、プログラム(コンピュータプログラム)、表示システム、及び、評価システムに、本開示は適用可能である。
【符号の説明】
【0146】
1 評価システム
2 表示システム
23 記憶装置
24 演算回路
D1 対象動画
M1 分類モデル
M2 第1検出モデル
M3 第2検出モデル
G1 評価画面
R1 動画表示領域
SB1 操作領域
SB2 スライダ
SB3 スライダバー
R2 シーン情報表示領域
T1-1,T1-5 シーン表示バー
R3 イベント表示領域
T2 イベント表示バー
P1,P2 マーク
S1 取得ステップ
S2 判定ステップ
S21 分類処理
S22 判定処理
S221 第1判定処理
S222 第2判定処理
S223 根拠可視化処理
S224 総合判定処理
S23 整合性判定処理
S3 表示ステップ