特許7396329 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社村田製作所の特許一覧

特許7396329表示方法、プログラム、表示システム、及び、評価システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-04

(45)【発行日】2023-12-12

(54)【発明の名称】表示方法、プログラム、表示システム、及び、評価システム

(51)【国際特許分類】

A61B 6/00 20060101AFI20231205BHJP

G06T 7/00 20170101ALI20231205BHJP

G06F 3/048 20130101ALI20231205BHJP

【ＦＩ】

A61B6/00 360Z

G06T7/00 612

G06T7/00 350B

A61B6/00 330A

G06F3/048

【請求項の数】 13

(21)【出願番号】P 2021085547

(22)【出願日】2021-05-20

(65)【公開番号】P2022178615

(43)【公開日】2022-12-02

【審査請求日】2022-12-12

(73)【特許権者】

【識別番号】000006231

【氏名又は名称】株式会社村田製作所

(74)【代理人】

【識別番号】100145403

【弁理士】

【氏名又は名称】山尾憲人

(74)【代理人】

【識別番号】100132241

【弁理士】

【氏名又は名称】岡部博史

(74)【代理人】

【識別番号】100135703

【弁理士】

【氏名又は名称】岡部英隆

(72)【発明者】

【氏名】嶋末陽介

【審査官】遠藤直恵

(56)【参考文献】

【文献】特開２００４－３３７５９６（ＪＰ，Ａ）

【文献】国際公開第２０２０／０５４６０４（ＷＯ，Ａ１）

【文献】米国特許出願公開第２００４／０２２５２２３（ＵＳ，Ａ１）

【文献】国際公開第２００８／１４２８３１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２００８／０２８５８２６（ＵＳ，Ａ１）

【文献】特開２０１８－０９９２４０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ６／００－６／１４、１／００－１／３２

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｆ３／０１－３／０４８９５

(57)【特許請求の範囲】

【請求項1】

対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記動画表示領域は、前記対象動画において表示中のフレームの位置を示す機能、及び、前記対象動画において表示するフレームを変更する機能を備える操作領域を含み、
前記シーン情報表示領域は、前記複数のシーンの位置をそれぞれ表示する複数のシーン表示バーを含み、
前記イベント表示領域は、前記イベントフレームの位置を表示するイベント表示バーを含み、
前記複数のシーン表示バー及び前記イベント表示バーは、前記操作領域と対応付けて配置される、
表示方法。

【請求項2】

前記操作領域は、前記対象動画において表示中のフレームの位置を示すスライダと、前記スライダが移動可能な棒状の領域であるスライダバーとを含み、
前記複数のシーン表示バー及び前記イベント表示バーは、前記操作領域のスライダバーと同じ長さで位置を揃えて配置される、
請求項１に記載の表示方法。

【請求項3】

前記イベント表示領域は、前記所定のイベントの発生するシーンに属する前記イベントフレームの位置を表示し、前記所定のイベントの発生しないシーンに属する前記イベントフレームの位置を表示しない、
請求項１又は２に記載の表示方法。

【請求項4】

対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記イベント表示領域は、前記対象動画のフレームが前記イベントフレームであるかどうかを異なる方法で判定する第１及び第２判定処理の結果の整合性に応じて前記イベントフレームの位置の表示の態様を異ならせる、
表示方法。

【請求項5】

前記動画表示領域に表示される前記対象動画の前記イベントフレームには前記所定のイベントが発生している領域を示すマークが付されている、
請求項１～４のいずれか一つに記載の表示方法。

【請求項6】

対象物が写る対象動画を取得する取得ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う判定ステップと、
前記取得ステップで取得した前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップと、
を含み、
前記評価画面は、
前記対象動画を表示する動画表示領域と、
前記対象物に関する複数のシーンへの前記対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、
前記対象動画の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と前記所定のイベントの種類との少なくとも一方を表示するイベント表示領域と、
を含み、
前記判定ステップは、
前記対象動画の複数のフレームを前記複数のシーンに分類する分類処理と、
前記対象動画の複数のフレームの各々が前記イベントフレームであるかどうかを判定する判定処理と、
を含み、
前記イベント表示領域は、前記分類処理の結果と前記判定処理の結果との整合性がない前記イベントフレームの位置を表示しない、
表示方法。

【請求項7】

前記分類処理は、前記対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデルに、前記対象動画の複数のフレームの各々を与えることで、前記対象動画の複数のフレームを前記複数のシーンに分類する、
請求項６に記載の表示方法。

【請求項8】

前記判定処理は、
前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデルに、前記対象動画の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第１判定処理と、
前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデルに、前記対象動画の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第２判定処理と、
前記第２判定処理の前記第２検出モデルが前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、
前記第１判定処理の結果と前記第２判定処理の結果と前記根拠可視化処理の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理と、
を含み、
前記総合判定処理は、前記第１判定処理の結果と前記第２判定処理の結果とで前記所定のイベントの種類が一致し、かつ、前記第１判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する、
請求項６又は７に記載の表示方法。

【請求項9】

前記イベント表示領域は、前記第１判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致しないことを示す、
請求項８に記載の表示方法。

【請求項10】

前記対象動画は、嚥下造影検査で撮像される前記対象物としての人が食物を口から食べる様子のＸ線動画であり、
前記所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含み、
前記複数のシーンは、先行期と、準備期と、口腔期と、咽頭期と、食道期との少なくとも２つを含む、
請求項１～９のいずれか一つに記載の表示方法。

【請求項11】

請求項１～１０のいずれか一つに記載の表示方法を、演算回路に実行させるための、
プログラム。

【請求項12】

対象物が写る対象動画を記憶する記憶装置と、
前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路と、
を備え、
前記演算回路は、
前記対象動画の所定のフレームを複数のシーンに分類する分類処理と、
前記対象動画の所定のフレームに基づいて前記所定のイベントが生じているかどうかを判定する判定処理と、
前記分類処理の結果と前記判定処理の結果との整合性に基づいて前記所定のイベントが発生しているかどうかを判定する整合性判定処理と、
を実行する、
評価システム。

【請求項13】

対象物が写る対象動画を記憶する記憶装置と、
前記対象動画に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路と、
を備え、
前記演算回路は、
前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデルに、前記対象動画の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第１判定処理と、
前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデルに、前記対象動画の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第２判定処理と、
前記第２判定処理の前記第２検出モデルが前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、
前記第１判定処理の結果と前記第２判定処理の結果と前記根拠可視化処理の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理と、
を実行し、
前記総合判定処理は、前記第１判定処理の結果と前記第２判定処理の結果とで前記所定のイベントの種類が一致し、かつ、前記第１判定処理の結果から得られる前記発生領域と、前記根拠可視化処理の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する、
評価システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、表示方法、プログラム、表示システム、及び、評価システムに関する。

【背景技術】

【0002】

特許文献１は、画像処理装置を開示する。特許文献１に開示された画像処理装置では、制御部が、被写体の動態を放射線撮影することにより取得された動画像の複数のフレーム画像のそれぞれから被写体の変化を表す特徴量を算出し、算出された特徴量が予め定められた条件を満たすフレーム画像を確認表示用のフレーム画像として抽出する。また、抽出された確認表示用のフレーム画像に対し、他のフレーム画像に先行して画像処理パラメータを適用して画像処理を施し、画像処理されたフレーム画像を表示部に表示させる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２０－０８０９４９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１では、テンプレートマッチングによって特定の瞬間のフレームを特定して表示する。しかしながら、特許文献１では、指定した身体動作のイベントの時点しか特定して表示できず、放射線動画像に含まれる身体動作の情報は断片的にしか得られない。その結果、被写体の評価のための情報が不足して評価を高精度で迅速に行うことが難しい場合がある。

【0005】

本開示は、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える表示方法、プログラム、表示システム、及び、評価システムを提供する。

【課題を解決するための手段】

【0006】

本開示の一態様の表示方法は、対象物が写る対象動画を取得する取得ステップと、取得ステップで取得した対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップとを含む。評価画面は、対象動画を表示する動画表示領域と、対象物に関する複数のシーンへの対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、対象動画の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域とを含む。

【0007】

本開示の一態様のプログラムは、上記の表示方法を、演算回路に実行させるためのプログラムである。

【0008】

本開示の一態様の表示システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する演算回路とを備える。評価画面は、対象動画を表示する動画表示領域と、対象物に関する複数のシーンへの対象動画の複数のフレームの分類の結果を表示するシーン情報表示領域と、対象動画の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域とを含む。

【0009】

本開示の一態様の評価システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路とを備える。演算回路は、対象動画の所定のフレームを複数のシーンに分類する分類処理と、対象動画の所定のフレームに基づいて所定のイベントが生じているかどうかを判定する判定処理と、分類処理の結果と判定処理の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する整合性判定処理とを実行する。

【0010】

本開示の一態様の評価システムは、対象物が写る対象動画を記憶する記憶装置と、対象動画に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路とを備える。演算回路は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデルに、対象動画の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第１判定処理と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデルに、対象動画の所定のフレームを与えることで、所定のイベントの種類を取得する第２判定処理と、第２判定処理の第２検出モデルが所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理と、第１判定処理の結果と第２判定処理の結果と根拠可視化処理の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理とを実行する。総合判定処理は、第１判定処理の結果と第２判定処理の結果とで所定のイベントの種類が一致し、かつ、第１判定処理の第１検出モデルから得られる発生領域と、根拠可視化処理から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。

【発明の効果】

【0011】

本開示の態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【図面の簡単な説明】

【0012】

【図1】一実施の形態の表示方法の一例のフローチャート

【図2】対象物に生じる所定のイベントの一例の概略説明図

【図3】図１の表示方法で表示される評価画面の第１例の説明図

【図4】図１の表示方法で表示される評価画面の第２例の説明図

【図5】図１の表示方法で表示される評価画面の第３例の説明図

【図6】図１の表示方法で表示される評価画面の第４例の説明図

【図7】図１の表示方法を実行する評価システムの構成例のブロック図

【図8】図７の評価システムが備える表示システムの構成例のブロック図

【図9】図８の表示システムでのデータの流れの一例の説明図

【図10】図７の評価システムが備える学習システムの構成例のブロック図

【図11】図７の評価システムが備える入力システムの構成例のブロック図

【図12】図７の評価システムの動作の一例を示すシーケンス図

【発明を実施するための形態】

【0013】

［１．実施の形態］
［１．１概要］
図１は、一実施の形態の表示方法の一例のフローチャートである。図１の表示方法は、対象物に所定のイベントが生じているかどうかの所定の検査に用いられる。所定の検査は、例えば、嚥下造影検査（videofluoroscopic examination of swallowing：ＶＦ）である。嚥下造影検査は、バリウム等の造影剤を含んだ水分又は食物を嚥下する様子をＸ線により撮影して得られるＸ線動画から口から食べる機能に異常がないか調べる検査である。したがって、表示方法は、嚥下造影検査において対象物のＸ線動画の読影に利用される。

【0014】

図２は、対象物に生じる所定のイベントの一例の概略説明図である。図２において、対象物は人である。所定のイベントは、例えば、異常状態である。嚥下造影検査の場合、所定のイベントは、人（患者）が食物を食べる際に発生する病態である。図２の所定のイベントは、咽頭残留と誤嚥とを含む。咽頭残留は、図２に示すように、人が嚥下した食物を飲み込めず、食塊が咽頭に残ってしまう状態である。食塊は、食物を口に入れた時に噛み砕き、唾液と混ぜ合わせてできた飲み込む前の塊である。なお、食物が咽頭に入り嚥下が起こらないで残った状態は「咽頭残留」ではなく「貯留」として区別される。誤嚥は、図２に示すように、食塊や分泌物が声門を越えて気道に入ってしまう状態である。誤嚥は、さらに嚥下前誤嚥、嚥下中誤嚥、及び嚥下後誤嚥に分類されるが、本実施の形態では、これらはまとめて誤嚥として扱われる。

【0015】

図１の表示方法は、対象物が写る対象動画を取得する取得ステップ（Ｓ１０）と、取得ステップで取得した対象動画に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面を表示する表示ステップ（Ｓ２０）とを含む。図３～図７は、表示方法で表示される評価画面Ｇ１の第１例～第７例の説明図である。評価画面Ｇ１は、対象動画Ｄ１を表示する動画表示領域Ｒ１と、対象物に関する複数のシーンへの対象動画Ｄ１の複数のフレームの分類の結果を表示するシーン情報表示領域Ｒ２と、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域Ｒ３とを含む。

【0016】

この表示方法によれば、イベント表示領域Ｒ３を参照することで、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を把握できるから、対象動画Ｄ１からイベントフレームを容易に検索することができる。そのため、対象物に所定のイベントが生じているかどうかの評価のために、対象動画Ｄ１の全てを確認しなくても済む。また、シーン情報表示領域Ｒ２を参照することで、対象物に関する複数のシーンへの対象動画Ｄ１の複数のフレームの分類を把握できるから、所定のイベントが生じたシーンを容易に把握できる。これによって、所定のイベントの種類と所定のイベントが生じたシーンとの整合性を考慮して、対象物に所定のイベントが生じているかどうかの評価が可能となる。したがって、この表示方法によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0017】

［１．２詳細］
図１の表示方法は、図７に示す評価システム１により実行される。以下、図７の評価システム１について詳細に説明する。図７の評価システム１は、表示システム２と、学習システム３と、入力システム４と、撮像システム５とを備える。表示システム２は、学習システム３と通信ネットワーク６１を介して通信可能に接続される。学習システム３は、入力システム４と通信ネットワーク６２を介して通信可能に接続される。

【0018】

撮像システム５は、対象物が写る対象動画Ｄ１を撮像する。本実施の形態において、対象動画Ｄ１は、嚥下造影検査で撮像される対象物としての人が食物を食べる様子のＸ線動画である。撮像システム５は、表示システム２に接続される。撮像システム５は、対象動画Ｄ１を表示システム２に出力する。

【0019】

［１．２．１表示システム］
図８は、表示システム２の構成例のブロック図である。表示システム２は、インタフェース（入出力装置２１及び通信装置２２）と、記憶装置２３と、演算回路２４とを備える。表示システム２は、例えば、１台の端末装置で実現される。端末装置としては、パーソナルコンピュータ（デスクトップコンピュータ、ラップトップコンピュータ）、携帯端末（スマートフォン、タブレット端末、ウェアラブル端末等）等が挙げられる。

【0020】

入出力装置２１は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置２１は、表示システム２への情報の入力、及び、表示システム２からの情報の出力に利用される。入出力装置２１は、１以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス（マウス、トラックボール等）、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。

【0021】

通信装置２２は、外部装置又はシステムと通信可能に接続される。通信装置２２は、通信ネットワーク６１を通じた学習システム３との通信に用いられる。通信装置２２は、１以上の通信インタフェースを備える。通信装置２２は、通信ネットワーク６１に接続可能であり、通信ネットワーク６１を通じた通信を行う機能を有する。通信装置２２は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。

【0022】

記憶装置２３は、演算回路２４が利用する情報及び演算回路２４で生成される情報を記憶するために用いられる。記憶装置２３は、１以上のストレージ（非一時的な記憶媒体）を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ（ＳＳＤ）のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びＮＡＳ（network-attached storage）型のいずれであってもよい。なお、表示システム２は、複数の記憶装置２３を備えてよい。複数の記憶装置２３には情報が分散されて記憶されてよい。

【0023】

記憶装置２３に記憶される情報は、対象動画Ｄ１と、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２を含む。図９では、記憶装置２３が、対象動画Ｄ１と、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２との全てを記憶している状態を示している。対象動画Ｄ１と、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２とは常に記憶装置２３に記憶されている必要はなく、演算回路２４で必要とされるときに記憶装置２３に記憶されていればよい。分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２とについては後に説明する。

【0024】

演算回路２４は、表示システム２の動作を制御する回路である。演算回路２４は、入出力装置２１及び通信装置２２に接続され、記憶装置２３にアクセス可能である。演算回路２４は、例えば、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。１以上のプロセッサが（１以上のメモリ又は記憶装置２３に記憶された）プログラムを実行することで、演算回路２４としての機能を実現する。プログラムは、ここでは記憶装置２３に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。

【0025】

演算回路２４は、図１に示す表示方法を実行する。図１の表示方法は、取得ステップＳ１と、判定ステップＳ２と、表示ステップＳ３とを含む。

【0026】

取得ステップＳ１は、インタフェース（入出力装置２１及び通信装置２２）を通じて対象動画Ｄ１を取得して記憶装置２３に記憶させる。表示システム２では、入出力装置２１と通信装置２２を利用して対象動画Ｄ１の入力が可能である。表示システム２は、撮像システム５と通信可能に接続される。表示システム２は、撮像システム５で生成された対象動画Ｄ１を、撮像システム５から取得できる。

【0027】

判定ステップＳ２は、取得ステップＳ１で取得した対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかの判定を行う。判定ステップＳ２での判定の結果は表示ステップＳ３で利用される。図１の判定ステップＳ２は、分類処理Ｓ２１と、判定処理Ｓ２２と、総合判定処理Ｓ２３とを含む。

【0028】

分類処理Ｓ２１は、対象動画Ｄ１の複数のフレームを対象物に関する複数のシーンに分類する。対象物に関する複数のシーンは、例えば、解剖学的観点に基づいて対象物の動作を分類することで設定される。本実施の形態では、人が食物を食べる動作を解剖学的観点から複数のシーンに分類している。複数のシーンは、例えば、先行期と、準備期と、口腔期と、咽頭期と、食道期とを含む。先行期は、例えば、人が食物を認識し、口に取り込むまでの期間である。準備期は、食物を口に取り込み、咀嚼を終えるまでの期間である。口腔期は、食塊が咽頭へ移動を開始した時から始まる期間である。口腔期の終期は、例えば、食塊が咽頭へ移動し終えた時である。咽頭期は、食塊の先端が下顎枝後端を越えた時から始まる期間である。咽頭期の終期は、例えば、食塊の末端が下顎枝後端を越えた時である。食道期は、食塊の先端が食道に入った時から始まる期間である。食道期の終期は、食塊の末端が食道に入った時である。なお、複数のシーンは、時間的に区切られているが、必ずしも互いに独立していなくてもよい。つまり、シーン同士が部分的に重複していてもよい。例えば、咽頭期と食道期とは部分的に重複している。

【0029】

分類処理Ｓ２１は、分類モデルＭ１に、対象動画Ｄ１の複数のフレームの各々を与えることで、対象動画Ｄ１の複数のフレームを複数のシーンに分類する。分類モデルＭ１は、対象物が写るフレームの入力に対して、入力されたフレームが属するシーンを出力するように学習されたモデル（学習済みモデル）である。つまり、分類モデルＭ１は、対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである。分類モデルＭ１は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームが属するシーンを正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって生成される学習済みモデルから得られる。分類モデルＭ１の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとしてシーンの名称を示すラベル情報を付加することで生成される。下記表１は、分類モデルＭ１の生成に用いる学習用データセットの一例を示す。表１中のＮは任意の整数を示す。分類モデルＭ１に用いるモデルには、ＲｅｓＮｅｔを用いることができる。分類モデルＭ１に用いるモデルは、その他の従来周知の推論プログラムであってよい。

【0030】

【表1】

【0031】

判定処理Ｓ２２は、対象動画Ｄ１の複数のフレームの各々がイベントフレームであるかどうかを判定する。イベントフレームは、対象物に所定のイベントが生じているフレームである。本実施の形態では、所定のイベントは、咽頭残留と誤嚥とを含む。そのため、イベントフレームは、対象物に咽頭残留が生じている第１イベントフレームと、対象物に誤嚥が生じている第２イベントフレームとに分類される。

【0032】

図１の判定処理Ｓ２２は、第１判定処理Ｓ２２１と、第２判定処理Ｓ２２２と、根拠可視化処理Ｓ２２３と、総合判定処理Ｓ２２４とを含む。

【0033】

第１判定処理Ｓ２２１は、第１検出モデルＭ２に、対象動画Ｄ１の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する。第１判定処理Ｓ２２１によれば、第１検出モデルＭ２に、対象動画Ｄ１の複数のフレームを与えることで、対象動画Ｄ１の複数のフレームの各々がイベントフレームであるかどうかを判定することができる。第１検出モデルＭ２は、対象物が写るフレームの入力に対して、所定のイベントの種類及び所定のイベントが発生している発生領域を出力するように学習されたモデル（学習済みモデル）である。つまり、第１検出モデルＭ２は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである。第１検出モデルＭ２に入力されたフレームがイベントフレームでない場合、第１判定処理Ｓ２２１の結果は、所定のイベントが発生している発生領域及び所定のイベントの種類については「なし」となる。第１検出モデルＭ２に入力されたフレームがイベントフレームである場合、第１判定処理Ｓ２２１の結果は、所定のイベントが発生している発生領域及び所定のイベントの種類を示す。

【0034】

第１検出モデルＭ２は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで所定のイベントが発生している箇所及び入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって生成される学習済みモデルから得られる。第１検出モデルＭ２の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報及び所定のイベントの発生領域を示す位置情報を付加することで生成される。下記表２は、第１検出モデルＭ２の生成に用いる学習用データセットの一例を示す。表２中のＮは任意の整数を示す。位置情報は、フレーム中の発生領域を示すバウンディングボックスを示す。バウンディングボックスは、例えば、フレームの画素の位置をｘｙ軸の数値で表す。ｘｍｉｎはバウンディングボックスのｘ座標の最小値である。ｙｍｉｎはバウンディングボックスのｙ座標の最小値である。ｘｍａｘはバウンディングボックスのｘ座標の最大値である。ｙｍａｘはバウンディングボックスのｙ座標の最大値である。第１検出モデルＭ２に用いるモデルには、ＹＯＬＯを用いることができる。第１検出モデルＭ２に用いるモデルは、その他の従来周知の推論プログラムであってよい。

【0035】

【表2】

【0036】

第２判定処理Ｓ２２２は、第２検出モデルＭ３に、対象動画Ｄ１の所定のフレームを与えることで、所定のイベントの種類を取得する。第２判定処理Ｓ２２２によれば、対象動画Ｄ１の複数のフレームを与えることで、対象動画Ｄ１の複数のフレームの各々がイベントフレームであるかどうかを判定することができる。第２検出モデルＭ３は、第１検出モデルＭ２とは異なり、対象物が写るフレームの入力に対して、所定のイベントの種類を出力するように学習されたモデル（学習済みモデル）である。つまり、第２検出モデルＭ３は、対象物が写るフレームとフレームにおいて発生している所定のイベントの種類との対応関係を学習した学習済みモデルである。第２検出モデルＭ３に入力されたフレームがイベントフレームでない場合、第２判定処理Ｓ２２２の結果は、所定のイベントの種類については「なし」となる。第２検出モデルＭ３に入力されたフレームがイベントフレームである場合、第２判定処理Ｓ２２２の結果は、所定のイベントの種類を示す。

【0037】

第２検出モデルＭ３は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって生成される学習済みモデルから得られる。第２検出モデルＭ３の生成に用いる学習用データセットは、例えば、複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報を付加することで生成される。下記表３は、第２検出モデルＭ３の生成に用いる学習用データセットの一例を示す。表３中のＮは任意の整数を示す。第２検出モデルＭ３に用いるモデルには、ＲｅｓＮｅｔを用いることができる。第２検出モデルＭ３に用いるモデルは、その他の従来周知の推論プログラムであってよい。

【0038】

【表3】

【0039】

根拠可視化処理Ｓ２２３は、第２判定処理Ｓ２２２の第２検出モデルＭ３が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める。注目領域は、例えば、ＸＡＩ（説明可能なＡＩ）技術を利用して取得することができる。ＸＡＩ技術としては、ＸＲＡＩを用いることができる。ＸＲＡＩを用いることで、フレームにおいて第２検出モデルＭ３の判断に影響を及ぼした度合い示すヒートマップを得ることができる。ヒートマップに基づき、第２検出モデルＭ３の判断に影響を及ぼした度合いが高い領域を、注目領域として抽出することができる。

【0040】

総合判定処理Ｓ２２４は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とに基づいて対象動画Ｄ１の複数のフレームにイベントフレームがあるかどうかを判定する。つまり、総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とに基づいて対象動画Ｄ１の所定のフレームにおいて所定のイベントが生じているかどうかを判定する。具体的には、総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致し、かつ、第１判定処理Ｓ２２１の第１検出モデルＭ２から得られる発生領域と、根拠可視化処理Ｓ２２３から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。発生領域と注目領域とが一致するかどうかは、発生領域と注目領域との重なり度合いと発生領域の中心位置と注目領域の中心位置との距離との少なくとも一方を用いて判断されてよい。発生領域と注目領域との重なり度合いが所定の閾値以上であれば、発生領域と注目領域とが一致すると判断してよい。発生領域の中心位置と注目領域の中心位置との距離が所定の閾値以下であれば、発生領域と注目領域とが一致すると判断してよい。

【0041】

総合判定処理Ｓ２２４は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致するが、第１判定処理Ｓ２２１の第１検出モデルＭ２から得られる発生領域と、根拠可視化処理Ｓ２２３から得られる注目領域とが一致しない場合に、所定のイベントが生じているが、要確認と判断する。総合判定処理Ｓ２２４は、要確認と判断した所定のフレームに関する情報を、第１要確認情報Ｄ２１として記憶装置２３に記憶させる。第１要確認情報Ｄ２１は、要確認と判断されたフレームについての、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とを含み得る。

【0042】

総合判定処理Ｓ２２４は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致しない場合、第２判定処理Ｓ２２２の結果を優先する。第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致しない場合とは、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果との一方が所定のイベントの発生がなしとなる場合を含む。総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とがいずれも所定のイベントの発生がなしの場合、所定のフレームにおいて所定のイベントが発生していないと判断する。

【0043】

整合性判定処理Ｓ２３は、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する。整合性判定処理Ｓ２３は、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との整合性がない場合には所定のイベントが発生していないと判定する。本実施の形態では、整合性判定処理Ｓ２３は、第２判定処理Ｓ２２２の結果を判定処理Ｓ２２の結果として利用する。整合性は、判定処理Ｓ２２の結果が示す所定のイベントが分類処理Ｓ２１の結果が示すシーンで発生可能かどうかにより判断される。所定のイベントは、咽頭残留と誤嚥とがあるが、咽頭残留及び誤嚥が発生するシーンは限られている。咽頭残留は、先行期、準備期、口腔期、咽頭期では発生せず、食道期でしか発生しない。誤嚥は、先行期、準備期、口腔期では発生せず、咽頭期及び食道期でしか発生しない。したがって、所定のイベントとシーンとの組み合わせが正しいかどうかで分類処理Ｓ２１の結果と判定処理Ｓ２２の結果の正しさを確認できる。つまり、判定処理Ｓ２２の結果が示す所定のイベントが分類処理Ｓ２１の結果が示すシーンで発生し得ない場合、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との少なくとも一方が誤っていると考えられる。本実施の形態では、判定処理Ｓ２２の結果が示す所定のイベントが分類処理Ｓ２１の結果が示すシーンで発生し得ない場合、判定処理Ｓ２２の結果が誤っているとする。整合性判定処理Ｓ２３は、整合性の判断のために、シーンと所定のイベントとの正しい組み合わせを示すテーブルを用いる。下記表４は、シーンと所定のイベントとの正しい組み合わせを示すテーブルの一例を示す。

【0044】

【表4】

【0045】

整合性判定処理Ｓ２３は、対象動画Ｄ１において、判定処理Ｓ２２の結果が示す所定のイベントが分類処理Ｓ２１の結果が示すシーンで発生し得ないフレームについては、要確認と判断する。整合性判定処理Ｓ２３は、要確認と判断したフレームに関する情報を、第２要確認情報Ｄ２２として記憶装置２３に記憶させる。第２要確認情報Ｄ２２は、要確認と判断されたフレームについての、判定処理Ｓ２２の結果と分類処理Ｓ２１の結果とを含み得る。

【0046】

表示ステップＳ３は、取得ステップＳ１で取得した対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面Ｇ１を表示する。つまり、表示ステップＳ３は、評価画面Ｇ１を作成して出力する。表示ステップＳ３は、取得ステップＳ１で取得した対象動画Ｄ１と、判定ステップＳ２での判定の結果とを用いて、評価画面Ｇ１を作成する。判定ステップＳ２での判定の結果は、分類処理Ｓ２１の結果、判定処理Ｓ２２の結果（ここでは総合判定処理Ｓ２２３の結果）、及び、整合性判定処理Ｓ２３の結果を含む。本実施の形態では、評価画面Ｇ１は、表示システム２の入出力装置２１のディスプレイに表示される。

【0047】

次に、評価画面Ｇ１について図３～図６を参照して説明する。なお、図３～図６において、符号及び当該符号の付随物（指示線や矢印等）は、評価画面Ｇ１の説明のために記載されており、評価画面Ｇ１自体に含まれているわけではない。

【0048】

図３の評価画面Ｇ１は初期状態である。評価画面Ｇ１は、動画表示領域Ｒ１と、シーン情報表示領域Ｒ２と、イベント表示領域Ｒ３とを含む。

【0049】

動画表示領域Ｒ１は、対象動画Ｄ１を表示する。動画表示領域Ｒ１は、対象動画Ｄ１と総合判定処理Ｓ２２４の結果を利用して生成される。動画表示領域Ｒ１は、操作領域ＳＢ１を含む。操作領域ＳＢ１は、例えば、対象動画Ｄ１において表示中のフレームの位置を示す機能、及び、対象動画Ｄ１において表示するフレームを変更する機能を備える。操作領域ＳＢ１は、例えば、シークバーである。操作領域ＳＢ１は、対象動画Ｄ１において表示中のフレームの位置を示すスライダＳＢ２と、スライダが移動可能な棒状の領域であるスライダバーＳＢ３とを含む。スライダバーＳＢ３上でスライダＳＢ２を移動させることで、動画表示領域Ｒ１に表示される対象動画Ｄ１のフレームの変更が可能である。操作領域ＳＢ１により、対象動画Ｄ１の複数のフレームからの所望のフレームの探索が容易になる。動画表示領域Ｒ１は、対象動画Ｄ１と総合判定処理Ｓ２２４の結果を利用して生成される。

【0050】

シーン情報表示領域Ｒ２は、対象物に関する複数のシーンへの対象動画Ｄ１の複数のフレームの分類の結果を表示する。本実施の形態では、シーン情報表示領域Ｒ２は、分類処理Ｓ２１の結果を表示する。シーン情報表示領域Ｒ２は、分類処理Ｓ２１の結果を利用して生成される。シーン情報表示領域Ｒ２は、ラベルＬ１－１～Ｌ１－５（以下、総称して符号Ｌ１を付す）と、複数のシーンの位置をそれぞれ表示する複数のシーン表示バーＴ１－１～Ｔ１－５（以下、総称して符号Ｔ１を付す）とを表示する。ラベルＬ１－１及びシーン表示バーＴ１－１は先行期に対応する。ラベルＬ１－２及びシーン表示バーＴ１－２は準備期に対応する。ラベルＬ１－３及びシーン表示バーＴ１－３は口腔期に対応する。ラベルＬ１－４及びシーン表示バーＴ１－４は咽頭期に対応する。ラベルＬ１－５及びシーン表示バーＴ１－５は食道期に対応する。ラベルＬ１－１～Ｌ１－５は、それぞれ対応するシーンを示す「先行期」、「準備期」、「口腔期」、「咽頭期」、「食道期」というテキストを表示する。シーン表示バーＴ１は、対応するシーンに属するフレームの位置を示す。複数のシーン表示バーＴ１－１～Ｔ１－５は、それぞれラベルＬ１－１～Ｌ１－５の隣に配置される。複数のシーン表示バーＴ１－１～Ｔ１－５は、動画表示領域Ｒ１の操作領域ＳＢ１と対応付けて配置されている。より詳細には、シーン表示バーＴ１－１～Ｔ１－５は、操作領域ＳＢ１のスライダバーＳＢ３と同じ長さで位置を揃えて配置される。これによって、シーン表示バーＴ１－１～Ｔ１－５それぞれが対応するシーンが操作領域ＳＢ１のスライダバーＳＢ３のどの部分か、つまり、対象動画Ｄ１のどの部分かをより容易に判断できる。図３では、シーン表示バーＴ１においてハッチングで示す部分が、シーン表示バーＴ１が対応するシーンに属するフレームの位置を示している。したがって、所望のシーンに対応するシーン表示バーＴ１を参照して操作領域ＳＢ１のスライダＳＢ２を操作することで、動画表示領域Ｒ１に表示中の対象動画Ｄ１のフレームを所望のシーンに属するフレームに変更できる。

【0051】

イベント表示領域Ｒ３は、対象動画Ｄ１の複数のフレームに対象物に所定のイベントが生じているイベントフレームがあるかどうかの判定の結果を表示する。対象動画Ｄ１の複数のフレームに対象物に所定のイベントが生じているイベントフレームがあるかどうかの判定の結果は、判定ステップＳ２から得られる。イベント表示領域Ｒ３は、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類とを表示する。イベント表示領域Ｒ３は、整合性判定処理Ｓ２３の結果を利用して生成される。

【0052】

イベント表示領域Ｒ３は、ラベルＬ２と、イベント表示バーＴ２とを表示する。所定のイベントは、異常状態であり、ラベルＬ２は、「異常」とういテキストを表示する。バーＴ２は、イベントフレームの位置を表示する。本実施の形態では、イベント表示バーＴ２は、ラベルＬ２の隣に、動画表示領域Ｒ１の操作領域ＳＢ１と対応付けて配置されている。より詳細には、イベント表示バーＴ２は、操作領域ＳＢ１のスライダバーＳＢ３と同じ長さで位置を揃えて配置される。これによって、イベント表示バーＴ２が表示するイベントフレームが操作領域ＳＢ１のスライダバーＳＢ３のどの部分か、つまり、対象動画Ｄ１のどの部分かをより容易に判断できる。図３では、イベント表示バーＴ２においてハッチングで示す部分が、イベントフレームの位置を示している。したがって、イベント表示バーＴ２を参照して操作領域ＳＢ１のスライダＳＢ２を操作することで、動画表示領域Ｒ１に表示中の対象動画Ｄ１のフレームをイベントフレームに変更できる。本実施の形態では、イベントフレームは、対象物に咽頭残留が生じている第１イベントフレームと、対象物に誤嚥が生じている第２イベントフレームとである。イベント表示領域Ｒ３は、第１イベントフレームと第２イベントフレームとを区別するため、ラベルＬ３－１，Ｌ３－２（以下、総称して符号Ｌ３を付す）を表示する。ラベルＬ３は、イベントフレームに対応する所定のイベントの情報を示す。図３では、ラベルＬ３は、イベントフレームに対応する所定のイベントの種類を示す。ラベルＬ３－１は「咽頭残留」という第１イベントフレームに対応するテキストを示し、ラベルＬ３－２は「誤嚥」という第２イベントフレームに対応するテキストを示す。ラベルＬ３は、対象動画Ｄ１の複数のフレームにイベントフレームがある場合に表示される。

【0053】

図４は、操作領域ＳＢ１のスライダＳＢ２を操作して動画表示領域Ｒ１に表示中の対象動画Ｄ１のフレームを第１イベントフレームにした評価画面Ｇ１を示す。図４では、動画表示領域Ｒ１には、対象動画Ｄ１の複数のフレームのうち第１イベントフレームが表示されている。図４において、動画表示領域Ｒ１に表示される対象動画Ｄ１の第１イベントフレームには所定のイベントの発生領域を示すマークＰ１が付されている。マークＰ１は、第１検出モデルＭ１から出力される位置情報に基づいて設定される。図４では、マークＰ１は、矩形のボックスである。

【0054】

図５は、操作領域ＳＢ１のスライダＳＢ２を操作して動画表示領域Ｒ１に表示中の対象動画Ｄ１のフレームを第２イベントフレームにした評価画面Ｇ１を示す。図５では、動画表示領域Ｒ１には、対象動画Ｄ１の複数のフレームのうち第２イベントフレームが表示されている。図５において、動画表示領域Ｒ１に表示される対象動画Ｄ１の第２イベントフレームには所定のイベントの発生領域を示すマークＰ１が付されている。マークＰ１は、第１検出モデルＭ１から出力される位置情報に基づいて設定される。図５では、マークＰ１は、矩形のボックスである。

【0055】

上述したように、判定ステップＳ２は、総合判定処理Ｓ２２３を含む。総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致するが、第１判定処理Ｓ２２１の第１検出モデルＭ２から得られる発生領域と、第２判定処理Ｓ２２２の第２検出モデルＭ３が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域とが一致しない場合に、所定のイベントが生じているが、要確認と判断する。この場合のイベント表示領域Ｒ３について図６を参照して説明する。

【0056】

図６は、図５と同様に、操作領域ＳＢ１のスライダＳＢ２を操作して動画表示領域Ｒ１に表示中の対象動画Ｄ１のフレームを第２イベントフレームにした評価画面Ｇ１を示す。図６では、ラベルＬ３－１で示される第１イベントフレームについては、要確認と判断されておらず、ラベルＬ３－２で示される第２イベントフレームについては、要確認と判断されている。図６では、イベント表示バーＴ２において第１イベントフレームに対応するハッチングの部分と第２イベントフレームに対応するハッチングの部分とが異なる態様で表示されている。つまり、イベント表示領域Ｒ３は、対象動画Ｄ１のフレームがイベントフレームであるかどうかを異なる方法で判定する第１及び第２判定処理Ｓ２２１，Ｓ２２２の結果の整合性に応じてイベントフレームの表示の態様を異ならせる。このように、イベント表示領域Ｒ３は、第１判定処理Ｓ２２１の第１検出モデルＭ２から得られる発生領域と、第２判定処理Ｓ２２２の第２検出モデルＭ２が所定のイベントが発生していると判断した根拠となる注目領域とが一致しないことを示す。また、図６では、動画表示領域Ｒ１に表示される対象動画Ｄ１のイベントフレームには、発生領域を示すマークＰ１と、注目領域を示すマークＰ２とが付されている。マークＰ１は、第１検出モデルＭ１から出力される位置情報に基づいて設定される。マークＰ２は、第２検出モデルＭ３の判断に影響を及ぼした度合い示すヒートマップに基づき設定される。マークＰ２は、マークＰ２が設定されている領域でのヒートマップの画像を示す。

【0057】

このように、表示ステップＳ３は、取得ステップＳ１で取得した対象動画Ｄ１に、判定ステップＳ２での判定の結果に基づいてマークＰ１，Ｐ２を付して、動画表示領域Ｒ１に表示するための対象動画Ｄ１を生成する。

【0058】

上述したように、判定ステップＳ２は、整合性判定処理Ｓ２３を含む。整合性判定処理Ｓ２３は、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との整合性がない場合には所定のイベントが発生していないと判定する。そのため、イベント表示領域Ｒ３は、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との整合性がないイベントフレームを表示しない。つまり、イベント表示領域Ｒ３は、所定のイベントの発生しないシーンに属するイベントフレームを表示しない。

【0059】

次に、表示システム２の動作の一例について図９を参照して説明する。図９は、表示システム２のデータの流れの一例の説明図である。表示システム２においては、対象動画Ｄ１を利用して分類処理Ｓ２１、第１判定処理Ｓ２２１、及び第２判定処理Ｓ２２２が実行されて、分類処理Ｓ２１の結果Ｄ１１、第１判定処理Ｓ２２１の結果Ｄ１２、及び第２判定処理Ｓ２２２の結果Ｄ１３が得られる。分類処理Ｓ２１の結果Ｄ１１は、対象動画Ｄ１の各フレームが属するシーンを示す。第１判定処理Ｓ２２１の結果Ｄ１２は、対象動画Ｄ１の各フレームについて所定のイベントの種類と発生領域を示す。第２判定処理Ｓ２２２の結果Ｄ１３は、対象動画Ｄ１の各フレームについて所定のイベントの種類を示す。

【0060】

第２判定処理Ｓ２２２の結果Ｄ１３を利用して根拠可視化処理Ｓ２２３が実行され、根拠可視化処理Ｓ２２３の結果Ｄ１４が得られる。根拠可視化処理Ｓ２２３の結果Ｄ１４は、第２判定処理Ｓ２２２の第２検出モデルＭ３が所定のイベントが発生していると判断した根拠となる注目領域Ｄ１４が得られる。

【0061】

第１判定処理Ｓ２２１の結果Ｄ１２、第２判定処理Ｓ２２２の結果Ｄ１３、及び根拠可視化処理Ｓ２２３の結果Ｄ１４を利用して総合判定処理Ｓ２２４が実行され、総合判定処理Ｓ２２４の結果Ｄ１５が得られる。総合判定処理Ｓ２２４の結果Ｄ１５は、対象動画Ｄ１の各フレームについて所定のイベントの種類、発生領域、注目領域、要確認かどうか等の情報を含む。

【0062】

分類処理Ｓ２１の結果Ｄ１１、及び第２判定処理Ｓ２２２の結果Ｄ１３を利用して整合性判定処理Ｓ２３が実行され、整合性判定処理Ｓ２３の結果Ｄ１６が得られる。整合性判定処理Ｓ２３の結果Ｄ１６は、対象動画Ｄ１の各フレームについて所定のイベントが発生しているかどうかの情報を含む。

【0063】

対象動画Ｄ１、分類処理Ｓ２１の結果Ｄ１１、総合判定処理Ｓ２２４の結果Ｄ１５、及び整合性判定処理Ｓ２３の結果Ｄ１６を利用して表示ステップＳ３が実行されて、評価画面Ｇ１が表示される。

【0064】

このようにして、表示システム２は、対象動画Ｄ１から評価画面Ｇ１を作成して表示する。

【0065】

以上述べた表示システム２は、整合性判定処理Ｓ２３を実行する。整合性判定処理Ｓ２３によれば、所定のイベント（病態）の推定結果に別の解剖学的情報の推定結果（シーンの分類結果）を組み合わせ、解剖学的に生じ得ない所定のイベント（病態）の推定結果を補正することで、解剖学的に生じ得ない所定のイベント（病態）の推定結果を出力する可能性を低減できる。本実施の形態では、このような整合性判定処理Ｓ２３は、シーンの推定結果と所定のイベントの種類の推定結果を組み合わせた機械学習モデルの偽陽性率低減処理方法であるともいえる。つまり、解剖学的に生じ得ない推定結果を除去することで偽陽性率を低下させることができるため、機械学習モデルの精度が向上する。その結果、機械学習モデルが解剖学的に生じ得ない病態推定結果を表示する可能性を小さくする。特に、本実施の形態では、患者の動態を反映した動画像Ｄ１において、機械学習もしくは画像処理を用いて「病態の推定結果」と「解剖学的知見に基づいた病態以外の情報の推定結果」を組み合わせることで解剖学的に生じ得ない病態の出力結果を排除することで診断ミスのリスクを低減することが可能である。

【0066】

表示システム２は、総合判定処理Ｓ２２４を実行する。総合判定処理Ｓ２２４によれば、物体検出の機械学習モデルである第１検出モデルＭ２が所定のイベント（病態）の推定に利用した領域（発生領域）と、判断根拠可視化技術によって画像分類の機械学習モデルである第２検出モデルＭ３が病態（所定のイベント）の推定に利用した領域（注目領域）を組み合わせることで、新しく評価する対象動画Ｄ１のフレームに写る対象物が未知の症状を抱えている可能性の示唆、又は対象動画Ｄ１のフレームが学習済みモデル（第１検出モデルＭ２又は第２検出モデルＭ３）の学習用データセットに含まれていない未知データである可能性を示唆し、ユーザに注意を喚起することが可能になる。換言すれば、総合判定処理Ｓ２２４は、発生領域を固定して学習させた物体検出用途の機械学習モデル（第１検出モデルＭ２）の発生領域と、発生領域を指定せずに学習させた画像分類用途の機械学習モデル（第２検出モデルＭ３）の注目領域の差分を求めることによる、機械学習モデルの推定結果の信頼性評価方法である。これによって、新しく入力するデータ（対象動画Ｄ１のフレーム）が、未知の症状を含むデータであるか、もしくは機械学習モデルの学習データには含まれていない機械学習モデルにとって未知のデータである可能性を示唆する特徴量を算出することができる。これによって、新しく入力されたデータが未知の症状を含む可能性があるデータもしくは機械学習モデルにとって未知のデータかを判定し、ユーザに注意を促す表示を行うことが可能となる。また、画像分類を行う機械学習モデルはノイズによる誤判定が生じる事例が存在するが、このように多角的な視点から推定結果を補正することにより、ロバスト性を向上させることができる。

【0067】

表示システム２は、表示ステップＳ３において、整合性判定処理Ｓ２３の結果及び総合判定処理Ｓ２２４の結果と、対象動画Ｄ１とに基づいた評価画面Ｇ１を表示することにより、ユーザによる評価の効率を高めることができ、異常の見落とし低減にも寄与する。特に、本実施の形態では、嚥下造影検査において、医師用による読影の効率を高めることができる。特に、評価画面Ｇ１は、対象動画Ｄ１、分類処理Ｓ２１の結果、総合判定処理Ｓ２２４の結果、及び整合性判定処理Ｓ２３の結果を利用して表示される。分類処理Ｓ２１の結果は、対象動画Ｄ１のフレームが属するシーンを示す。総合判定処理Ｓ２２４の結果、及び整合性判定処理Ｓ２３の結果は、複合的な観点から判断した所定のイベントの推定結果を示す。評価画面Ｇ１は、分類処理Ｓ２１の結果、総合判定処理Ｓ２２４の結果、及び整合性判定処理Ｓ２３の結果を、対象動画Ｄ１のフレームと同期した（対応した）情報として表示する。そのため、対象動画Ｄ１の特定時刻での対象物の動態、異常、未知データの可能性を俯瞰的に把握できる。特に、複合的に信頼性を評価した推定結果を表示することで、新しく入力されたデータが未知のデータである可能性に対して確認が必要な箇所を示し、誤診断防止の機会を提供する。また、対象動画Ｄ１の異常個所の見落としを低減することができる。また、対象動画Ｄ１のどの時間にどんな動作が行われているかが俯瞰できる。本実施の形態では、対象動画Ｄ１の各フレームを解剖学的情報であるシーン（先行期、準備期、口腔期、咽頭期、食道期）に分類することで、摂食嚥下の読影業務において、対象動画Ｄ１内の摂食嚥下の動態情報全体が俯瞰的に把握できる。また、対象動画Ｄ１全体のシーンを対象動画Ｄ１の時系列情報と同期して表示することで、反復して行われる対象動画Ｄ１の読影作業の効率が高まる。また、ユーザが対象物の動態を反映した対象動画Ｄ１の各時刻における解剖学的状態や病態、注意事項を俯瞰して確認できる。

【0068】

［１．２．２学習システム］
図１０は、学習システム３の構成例のブロック図である。学習システム３は、インタフェース（入出力装置３１及び通信装置３２）と、記憶装置３３と、演算回路３４とを備える。学習システム３は、例えば、１台のサーバで実現される。

【0069】

入出力装置３１は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置３１は、学習システム３への情報の入力、及び、学習システム３からの情報の出力に利用される。入出力装置３１は、１以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス（マウス、トラックボール等）、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。

【0070】

通信装置３２は、外部装置又はシステムと通信可能に接続される。通信装置３２は、通信ネットワーク６１を通じた学習システム３との通信、及び、通信ネットワーク６２を通じた入力システム４との通信に用いられる。通信装置３２は、１以上の通信インタフェースを備える。通信装置３２は、通信ネットワーク６１，６２に接続可能であり、通信ネットワーク６１，６２を通じた通信を行う機能を有する。通信装置３２は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。

【0071】

記憶装置３３は、演算回路３４が利用する情報及び演算回路３４で生成される情報を記憶するために用いられる。記憶装置３３は、１以上のストレージ（非一時的な記憶媒体）を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ（ＳＳＤ）のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びＮＡＳ型のいずれであってもよい。なお、学習システム３は、複数の記憶装置３３を備えてよい。複数の記憶装置３３には情報が分散されて記憶されてよい。

【0072】

記憶装置３３に記憶される情報は、データベースＤ３と、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２とを含む。データベースＤ３には、例えば、複数の異なる対象物に関する複数の対象動画Ｄ１が登録される。データベースＤ３に登録されている対象動画Ｄ１は、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３との作成に利用され得る。図１０では、記憶装置３３が、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２との全てを記憶している状態を示している。分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３と、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２とは常に記憶装置３３に記憶されている必要はなく、演算回路３４で必要とされるときに記憶装置３３に記憶されていればよい。

【0073】

演算回路３４は、学習システム３の動作を制御する回路である。演算回路３４は、入出力装置３１及び通信装置３２に接続され、記憶装置３３にアクセス可能である。演算回路３４は、例えば、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。１以上のプロセッサが（１以上のメモリ又は記憶装置３３に記憶された）プログラムを実行することで、演算回路３４としての機能を実現する。プログラムは、ここでは記憶装置３３に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。

【0074】

演算回路３４は、学習処理と、追加学習処理とを実行する。

【0075】

学習処理は、分類モデルＭ１と、第１検出モデルＭ２と、第２検出モデルＭ３とを生成する。

【0076】

学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームが属するシーンを正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって、分類モデルＭ１を生成する。分類モデルＭ１の生成に用いる学習用データセットは、例えば、データベースＤ３に登録されている複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとしてシーンの名称を示すラベル情報を付加することで生成される。

【0077】

学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで所定のイベントが発生している箇所及び入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって、第１検出モデルＭ２を生成する。第１検出モデルＭ２の生成に用いる学習用データセットは、例えば、データベースＤ３に登録されている複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報及び所定のイベントの発生領域を示す位置情報を付加することで生成される。

【0078】

学習処理は、例えば、ニューラルネットワークの構造を有するモデルを用いて、対象物が写るフレームを入力、入力されたフレームで発生している所定のイベントの種類を正解データとする学習用データセットを用いた機械学習（教師あり学習）を実行することによって、第２検出モデルＭ３を生成する。第２検出モデルＭ３の生成に用いる学習用データセットは、例えば、データベースＤ３に登録されている複数の異なる対象物に関する複数の対象動画Ｄ１の複数のフレームそれぞれに対して正解データとして所定のイベントの名称を示すラベル情報を付加することで生成される。

【0079】

追加学習処理は、第１検出モデルＭ２と、第２検出モデルＭ３とについて追加学習を実行する。追加学習には、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２とが利用される。

【0080】

第１要確認情報Ｄ２１は、総合判定処理Ｓ２２４で要確認と判断されたフレームに関する情報である。第１要確認情報Ｄ２１は、要確認と判断されたフレームについての、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とを含む。つまり、要確認と判断されたフレームについては、総合判定処理Ｓ２２４の判断の結果の信頼性が低い。そのため、別途、所定のイベントについて詳細な知見を持つ人（エキスパート）に確認を求め、その結果を、第１回答情報Ｄ４１として取得する。つまり、第１回答情報Ｄ４１は、第１要確認情報Ｄ２１に対して確認を行った結果を示す。より詳細には、第１回答情報Ｄ４１は、要確認と判断されたフレームについて、エキスパートが判断した所定のイベントの種類及び発生領域を示す。本実施の形態では、第１回答情報Ｄ４１は、入力システム４から得られる。

【0081】

第２要確認情報Ｄ２２は、整合性判定処理Ｓ２３で要確認と判断されたフレームに関する情報である。第２要確認情報Ｄ２２は、要確認と判断されたフレームについての、判定処理Ｓ２２の結果と分類処理Ｓ２１の結果とを含む。つまり、要確認と判断されたフレームについては、整合性判定処理Ｓ２３の判断の結果の信頼性が低い。そのため、別途、所定のイベントについて詳細な知見を持つ人（エキスパート）に確認を求め、その結果を、第２回答情報Ｄ４２として取得する。つまり、第２回答情報Ｄ４２は、第２要確認情報Ｄ２２に対して確認を行った結果を示す。より詳細には、第２回答情報Ｄ４２は、要確認と判断されたフレームについて、エキスパートが判断した所定のイベントの種類及び発生領域を示す。本実施の形態では、第２回答情報Ｄ４２は、入力システム４から得られる。

【0082】

追加学習処理は、例えば、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２に基づいて要確認と判断されたフレームについて、第１検出モデルＭ２用の学習用データセットを生成し、この学習用データセットを用いて第１検出モデルＭ２の追加学習を実行する。これによって、要確認と判断されたフレームについて正しい所定のイベントの種類と発生領域を、第１検出モデルＭ２が学習することになり、第１検出モデルＭ２の精度の向上が図れる。追加学習処理によって追加学習された第１検出モデルＭ２は、例えば、通信ネットワーク６１を通じて表示システム２に送信され、表示システム２の記憶装置２３に記憶される。これによって、第１検出モデルＭ２が更新される。

【0083】

追加学習処理は、例えば、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２に基づいて要確認と判断されたフレームについて、第２検出モデルＭ３用の学習用データセットを生成し、この学習用データセットを用いて第２検出モデルＭ３の追加学習を実行する。これによって、要確認と判断されたフレームについて正しい所定のイベントの種類を、第２検出モデルＭ３が学習することになり、第２検出モデルＭ３の精度の向上が図れる。追加学習処理によって追加学習された第２検出モデルＭ３は、例えば、通信ネットワーク６１を通じて表示システム２に送信され、表示システム２の記憶装置２３に記憶される。これによって、第２検出モデルＭ３が更新される。

【0084】

［１．２．３入力システム］
図１１は、入力システム４の構成例のブロック図である。入力システム４は、インタフェース（入出力装置４１及び通信装置４２）と、記憶装置４３と、演算回路４４とを備える。入力システム４は、例えば、１台の端末装置で実現される。端末装置としては、パーソナルコンピュータ（デスクトップコンピュータ、ラップトップコンピュータ）、携帯端末（スマートフォン、タブレット端末、ウェアラブル端末等）等が挙げられる。

【0085】

入出力装置４１は、ユーザからの情報の入力のための入力装置、及び、ユーザへの情報の出力のための出力装置としての機能を有する。つまり、入出力装置４１は、入力システム４への情報の入力、及び、入力システム４からの情報の出力に利用される。入出力装置４１は、１以上のヒューマン・マシン・インタフェースを備える。ヒューマン・マシン・インタフェースの例としては、キーボード、ポインティングデバイス（マウス、トラックボール等）、タッチパッド等の入力装置、ディスプレイ、スピーカ等の出力装置、タッチパネル等の入出力装置が挙げられる。

【0086】

通信装置４２は、外部装置又はシステムと通信可能に接続される。通信装置４２は、通信ネットワーク６２を通じた学習システム３との通信に用いられる。通信装置４２は、１以上の通信インタフェースを備える。通信装置４２は、通信ネットワーク６２に接続可能であり、通信ネットワーク６２を通じた通信を行う機能を有する。通信装置４２は、所定の通信プロトコルに準拠している。所定の通信プロトコルは、周知の様々な有線及び無線通信規格から選択され得る。

【0087】

記憶装置４３は、演算回路４４が利用する情報及び演算回路４４で生成される情報を記憶するために用いられる。記憶装置４３は、１以上のストレージ（非一時的な記憶媒体）を含む。ストレージは、例えば、ハードディスクドライブ、光学ドライブ、及びソリッドステートドライブ（ＳＳＤ）のいずれであってもよい。また、ストレージは、内蔵型、外付け型、及びＮＡＳ型のいずれであってもよい。なお、入力システム４は、複数の記憶装置４３を備えてよい。複数の記憶装置４３には情報が分散されて記憶されてよい。

【0088】

記憶装置４３に記憶される情報は、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２とを含む。図１１では、記憶装置２３が、第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２との全てを記憶している状態を示している。第１要確認情報Ｄ２１と、第２要確認情報Ｄ２２と、第１回答情報Ｄ４１と、第２回答情報Ｄ４２とは常に記憶装置４３に記憶されている必要はなく、演算回路４４で必要とされるときに記憶装置４３に記憶されていればよい。

【0089】

演算回路４４は、入力システム４の動作を制御する回路である。演算回路４４は、入出力装置４１及び通信装置４２に接続され、記憶装置４３にアクセス可能である。演算回路４４は、例えば、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。１以上のプロセッサが（１以上のメモリ又は記憶装置４３に記憶された）プログラムを実行することで、演算回路４４としての機能を実現する。プログラムは、ここでは記憶装置４３に予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。

【0090】

演算回路４４は、第１確認処理と第２確認処理とを実行する。

【0091】

第１確認処理は、第１要確認情報Ｄ２１に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置４１により表示し、確認の結果の入力を要求する。これによって、所定のイベントについて詳細な知見を持つ人（エキスパート）が、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を確認して、確認の結果を入出力装置４１により入力することができる。入出力装置４１により入力された確認の結果に基づいて、第１回答情報Ｄ４１が生成され、記憶装置４３に記憶される。第１回答情報Ｄ４１は、通信ネットワーク６２を通じて、学習システム３に送信され得る。

【0092】

第２確認処理は、第２要確認情報Ｄ２２に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置４１により表示し、確認の結果の入力を要求する。これによって、所定のイベントについて詳細な知見を持つ人（エキスパート）が、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を確認して、確認の結果を入出力装置４１により入力することができる。入出力装置４１により入力された確認の結果に基づいて、第２回答情報Ｄ４２が生成され、記憶装置４３に記憶される。第２回答情報Ｄ４２は、通信ネットワーク６２を通じて、学習システム３に送信され得る。

【0093】

［１．３動作］
次に、評価システム１の動作の一例について図１２を参照して説明する。図１２は、評価システム１の動作の一例を示すシーケンス図である。撮像システム５により、対象動画Ｄ１が撮像される（Ｅ１）。対象動画Ｄ１は、撮像システム５から表示システム２に出力される。表示システム２は、表示方法を実行し（Ｅ２）、これによって、評価画面Ｇ１が表示される。表示システム２は、要確認情報（第１要確認情報Ｄ２１、第２要確認情報Ｄ２２）がある場合には、要確認情報を学習システム３に出力する。学習システム３は、要確認情報Ｄ２について回答情報（第１回答情報Ｄ４１、第２回答情報Ｄ４２）を得るために、要確認情報を入力システム４に出力する（Ｅ３）。入力システム４は、確認処理を実行し、要確認情報に基づいて、要確認と判断されたフレームと、フレームにおける発生領域及び注目領域を、入出力装置４１により表示し、確認の結果の入力を要求する（Ｅ４）。入力システム４は、入力された確認の結果に基づいて、回答情報Ｄ４を生成して学習システム３に出力する。学習システム３は、追加学習処理を実行し（Ｅ５）、追加学習後の第１及び第２検出モデルＭ２，Ｍ３を更新情報として、表示システム２に出力する。表示システム２は、追加学習された第１及び第２検出モデルＭ２，Ｍ３を記憶装置２３に記憶することによって、第１及び２検出モデルＭ２，Ｍ３を更新する（Ｅ６）。

【0094】

［１．４効果等］
以上述べた表示方法は、対象物が写る対象動画Ｄ１を取得する取得ステップＳ１と、取得ステップＳ１で取得した対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面Ｇ１を表示する表示ステップＳ３とを含む。評価画面Ｇ１は、対象動画Ｄ１を表示する動画表示領域Ｒ１と、対象物に関する複数のシーンへの対象動画Ｄ１の複数のフレームの分類の結果を表示するシーン情報表示領域Ｒ２と、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置及び所定のイベントの種類を表示するイベント表示領域Ｒ３とを含む。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0095】

また、表示方法において、動画表示領域Ｒ１は、対象動画Ｄ１において表示中のフレームの位置を示す機能、及び、対象動画Ｄ１において表示するフレームを変更する機能を備える操作領域ＳＢ１を含む。シーン情報表示領域Ｒ２は、複数のシーンの位置をそれぞれ表示する複数のシーン表示バーＴ１－１～Ｔ１－５を含む。イベント表示領域Ｒ３は、イベントフレームの位置を表示するイベント表示バーＴ２を含む。複数のシーン表示バーＴ１－１～Ｔ１－５及びイベント表示バーＴ２は、操作領域ＳＢ１と対応付けて配置される。この態様によれば、シーン表示バーＴ１－１～Ｔ１－５が表示するシーン及びイベント表示バーＴ２が表示するイベントフレームが対象動画Ｄ１のどの部分かをより容易に判断できる。

【0096】

また、表示方法において、操作領域ＳＢ１は、対象動画Ｄ１において表示中のフレームの位置を示すスライダＳＢ２と、スライダＳＢ２が移動可能な棒状の領域であるスライダバーＳＢ３とを含む。複数のシーン表示バーＴ１－１～Ｔ１－５及びイベント表示バーＴ２は、操作領域ＳＢ１のスライダバーＳＢ３と同じ長さで位置を揃えて配置される。この態様によれば、シーン表示バーＴ１－１～Ｔ１－５が表示するシーン及びイベント表示バーＴ２が表示するイベントフレームが対象動画Ｄ１のどの部分かをより容易に判断できる。

【0097】

また、表示方法において、イベント表示領域Ｒ３は、所定のイベントの発生するシーンに属するイベントフレームの位置を表示し、所定のイベントの発生しないシーンに属するイベントフレームの位置を表示しない。この構成によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。

【0098】

また、表示方法において、イベント表示領域Ｒ３は、対象動画Ｄ１のフレームがイベントフレームであるかどうかを異なる方法で判定する第１及び第２判定処理Ｓ２２１，Ｓ２２２の結果の整合性に応じてイベントフレームの位置の表示の構成を異ならせる。この構成によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。

【0099】

また、表示方法において、動画表示領域Ｒ１に表示される対象動画Ｄ１のイベントフレームには所定のイベントが発生している領域を示すマークＰ１，Ｐ２が付されている。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0100】

また、表示方法は、取得ステップＳ１で取得した対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかの判定を行う判定ステップＳ２をさらに含む。判定ステップＳ２は、対象動画Ｄ１の複数のフレームを複数のシーンに分類する分類処理Ｓ２１と、対象動画Ｄ１の複数のフレームの各々がイベントフレームであるかどうかを判定する判定処理Ｓ２２とを含む。イベント表示領域Ｒ３は、分類処理Ｓ２１の結果と判定処理Ｓ２２の結果との整合性がないイベントフレームの位置を表示しない。この構成によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。

【0101】

また、表示方法において、分類処理Ｓ２１は、対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデルＭ１に、対象動画Ｄ１の複数のフレームの各々を与えることで、対象動画Ｄ１の複数のフレームを複数のシーンに分類する。この構成によれば、対象動画Ｄ１の複数のフレームを複数のシーンに分類する精度の向上が図れる。

【0102】

また、表示方法において、判定処理Ｓ２２は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデルＭ２に、対象動画Ｄ１の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第１判定処理Ｓ２２１と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデルＭ３に、対象動画Ｄ１の所定のフレームを与えることで、所定のイベントの種類を取得する第２判定処理Ｓ２２２と、第２判定処理Ｓ２２２の第２検出モデルＭ３が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理Ｓ２２３と、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理Ｓ２２４とを含む。総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致し、かつ、第１判定処理Ｓ２２１の結果から得られる発生領域と、根拠可視化処理Ｓ２２３の結果から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。この構成によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。

【0103】

また、表示方法において、イベント表示領域Ｒ３は、第１判定処理Ｓ２２１の結果から得られる発生領域と、根拠可視化処理Ｓ２２３の結果から得られる注目領域とが一致しないことを示す。この構成によれば、誤評価の可能性を低減できる。

【0104】

また、表示方法において、対象動画Ｄ１は、嚥下造影検査で撮像される対象物としての人が食物を口から食べる様子のＸ線動画である。所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含む。この構成によれば、嚥下造影検査において咽頭残留と誤嚥との少なくとも一方が生じているかどうかの評価を高精度で容易に行える。

【0105】

以上述べた表示方法は、演算回路２４がプログラムを実行することにより実現される。このプログラムは、上記の表示方法を、演算回路２４に実行させるためのプログラムである。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0106】

以上述べた表示システム２は、対象物が写る対象動画Ｄ１を記憶する記憶装置２３と、対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかを示す評価画面Ｇ１を生成する演算回路２４とを備える。評価画面Ｇ１は、対象動画Ｄ１を表示する動画表示領域Ｒ１と、対象物に関する複数のシーンへの対象動画Ｄ１の複数のフレームの分類の結果を表示するシーン情報表示領域Ｒ２と、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域Ｒ３とを含む。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0107】

以上述べた評価システム１は、対象物が写る対象動画Ｄ１を記憶する記憶装置２３と、対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路２４とを備える。演算回路２４は、対象動画Ｄ１の所定のフレームを複数のシーンに分類する分類処理Ｓ２１と、対象動画Ｄ１の所定のフレームに基づいて所定のイベントが生じているかどうかを判定する判定処理Ｓ２２と、分類処理の結果と判定処理の結果との整合性に基づいて所定のイベントが発生しているかどうかを判定する整合性判定処理Ｓ２３とを実行する。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0108】

以上述べた評価システム１は、対象物が写る対象動画Ｄ１を記憶する記憶装置２３と、対象動画Ｄ１に基づいて対象物に所定のイベントが生じているかどうかの判定を行う演算回路２４とを備える。演算回路２４は、対象物が写るフレームとフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデルＭ２に、対象動画Ｄ１の所定のフレームを与えることで、所定のフレームにおいて所定のイベントが発生している発生領域及び所定のイベントの種類を取得する第１判定処理Ｓ２２１と、対象物が写るフレームと所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデルＭ３に、対象動画Ｄ１の所定のフレームを与えることで、所定のイベントの種類を取得する第２判定処理Ｓ２２２と、第２判定処理Ｓ２２２の第２検出モデルＭ３が所定のフレームにおいて所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理Ｓ２２３と、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果と根拠可視化処理Ｓ２２３の結果とに基づいて所定のフレームにおいて所定のイベントが生じているかどうかを判定する総合判定処理Ｓ２２４とを実行する。総合判定処理Ｓ２２３は、第１判定処理Ｓ２２１の結果と第２判定処理Ｓ２２２の結果とで所定のイベントの種類が一致し、かつ、第１判定処理Ｓ２２１の結果から得られる発生領域と、根拠可視化処理Ｓ２２３の結果から得られる注目領域とが一致する場合に、所定のイベントが生じていると判断する。この構成によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0109】

［２．変形例］
本開示の実施の形態は、上記実施の形態に限定されない。上記実施の形態は、本開示の課題を達成できれば、設計等に応じて種々の変更が可能である。以下に、上記実施の形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。

【0110】

一変形例において、表示方法は、必ずしも判定ステップＳ２０を含んでいる必要はない。表示方法の表示ステップＳ３０は、表示システム２とは別のシステムにより実行された判定ステップＳ２０の結果を取得してよい。

【0111】

一変形例において、表示方法は、嚥下造影検査以外にも適用できる。表示方法は、例えば、人体の便生成のプロセスの検査にも適用可能である。この場合、対象動画Ｄ１は、人体の小腸及び大腸のＸ線動画であってよい。小腸から大腸には、液状の消化物が入る。そして、大腸を進行することで、消化物は、液状から、半流動状、粥状、半粥状と変化し、固形化し、固い便となる。一般に、大腸は、上行結腸、横行結腸、下行結腸、Ｓ状結腸、及び直腸を含む。そして、大腸の各部位と消化物の状態とは関係している。上行結腸では、消化物は液状又は半液状である。横行結腸では、消化物は半液状、粥状、又は半粥状である。下行結腸では、消化物は半粥状又は固形化している。Ｓ状結腸では、消化物は固形化又は固い便である。直腸では、消化物は固い便である。そのため、上行結腸入口において、消化物が固い便と判断され場合には、この判断は誤りである可能性が高い。よって、変形例では、所定のイベントは、大腸の便（消化物）の状態である、液状、半流動状、粥状、半粥状、固形状、及び固い便の少なくとも一つを含んでよい。複数のシーンは、消化物がある大腸の部位として、上行結腸、横行結腸、下行結腸、Ｓ状結腸、及び直腸の少なくとも２つを含んでよい。これによって、人体の便生成のプロセスの検査についての消化物の状態の評価を高精度で容易に行える。

【0112】

一変形例では、表示方法は、例えば、骨格情報を利用した作業分析にも適用可能である。この場合、対象動画Ｄ１は、所定の作業を実行する人の動画であってよい。所定のイベントは、所定の作業に含まれる人の動作であってよい。骨格情報を利用することで対象動画Ｄ１から人の動作を検出できる。所定の作業は、例えば、組み立て作業がある。組み立て作業は、例えば、人がピンセットを用いて部品を組み合わせて完成品を作製する。組み立て作業に含まれる人の動作としては、ピンセット保持、部品除去、部品の組み合わせ、肉眼検査、顕微鏡検査、検査終了品の完成品箱への投入、ペン保持、ボードへの記入、及び、組み立て準備の工程が挙げられる。ここで、ピンセット保持、部品除去、部品の組み合わせ、肉眼検査、顕微鏡検査、検査終了品の完成品箱への投入、ペン保持、ボードへの記入、及び、組み立て準備の工程は、類似の工程が存在し得る小分類の工程である。これらの小分類の工程は、特徴が大きく異なる大分類の工程に分類され得る。例えば、ピンセット保持、部品除去、及び部品の組み合わせの工程は、組み立ての工程に分類される。肉眼検査、顕微鏡検査、及び検査終了品の完成品箱への投入の工程は、品質検査の工程に分類される。ペン保持、ボードへの記入、及び組み立て準備の工程は、記録の工程に分類される。対象動画Ｄ１から所定のイベントとして小分類を検出する場合、小分類と大分類との組み合わせが異なる場合には、小分類の検出が誤りである可能性が高い。記録の工程において、ピンセット保持が検出された場合、ピンセット保持が誤りであり、実際は記録の工程においてピンセット保持に類似するペン保持である可能性がある。そのため、ピンセット保持をペン保持に修正するか、ピンセット保持を誤判定として無視するといった対処が可能である。よって、変形例では、所定のイベントは、所定の作業に含まれる人の動作（小分類）に対応してよい。複数のシーンは、所定の作業において特徴が大きく異なる大分類の工程に対応してよい。これによって、骨格情報を利用した作業分析を高精度で容易に行える。

【0113】

一変形例では、対象物は人に限らず、状態が変化する物であればよく、対象物は生物又は無生物であってよい。

【0114】

一変形例では、評価画面Ｇ１は、表示システム２の入出力装置２１のディスプレイに限らず、表示システム２に通信可能に接続されるコンピュータシステムのディスプレイに表示されてもよい。

【0115】

一変形例では、評価画面Ｇ１のイベント表示領域Ｒ３は、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との両方ではなく、所定のイベントの種類のみを表示してもよい。所定のイベントの種類から所定のイベントの発生しているシーンが類推できる場合には、所定のイベントの種類を表示することで、間接的に、所定のイベントの発生しているフレームの位置を示すことができる。評価画面Ｇ１は、シーン情報表示領域Ｒ２を含んでいるから、類推したシーンに対応するフレームを容易に見つけることができる。類推したシーンに対応するフレームに所定のイベントが発見できない場合には、誤検出であると判断できる。このように、評価画面Ｇ１のイベント表示領域Ｒ３は、対象動画Ｄ１の複数のフレームのうちの対象物に所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示してよい。

【0116】

一変形例では、表示方法は、必ずしも判定ステップＳ２を含む必要はない。例えば、表示システム２は、対象動画Ｄ１を外部装置に出力して外部装置に判定ステップＳ２を実行させ、判定ステップＳ２の結果を外部装置から取得して表示ステップＳ３を実行することができる。

【0117】

一変形例では、評価システム１は、必ずしも撮像システム５を備えている必要はない。表示システム２は、外部又は内部の記憶装置から対象動画Ｄ１を取得してよい。評価システム１は、学習システム３及び入力システム４を備えていなくてもよい。つまり、第１検出モデルＭ２及び第２検出モデルＭ３についての追加学習は必須の構成ではない。評価システム１は、表示システム２全体を含んでいる必要はなく、少なくとも判定ステップＳ２を実行する機能を有していてよい。つまり、評価システム１は、外部装置から得た対象動画Ｄ１に対して判定ステップＳ２を実行し、判定ステップＳ２の結果を外部装置に出力してよい。この場合、外部装置が、判定ステップＳ２の結果を表示する。つまり、評価システム１自体が、評価画面Ｇ１を表示する構成を備えていなくてもよい。

【0118】

一変形例では、評価システム１において、表示システム２、学習システム３、及び入力システム４がそれぞれ異なるコンピュータシステムで実現されることは必須ではない。表示システム２、学習システム３、及び入力システム４は単一のコンピュータシステムで実現されてもよい。

【0119】

一変形例では、表示システム２、学習システム３、及び入力システム４は、それぞれ、入出力装置２１，３１，４１と通信装置２２，３２，４２との両方を備える必要はない。

【0120】

一変形例では、表示システム２、学習システム３、及び入力システム４の各々は、複数のコンピュータシステムで実現されてもよい。つまり、表示システム２、学習システム３、及び入力システム４の各々における複数の機能（構成要素）が、１つの筐体内に集約されていることは必須ではなく、表示システム２、学習システム３、及び入力システム４の各々の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、表示システム２、学習システム３、及び入力システム４の各々の少なくとも一部の機能、例えば、演算回路２４，３４，４４の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

【0121】

［３．態様］
上記実施の形態及び変形例から明らかなように、本開示は、下記の態様を含む。以下では、実施の形態との対応関係を明示するためだけに、符号を括弧付きで付している。

【0122】

第１の態様は、表示方法であって、対象物が写る対象動画（Ｄ１）を取得する取得ステップ（Ｓ１）と、前記取得ステップ（Ｓ１）で取得した前記対象動画（Ｄ１）に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面（Ｇ１）を表示する表示ステップ（Ｓ３）とを含む。前記評価画面（Ｇ１）は、前記対象動画（Ｄ１）を表示する動画表示領域（Ｒ１）と、前記対象物に関する複数のシーンへの前記対象動画（Ｄ１）の複数のフレームの分類の結果を表示するシーン情報表示領域（Ｒ２）と、前記対象動画（Ｄ１）の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置と所定のイベントの種類との少なくとも一方を表示するイベント表示領域（Ｒ３）とを含む。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0123】

第２の態様は、第１の態様に基づく表示方法である。第２の態様において、前記動画表示領域（Ｒ１）は、前記対象動画（Ｄ１）において表示中のフレームの位置を示す機能、及び、前記対象動画（Ｄ１）において表示するフレームを変更する機能を備える操作領域（ＳＢ１）を含む。前記シーン情報表示領域（Ｒ２）は、前記複数のシーンの位置をそれぞれ表示する複数のシーン表示バー（Ｔ１－１～Ｔ１－５）を含む。前記イベント表示領域（Ｒ３）は、前記イベントフレームの位置を表示するイベント表示バー（Ｔ２）を含む。前記複数のシーン表示バー（Ｔ１－１～Ｔ１－５）及び前記イベント表示バー（Ｔ２）は、前記操作領域（ＳＢ１）と対応付けて配置される。この態様によれば、シーン表示バー（Ｔ１－１～Ｔ１－５）が表示するシーン及びイベント表示バー（Ｔ２）が表示するイベントフレームが対象動画（Ｄ１）のどの部分かをより容易に判断できる。

【0124】

第３の態様は、第２の態様に基づく表示方法である。第３の態様において、前記操作領域（ＳＢ１）は、前記対象動画（Ｄ１）において表示中のフレームの位置を示すスライダ（ＳＢ２）と、前記スライダ（ＳＢ２）が移動可能な棒状の領域であるスライダバー（ＳＢ３）とを含む。前記複数のシーン表示バー（Ｔ１－１～Ｔ１－５）及び前記イベント表示バー（Ｔ２）は、前記操作領域（ＳＢ１）のスライダバー（ＳＢ３）と同じ長さで位置を揃えて配置される。この態様によれば、シーン表示バー（Ｔ１－１～Ｔ１－５）が表示するシーン及びイベント表示バー（Ｔ２）が表示するイベントフレームが対象動画（Ｄ１）のどの部分かをより容易に判断できる。

【0125】

第４の態様は、第１～第３の態様のいずれか一つに基づく表示方法である。第４の態様において、前記イベント表示領域（Ｒ３）は、前記所定のイベントの発生するシーンに属する前記イベントフレームの位置を表示し、前記所定のイベントの発生しないシーンに属する前記イベントフレームの位置を表示しない。この態様によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。

【0126】

第５の態様は、第１～第４の態様のいずれか一つに基づく表示方法である。第５の態様において、前記イベント表示領域（Ｒ３）は、前記対象動画（Ｄ１）のフレームが前記イベントフレームであるかどうかを異なる方法で判定する第１及び第２判定処理（Ｓ２２１，Ｓ２２２）の結果の整合性に応じて前記イベントフレームの位置の表示の態様を異ならせる。この態様によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。

【0127】

第６の態様は、第１～第５の態様のいずれか一つに基づく表示方法である。第６の態様において、前記動画表示領域（Ｒ１）に表示される前記対象動画（Ｄ１）の前記イベントフレームには前記所定のイベントが発生している領域を示すマーク（Ｐ１，Ｐ２）が付されている。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0128】

第７の態様は、第１～第６の態様のいずれか一つに基づく表示方法である。第７の態様において、前記表示方法は、前記取得ステップ（Ｓ１）で取得した前記対象動画（Ｄ１）に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う判定ステップ（Ｓ２）をさらに含む。前記判定ステップ（Ｓ２）は、前記対象動画（Ｄ１）の複数のフレームを前記複数のシーンに分類する分類処理（Ｓ２１）と、前記対象動画（Ｄ１）の複数のフレームの各々が前記イベントフレームであるかどうかを判定する判定処理（Ｓ２２）とを含む。前記イベント表示領域（Ｒ３）は、前記分類処理（Ｓ２１）の結果と前記判定処理（Ｓ２２）の結果との整合性がない前記イベントフレームの位置を表示しない。この態様によれば、シーンにおいて生じ得ない所定のイベントに対応するイベントフレームの位置を表示しないようにすることで誤評価の可能性を低減できる。

【0129】

第８の態様は、第７の態様に基づく表示方法である。第８の態様において、前記分類処理（Ｓ２１）は、前記対象物が写るフレームとフレームが属するシーンとの対応関係を学習した学習済みモデルである分類モデル（Ｍ１）に、前記対象動画（Ｄ１）の複数のフレームの各々を与えることで、前記対象動画（Ｄ１）の複数のフレームを前記複数のシーンに分類する。この態様によれば、対象動画（Ｄ１）の複数のフレームを複数のシーンに分類する精度の向上が図れる。

【0130】

第９の態様は、第７又は第８の態様に基づく表示方法である。第９の態様において、前記判定処理（Ｓ２２）は、前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデル（Ｍ２）に、前記対象動画（Ｄ１）の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第１判定処理（Ｓ２２１）と、前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデル（Ｍ３）に、前記対象動画（Ｄ１）の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第２判定処理（Ｓ２２２）と、前記第２判定処理（Ｓ２２２）の前記第２検出モデル（Ｍ３）が前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理（Ｓ２２３）と、前記第１判定処理（Ｓ２２１）の結果と前記第２判定処理（Ｓ２２２）の結果と前記根拠可視化処理（Ｓ２２３）の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理（Ｓ２２４）とを含む。前記総合判定処理（Ｓ２２３）は、前記第１判定処理（Ｓ２２１）の結果と前記第２判定処理（Ｓ２２２）の結果とで前記所定のイベントの種類が一致し、かつ、前記第１判定処理（Ｓ２２１）の結果から得られる前記発生領域と、前記根拠可視化処理（Ｓ２２３）の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する。この態様によれば、異なる方法での判定を併用することで誤評価の可能性を低減できる。

【0131】

第１０の態様は、第９の態様に基づく表示方法である。第１０態様において、前記イベント表示領域（Ｒ３）は、前記第１判定処理（Ｓ２２１）の結果から得られる前記発生領域と、前記根拠可視化処理（Ｓ２２３）の結果から得られる前記注目領域とが一致しないことを示す。この態様によれば、誤評価の可能性を低減できる。

【0132】

第１１の態様は、第１～第１０の態様のいずれか一つに基づく表示方法である。第１１の態様において、前記対象動画（Ｄ１）は、嚥下造影検査で撮像される前記対象物としての人が食物を口から食べる様子のＸ線動画である。前記所定のイベントは、咽頭残留と誤嚥との少なくとも一方を含む。前記複数のシーンは、先行期と、準備期と、口腔期と、咽頭期と、食道期との少なくとも２つを含む。この態様によれば、嚥下造影検査において咽頭残留と誤嚥との少なくとも一方が生じているかどうかの評価を高精度で容易に行える。

【0133】

第１２の態様は、第１～第１１の態様のいずれか一つの表示方法を、演算回路（２４）に実行させるためのプログラムである。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0134】

第１３の態様は、表示システム（２）であって、対象物が写る対象動画（Ｄ１）を記憶する記憶装置（２３）と、前記対象動画（Ｄ１）に基づいて前記対象物に所定のイベントが生じているかどうかを示す評価画面（Ｇ１）を生成する演算回路（２４）とを備える。前記評価画面（Ｇ１）は、前記対象動画（Ｄ１）を表示する動画表示領域（Ｒ１）と、前記対象物に関する複数のシーンへの前記対象動画（Ｄ１）の複数のフレームの分類の結果を表示するシーン情報表示領域（Ｒ２）と、前記対象動画（Ｄ１）の複数のフレームのうちの前記対象物に前記所定のイベントが生じているイベントフレームの位置を表示するイベント表示領域（Ｒ３）とを含む。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0135】

第１４の態様は、評価システム（１）であって、対象物が写る対象動画（Ｄ１）を記憶する記憶装置（２３）と、前記対象動画（Ｄ１）に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路（２４）とを備える。前記演算回路（２４）は、前記対象動画（Ｄ１）の所定のフレームを複数のシーンに分類する分類処理（Ｓ２１）と、前記対象動画（Ｄ１）の所定のフレームに基づいて前記所定のイベントが生じているかどうかを判定する判定処理（Ｓ２２）と、前記分類処理の結果と前記判定処理の結果との整合性に基づいて前記所定のイベントが発生しているかどうかを判定する整合性判定処理（Ｓ２３）とを実行する。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0136】

第１５の態様は、評価システム（１）であって、対象物が写る対象動画（Ｄ１）を記憶する記憶装置（２３）と、前記対象動画（Ｄ１）に基づいて前記対象物に所定のイベントが生じているかどうかの判定を行う演算回路（２４）とを備える。前記演算回路（２４）は、前記対象物が写るフレームとフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類との対応関係を学習した学習済みモデルである第１検出モデル（Ｍ２）に、前記対象動画（Ｄ１）の所定のフレームを与えることで、前記所定のフレームにおいて前記所定のイベントが発生している発生領域及び前記所定のイベントの種類を取得する第１判定処理（Ｓ２２１）と、前記対象物が写るフレームと前記所定のイベントの種類との対応関係を学習した学習済みモデルである第２検出モデル（Ｍ３）に、前記対象動画（Ｄ１）の前記所定のフレームを与えることで、前記所定のイベントの種類を取得する第２判定処理（Ｓ２２２）と、前記第２判定処理（Ｓ２２２）の前記第２検出モデル（Ｍ３）が前記所定のフレームにおいて前記所定のイベントが発生していると判断した根拠となる注目領域を求める根拠可視化処理（Ｓ２２３）と、前記第１判定処理（Ｓ２２１）の結果と前記第２判定処理（Ｓ２２２）の結果と前記根拠可視化処理（Ｓ２２３）の結果とに基づいて前記所定のフレームにおいて前記所定のイベントが生じているかどうかを判定する総合判定処理（Ｓ２２４）とを実行する。前記総合判定処理（Ｓ２２３）は、前記第１判定処理（Ｓ２２１）の結果と前記第２判定処理（Ｓ２２２）の結果とで前記所定のイベントの種類が一致し、かつ、前記第１判定処理（Ｓ２２１）の結果から得られる前記発生領域と、前記根拠可視化処理（Ｓ２２３）の結果から得られる前記注目領域とが一致する場合に、前記所定のイベントが生じていると判断する。この態様によれば、対象物に所定のイベントが生じているかどうかの評価を高精度で容易に行える。

【0137】

［４．用語］
本開示では、機械学習に関する用語を以下のように定義して用いる。

【0138】

「学習済みモデル」とは「学習済みパラメータ」が組み込まれた「推論プログラム」をいう。

【0139】

「学習済みパラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ（係数）をいう。学習済みパラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。学習済みパラメータは、学習の目的にあわせて調整されているものの、単体では単なるパラメータ（数値等の情報）にすぎず、これを推論プログラムに組み込むことで初めて学習済みモデルとして機能する。例えば、ディープラーニングの場合には、学習済みパラメータの中で主要なものとしては、各ノード間のリンクの重み付けに用いられるパラメータ等がこれに該当する。

【0140】

「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。例えば、入力として与えられた画像に対して、学習の結果として取得された学習済みパラメータを適用し、当該画像に対する結果（認証や判定）を出力するための一連の演算手順を規定したプログラムである。

【0141】

「学習用データセット」とは、訓練データセットともいい、生データに対して、欠測値や外れ値の除去等の前処理や、ラベル情報（正解データ）等の別個のデータの付加等、あるいはこれらを組み合わせて、変換・加工処理を施すことによって、対象とする学習の手法による解析を容易にするために生成された二次的な加工データをいう。学習用データセットには、生データに一定の変換を加えていわば「水増し」されたデータを含むこともある。

【0142】

「生データ」とは、ユーザやベンダ、その他の事業者や研究機関等により一次的に取得されたデータであって、データベースに読み込むことができるよう変換・加工処理されたものをいう。なお、「生データ」を加工せずに学習を行うことは排除されない。その場合には、「生データ」自体が「学習用データセット」と呼ばれ得る。

【0143】

「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。

【0144】

「追加学習」とは、既存の学習済みモデルに、異なる学習用データセットを適用して、更なる学習を行うことで、新たに学習済みパラメータを生成することを意味する。

【産業上の利用可能性】

【0145】

本開示は、表示方法、プログラム（コンピュータプログラム）、表示システム、及び、評価システムに適用可能である。具体的には、対象物が写る対象動画に基づいて対象物に所定のイベントが生じているかどうかを評価するための表示方法、プログラム（コンピュータプログラム）、表示システム、及び、評価システムに、本開示は適用可能である。

【符号の説明】

【0146】

１評価システム
２表示システム
２３記憶装置
２４演算回路
Ｄ１対象動画
Ｍ１分類モデル
Ｍ２第１検出モデル
Ｍ３第２検出モデル
Ｇ１評価画面
Ｒ１動画表示領域
ＳＢ１操作領域
ＳＢ２スライダ
ＳＢ３スライダバー
Ｒ２シーン情報表示領域
Ｔ１－１，Ｔ１－５シーン表示バー
Ｒ３イベント表示領域
Ｔ２イベント表示バー
Ｐ１，Ｐ２マーク
Ｓ１取得ステップ
Ｓ２判定ステップ
Ｓ２１分類処理
Ｓ２２判定処理
Ｓ２２１第１判定処理
Ｓ２２２第２判定処理
Ｓ２２３根拠可視化処理
Ｓ２２４総合判定処理
Ｓ２３整合性判定処理
Ｓ３表示ステップ

【図1】