(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-21
(54)【発明の名称】視覚的に説明的な単語を使用して耳の病態を診断するシステム及び方法
(51)【国際特許分類】
A61B 1/045 20060101AFI20240214BHJP
A61B 1/227 20060101ALI20240214BHJP
【FI】
A61B1/045 614
A61B1/227
A61B1/045 642
A61B1/045 621
A61B1/045 618
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023548791
(86)(22)【出願日】2021-12-08
(85)【翻訳文提出日】2023-09-20
(86)【国際出願番号】 US2021062409
(87)【国際公開番号】W WO2022173499
(87)【国際公開日】2022-08-18
(32)【優先日】2021-02-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516046846
【氏名又は名称】オハイオ ステート イノベーション ファウンデーション
(74)【代理人】
【識別番号】100104411
【氏名又は名称】矢口 太郎
(72)【発明者】
【氏名】グルカン、メティン
(72)【発明者】
【氏名】モバリー、アーロン
【テーマコード(参考)】
4C161
【Fターム(参考)】
4C161AA11
4C161CC06
4C161HH51
4C161SS21
4C161WW04
4C161YY16
(57)【要約】
本明細書では、被験者の鼓膜の視覚的に説明的な単語を使用することによって広範囲な鼓膜状態を検出するシステム及び方法を開示する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
説明的な単語から鼓膜の病態を分類するための方法であって、
被験者の鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程と、
コンピューティングデバイスによって、複数の鼓膜状態及び対応する単語群からなるモデルであって、各単語群が、人工知能アルゴリズムによって判定された前記複数の鼓膜状態のそれぞれに最も頻繁に関連付けられた単語からなる、前記モデルを使用して、前記被験者の前記鼓膜状態を説明する受信された前記1つまたは複数の説明的な単語に基づいて、前記被験者の鼓膜の診断を判定する判定する工程と、
を含む、前記方法。
【請求項2】
前記1つまたは複数の説明的な単語が医療提供者の音声として電子的に受信される、請求項1に記載の方法。
【請求項3】
前記1つまたは複数の説明的な単語が文字として電子的に受信される、請求項1に記載の方法。
【請求項4】
前記1つまたは複数の説明的な単語がリアルタイムで受信される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記1つまたは複数の説明的な単語が、時間的に後に記録及び受信される、請求項1から3のいずれか一項に記載の方法。
【請求項6】
前記モデルが、前記複数の鼓膜状態を有する複数の鼓膜画像を取得し、前記複数の鼓膜状態のそれぞれについての鼓膜の合成画像を形成し、専門家に各合成画像とそれに対応する鼓膜状態の記述レポートとを提供してもらい、前記人工知能アルゴリズムを使用して各専門家の記述レポートを分析し、対応する鼓膜画像に最も頻繁に関連付けられた単語の前記単語群を判定する工程によって開発される、請求項1から5のいずれか一項に記載の方法。
【請求項7】
各専門家の記述レポートを前処理するために、1つまたは複数の自然言語処理(NLP)ツールが使用される、請求項6に記載の方法。
【請求項8】
前記NLPツールが、トークン化、ストップワード除去、単語正規化、及び句読点消去のうちの1つまたは複数を含む、請求項7に記載の方法。
【請求項9】
各前処理された専門家の記述レポートに(用語頻度カウンタとしても知られる)単語バッグ(BoW)モデルを適用して、その特定の単語が各レポートに出現する回数を取得して、その頻度を暗示する、請求項7または請求項8のいずれか一項に記載の方法。
【請求項10】
前記単語群が、前記BoWモデルによって判定されたように、各鼓膜状態について単語カウントが最も多い5つの単語で構成される、請求項9に記載の方法。
【請求項11】
前記モデルが訓練されると、前記モデルが、追加の鼓膜画像を特徴付ける単語群を自動的に作成することができる、請求項6から10のいずれか一項に記載の方法。
【請求項12】
前記被験者の前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語に基づいて前記被験者の前記鼓膜の前記診断を判定する工程が、近傍成分分析(NCA)を使用して、前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語を前記単語群と比較することを含み、NCAが、k最近傍性能を最大化するデータの線形変換を学習する、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記モデルが、前記複数の鼓膜状態の各々をその対応する単語群と関連付けるデータベースを含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記被験者の前記鼓膜の前記診断が、正常、滲出、退縮、または鼓膜硬化症のうちの1つである、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記被験者の前記鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程が、医療提供者が前記説明的な単語をスマートデバイスに発話するまたはタイプすることであって、前記説明的な単語がその後にネットワークを介して送信される、前記発話するまたはタイプすること、を含む、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記スマートデバイスがスマートフォンを含む、請求項15に記載の方法。
【請求項17】
前記ネットワークの少なくとも一部がクラウドコンピューティングアーキテクチャを含む、請求項15または16に記載の方法。
【請求項18】
前記医療提供者が、前記被験者の前記鼓膜画像を見ながら、前記説明的な単語を前記スマートデバイスに発話するまたはタイプする、請求項15から17のいずれか一項に記載の方法。
【請求項19】
前記医療提供者が、耳鏡を使用して前記被験者の前記鼓膜を見ながら、前記説明的な単語を前記スマートデバイスに発話するまたはタイプする、請求項15から17のいずれか一項に記載の方法。
【請求項20】
説明的な単語から鼓膜の病態を分類するためのシステムであって、
被験者の鼓膜を観察するように構成されたデバイスと、
メモリと通信するプロセッサであって、前記メモリが、前記プロセッサによって実行されると、前記プロセッサに、
被験者の鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程と、
複数の鼓膜状態及び対応する単語群からなるモデルであって、各単語群が、人工知能アルゴリズムによって判定された前記複数の鼓膜状態のそれぞれに最も頻繁に関連付けられた単語からなる、前記モデルを使用して、前記被験者の前記鼓膜状態を説明する受信された前記1つまたは複数の説明的な単語に基づいて、前記被験者の鼓膜の診断を判定する工程と、
を実行させるコンピュータ実行可能命令を含む、前記プロセッサと、
を備える、前記システム。
【請求項21】
前記1つまたは複数の説明的な単語が、医療提供者の音声として電子的に受信される、請求項20に記載のシステム。
【請求項22】
前記1つまたは複数の説明的な単語が、文字として電子的に受信される、請求項20に記載のシステム。
【請求項23】
前記1つまたは複数の説明的な単語がリアルタイムで受信される、請求項20から22のいずれか一項に記載のシステム。
【請求項24】
前記1つまたは複数の説明的な単語が、時間的に後に記録及び受信される、請求項20から22のいずれか一項に記載のシステム。
【請求項25】
前記モデルが、前記複数の鼓膜状態を有する複数の鼓膜画像を取得し、前記複数の鼓膜状態のそれぞれについての鼓膜の合成画像を形成し、専門家に各合成画像とそれに対応する鼓膜状態の記述レポートとを提供してもらい、前記人工知能アルゴリズムを使用して各専門家の記述レポートを分析し、対応する鼓膜画像に最も頻繁に関連付けられた単語の前記単語群を判定する工程によって開発される、請求項20から24のいずれか一項に記載のシステム。
【請求項26】
各専門家の記述レポートを前処理するために、1つまたは複数の自然言語処理(NLP)ツールが使用される、請求項25に記載のシステム。
【請求項27】
前記NLPツールが、トークン化、ストップワード除去、単語正規化、及び句読点消去のうちの1つまたは複数を含む、請求項26に記載のシステム。
【請求項28】
各前処理された専門家の記述レポートに(用語頻度カウンタとしても知られる)単語バッグ(BoW)モデルを適用して、その特定の単語が各レポートに出現する回数を取得して、その頻度を暗示する、請求項26または請求項27のいずれか一項に記載のシステム。
【請求項29】
前記単語群が、前記BoWモデルによって判定されたように、各鼓膜状態について単語カウントが最も多い5つの単語で構成される、請求項28に記載のシステム。
【請求項30】
前記モデルが訓練されると、前記モデルが、追加の鼓膜画像を特徴付ける単語群を自動的に作成することができる、請求項25から29のいずれか一項に記載のシステム。
【請求項31】
前記プロセッサに、前記被験者の前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語に基づいて前記被験者の前記鼓膜の前記診断を判定させるコンピュータ実行可能命令を実行する前記プロセッサが、前記プロセッサに、前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語を、近傍成分分析(NCA)を使用して前記単語群と比較させるコンピュータ可読命令を実行させる前記プロセッサを含み、NCAは、k最近傍性能を最大化するデータの線形変換を学習する、請求項20から30のいずれか一項に記載のシステム。
【請求項32】
前記モデルが、前記複数の鼓膜状態の各々をその対応する単語群と関連付ける前記メモリに記憶されたデータベースを備える、請求項20から31のいずれか一項に記載のシステム。
【請求項33】
前記被験者の前記鼓膜の前記診断が、正常、滲出、退縮、または鼓膜硬化症のうちの1つである、請求項20から32のいずれか一項に記載のシステム。
【請求項34】
ネットワークに接続されたスマートデバイスをさらに備え、前記被験者の前記鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程が、医療提供者が前記説明的な単語を前記スマートデバイスに発話するまたはタイプすることであって、前記説明的な単語がその後に前記ネットワークを介して送信される、前記発話するまたはタイプすることを含む、請求項20から33のいずれか一項に記載のシステム。
【請求項35】
前記スマートデバイスがスマートフォンを含む、請求項34に記載のシステム。
【請求項36】
前記ネットワークの少なくとも一部がクラウドコンピューティングアーキテクチャを含む、請求項34または35のいずれか一項に記載のシステム。
【請求項37】
前記医療提供者が、前記画像取込デバイスによって取り込まれた前記被験者の前記鼓膜画像を見ながら、前記説明的な単語を前記スマートデバイスに発話するまたはタイプする、請求項34から36のいずれか一項に記載のシステム。
【請求項38】
前記画像取込デバイスが耳鏡またはビデオ耳鏡を含む、請求項37に記載のシステム。
【請求項39】
コンピュータ可読媒体に格納されたコンピュータ実行可能コードセクションを含む非一時的なコンピュータプログラム製品であって、前記コンピュータ実行可能コードセクションが、説明的な単語から鼓膜の病態を分類するための方法を実行するためのものであり、前記方法が、
被験者の鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程と、
複数の鼓膜状態及び対応する単語群からなるモデルであって、各単語群が、人工知能アルゴリズムによって判定された前記複数の鼓膜状態のそれぞれに最も頻繁に関連付けられた単語からなる、前記モデルを使用して、前記被験者の前記鼓膜状態を説明する受信された前記1つまたは複数の説明的な単語に基づいて、前記被験者の鼓膜の診断を判定する工程と、
を含む、前記コンピュータプログラム製品。
【請求項40】
前記1つまたは複数の説明的な単語が医療提供者の音声として電子的に受信される、請求項39に記載のコンピュータプログラム製品。
【請求項41】
前記1つまたは複数の説明的な単語が文字として電子的に受信される、請求項39に記載のコンピュータプログラム製品。
【請求項42】
前記1つまたは複数の説明的な単語がリアルタイムで受信される、請求項39から41のいずれか一項に記載のコンピュータプログラム製品。
【請求項43】
前記1つまたは複数の説明的な単語が、時間的に後に記録及び受信される、請求項39から41のいずれか一項に記載のコンピュータプログラム製品。
【請求項44】
前記モデルが、前記複数の鼓膜状態を有する複数の鼓膜画像を取得し、前記複数の鼓膜状態のそれぞれについての鼓膜の合成画像を形成し、専門家に各合成画像とそれに対応する鼓膜状態の記述レポートとを提供してもらい、前記人工知能アルゴリズムを使用して各専門家の記述レポートを分析し、対応する鼓膜画像に最も頻繁に関連付けられた単語の前記単語群を判定する工程によって開発される、請求項39から43のいずれか一項に記載のコンピュータプログラム製品。
【請求項45】
各専門家の記述レポートを前処理するために、1つまたは複数の自然言語処理(NLP)ツールが使用される、請求項44に記載のコンピュータプログラム製品。
【請求項46】
前記NLPツールが、トークン化、ストップワード除去、単語正規化、及び句読点消去のうちの1つまたは複数を含む、請求項45に記載のコンピュータプログラム製品。
【請求項47】
各前処理された専門家の記述レポートに(用語頻度カウンタとしても知られる)単語バッグ(BoW)モデルを適用して、その特定の単語が各レポートに出現する回数を取得して、その頻度を暗示する、請求項45または請求項46のいずれか一項に記載のコンピュータプログラム製品。
【請求項48】
前記単語群が、前記BoWモデルによって判定されたように、各鼓膜状態について単語カウントが最も多い5つの単語で構成される、請求項47に記載のコンピュータプログラム製品。
【請求項49】
前記モデルが訓練されると、前記モデルが、追加の鼓膜画像を特徴付ける単語群を自動的に作成することができる、請求項44から48のいずれか一項に記載のコンピュータプログラム製品。
【請求項50】
前記被験者の前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語に基づいて、前記被験者の前記鼓膜の前記診断を判定する工程が、近傍成分分析(NCA)を使用して前記鼓膜状態を説明する前記受信した1つまたは複数の説明的な単語を前記単語群と比較することを含み、NCAが、k最近傍性能を最大化するデータの線形変換を学習する、請求項39から49のいずれか一項に記載のコンピュータプログラム製品。
【請求項51】
前記モデルが、前記複数の鼓膜状態の各々をその対応する単語群と関連付けるデータベースを含む、請求項39から50のいずれか一項に記載のコンピュータプログラム製品。
【請求項52】
前記被験者の前記鼓膜の前記診断が、正常、滲出、退縮、または鼓膜硬化症のうちの1つである、請求項39から51のいずれか一項に記載のコンピュータプログラム製品。
【請求項53】
前記被験者の前記鼓膜状態を説明する1つまたは複数の説明的な単語を受信する工程が、医療提供者が前記説明的な単語をスマートデバイスに発話するまたはタイプすることであって、前記説明的な単語がその後にネットワークを介して送信される、前記発話するまたはタイプすること、を含む、請求項39から52のいずれか一項に記載のコンピュータプログラム製品。
【請求項54】
前記スマートデバイスがスマートフォンを含む、請求項53に記載のコンピュータプログラム製品。
【請求項55】
前記ネットワークの少なくとも一部がクラウドコンピューティングアーキテクチャを含む、請求項53または54のいずれか一項に記載のコンピュータプログラム製品。
【請求項56】
前記医療提供者が、前記被験者の前記鼓膜画像を見ながら、前記説明的な単語を前記スマートデバイスに発話するまたはタイプする、請求項53から55のいずれか一項に記載のコンピュータプログラム製品。
【請求項57】
前記医療提供者が、耳鏡を使用して前記被験者の前記鼓膜を見ながら、前記説明的な単語を前記スマートデバイスに発話するまたはタイプする、請求項53から55のいずれか一項に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
政府支援条項
本発明は、国立衛生研究所によって授与された助成金番号R21DC016972の下で政府の支援を受けてなされた。政府は、本発明において特定の権利を有する。
【0002】
関連出願の相互参照
本出願は、2021年2月12日に出願された米国仮特許出願63/148,763の優先権及び利益を主張し、この仮特許出願は参照により完全に組み込まれ、本明細書の一部となる。
【背景技術】
【0003】
耳の感染症、特に中耳の急性感染症(急性中耳炎)は、最も一般的に治療されている小児疾患であり、米国だけで年間約2,000万件の医師の診察を受けている。
【0004】
耳の病気は、適切な時期に診断され、適切な治療法が適用されれば、簡単に治療できる病気の1つである。そうしないと、耳の病気により難聴やその他の合併症が発生する可能性がある。耳鏡検査は、外耳道と鼓膜(tympanic membrane、TM)を検査するために使用される最も基本的で一般的なツールの1つである。ただし、経験豊富で熟練した医師による検査が常に可能であるとは限らない。同じ耳鏡検査の経験のない医師を支援するには、コンピュータ支援診断(computer-aided diagnosis、CAD)システムが役立つ場合がある。しかし、ほとんどのCADシステムでは、検査を受ける被験者から得られた画像を取得して分析する必要がある。2019年7月18日に公開された米国特許出願公開第2019/0216308号明細書は、参照により完全に組み込まれ、コンテンツベースの画像検索(content-based image retrieval、CBIR)システムの一例であり、これはまた、医師がTM画像に基づいて診断決定を下すのを助けるように設計されたCADシステムの良い例である。
【0005】
ただし、画像データはサイズが大きく、画像分析を実行できる処理能力を備えたリモートサイトから場所(及びデバイス)に送信するのが困難な場合がある。
【0006】
したがって、その一部を上で説明した当技術分野の課題を克服するシステム及び方法が望まれている。特に、多数の耳の病態のいずれかを適切に識別し分類するために、TMの状態を説明するために使用される視覚的に説明的な単語に基づいてTMの状態について診断上の決定を下す、タイムリーで正確な方法及びシステムが必要とされている。
【発明の概要】
【0007】
ここでは、深層学習と自然言語処理(NLP)との相乗効果の恩恵を受けるデジタル耳鏡ビデオ要約及び自動診断ラベル割り当てモデルを利用するデータベースの作成について説明する。TM疾患の主要な視覚的特徴は、TM画像の短い記述レポートから得られる。複数の異なるTM疾患からの耳鏡検査記録が得られ、さまざまな疾患の視覚的指標を示すTM及び正常なTMについて合成画像が生成された。耳鼻咽喉科の専門家はこれらの合成画像を検討し、TMの視覚的ランドマーク及び各耳の疾患を説明する短いレポートを作成した。NLP及び単語バック(bag-of-words、BoW)モデルに基づいて、各TM診断カテゴリを特徴付ける最も頻繁に使用される単語の縮小セット(例えば、5つ)が決定された。これらの単語の削減されたセット、及び各セットに対応するTM状態(正常、TM疾患1、TM疾患2、...など)がデータベースに保存された。訓練が完了すると、モデルは追加画像のTM診断カテゴリを特徴付ける単語の縮小セットを自動的に作成できる。
【0008】
モデル及びデータベースが作成されると、被験者のTMの視覚的な説明が医療提供者から受信され、縮小された単語のセットと比較される。次に、被験者のTM状態の診断は、医療提供者から受け取った視覚的に説明的な単語と、データベースに保存されているTM状態に関連付けられた縮小された単語セットとの間の最良のマッチに基づいて行われる。場合によっては、開示されるシステム、方法、及びコンピュータプログラム製品は、モバイルデバイスから医療提供者によって提供される視覚的説明を分析することによってモデルがTMの診断を自動的に行うことができる遠隔医療アプリケーションを含む。
【0009】
その他の有利な点は、以下の説明で部分的に述べられ、または実践によって学ぶことができる。この有利な点は、添付の特許請求の範囲に特に指摘された要素及び組み合わせによって実現され達成されることになる。上記の一般的な説明と以下の詳細な説明との両方は、例示的及び説明的なものに過ぎず、特許請求されているように限定的ではないことを理解されたい。
【0010】
添付の図面は、本明細書に組み込まれ、本明細書の一部を構成するものであり、実施形態を示しており、本明細書の説明と併せて、本方法及び本システムの原理を明らかにする目的を果たす。
【図面の簡単な説明】
【0011】
【
図1】被験者の鼓膜の視覚的記述子から耳の病態を分類するための例示的な概観システムを示す図である。
【
図2】被験者の鼓膜の視覚的記述子から耳の病態を分類するための別の例示的な概観システムを示す図である。
【
図3】耳鏡画像及び/またはビデオクリップから合成画像生成用のモデルを作成し、合成画像を閲覧してレポートを作成するプロセスを示す。
【
図4】例示的な合成画像生成方法のフロー図を示す。ケース1は、新しいフレームが、以前は別の重要なフレームによってカバーされていなかった新しい関心領域を含む場合に発生し、ケース2は、以前の重要なフレームによって既にカバーされている領域が、この新しいフレーム中では向上した品質を有する場合に発生する。
【
図5A】参考のための正常なTMとともに記載されたデータセットからの鼓膜(TM)状態の画像例であり、
図5Aは正常なTMである。
【
図5B】参考のための正常なTMとともに記載されたデータセットからの鼓膜(TM)状態の画像例であり、
図5Bは滲出を伴うTMである。
【
図5C】参考のための正常なTMとともに記載されたデータセットからの鼓膜(TM)状態の画像例であり、
図5Cは退縮を伴うTMである。
【
図5D】参考のための正常なTMとともに記載されたデータセットからの鼓膜(TM)状態の画像例であり、
図5Dは鼓膜硬化症を伴うTMである。
【
図6A】特定のTM状態に関連付けられた単語群の例を示す図である。
【
図6B】特定のTM状態に関連付けられた単語群の例を示す図である。
【
図6C】特定のTM状態に関連付けられた単語群の例を示す図である。
【
図7】被験者のTMを説明する視覚的に説明的な単語から耳の病態を分類する例示的な方法を示すフローチャートである。
【
図8】被験者の左右の鼓膜耳鏡検査画像を使用して鼓膜の病態を分類するために使用できる例示的なコンピュータを示す。
【発明を実施するための形態】
【0012】
本方法及びシステムが開示され記載される前に、方法及びシステムは、特定の合成方法、特定の構成要素に、または特定の組成に限定されないことが理解されることになる。本明細書で使用される用語は、特定の実施形態のみを説明する目的のためであり、限定することを意図するものではないことも理解すべきである。
【0013】
明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈に別途明示のない限り、複数の指示対象を含む。範囲は、「約」ある特定の値から、及び/または「約」別の特定の値までとして本明細書では表現される場合がある。そのような範囲が表現される場合、別の実施形態は、ある特定の値から、及び/または他の特定の値までを含む。同様に、値が近似値として表される場合、先行詞「約」を使用することにより、特定値が別の実施形態を形成することが理解されるであろう。さらに、各範囲の終点は、他の終点との関係でも、他の終点とは無関係でも、有意であることが理解されるであろう。
【0014】
「任意」または「任意に」は、その後に記載される事象または状況が生じても生じなくてもよいこと、及び、記載が該事象または状況が生じる場合及び生じない場合を含むことを意味する。
【0015】
この明細書の記載及び特許請求の範囲全体にわたって、文言「含む(comprise)」及びその文言の変形、例えば「含んでいる(comprising)」及び「含む(comprises)」は、「限定されるものではないが、~を含んでいる」を意味しており、例えば、他の付加物、構成要素、整数またはステップを除外することを意図していない。「例示的な」は、「~の例」を意味しており、好適なまたは理想的な実施形態の指示を伝えることを意図していない。「~など(such as)」は、限定的な意味ではなく、説明のために使用される。
【0016】
開示された方法及びシステムを実行するために使用され得る構成要素が、開示される。これら及び他の構成要素が本明細書に開示されており、これらの構成要素の組み合わせ、サブセット、相互作用、グループなどが開示されている場合、これらの各様々な個別の及び集合的な組み合わせ及び順列の特定の指示が明示的に開示されていないことがあるが、それぞれが、全ての方法及びシステムについて、本明細書に具体的に企図され記載されていることが理解される。このことは、限定されるものではないが、開示された方法のステップを含んでいる、本出願の全ての態様に適用される。したがって、実施することできる様々な追加のステップがある場合、これらの追加のステップのそれぞれは、開示の方法の任意の特定の実施形態または実施形態の組み合わせで実施することができると理解される。
【0017】
当業者によって理解されるように、本方法及び本システムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態を取り得る。さらに、本方法及び本システムは、記憶媒体に具現化されたコンピュータ可読プログラム命令(例えば、コンピュータソフトウェア)を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形態を取り得る。より具体的には、本方法及び本システムは、ウェブ実装コンピュータソフトウェアの形態を取り得る。ハードディスク、CD-ROM、光学ストレージデバイス、または磁気ストレージデバイスを含む、適切な任意のコンピュータ可読記憶媒体を利用することができる。
【0018】
以下、本方法及び本システムの実施形態について、方法、システム、装置及びコンピュータプログラム製品のブロック図及びフローチャート図を参照しながら説明する。ブロック図及びフローチャート図の各ブロック、ならびにブロック図及びフローチャート図のブロックの組み合わせは、それぞれコンピュータプログラム命令によって実施できることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理デバイスにロードされて機械を生成することができ、コンピュータまたは他のプログラム可能なデータ処理デバイスで実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するための手段を作成する。
【0019】
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスに特定の方法で機能するように指示することができるコンピュータ可読メモリに格納されてもよく、コンピュータ可読メモリに格納された命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するためのコンピュータ可読命令を含む製品を生成する。コンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスにロードされて、コンピュータまたは他のプログラム可能な装置上で実行されることになる動作ステップに、コンピュータまたは他のプログラム可能な装置上で実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するためのステップを提供するように、コンピュータ実装プロセスを生成させることができる。
【0020】
したがって、ブロック図及びフローチャート図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するためのステップの組み合わせ、及び指定された機能を実行するためのプログラム命令手段をサポートする。また、ブロック図及びフローチャート図の各ブロック、ならびにブロック図及びフローチャート図のブロックの組み合わせは、指定された機能またはステップを実行する専用ハードウェアベースコンピュータシステム、または専用ハードウェアとコンピュータ命令との組み合わせによって実装できることも理解されよう。
【0021】
本発明の方法及びシステムは、好ましい実施形態の以下の詳細な説明及びそこに含まれる実施例、ならびに図及びそれらの前後の説明を参照することによって、より容易に理解することができる。
【0022】
図1は、被験者104の鼓膜の視覚的記述子から耳の病態を分類するための例示的な概観システム100を示す。
図1に示すように、システム100の一実施形態は、画像取込機構102を備える。一態様では、画像取込機構102はカメラであってもよい。より詳細には、画像取込機構102は、デジタル耳鏡及び/またはビデオ耳鏡であってもよい。画像取込機構102は、各耳の静止画像及び/またはビデオ画像を撮影することができる。一般に、画像取込機構102はデジタルカメラであるが、適切なアナログ/デジタル変換器を備えた、または適切なアナログ/デジタル変換器と通信するアナログデバイスであってもよい。画像取込機構102は、ウェブカメラ、スキャナ、レコーダ、または静止画像またはビデオを取り込むことができる他の任意のデバイスであってもよい。場合によっては、システムは、各耳の画像を同時にまたは順番に取り込むための2つの画像取込機構102を備えていてもよい。
【0023】
図1に示すように、画像取込機構102は、画像取込デバイス102によって取り込まれた画像を表示するように構成されたデバイスと直接通信する。例えば、耳鏡またはビデオ耳鏡は、ディスプレイ106に接続され得るか、またはディスプレイ106と一体化され得る。医療提供者108は、ディスプレイ106上の画像を検討する。医療提供者は、ディスプレイ106上に示される被験者の鼓膜の1つまたは複数の画像を視覚的に説明するために言葉を使用する。視覚的に説明的な単語は、デバイス110に発話したり、タイプしたりすることができ、そこで記憶され、クラウドコンピューティングアーキテクチャ112に送信され得る。デバイス110は、スマートフォン、タブレット、ラップトップコンピュータ、または任意の他の固定またはモバイルコンピューティングデバイスなどのスマートデバイスを備えるか、またはその一部であってもよい。場合によっては、デバイス110は、視覚的に説明的な単語(発話されたかタイプされたかにかかわらず)を受信し、それらをクラウドコンピューティングアーキテクチャ112に送信するための専用アプリケーションを実行していてもよい。専用アプリケーションは、医療提供者108及び/または医療提供者108の指定者のみが専用アプリケーション及び/または1つまたは複数の画像を視覚的に説明するために使用される単語にアクセスできるように、セキュリティ機能を有してもよい。このようなセキュリティ機能は、HIPAA(米国)などのデータセキュリティとプライバシーに関する政府プロトコルに準拠したものであってもよい。クラウドコンピューティングアーキテクチャ112は、視覚的に説明的な単語を処理デバイス114に配信する。処理装置114は、クラウドコンピューティングアーキテクチャ112の一部であってもよいし、クラウドコンピューティングアーキテクチャ112と通信する処理デバイスであってもよい。視覚的に説明的な単語は、デバイス110からリアルタイムで送信されてもよいし、デバイス110に記憶されて後で送信されてもよい。
【0024】
処理デバイス114は、基本構成では、プロセッサ116及びメモリ118から構成され得る。プロセッサ116は、メモリ118に記憶されたコンピュータ可読命令を実行することができる。プロセッサ116はさらに、メモリ118に記憶されたコンピュータ可読命令を実行して、医療提供者108から受け取った視覚的に説明的な単語を使用して判断し、視覚的に説明された単語から耳の病態を分類することができる。さらに、プロセッサ116は、コンピュータ可読命令を実行して、医療提供者から受け取った視覚的に説明的な単語を、さまざまな状態(正常、滲出、退縮、鼓膜硬化症など)の耳の鼓膜画像を視覚的に観察して、耳の鼓膜状態を診断するのに最も頻繁に使用される人工知能(AI)アルゴリズムによって選択されたメモリ118内に常駐するデータベース120内の単語と比較することができる。。次に、プロセッサ116は、耳の状態の診断を行うことができるように、医療提供者から受け取った視覚的に説明的な単語と、TMの状態を説明するために使用されるデータベース内の最も近い説明的な単語との間のマッチを行う。次いで、診断は、処理デバイス114からクラウドコンピューティングアーキテクチャ112を介して医療提供者108のデバイス110に返送され、そこで被験者104の耳(または複数の耳)の診断が医療提供者108によって受信される。
【0025】
場合によっては、視覚的に説明的な単語は、分析のためにデバイス110からネットワーク(
図1には図示せず)を介して処理デバイス114に直接送信され、それによってクラウドコンピューティングアーキテクチャ112が省略されてもよい。ネットワークは、例えば、有線(光ファイバを含む)ネットワーク、無線、もしくは有線と無線との組み合わせ)または直接接続ケーブル(例えば、ユニバーサルシリアルバス(USB)接続、IEEE1394「Firewire」接続などを使用する)を含んでもよい。他の態様では、医療提供者108からの視覚的に説明的な単語は、例えばポータブルメモリデバイスなどを使用して、視覚的に説明的な単語をダウンロードまたは処理デバイス114に転送できるように、メモリデバイスに記録または記憶されてもよい。
【0026】
図2は、被験者の鼓膜の視覚的記述子から耳の病態を分類するための別の例示的な概観システム200を示す。
図2に示す例では、画像取込機構102は、デバイス202に関連付けられたディスプレイ上に表示される被験者104のTMの画像を取り込む。デバイス202は、クラウドコンピューティングアーキテクチャ112と直接通信できるようにするネットワークインターフェース機構も含む。デバイス202はさらに、医療提供者108が被験者104のTMについての視覚的に説明的な単語を発話する、タイプする、またはその他の方法でデバイス202に入力し、これらの視覚的に説明的な単語をクラウドコンピューティングアーキテクチャ112に送信できるようにするI/O機構を含む。これらは、被験者104のTM状態の自動診断を行うために、処理デバイス114によって、対応するTM状態に関連付けられたデータベース内の縮小された単語のセットと比較される。次いで、診断は、クラウドコンピューティングアーキテクチャ112を介してデバイス202に戻り、医療提供者108に提供される。
図1と同様に、場合によっては、
図2のクラウドコンピューティングアーキテクチャ112は、直接的なネットワーク状態に置き換えることもできるし、場合によっては、医療提供者からの説明的な単語を保存し、分析のために処理デバイスに物理的に取り込むこともできる。デバイス202はまた、上述のように、医療提供者108によって提供される画像を表示し、画像の視覚的に説明的な単語を送信するアプリケーションを実行するように構成されてもよい。上記と同様に、アプリケーション及び/またはデバイス202は、データプライバシー及びセキュリティプロトコルを有することができ、視覚的に説明的な単語をリアルタイムで送信したり、後の送信のためにそれらを保存したりすることもできる。場合によっては、デバイス202は、スマートフォン、タブレット、ラップトップコンピュータ、または任意の他の固定もしくはモバイルコンピューティングデバイスなどのスマートデバイスである。
【0027】
モデルの作成
図3は、TMの状態を説明するために使用される視覚的に説明的な単語に基づいて、被験者のTMの診断を決定するためのモデルを作成するプロセスを示す。モデルは、耳鏡画像及び/またはビデオクリップから合成画像を生成し、合成画像を見ることによってレポートを作成することから始まる。
【0028】
図3の例では、データベースを作成するための画像は、Columbus,Ohio,USAにあるOhio State University(OSU)及びNationwide Children's Hospital(NCH)の耳鼻咽喉科クリニック及びプライマリケア施設で取り込まれた成人及び小児の高解像度デジタルビデオから取得された。Institutional Review Board、IRBはデータ収集プロセスを承認した。高精細度(high definition、HD)ビデオ耳鏡(JEDMED Horus+HD Video Otoscope, St.Louis,MO)を使用して、ビデオデータを取り込み及び記録した。データセットには173件の耳鏡ビデオが含まれており、その中には滲出性中耳炎の86件(この論文の残りの部分ではこの状態を滲出と呼ぶ)、TMの退縮(退縮と呼ぶ)の35件、鼓膜硬化症の52件が含まれている。合成画像を生成した後、耳鼻咽喉科医は各画像の診断を行い、TM画像上で病変の輪郭を描き、対応するTM異常の視覚的特徴を説明する短い記述レポートを作成した。他のデータセットを使用して合成画像及び対応するレポートを作成できることを理解されたい。
【0029】
合成画像の生成
U-Netベースのセマンティックセグメンテーション方法を利用して耳鏡ビデオから意味のあるビデオフレームを決定したが、他の方法も本開示の範囲内であると考えられる。このプロセスは、以下、
図4を参照してより詳細に説明される。セマンティックセグメンテーションタスクのこの非限定的な例では、セグメンテーションモデルは36個の耳鏡ビデオを使用して開発された。これらのビデオから764フレームが選択され、TM領域は2人の耳鼻咽喉科医によって手動で特定され、注釈が付けられた。
【0030】
適切な画像の取得は、視覚的障害(例えば、ワックス、毛髪など)、不十分な照明、小さな視野、画像の周囲の黒い余白、画像上のタイム/文字スタンプなどのために困難なタスクであり得る。患者が子供の場合、患者が非協力的である間は良好な静止画像を取り込むことができないという問題も生じる可能性がある。これらの課題を解決するために、被験者の各外耳道の短いビデオ(約3~5秒)が取り込まれる。次に、ソフトウェアは、
図4に示すアルゴリズムを実行して、鼓膜のビデオフレームを分析し、新たなモザイク画像を作成する。
【0031】
ビデオシーケンス内の新しいフレームごとに、
図4で説明したモザイク画像作成アルゴリズムは、障害物のない関心領域を決定する(例えば、ワックス、毛髪、暗縁、文字など)。これらの各領域はサブセクションに分割され、各セクションの画質は、焦点が合っているか、適切なコントラストと照明があるかどうかという点で評価される。フレームが、前のフレームに含まれていない鼓膜の部分を含むか、または鼓膜の既に含まれているがより高い品質(焦点、コントラスト、及び照明に関して)を有する鼓膜の部分を含む場合、このフレームは「重要なフレーム」としてラベル付けされるか、そうでなければ識別される。最後に、この方法では、ビデオシーケンス内のすべての「重要なフレーム」の関心領域を考慮してモザイク画像を構築する。
【0032】
フレームには、異なる量の視覚障害物(例えば、ワックス、毛髪、グレア、文字、暗縁など)及び/または照明の質が含まれる場合がある。本明細書で説明するように、この方法は、優れた照明を備えた障害物のない複合画像を構築することを含む。したがって、アルゴリズムは、合成画像の生成中に障害物(ワックス、グレア、毛髪、文字、暗縁-下記を参照)と焦点の合っていない領域を検出する。これを行うために、アルゴリズムは各新しいフレームを以前のフレームと比較し、より焦点が合っていて明るい領域を使用して新しい画像を更新する。焦点と照明の品質を決定するために、画像のエントロピーが計算され、最も高いエントロピーを持つフレームが選択される。
【0033】
ワックスの検出に関しては、耳垢の典型的な特徴の1つはその黄色である。したがって、黄色の領域は、CMYK色空間の閾値処理を使用して識別される。これらの潜在的な耳垢領域が、CMYK空間内で最も高い「Y」値を持つ領域として検出された後、これらの耳垢領域の強度の勾配の大きさ(つまり、「Y」値)の平均及び標準変動が計算される。これらの特徴は、ワックス領域を検出するためにFSG分類器に入力される。
【0034】
グレアは、鼓膜の表面における耳鏡からの光の反射によって引き起こされる。グレアは、いくつかの特徴(鼓膜の平均色値など)の計算において問題になる可能性がある。一方、重要な臨床診断の手がかりである光の円錐は、グレア検出アルゴリズムによって誤ってグレアと見なされ、除去される可能性がある。特徴を正確に抽出するために、開示された方法は、強度値のヒストグラムを計算することを含み、ヒストグラム内の最高の強度値に対応するピークを見つける。そのピークは、光のグレアと円錐に対応する。グレアと円錐状の光とを区別するために、面積閾値処理が適用される(グレア(複数可)が円錐状の光(複数可)よりも大きい場合)。
【0035】
毛髪の検出には、参照により組み込まれるR.G.von Gioi、J.Jakubowicz、J.-M.Morel、G.Randall、"LSD:A fast line segment detector with a false detection control"、IEEE transactions on pattern analysis and machine intelligence、vol.32、pp.722-732、2010で記載されているものなどの線分検出器を使用した細い線状構造の検出が含まれる。各髪束は、互いにほぼ平行な2本の線(毛髪の両端)で表され、これらの線は互いに接近している。したがって、距離が短いほぼ平行な各線のペアが毛髪の候補とみなされる。画像のテクスチャはこれらの平行線の間で計算され、テクスチャの変化が小さいものは毛髪としてマークされる。
【0036】
場合によっては、関心領域が抽出された後、これらの領域は64x64ピクセルのブロックに分割される。各ブロックについて、標準偏差、階調共起行列、コントラスト、及び平均強度値が計算される。これらの値は、タイルの品質を計算するために重み付けされる。重みは、手動または自動で決定することができる。
【0037】
2つのフレームを登録する場合、注目点が自動的に抽出され、それらの点の特徴ベクトルがマッチされる。関心のあるポイントを抽出するために、3つの最先端のアプローチのパフォーマンスが比較される(H.Bay,T.Tuytelaars,and L.Van Gool,"Surf:Speeded up robust features," Computer vision-ECCV 2006,pp.404-417,2006;D.G.Lowe,"Distinctive image features from scale-invariant keypoints,"International journal of computer vision,Vol.60,pp.91-110,2004;及びE.Rublee,V.Rabaud,K.Konolige,and G.Bradski,"ORB:An efficient alternative to SIFT or SURF,"in Computer Vision(ICCV),2011 IEEE International Conference on,2011,pp.2564-2571を参照されたい(それぞれ参照により完全に組み込まれる))。。マッチした点を特定するために、このアプローチでは2つのフレーム内で検出された特徴のすべての可能なペア間の距離を計算する。このアプローチでは、ランダムサンプルコンセンサス(RANSAC)を使用して初期ホモグラフ行列を推定する(M.A.Fischler and R.C.Bolles,"Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography,"Communications of the ACM,Vol.24,pp.381-395,1981を参照されたい(これも参照により組み込まれる)。
【0038】
各フレームは、次の2つの基準、すなわち、(1)新しいフレームが、以前は別の重要なフレームによってカバーされていなかった新しい関心領域を含むかどうか、または、(2)以前の重要なフレームによって既にカバーされている領域が、この新しいフレーム中では向上した品質を有しているかどうか、に従って「重要フレーム」であるかどうか識別される。その後、スティッチングによって合成画像を作成できる。開示された方法は、合成画像の構築中に「重要なフレーム」を使用する。このアルゴリズムは、鼓膜のサブパーツに最適な「重要なフレーム」を選択し、マルチバンドブレンディング(ピラミッドブレンディング)手法を使用する。これにより、高周波の詳細を維持しながら、照明の違いにもかかわらず画像間のスムーズな移行が保証される。
【0039】
次に、フリーウェアの画像ステッチングエンジン[12]を使用して、選択したフレームを使用して強化された合成画像を作成した。
図5A~
図5Dは、参照用の正常なTMと共に、記載されたデータセットからのTM状態の例を示す。
図5Aは、正常なTMである。
図5Bは、滲出を伴うTMである。
図5Cは、退縮を伴うTMである。
図5Dは、鼓膜硬化症を伴うTMである。
【0040】
文字の分析及び分類
図3に戻って参照すると、いくつかのNLPツールを使用して、耳鼻咽喉科医(つまり、専門家)のTMレポートを次のように前処理して分析した:トークン化[13]、ストップワード除去[14]、単語正規化[15]、及び句読点消去[16]。
【0041】
トークン化された文書は、単語の集合(トークンとしても知られる)として表される文書である。「a」、「and」、「to」などの単語(ストップワードと呼ばれる)は、データにノイズを加える可能性がある。ストップワード除去機能を使用して、これらの単語は削除された。次に、単語正規化を使用して単語をルート形式に縮小した(例:「Connection」→「connect」)。最後の前処理ステップとして、文字から句読点が削除された。
【0042】
単語バッグ(BoW)モデル[17](用語頻度カウンタとも呼ばれる)を適用して、各レポートに単語が出現する回数を取得し、その頻度を暗示した。各診断カテゴリのBoWモデルで最も重要な単語を記録するために、単語カウントが最も多い5つの単語が訓練データに指定されたが、他のインスタンスではより多くのまたはより少ない単語が使用される可能性がある。前処理されたテストレポートのマルチクラス分類のために、最も頻繁に使用される5つの単語を含む訓練データのBoWモデルを使用して、近傍成分分析(NCA)[18]が作成された。NCAは、k最近傍性能を最大化するデータの線形変換を学習する[19]。さらに、NCAは低ランク変換を生成することで次元削減を実現し、視覚的特徴を文字特徴と統合しながら、開示を高次元特徴空間に拡張する。
【0043】
TM状態ごとに、単語群が生成された。例えば、
図6A~
図6Cを参照されたい。結果として得られた単語群を分析することによって、滲出に関するキーワード(
図6A)が主に「琥珀色」や「暗色」などの色の特徴を示していることが分かる。退縮(
図6B)の場合、キーワードは「退縮」及び「吸引」であり、鼓膜硬化症(
図6C)の場合、病変は主に「白色」及び「プラーク」という単語で説明された。単語群は、「正常な」状態を含む任意の数のTM状態に対してこの方法で生成できる。訓練が完了すると、モデルは追加画像のTM診断カテゴリを特徴付ける単語の縮小セットを自動的に作成できる。
【0044】
TM状態と各状態に関連する単語群のデータベースが作成されると、医療提供者が被験者のTMを視覚的に説明するときに、そのデータベースを使用して被験者のTM状態を判断できる。
図7は、被験者のTMを記述する視覚的に説明的な単語から耳の病態を分類する例示的な方法を示すフローチャートである。ステップ702及び704は、上述のように、単語群及び関連するTM状態のデータベースを作成するプロセスを説明する。706で、被験者のTMを視覚的に説明する1つまたは複数の単語が医療提供者から受信される。これらの言葉は、本明細書で説明するように、さまざまな方法で受け取られる可能性がある。例えば、それらは医療提供者の音声によってリアルタイムにまたは録音されて表現されてもよいし、書面形式(例えば文字)で提供されてもよい。視覚的説明の1つまたは複数の単語は電子的に受信され、708で、コンピュータ実行可能命令を実行する処理デバイスを使用して、データベース内のさまざまなTM状態に関連付けられた単語群と比較される。1つまたは複数の視覚的な説明の単語と単語群との間で最も近い適合が見つかる。次いで、選択された単語群に対応するTM状態が、被験者のTMの診断として提供される。
【0045】
システムは複数のユニットから構成されるものとして上で説明されている。当業者であれば、これが機能の説明であり、それぞれの機能がソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせによって実行できることを理解するであろう。ユニットは、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせにすることができる。これらのユニットは、被験者のTMを視覚的に説明する言葉に基づいてTM状態の診断を決定するためのソフトウェアを備えることができる。例示的な一態様では、ユニットは、
図8に示され、後述されるようなプロセッサ821を備えるコンピューティングデバイスを備えることができる。
【0046】
図8は、画像から鼓膜の病態を分類するために使用することができる例示的なコンピュータを示す。本書で使用するとき、「コンピュータ」は、複数のコンピュータを含む場合がある。コンピュータは、例えば、プロセッサ821、ランダムアクセスメモリ(RAM)モジュール822、読み出し専用メモリ(ROM)モジュール823、ストレージ824、データベース825、1つまたは複数の入力/出力(I/O)デバイス826、及びインターフェース827などの1つまたは複数のハードウェア構成要素を含むことができる。代替的及び/または追加的に、コンピュータは、例えば、例示的な実施形態に関連する方法を実行するためのコンピュータ実行可能命令を含むコンピュータ可読媒体などの1つまたは複数のソフトウェア構成要素を含むことができる。上記に掲載されたハードウェア構成要素の1つまたは複数が、ソフトウェアを使用して実装され得ることが企図される。例えば、ストレージ824は、1つまたは複数の他のハードウェア構成要素に関連付けられたソフトウェアパーティションを含んでもよい。上記に掲載された構成要素は、例示的なものに過ぎず、限定することを意図するものではないことが理解される。
【0047】
プロセッサ821は、鼓膜の1つまたは複数の画像に基づいて鼓膜の病態を分類するためのコンピュータに関連する1つまたは複数の機能を実行するために、それぞれが命令を実行しデータを処理するように構成された1つまたは複数のプロセッサを含むことができる。プロセッサ821は、RAM822、ROM823、ストレージ824、データベース825、I/Oデバイス826、及びインターフェース827に通信可能に結合することができる。プロセッサ821は、様々な処理を実行するために、コンピュータプログラム命令のシーケンスを実行するように構成され得る。コンピュータプログラム命令は、プロセッサ821による実行のためにRAM822にロードされてもよい。
【0048】
RAM822及びROM823は各々、プロセッサ821の動作に関連する情報を記憶するための1つまたは複数のデバイスを含むことができる。例えば、ROM823は、1つまたは複数の構成要素及びサブシステムの動作の識別、初期化、及び監視を行うための情報を含む、コンピュータに関連する情報にアクセスしてそれを記憶するように構成されたメモリデバイスを含み得る。RAM822は、プロセッサ821の1つまたは複数の動作に関連付けられたデータを記憶するためのメモリデバイスを含み得る。例えば、ROM823は、プロセッサ821による実行のために命令をRAM822にロードすることができる。
【0049】
ストレージ824は、プロセッサ821が開示された実施形態と一致するプロセスを実行するために必要となり得る情報を記憶するように構成された任意のタイプの大容量ストレージデバイスを含み得る。例えば、ストレージ824は、ハードドライブ、CD-ROM、DVD-ROM、または他の任意のタイプの大容量メディアデバイスなど、1つまたは複数の磁気及び/または光ディスクデバイスを含んでもよい。
【0050】
データベース825は、コンピュータ及び/またはプロセッサ821によって使用されるデータの記憶、整理、ソート、フィルタリング、及び/または配列で協働する1つまたは複数のソフトウェア及び/またはハードウェア構成要素を含むことができる。例えば、データベース825は、複数の単語群、及び各単語群に関連付けられたTM状態を、被験者のTMを視覚的に説明する1つまたは複数の単語を受信するためのコンピュータ実行可能命令とともに格納することができる。1つまたは複数の視覚的に説明的な単語を複数の単語群のそれぞれと比較し、1つまたは複数の視覚的に説明的な単語と単語群の1つとの間の最も近い適合を決定するステップと、選択された単語群に関連付けられたTM状態に基づいて被験者のTM状態を診断する。データベース825は、上記に掲載された情報とは違った追加の情報及び/または異なる情報を格納し得ることが企図される。
【0051】
I/Oデバイス826は、コンピュータに関連付けられたユーザと情報を交換するように構成された1つまたは複数の構成要素を含み得る。例えば、I/Oデバイスは、デジタル画像、デジタル画像の分析結果、メトリクスなどのデータベースをユーザが維持するのを可能にするために、キーボード及びマウスが統合されたコンソールを含むことができる。I/Oデバイス826は、モニタに情報を出力するためのグラフィカルユーザインターフェース(GUI)を含むディスプレイを含むこともできる。I/Oデバイス826は、例えば、コンピュータに付随する情報を印刷するためのプリンタ、ユーザが携帯型メディアデバイスに格納されたデータを入力できるようにするためのユーザアクセス可能なディスクドライブ(例えば、USBポート、フロッピー、CD-ROM、またはDVD-ROMドライブなど)、マイク、スピーカシステム、または他の適切な任意のタイプのインターフェースデバイスなどの周辺デバイスを含むこともできる。
【0052】
インターフェース827は、インターネット、ローカルエリアネットワーク、ワークステーションピアツーピアネットワーク、ダイレクトリンクネットワーク、無線ネットワーク、または他の適切な任意の通信プラットフォームなどの通信ネットワークを介してデータの送信及び受信を行うように構成された1つまたは複数の構成要素を含み得る。例えば、インターフェース827は、1つまたは複数の変調器、復調器、マルチプレクサ、デマルチプレクサ、ネットワーク通信デバイス、無線デバイス、アンテナ、モデム、無線機、受信機、送信機、送受信機、及び有線または無線の通信ネットワークを介してデータ通信を可能にするように構成された他の任意のタイプのデバイスを含むことができる。
【実施例】
【0053】
以下の実施例を、開示する主題による方法及び結果を説明するために記載する。これらの実施例は、本明細書に開示する主題のすべての態様を含むことを意図するものではなく、むしろ代表的な方法及び結果を説明することを意図している。これらの実施例は、当業者には明らかである本発明の均等物及び変形を除外することを意図するものではない。
【0054】
数値(例えば量、温度など)に関して正確性を確実にする取り組みがなされているが、ある程度の誤差及び偏差があるだろう。別段に示されていない限り、部は、重量部であり、温度は、℃または周囲温度であり、圧力は、大気圧または大気圧近傍である。反応条件、例えば、記載されたプロセスから得られる生成物の純度及び収率を最適化するために使用できる成分濃度、温度、圧力及び他の反応範囲及び条件には多数の変形及び組み合わせが存在する。
【0055】
実験的セットアップ
提案されたモデルのパフォーマンスを評価するために、感度、特異性、及びF1スコアという3つの包括的な評価尺度が使用された。
【0056】
感度は次のように計算される。
【数1】
特異性は次のようになる。
【数2】
F1スコアは次のようになる。
【数3】
式中、TPは真陽性の数、TNは真陰性の数、FPは偽陽性の数、FNは偽陰性の数を示す。モデルを検証するために、1人の患者を除外する相互検証スキームが適用された。
【0057】
結果及び考察
単語群は、本明細書に記載されているように、滲出、退縮、及び鼓膜硬化症の鼓膜状態に対して作成された。
【0058】
分類器の混同行列は、各TMカテゴリの上位5単語を使用したバッグオブワードからの文字分類に基づいており、表1に示されている。
【表1】
【0059】
滲出液としてラベル付けされた記述の86件の事例から、モデルはそれらすべてを正しく予測した。一方、26件の事例は退縮として正常に予測され、9件は誤分類された。46例は鼓膜硬化症として予測され、6件の誤分類があった。表2に、これらの値に基づいて提案された分類モデルの感度、特異性、及びF1スコアを示す。
【表2】
【0060】
表2に示すように、実験結果は、開示されたモデルの実施形態が、短い記述レポートを使用した耳鏡検査記録の診断ラベル予測のタスクにおいて効果的に実行された(全体のF1スコアは90.2%)ことを示した。私たちのモデルでは、すべての単語ではなく、任意の疾患カテゴリの上位5つの単語を使用していることに注目されたい。上位5単語を決定する際の目的は、各疾患の「キーワード」単語を取得し、これらのキーワードを使用してモデルの効率を調査することであった。
【0061】
また、このモデルは、誤って分類された退縮及び鼓膜硬化症のほぼすべての症例を滲出として予測していることも観察された。滲出は、特定し、他の状態と区別するのが最も難しいTM状態の1つである。誤って分類された例では、耳鼻咽喉科医は主に滲出の疑いがあるが、明確ではないという所見を説明した。例えば、耳鼻咽喉科医は真のラベルを滲出ではなく退縮と判断したが、耳鼻咽喉科医は滲出のわずかな視覚的証拠をいくつか記載したが、これらの証拠は微妙なものであると評価した。したがって、私たちのモデルはこれらの事例を滲出として推定した。
【0062】
結論
TM画像の分析に対する関心が高まっている。これらの研究のほとんどは画像分析及び疾患分類に焦点を当てているが、より良い診断と治療に役立つ可能性のある他のデータソースを開発することが重要である。そのような情報源の1つは、医師の観察やメモである可能性がある。この研究の主な貢献は、TMレポートを分析し、生の耳鏡ビデオの合成画像を確認することで生成されたさまざまなタイプのTM異常を記述し、NLPと機械学習を使用してこれらのレポートからテストインスタンスのラベルを予測することである。一例では、NLP技術を使用して各カテゴリから最も頻繁に使用される5つの単語を抽出し、訓練データからこれらの5つの単語に基づいて分類器を作成した。1人の患者を除外する相互検証法に従うことにより、例示的なモデルは、滲出、退縮、及び鼓膜硬化症についてそれぞれ92.5%、85.3%、及び92.9%のF1スコアを達成した。したがって、文字の特徴を使用すると、TMビデオ及び画像のコンピュータ診断に満足のいく情報が提供できることが示されている。
【0063】
参考文献
本出願全体を通して、様々な刊行物が参照され得る。これらの刊行物の開示は、その全体が、本方法及び本システムが属する技術の状態をより完全に説明するために、本明細書により、本出願に参照により組み込まれる。以下の刊行物はそれぞれ参照により完全に組み込まれ、本明細書の一部をなす。
[1]H.Binol et al.,"Decision fusion on image analysis and tympanometry to detect eardrum abnormalities,"in Medical Imaging 2020:Computer-Aided Diagnosis,2020,vol.11314:International Society for Optics and Photonics,p.113141M.
[2] A.C.Moberly et al.,"Digital otoscopy versus microscopy:How correct and confident are ear experts in their diagnoses?,"Journal of telemedicine and telecare,vol.24,no.7,pp.453-459,2018.
[3] D.Livingstone,A.S.Talai,J.Chau,and N.D.Forkert,"Building an Otoscopic screening prototype tool using deep learning,"Journal of Otolaryngology-Head&Neck Surgery,vol.48,no.1,pp.1-5,2019.
[4] R.M.Rosenfeld et al.,"Clinical practice guideline:otitis media with effusion,"Otolaryngology-Head and Neck Surgery,vol.130,no.5,pp.S95-S118,2004.
[5] A.Kuruvilla,N.Shaikh,A.Hoberman,and J.Kovacevic,"Automated diagnosis of otitis media:vocabulary and grammar,"Journal of Biomedical Imaging,vol.2013,p.27,2013.
[6] C.Senaras et al.,"Autoscope:automated otoscopy image analysis to diagnose ear pathology and use of clinically motivated eardrum features,"in Medical Imaging 2017:Computer-Aided Diagnosis,2017,vol.10134:International Society for Optics and Photonics,p.101341X.
[7] D.Cha,C.Pae,S.-B.Seong,J.Y.Choi,and H.-J.Park,"Automated diagnosis of ear disease using ensemble deep learning with a big otoendoscopy image database,"EBioMedicine,vol.45,pp.606-614,2019.
[8] C.Senaras et al.,"Detection of eardrum abnormalities using ensemble deep learning approaches,"in Medical Imaging 2018:Computer-Aided Diagnosis,2018,vol.10575:International Society for Optics and Photonics,p.105751A.
[9] S.Camalan et al.,"OtoMatch:Content-based eardrum image retrieval using deep learning,"Plos one,vol.15,no.5,p.e0232776,2020.
[10] C.Gsaxner et al.,"PET-train:Automatic ground truth generation from PET acquisitions for urinary bladder segmentation in CT images using deep learning,"in 2018 11th Biomedical Engineering International Conference(BMEiCON),2018:IEEE,pp.1-5.
[11] H.Binol et al.,"SelectStitch:Automated Frame Segmentation and Stitching to Create Composite Images from Otoscope Video Clips,"Applied Sciences,vol.10,no.17,p.5894,2020.
[12] Microsoft.(12/20/2018).Image Composite Editor(ICE)[Online].Available:https://www.microsoft.com/en-us/research/product/computational-photography-applications/image-composite-editor/.
[13] B.Jurish and K.-M.Wurzner,"Word and Sentence Tokenization with Hidden Markov Models,"J.Lang.Technol.Comput.Linguistics,vol.28,no.2,pp.61-83,2013.
[14] C.Silva and B.Ribeiro,"The importance of stop word removal on recall values in text categorization,"in Proceedings of the International Joint Conference on Neural Networks,2003.,2003,vol.3:IEEE,pp.1661-1666.
[15] M.Toman,R.Tesar,and K.Jezek,"Influence of word normalization on text classification,"Proceedings of InSciT,vol.4,pp.354-358,2006.
[16] H.K.Kumar and B.Harish,"Classification of short text using various preprocessing techniques:An empirical evaluation,"in Recent Findings in Intelligent Computing Techniques:Springer,2018,pp.19-30.
[17] A.McCallum and K.Nigam,"A comparison of event models for naive Bayes text classification,"in AAAI-98 workshop on learning for text categorization,1998,vol.752,no.1:Citeseer,pp.41-48.
[18] J.Goldberger,G.E.Hinton,S.T.Roweis,and R.R.Salakhutdinov,"Neighbourhood components analysis,"in Advances in neural information processing systems,2005,pp.513-520.
[19] W.Yang,K.Wang,and W.Zuo,"Neighborhood Component Feature Selection for High-Dimensional Data,"JCP,vol.7,no.1,pp.161-168,2012.
【0064】
方法及びシステムを、好ましい実施形態及び特定の実施例に関連して説明してきたが、本明細書の実施形態は、あらゆる点で制限的ではなく、例示的であることが意図されているため、記載した特定の実施形態に範囲を限定することは意図されていない。
【0065】
別段に明示的な定めのない限り、本明細書に示されているいずれの方法も、そのステップを特定の順序で行う必要があるものとして解釈するようには全く意図されていない。従って、方法の請求項がそのステップが従うべき順序を実際に記載していない場合、または該ステップが特定の順序に限定されるべきであることが請求項または説明に具体的に述べられていない場合、いかなる点でも順序が推測されることを決して意図しない。これは、解釈のためのあらゆる可能性のある不明確な基準(ステップまたは動作フローのアレンジに関する論理の問題、文法構成または句読点に由来する平明な意味、明細書中に記載される実施形態の数または型が挙げられる)についても当てはまる。
【0066】
範囲または趣旨から逸脱することなく、様々な修正及び変形を行い得ることは、当業者にとって明らかであろう。他の実施形態は、本明細書の考察及び本明細書に開示された実践から、当業者には明らかであろう。本明細書及び実施例は、例示的なものとしてのみ考慮されることが意図されており、真の範囲及び趣旨は、次の特許請求の範囲によって示される。
【国際調査報告】