IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧 ▶ 東芝メディカルシステムズ株式会社の特許一覧

特開2024-85781情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図9
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図10
  • 特開-情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024085781
(43)【公開日】2024-06-27
(54)【発明の名称】情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラム
(51)【国際特許分類】
   A61B 5/055 20060101AFI20240620BHJP
   G06N 20/00 20190101ALI20240620BHJP
【FI】
A61B5/055 320
G06N20/00
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022200509
(22)【出願日】2022-12-15
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】雨宮 光陽
(72)【発明者】
【氏名】杵渕 広海
(72)【発明者】
【氏名】飯塚 直哉
【テーマコード(参考)】
4C096
【Fターム(参考)】
4C096AB36
4C096AB47
4C096AC01
4C096AC04
4C096AC06
4C096AC08
4C096AC10
4C096AD19
4C096CA66
(57)【要約】
【課題】 操作音と被検者の音声とが重畳した操作音入音声から操作を低減すること。
【解決手段】情報処理装置は、磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択し、学習結果を用いて、操作音と被検者の音声とが重畳した操作音入音声から操作音を低減した音声を推測する推測処理部を備える。
【選択図】 図2
【特許請求の範囲】
【請求項1】
磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択する選択手段と、
前記学習結果を用いて、前記操作音と被検者の音声とが重畳した操作音入音声から前記操作音を低減した音声を推測する推測手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記選択手段は、前記操作音の波形と前記操作音入音声の波形との少なくとも一部の比較により、前記学習結果を選択することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記選択手段は、前記操作音の波形と、前記操作音入音声の波形とから取得した相関情報に基づいて、前記学習結果を選択することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記選択手段は、前記磁気共鳴イメージング装置から取得した操作情報が変更された場合、新たな操作情報に対応する学習結果を取得することを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記選択手段は、前記操作音または前記操作音入音声の入力音量のレベルを時系列に判定し、一定時間、入力音量が閾値音量に比べて小さくなり、前記入力音量が閾値音量を超えて立ち上がった場合に、新たに取得された操作音に対応する学習結果を取得することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記選択手段は、所定の時間間隔ごとに、前記操作音または前記操作音入音声の入力音量のレベルを取得し、前記入力音量の標準偏差またはピーク値が基準の閾値を超えた場合に、新たに取得された操作音に対応する学習結果を取得することを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記推測手段は、
前記推測した音声に基づいて取得した音声領域を示す信号と、前記操作音入音声に基づいて取得した非音声領域を示す信号とを合成した合成音声を音声出力手段から出力させることを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記推測手段は、前記音声領域を示す信号を、前記非音声領域を示す信号に比べて強調した強調信号、または、前記非音声領域を示す信号を、前記音声領域を示す信号に比べて抑制した抑制信号、を用いて前記合成音声を生成することを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記推測手段は、
前記操作音入音声から前記被検者の音声領域の信号を除いた操作音の信号と、前記学習結果で用いた被検者のクリーン音声と、から評価用の操作音入音声を作成し、
学習用の操作音入音声から前記クリーン音声へ変換するための複数の変換情報を用いて、前記評価用の操作音入音声から前記操作音の信号を低減した操作音低減音声を作成し、
前記操作音低減音声と、前記クリーン音声とを用いて、前記複数の変換情報を評価するための評価情報を取得し、
前記評価情報に基づいて、前記複数の変換情報から一つの変換情報を前記学習結果として選択する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
予め取得した、学習用の操作音と、被検者のクリーン音声との重畳により作成した学習用の操作音入音声を用いて、前記学習結果を得るための学習処理を行う学習処理手段を更に備え、
前記学習処理手段は、
前記学習用の操作音に係数を乗算した結果を加算することにより新たな操作音を生成し、前記生成した新たな操作音を前記学習用の操作音に加えて前記学習処理を行うことを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記学習処理手段は、未学習の操作音の操作情報が、学習済の操作情報と同一であり、かつ、前記操作情報に基づいて分類されている操作音と撮像条件の設定が異なる場合には、前記操作情報に基づいた分類に、前記未学習の操作音を追加して前記学習処理を行うことを特徴とする請求項10に記載の情報処理装置。
【請求項12】
前記学習処理手段は、学習済の操作音と前記未学習の操作音との波形の相関情報を取得し、前記相関情報が最も高い前記学習済の操作音を含む分類に、前記未学習の操作音を追加して前記学習処理を行うことを特徴とする請求項11に記載の情報処理装置。
【請求項13】
前記学習処理手段は、前記未学習の操作音の操作情報が、前記学習済の操作情報と異なる場合、または、前記相関情報が所定の基準相関値より低い場合には、
前記未学習の操作音を新たな操作情報に基づいた操作音として追加して前記学習処理を行うことを特徴とする請求項12に記載の情報処理装置。
【請求項14】
前記学習処理手段は、前記操作情報に基づいて分類されている複数の操作音の特性を比較して、前記特性の少なくとも一部の特性が一致する操作音を前記分類から分割し、前記分割した単位で前記学習処理を行うことを特徴とする請求項10に記載の情報処理装置。
【請求項15】
前記学習処理手段は、複数の操作情報のそれぞれに分類されている複数の操作音の特性を比較して、前記特性の少なくとも一部の特性が一致する場合、前記複数の操作音をまとめた単位で前記学習処理を行うことを特徴とする請求項10に記載の情報処理装置。
【請求項16】
前記推測手段は、
前記推測を行うための第1の計算モデルと、前記第1の計算モデルに比べて計算負荷が低くなるように構成された第2の計算モデルと、を有し、
プロセッサの処理負荷が負荷閾値を超えない場合には前記第1の計算モデルを選択して前記推測を行い、
前記プロセッサの処理負荷が前記負荷閾値を超える場合には、前記第2の計算モデルを選択して前記推測を行うことを特徴とする請求項1に記載の情報処理装置。
【請求項17】
前記選択手段は、第1のプロセッサを用いて前記選択を行い、前記推測手段は、前記第1のプロセッサとは異なる第2のプロセッサを用いて、前記推測を行うことを特徴とする請求項1に記載の情報処理装置。
【請求項18】
操作音と被検者の音声とが重畳した操作音入音声を収集する集音手段と、
操作情報または前記操作音に対応した学習結果を選択する選択手段と、
前記学習結果を用いて、前記操作音入音声から前記操作音を低減した音声を推測する推測手段と、
を備えることを特徴とする磁気共鳴イメージング装置。
【請求項19】
磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択する選択工程と、
前記学習結果を用いて、前記操作音と被検者の音声とが重畳した操作音入音声から前記操作音を低減した音声を推測する推測工程と、
を有することを特徴とする情報処理方法。
【請求項20】
コンピュータに、請求項19に記載の情報処理方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、磁気共鳴イメージング装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
磁気共鳴イメージング装置による検査では、撮像位置等によって異なる傾斜磁場をかけ、得られた信号を処理することで撮像を行うが、コイルの回転や傾斜磁場の変化によって装置が振動することにより、操作音が発生し得る。特許文献1には、予め分類したノイズを低減する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002-132289号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
被検者と操作者とが検査中に会話等による意思疎通を行う場合に、操作音に被検者の音声が重畳すると、被検者の音声は聞き取りにくくなり、操作者との円滑な意思疎通ができない場合が生じ得る。
【0005】
本発明は、操作音と被検者の音声とが重畳した操作音入音声から操作を低減することが可能な技術を提供する。
【課題を解決するための手段】
【0006】
本発明の一態様による情報処理装置は以下の構成を備える。すなわち、情報処理装置は、磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択する選択手段と、
前記学習結果を用いて、前記操作音と被検者の音声とが重畳した操作音入音声から前記操作音を低減した音声を推測する推測手段と、を備える。
【発明の効果】
【0007】
本発明によれば、操作音と被検者の音声とが重畳した操作音入音声から操作を低減することが可能になる。
【図面の簡単な説明】
【0008】
図1】第1実施形態に係る磁気共鳴イメージング装置の概略構成を示すブロック図。
図2】第1実施形態に係る情報処理装置による処理の流れを説明する図。
図3】学習処理で使用する操作音を例示する図。
図4】評価処理で使用する操作音を説明する。
図5】音量調整及び合成音声の生成処理を模式的に説明する図。
図6】操作音の分類を分割する処理を模式的に説明する図。
図7】複数の操作情報に対応する操作音の分類を一つにまとめる処理を模式的に説明する図。
図8】乱数を用いて生成した新たな操作音を模式的に示す図。
図9】(A)は、操作音入音声の信号を例示する図であり、(B)は、操作音低減音声の信号を例示する図。
図10】操作情報に基づいた分類と最適変換情報(学習結果)との対応を模式的に示す図。
図11】第7の実施形態における処理の流れを説明する図。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0010】
(第1の実施形態)
図1は、第1の実施形態に係る磁気共鳴イメージング装置1(以下、「MRI装置」ともいう)の全体構成を示すブロック図である。第1の実施形態の磁気共鳴イメージング装置1は、磁石架台2、制御キャビネット300、コンソール400、寝台500等を備えて構成される。磁気共鳴イメージング装置1は、検査が行われる検査室21に配置されており、操作者は、検査室21と区画された操作室22において、磁気共鳴イメージング装置1を操作することが可能である。
【0011】
磁石架台2は、静磁場磁石10、傾斜磁場コイル11、WB(Whole Body)コイル12等を有しており、これらの構成品は円筒状の筐体に収納されている。寝台500は、寝台本体50と天板51を有している。また、磁気共鳴イメージング装置1は、被検者Pに近接して配設される局所コイル20を有している。
【0012】
制御キャビネット300は、傾斜磁場電源31(X軸用31x、Y軸用31y、Z軸用31z)、RF受信器32、RF送信器33、及びシーケンスコントローラ34を備えている。
【0013】
磁石架台2の静磁場磁石10は、概略円筒形状をなしており、被検者P(例えば患者)の撮像領域であるボア(静磁場磁石10の円筒内部の空間)内に静磁場を発生させる。傾斜磁場コイル11も概略円筒形状をなし、静磁場磁石10の内側に固定されている。傾斜磁場コイル11は、3チャンネル構造を有している。傾斜磁場コイル11の各チャンネルの傾斜磁場コイルには、傾斜磁場電源(31x、31y、31z)から夫々電流が供給され、X軸、Y軸、及びZ軸の夫々の方向に傾斜磁場が生成される。
【0014】
寝台500の寝台本体50は天板51を上下方向(Y方向)に移動可能であり、撮像前に天板51に載った被検者Pを所定の高さまで移動させる。その後、撮像時には天板51を水平方向(Z方向)に移動させて被検者Pをボア内に移動させる。
【0015】
WBコイル12は、傾斜磁場コイル11の内側に被検者Pを取り囲むように概略円筒形状に固定されている。WBコイル12は、RF送信器33から伝送されるRFパルスを被検者Pに向けて送信する一方、水素原子核の励起によって被検者Pから放出される磁気共鳴信号(即ち、MR信号)を受信する。
【0016】
局所コイル20は、被検者Pから放出されるMR信号を被検者Pに近い位置で受信する。局所コイル20は、例えば、複数の要素コイルから構成される。局所コイル20は、被検者Pの撮像部位に応じて、頭部用、胸部用、脊椎用、下肢用、或いは全身用など種々のタイプがあるが、図1では胸部用の局所コイル20を例示している。局所コイル20には受信信号を通すケーブルが接続され天板のコネクタと接続される。天板のコネクタからはさらにケーブルが天板から寝台、RF受信機32まで接続されており、局所コイル20が受信したアナログ信号はこれらケーブルを通してRF受信機32に出力される。なお、局所コイル20をケーブル接続せずに完全無線化した場合であっても本発明を適用することができる。
【0017】
RF送信器33は、シーケンスコントローラ34からの指示に基づいて、WBコイル12にRFパルスを送信する。一方、RF受信器32は、WBコイル12や局所コイル20によって受信されたMR信号を受信し、MR信号を増幅・検波・デジタル化・フィルター処理して、生データをシーケンスコントローラ34に送る。
【0018】
シーケンスコントローラ34は、コンソール400(情報処理装置)による制御のもと、傾斜磁場電源31、RF送信器33およびRF受信器32をそれぞれ駆動することによって被検者Pのスキャンを行う。そして、シーケンスコントローラ34は、スキャンを行ってRF受信器32から生データを受信すると、その生データをコンソール400に送る。
【0019】
シーケンスコントローラ34は、処理回路(図示を省略)を具備している。この処理回路は、例えば所定のプログラムを実行するプロセッサや、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等のハードウェアで構成される。
【0020】
マイクロフォン25(集音装置)は、磁気共鳴イメージング装置1の筐体に設けられ、音声信号を収集する。マイクロフォン25は、筐体の一端側(Z+側)と、他端側(Z-側)との2箇所に設けられている。マイクロフォン25は、被検者Pの検査中においては、磁気共鳴イメージング装置1の操作音を収集するとともに、被検者Pの音声は、磁気共鳴イメージング装置1の操作音に重畳された音声(操作音入音声)として収集される。アンプ410はマイクロフォン25により収集された音声信号を処理回路40に入力する。処理回路40では、操作音入音声から操作音が低減された音声(操作音低減音声)が生成される。また、スピーカ420(音声出力装置)は、処理回路40で生成された操作音低減音声を出力する。
【0021】
コンソール400は、処理回路40、記憶回路41、ディスプレイ42、入力デバイス43及び通信デバイス44を有するコンピュータ(情報処理装置)として構成されている。
【0022】
記憶回路41は、種々の情報を記憶するROM(Read Only Memory)やRAM(Random Access Memory)の他、HDD(Hard Disk Drive)、SSD(Solid State Drive)や光ディスク装置等の外部記憶装置を含む記憶媒体である。記憶回路41は、データ収集条件やMR画像など各種の情報やデータを記憶する他、処理回路40が具備するプロセッサが実行する各種のプログラムを記憶する。
【0023】
ディスプレイ42は、液晶ディスプレイパネル、プラズマディスプレイパネル、有機ELパネル等の表示デバイスである。入力デバイス43は、操作者からの各種指令を受け付ける各種の入力機器を含む。例えば、マウス、キーボード、トラックボール、タッチパネル等であり、各種の情報やデータを操作者が入力するための種々のデバイスを含む。なお、入力デバイス43は、マウス、キーボードなどの物理的な操作部品を備えるものだけに限らない。例えば、アンプ410から出力された被検者Pの音声信号を処理回路40で処理するための信号に変換したり、処理回路40で処理された信号をスピーカ420(音声出力装置)に出力するための信号に変換する信号変換装置(インターフェース)であってもよい。
【0024】
通信デバイス44は、LAN(Local Area Network)等を介して磁気共鳴イメージング装置1と、他の外部装置、例えば、ワークステーションやPACS(Picture Archiving and Communication System)、HIS(Hospital Information System)、RIS(Radiology Information System)等とを接続するインタフェースである。通信デバイス44は、各種情報を接続先のワークステーション、PACS、HIS及びRISとの間で送受信する。
【0025】
処理回路40は、例えば、CPU(central processing unit)や、専用又は汎用のプロセッサを備える回路である。プロセッサは、記憶回路41に記憶した各種のプログラムを実行することによって、後述する各種の機能を実現する。処理回路40は、FPGA(field programmable gate array)やASIC(application specific integrated circuit)等のハードウェアで構成してもよい。処理回路40は、単一のプロセッサによって構成されてもよいし、複数の独立したプロセッサを組み合わせによって構成されてもよい。後者の場合、プログラムを記憶する記憶回路41は複数のプロセッサごとに個別に設けられてもよいし、単一の記憶回路41が複数のプロセッサの機能に対応するプログラムを記憶するものであってもよい。これらのハードウェアによっても後述する各種の機能を実現することができる。また、処理回路40は、プロセッサとプログラムによるソフトウェア処理と、ハードウェア処理とを組み合わせて、各種の機能を実現することもできる。
【0026】
処理回路40は、各種のプログラムの実行により学習処理部40A、評価処理部40B及び推測処理部40Cを有する。学習処理部40A、評価処理部40B及び推測処理部40Cは、処理回路40のプロセッサが各種のプログラムを実行することにより得られる機能的な構成である。各機能が実現する処理の実行に必要な情報、処理の途中および最終的に得られる情報は、記憶回路41に格納される。なお、図1に示す処理回路40の構成は一例に過ぎない。例えば、処理回路40内の各構成要素は、適宜分離して構成されても良い。例えば、処理回路40の構成をシーケンスコントローラ34のプロセッサが行うようにしてもよい。
【0027】
学習処理部40Aは、予め準備した、被検者の音声(クリーン音声)と磁気共鳴イメージング装置1の操作音とを使用して、操作音に被検者の音声を重畳した、学習用の操作音入音声を作成し、学習用の操作音入音声からクリーン音声へ変換するための変換係数(以下、変換情報)を取得する。学習処理部40Aは、機械学習における入力データとして、磁気共鳴イメージング装置1の操作音と被検者の音声(クリーン音声)とを重畳した音声(操作音入音声)を課題データとして用い、被検者の音声(クリーン音声)を正解データとして用いる。また、学習処理部40Aは、機械学習における出力データとして、課題データ(操作音入音声)を正解データ(クリーン音声)にするための変換情報を出力する学習モデル(以下、「計算モデル」ともいう)を取得する。学習処理部40Aは、異なる計算条件で機械学習した複数の学習モデル(計算モデル)を取得する。
【0028】
評価処理部40Bは、複数の計算条件の変換情報から最適変換情報をもとめる処理を行う。評価処理部40Bは、被検者の音声(クリーン音声)と、磁気共鳴イメージング装置1の操作音とを用いて、後に説明する評価情報(信号対歪比(Signal distortion rate:SDR))を算出し、算出した評価情報に基づいて、複数の変換情報(複数の学習結果)の中から最適変換情報(最適学習結果:第一学習結果)を選択する。なお、ここでは、最適変換情報(最適学習結果:第一学習結果)を、最適学習モデルと言い換えることもできる。評価処理部40Bは、算出した評価情報に基づいて、複数の学習モデルの中から最適学習モデル(第一学習モデル)を選択することもできる。
【0029】
推測処理部40Cは、磁気共鳴イメージング装置1による実際の検査において、操作音入音声から操作音を低減する処理を行う。推測処理部40Cは、検査時において、磁気共鳴イメージング装置1の操作情報または操作音に対応した最適変換情報(最適学習結果:第一学習結果)を選択する。つまり、最適変換情報(最適学習結果:第一学習結果)は、磁気共鳴イメージング装置1の操作情報または操作音に対応している。また、最適学習モデル(第一学習モデル)は、磁気共鳴イメージング装置1の操作情報または操作音に対応していると言い換えることもできる。そして、推測処理部40Cは、選択した最適変換情報(学習結果)を用いて、マイクロフォン25により収集された、磁気共鳴イメージング装置の操作音と被検者の音声とが重畳した操作音入音声から操作音が低減された音声を推測する。
【0030】
本実施形態において、磁気共鳴イメージング装置1における操作情報は、(a)MRI装置における各種の撮像種別を示す情報(例えば、T1強調、T2強調、PD(proton density)、DWI(diffusion weighted imaging)など)、(b)MR信号の収集方法の種別を示す情報(例えば、PI(Parallel Imaging)、EPI(echo planar imaging)、ラジアル収集、スパイラル収集など)、(c)MR信号を収集するためのパルス波形の出力計画であるパルスシーケンス、(d)パルスシーケンスを実行するためにハードウェア制御信号、のいずれか一つ、または組み合わせであってもよい。同一の操作情報に基づいた操作でもパルス周波数や磁場の方向などの詳細な設定を行う必要があり、設定に応じて、磁気共鳴イメージング装置1の操作音は異なるものとなる。
【0031】
本実施形態において、処理回路40の各機能的な構成(学習処理部40A、評価処理部40B、推測処理部40C)が行う計算フローには、学習処理と評価処理、推測処理の3つの処理が含まれる。
【0032】
本実施形態の処理フローでは、録音した被検者の音声から無声音時間をとり除いた音声(クリーン音声)と操作音入音声との比較プロセス、または操作音入音声から操作音を取り除くプロセスの一例として、クリーン音声及び操作音入音声をパワースペクトルに変換後、ディープラーニングを使用する。なお、この処理方法に限られものではなく、他の方法でもよい。例えば、クリーン音声と操作音入音声の波形を直接ディープラーニングで比較する方法でもよい。
【0033】
(学習処理)
学習処理部40Aは、被検者の音声(クリーン音声)と磁気共鳴イメージング装置1の操作音(録音した操作音)とを使用して、操作音に被検者の音声を重畳した、学習用の操作音入音声を作成し、操作音入音声からクリーン音声へ変換するための変換情報を取得する。
【0034】
まず、学習処理部40Aは、各種データベースや実際に被検者の音声を録音した音声データ(音声File)から無声音時間をとり除いたクリーン音声を作成する(S101)。
【0035】
学習処理部40Aは、一定の単位の時間でクリーン音声を分割(フレーム分割)し(S102)、分割したクリーン音声を高速フーリエ変換(Fast Fourier transform: FFT)でパワースペクトルに変換する(S103)。
【0036】
次に、学習処理部40Aは、クリーン音声(S101)と操作音とから操作音入音声を合成する。
【0037】
S104では、1つの操作情報に基づいた設定で磁気共鳴イメージング装置1を操作し、設定毎にその操作音を録音する。種々の操作情報に基づいた設定で磁気共鳴イメージング装置1を操作し、設定毎にその操作音を録音し、種々の操作情報に基づいて操作音を分類する(S105)。例えば、図3に示すように、1つの操作情報において、異なる3つの設定ごとに、操作音3A、操作音3B及び操作音3Cが録音され、操作情報に対応した操作音(3A~3C)として分類される。
【0038】
磁気共鳴イメージング装置1における周波数や方向などのパルスに関する変数など、操作情報における各種設定を変更して種々の操作音を作成してもよいし、音響反射板による反射波を使用して異なる操作音を作成してもよい。学習処理部40Aは、このようにして録音された操作音から無音部分を取り除いた学習用の操作音を作成する(S106)。
【0039】
S107において、学習処理部40Aは、クリーン音声(S101)と、S106で作成された学習用の操作音とを合成して、学習用の操作音入音声を作成する。
【0040】
S200において、学習処理部40Aは、学習用の操作音入音声の特徴抽出を行う。特徴抽出処理には、操作音入音声のフレーム分割(S102)からパワースペクトルの作成(S110)までの工程が含まれる。
【0041】
S102におけるフレーム分割は、クリーン音声のフレーム分割と同様の処理であり、学習処理部40Aは、一定の単位の時間で操作音入音声を分割する。そして、学習処理部40Aは、フレーム分割した操作音入音声をフーリエ変換でパワースペクトルに変換し、変換したパワースペクトルを時系列に並べたスペクトログラムを作成する(S108)。
【0042】
スペクトログラムは時間と周波数の2変数を有する2次元データであり、学習処理部40Aは、後述するディープラーニング(DL)と呼ばれるデータ処理を行い(S109)、2次元データのスペクトログラムを1次元のパワースペクトルに変換する(S110)。
【0043】
本実施形態における特徴抽出処理(S200)では、操作音入音声をスペクトログラムに変換したのちディープラーニング(DL)と呼ばれるデータ処理を行う。ここで、ディープラーニングとは、人間の神経細胞(ニューロン)の仕組みを模したシステムであるニューラルネットワークを多層使用した計算手法であり、操作音入音声のスペクトログラムから計算されたパワースペクトルとクリーン音声のパワースペクトルの差が小さくなるように繰り返し計算し、操作音入音声から操作音低減音声への変換情報を求める方法である。
【0044】
ディープラーニングにおけるデータ処理には様々な方法がある。例えば、"A Fully Convolutional Neural Network for Speech Enhancement"(https://arxiv.org/abs/1609.07132)には、畳み込みによるディープラーニングの計算モデル(Redundant Convolutional Encoder-Decoder(以下、「R-CEDモデル」)を用いたデータ処理が開示されている。R-CEDモデルでは、時間と周波数を変数とする、2次元のスペクトログラムを、重み係数をかけた複数の2次元フィルターで畳み込み、スペクトログラムを周波数のみを変数に有する1次元のパワースペクトルに変換する。ここで、パワースペクトルは、フィルター枚数だけ出力される。
【0045】
次に、畳み込みで得られた複数のパワースペクトルに、重み係数をかけて複数の1次元フィルターで畳み込む。この重み係数とフィルター形状と枚数を変えて複数のパワースペクトルに変換することを繰り返す。畳み込みを1層として、所定の層数だけ畳み込み計算を行った後、最後は1枚のフィルターによって、1個のパワースペクトルに変換する。
【0046】
最後に得られたスペクトログラムのパワースペクトルとクリーン音声のパワースペクトルの差が、全ての操作音とクリーン音声との組み合わせ(データセット)に対して、小さくなるような評価を行う。例えば、最小二乗誤差のように評価値が小さくなるように係数を変えて、畳み込みを所定の層数の計算を繰り返して、一連の係数からなる変換情報を取得する。この繰り返し計算の計算回数をエポック数というが、エポック数を増加させると学習で使用したデータセットに対しては評価関数が小さくなる。しかし、未学習の操作音や音声に対しては、評価関数が良くなるとは限らず、個々の操作音に対しては最適なエポック数が存在する。本実施形態では、繰り返し計算により、個々の操作音に対して評価関数の出力を小さくする最適なエポック数を得て学習処理を行うものとする。
【0047】
なお、ディープラーニングには様々の手法がある。先に説明した畳み込みを繰り返す手法は、畳み込みネットワーク (CNN:Convolutional Neural Networkとよばれる。この他にも、ディープニューラルネットワーク(DNN: Deep Neural Network)、再帰型ニューラルネットワーク(RNN, Recurrent Neural Network)、敵対的生成ネットワーク(GAN: Generative Adversarial Network)などがあり、いずれの手法でも本実施形態の特徴抽出処理に適応することが可能である。
【0048】
また、特徴抽出処理(S200)では、音声をスペクトログラムに変換せずに行うこともできる。例えば、フレーム分割した操作音入音声とクリーン音声の波形を直接比較して、ディープラーニングによって操作音入音声からクリーン音声への変換情報を求めることも可能である。
【0049】
S111において、学習処理部40Aは、1次元データであるクリーン音声のパワースペクトル(S103)と、スペクトログラムをデータ処理したパワースペクトル(S110)との差が小さくなるような一組の変換情報を取得する。
【0050】
変換情報は、データ処理方法やサンプリング周波数、フレームの時間によって異なるが、例えば、変換情報に含まれる数値は数万から数十万個になり得る。このとき、学習処理部40Aは、クリーン音声のパワースペクトル103とスペクトログラムのパワースペクトル110と組み合わせを数万から数十万セット作成し、汎用的にどのセットでも、クリーン音声のパワースペクトル103とスペクトログラムのパワースペクトル110との差が小さくなるように、変換情報を変化させ繰り返し計算を行う。学習データを何回繰り返して学習させる、繰り返し計算の計算回数をエポック数と呼ぶ。本実施形態の学習処理において、エポック数は任意に設定することが可能である。
【0051】
図3は、学習に用いる操作音を例示的に示す図であり、設定の異なる3つの操作音(3A~3C)を例示している。横軸は時間を示し、縦軸は周波数を示す。図3において、信号波形3A-1は、操作音3Aにおいて、学習に用いる操作音の信号を拡大した図である。また、信号波形3B-1は、操作音3Bにおいて、学習に用いる操作音の信号を拡大した図であり、信号波形3C-1は、操作音3Cにおいて、学習に用いる操作音の信号を拡大した図である。
【0052】
1つの操作情報において、3つの異なる設定がある場合、3つの操作音が録音されており、学習処理部40Aは、3つの操作音に対して汎用的にスペクトログラムのパワースペクトル(S110)とクリーン音声のパワースペクトル(S103)との差が小さくなるような一組の変換情報を取得する。
【0053】
学習処理には、操作音入音声を作成時の学習用の操作音とクリーン音声との強度比や、クリーン音声とスペクトログラムの組み合わせのセット数、エポック数など様々な計算条件がある。また、学習処理で使用する操作音は、磁気共鳴イメージング装置1に関する、操作情報の種々の変数で発生する操作音で学習して、操作情報の種々の設定に対応した操作音を低減させることが可能な変換情報を作成することも可能である。
【0054】
また、すべての操作情報から発生されるすべての操作音をまとめて学習させ汎用的な一組の変換情報を作成することも可能である。しかし、すべての操作音をまとめて学習させた場合、新規の操作音が現れた場合などでは、既にある操作音に新規の操作音を加えて学習をはじめからやり直しことになり、非効率的である。そのため、一定程度の似た操作音の種類で分けて学習しその種類ごとにする一組の変換情報を作成する方が効率的であり、さらに操作音の低減性能の向上が期待される。
【0055】
そこで、本実施形態では、磁気共鳴イメージング装置1の1つ操作情報に含まれる複数の設定で磁気共鳴イメージング装置1を操作し、設定毎にその操作音を録音したものを用いるものとする(S104)。磁気共鳴イメージング装置1における操作音の周波数や方向などのパルスに関する変数の他、音響反射板による反射波でもよく、これらの操作情報単位の操作音をひとまとまりとして学習し、操作情報毎に複数の計算条件で複数の変換情報を取得する(S111)。
【0056】
(評価処理)
評価処理部40Bは、複数の計算条件の変換情報から最適変換情報をもとめる処理を行う。評価処理部40Bは、学習処理で得られた複数の計算条件による複数の変換情報の中から、操作音入音声のスペクトログラムとクリーン音声のパワースペクトルの差が小さくなるような変換情報を、操作情報毎に選択する。
【0057】
評価処理のS101におけるクリーン音声は、学習処理のS101のクリーン音声と同様である。評価処理部40Bは、各種データベースや実際に被検者の音声を録音した音声データから無声音時間をとり除いたクリーン音声を作成する。
【0058】
S104'において、評価処理部40Bは、学習処理で使用された操作音の領域とは異なる操作音の領域を評価用の操作音として使用する。例えば、図4の領域401の操作音を学習処理で使用した場合には、評価処理では、領域402の信号を用いて評価用の操作音を作成すればよい。なお、図4は例示的なものであり、評価用の操作音は、学習処理で使用された操作音と少なくとも一部の信号が異なればよい。
【0059】
S107において、評価処理部40Bは、操作音(S104')とクリーン音声(S101)とから、評価用の操作音入音声を作成する。評価処理部40Bは、クリーン音声(S101)と、評価用の操作音(S104')とを合成して、評価用の操作音入音声を作成する(S107)。
【0060】
S200において、評価処理部40Bは、評価用の操作音入音声の特徴抽出を行う。特徴抽出処理の内容は、学習処理におけるものと同様であり、特徴抽出処理には、操作音入音声のフレーム分割(S102)からパワースペクトルの作成(S110)までの工程が含まれる。
【0061】
評価処理部40Bは、学習処理で得られた変換情報を使用して、操作音入音声の特徴抽出を行い(S200)、パワースペクトルを求める(S110)。
【0062】
S122において、評価処理部40Bは、S110において得られたパワースペクトルに対して、逆高速フーリエ変換(逆FFT)を行い、フレーム毎の音声信号に復元し、復元したフレーム毎の音声信号を繋げる音声再合成を行い(S122)、音声再合成により、操作音入音声から操作音が低減された音声(操作音低減音声)を作成する。評価処理部40Bは、学習で得られた種々の計算条件での複数の変換情報を用いて操作音低減音声を作成する(S123)。ここで、操作音低減音声とは、評価用の操作音入音声からクリーン音声を低減した音声である。
【0063】
S124において、評価処理部40Bは、クリーン音声(S101)と、操作音低減音声(S123)とを用いて、複数の変換情報を評価するための評価情報を取得する。評価処理部40Bは、評価情報として、信号対歪比(Signal distortion rate:SDR)を使用する。ここで、信号対歪比(SDR)は、例えば、J. Sig. Processing (2014-pp17) 「雑音抑制のための雑音対信号比率に基づく雑音パワー推」に開示されており、評価処理部40Bは、以下の数1式及び数2式に基づいて、信号対歪比(SDR)を取得する。本実施形態では、評価情報として、信号対歪比(SDR)を用いる。
【0064】
【数1】
【0065】
【数2】
【0066】
評価情報(SDR)は、数1式で与えられるようにクリーン音声(S101)と操作音低減音声(S123)との歪を示すもので、数値が大きくなるほど、操作音低減音声(S123)とクリーン音声(S101)との差が小さいことを示している。ここで、s(t)とs´(t)とは、それぞれ時刻tのクリーン音声(S101)と操作音低減音声(S123)の振幅である。
【0067】
S125において、評価処理部40Bは、S124で取得した評価情報に基づいて、操作音低減音声(S123)とクリーン音声(S101)の差が最も小さくなる変換情報(最適変換係数)を選択する。すなわち、評価処理部40Bは、各操作情報において、様々な計算条件に対して評価情報(SDR)が最大値をとるような変換情報(最適変換係数)を学習結果として選択する。本ステップで選択された最適変換係数(学習結果)は、次の推測処理で使用される。
【0068】
(推測処理)
推測処理部40Cは、磁気共鳴イメージング装置1による実際の検査において、操作音入音声から操作音を低減する処理を行う。
【0069】
S131において、推測処理部40Cは、磁気共鳴イメージング装置1の操作情報を受信し、現在操作されている操作情報または操作音を特定(分類)して、操作情報または操作音に対応した変換情報(学習結果)を選択する(S132)。S132で選択する変換情報(学習結果)は、評価処理で取得された変換情報(最適変換係数)に基づくものである。
【0070】
図10は、操作情報に基づいた分類と最適変換情報(学習結果)との対応を模式的に示す図である。操作情報1001においては、操作音10A~操作音10Cが分類されており、操作情報1002においては、操作音10D及び10Eが分類されている。また、操作情報1003においては、操作音10F~操作音10Jが分類されている。学習処理及び評価処理に基づいて、操作情報1001には、最適変換情報1004が対応し、操作情報1002には、最適変換情報1005が対応し、操作情報1003には、最適変換情報1006が対応するように設定されている。
【0071】
例えば、操作情報を磁気共鳴イメージング装置1から取得すれば、検査中における操作情報を特定することができ、対応する最適変換情報(学習結果)を取得することができる。あるいは、検査中の磁気共鳴イメージング装置1の操作音を取得して、相関性の高い操作音の分類を特定することができれば、対応する最適変換情報(学習結果)を取得することができる。
【0072】
説明を図2に戻し、S133において、操作音入音声が入力される。本ステップの操作音入音声は、マイクロフォン25により収集された、磁気共鳴イメージング装置の操作音と被検者の音声とが重畳した操作音入音声である。ここで、図9(A)は、操作音入音声の信号を例示する図であり、横軸は時刻を示し、縦軸は振幅を規格化して示している。黒塗りで図示されている部分は磁気共鳴イメージング装置1の操作音であり、信号波形において、振幅が突出している領域901~903は、被検者Pの音声に相当する部分である。被検者Pの音声は、操作音と重畳しており、被検者の音声は聞き取りにくい状態である。本実施形態の推測処理では、操作音入音声から操作音を低減した音声を推測する処理を行う。
【0073】
S200において、推測処理部40Cは、入力された操作音入音声に対して特徴抽出を行う。特徴抽出処理の内容は、学習処理におけるものと同様であり、特徴抽出処理には、操作音入音声のフレーム分割(S102)からパワースペクトルの作成(S110)までの工程が含まれる。
【0074】
推測処理部40Cは、評価処理で得られた変換情報を使用して、操作音入音声の特徴抽出を行い(S200)、パワースペクトルを求める(S110)。
【0075】
S122において、推測処理部40Cは、S110において得られたパワースペクトルに対して、逆高速フーリエ変換(逆FFT)を行い、フレーム毎の音声信号に復元し、復元したフレーム毎の音声信号を繋げる音声再合成を行い、音声再合成により、操作音入音声から操作音が低減された音声(操作音低減音声)を作成する(S123)。図9(B)は、操作音低減音声の信号を例示する図であり、横軸は時刻を示し、縦軸は振幅を規格化して示している。図9(A)において黒塗りで図示されている操作音の部分は低減され、被検者Pの音声に相当する領域の信号が明確化されている。
【0076】
S134において、推測処理部40Cは、操作音低減音声の信号波形に基づいて、被検者Pの音声が入っていない非音声時刻(非音声領域)と音声が入っている音声時刻(音声領域)とを分離し、非音声時刻(非音声領域)の音量調整を行う。そして、S135において、推測処理部40Cは、音量調整された操作音(S134)と操作音低減音声(S123)とを合成した合成音声を生成する。推測処理部40Cは、推測した音声(操作音低減音声:S123)に基づいて取得した音声領域を示す信号と、操作音入音声(S133)に基づいて取得した非音声領域を示す信号とを合成した合成音声をスピーカ420(音声出力装置)から出力させる。
【0077】
図5は、音量調整及び合成音声の生成処理を模式的に説明する図である。図5(A)は操作音入音声の信号波形を例示する図である。
【0078】
図5(B)において、F1は、操作音低減音声(S123)のうち、音声が入っている音声時刻(音声領域)を示す音声フラグである。パルスが立ち上がっている領域は音声が入っている音声時刻(音声領域)を示す。一方、パルスが立ち下がっている領域は音声が入っていない非音声時刻(非音声領域)を示す。推測処理部40Cは、操作音低減音声(S123)の信号に音声フラグF1を乗じて、信号波形501を取得する。操作音低減音声(S123)の信号においても、僅かに非音声時刻(非音声領域)に信号が残されているが、音声フラグF1の乗算により、非音声時刻(非音声領域)が除かれた音声時刻(音声領域)を示す信号波形501が得られる。
【0079】
図5(C)において、F2は、操作音低減音声(S123)のうち、音声が入っていない非音声時刻(非音声領域)を示す非音声フラグである。パルスが立ち上がっている領域は音声が入っていない非音声時刻(非音声領域)を示す。一方、パルスが立ち下がっている領域は音声が入っている音声時刻(音声領域)を示す。非音声フラグF2と音声フラグF1との関係は、F2=-F1となる。推測処理部40Cは、操作音入音声(S133)の信号に非音声フラグF2を乗じて、信号波形502を取得する。非音声フラグF2の乗算により、操作音入音声の信号から音声時刻(音声領域)が除かれた非音声時刻(非音声領域)を示す信号波形502が得られる。
【0080】
推測処理部40Cは、音声時刻(音声領域)を示す信号波形501と、非音声時刻(非音声領域)を示す信号波形502とを合成する。医師が検査結果を参照する際に、操作音は検査状態を示す手掛かりとなり得る。このため、操作音を完全に除去せず、操作音を僅かに残した操作音低減音声を生成することが好ましい。
【0081】
本実施形態では、信号波形501及び信号波形502を合成する際に、推測処理部40Cは、操作音が少し残された操作音低減音声503を生成する。
【0082】
音声時刻(音声領域)を示す信号波形501と、非音声時刻(非音声領域)を示す信号波形502との合成比率は、任意に設定可能であり、例えば、推測処理部40Cは、音声時刻(音声領域)を示す信号波形501を、非音声時刻(非音声領域)を示す信号波形502に比べて強調した強調信号を用いて合成音声を生成してもよい。あるいは、推測処理部40Cは、非音声時刻(非音声領域)を示す信号波形502を、音声時刻(音声領域)を示す信号波形501に比べて抑制した抑制信号を用いて、合成音声を生成してもよい。
【0083】
(変形例)
第1の実施形態では、評価情報として信号対歪比(SDR)を用いて、複数の変換情報を評価する構成を説明したが、評価情報は、信号対歪比(SDR)に限られず、例えば、波形の相関情報や音声波形をフーリエ変換したパワースペクトルの相関情報、あるいは、国際電気通信連合 標準化セクタ(International Telecommunication Union Standardization Sector:ITU―T)勧告で示されているPESQ(Perceptual Evaluation of Speech Quality)を用いて、複数の変換情報を評価してもよい。
【0084】
(第2の実施形態)
第1の実施形態では、学習処理の操作音の分類(S105)において、操作情報を分類の単位として変換情報を作成する構成を説明した。本実施形態では、操作音の特性に応じて操作情報を分割し、あるいは、複数の操作情報を一つにまとめる構成について説明する。
【0085】
(分割処理)
学習処理部40Aは、操作情報に基づいて分類されている複数の学習用の操作音の特性を比較して、特性の少なくとも一部の特性が一致する操作音を分類から分割し、分割した単位で学習処理を行う。図6は操作音の分類を分割する処理を模式的に説明する図である。1つの操作情報601において、異なる3つの設定ごとに、操作音6A、操作音6B及び操作音6Cが録音され、操作情報601に対応した操作音(6A~6C)として分類されている。ここで、学習処理部40Aは、操作音(6A~6C)の特性を比較して、操作音の特性の少なくとも一部が一致する操作音を一つにまとめてもよい。操作音の特性には、例えば、操作音の周期や最大振幅などが含まれる。
【0086】
学習処理部40Aは、操作音6A~6Cの特性を比較して、操作音の周期や最大振幅などの操作音の特性が等しい操作音を一つにまとめる。図6に示す例では、操作音B、Cとは特性の異なる操作音6Aが一つのまとまりの単位602となり、特性の等しい操作音6B及び操作音6Cが一つのまとまりの単位603として分類される。
【0087】
学習処理部40Aは、図2の処理フローに従い、操作情報601を2つに分けた分割単位602、603について学習処理を行い、評価処理部40Bは、学習処理の結果に基づいて評価処理を行う。これにより、操作音の特性に基づいた分割単位602、603に対応した、学習結果として最適変換情報604、605(学習結果)を取得することができる。
【0088】
推測処理では、磁気共鳴イメージング装置1のマイクロフォン25で収集された操作音または操作入音声の波形と、学習用の操作音(6A~6C)の波形との少なくとも一部の比較により、一致の割合の高い操作音を特定する。信号波形の比較については、第3の実施形態で説明するように、テンプレートマッチングによる相関情報を用いることができる。例えば、学習用の操作音のうち、操作音6Aの波形との一致の割合が最も高い場合、収集された操作音または操作入音声は分割単位602に分類される(図2のS131)。推測処理部40Cは、分割単位602に対応した最適変換情報604を学習結果として取得し、取得した学習結果を用いて、操作音と被検者の音声とが重畳した操作音入音声から操作音を低減した音声を推測する。
【0089】
一つの操作情報においても、設定によっては操作音の特性は異なるものとなる場合があり、操作音の特性に応じて、操作音の分類の単位を分割(細分化)して、学習処理を行うことにより、より精度の高い学習結果(最適変換情報)を得ることが可能になる。
【0090】
(併合処理)
学習処理部40Aは、複数の操作情報のそれぞれに分類されている複数の学習用の操作音の特性を比較して、少なくとも一部の特性が一致する場合、複数の操作音をまとめた単位で学習処理を行う。
【0091】
図7は複数の操作情報701、702に対応する操作音の分類を一つにまとめる処理(併合処理)を模式的に説明する図である。1つの操作情報701において、異なる3つの設定ごとに、操作音7A、操作音7B及び操作音7Cが録音され、操作情報701に対応した操作音(7A~7C)として分類されている。また、操作情報701とは異なる操作情報702において、異なる3つの設定ごとに、操作音7D、操作音7E及び操作音7Fが録音され、操作情報702に対応した操作音(7D~7F)として分類されている。
【0092】
学習処理部40Aは、操作音7A~7Fの特性を比較して、操作音の周期や最大振幅などの操作音の特性のうち、少なくとも一部の特性が一致する場合、複数の操作情報701、702をまとめて学習処理を行う。図7に示す例において、操作音7A~7Fの特性のうち、少なくとも一部の特性が一致する場合、操作音7A~7Fが一つのまとまりの併合単位703として分類される。
【0093】
学習処理部40Aは、図2の処理フローに従い、操作情報701、702を一つにまとめた併合単位703について学習処理を行い、評価処理部40Bは、学習処理の結果に基づいて評価処理を行う。これにより、操作音の特性に基づいた併合単位703に対応した、学習結果として最適変換情報704を取得することができる。
【0094】
推測処理では、磁気共鳴イメージング装置1のマイクロフォン25で収集された操作音または操作入音声の波形と、学習用の操作音(7A~7F・・・)の波形との少なくとも一部の比較により、一致の割合の高い操作音を特定する。例えば、学習用の操作音のうち、操作音7Aの波形との一致の割合が最も高い場合、収集された操作音または操作入音声は併合単位703に分類される(図2のS131)。推測処理部40Cは、併合単位703に対応した最適変換情報704を学習結果として取得し、取得した学習結果を用いて、操作音と被検者の音声とが重畳した操作音入音声から操作音を低減した音声を推測する。
【0095】
複数の操作情報において、設定によっては操作音の特性が等しくなる場合があり、操作音の特性に応じて、操作音をまとめて学習処理を行うことにより、学習処理における処理負荷を低減することが可能になる。
【0096】
(第3の実施形態)
本実施形態では、推測処理における最適変換情報の選択方法に関して説明する。初めに、推測処理部40Cは、学習処理において分類された操作音の信号波形の一部を切り出したテンプレートを作成する。推測中において、マイクロフォン25で収集された操作音(または操作音入音声)の信号波形の一部と、作成したテンプレートとの比較(テンプレートマッチング)を行い、マイクロフォン25で収集された操作音が、どの分類に入るか判定する。
【0097】
推測処理部40Cは、操作音の波形と操作音入音声の波形との少なくとも一部の比較により、最適変換情報(学習結果)を選択する。推測処理部40Cは、操作音の波形と、操作音入音声の波形とから取得した相関情報に基づいて、最適変換情報(学習結果)を選択する。具体的には、推測処理部40Cは、学習処理において分類された学習用の操作音のテンプレートを作成し、作成したテンプレートと、推測中において、マイクロフォン25で収集された操作音(または操作音入音声)の信号波形の一部との相関情報を取得する。そして、推測処理部40Cは、相関情報が最も高い操作音を含む分類の最適変換情報(学習結果)、あるいは相関情報の平均点が最も高い分類の最適変換情報(学習結果)を選択する。
【0098】
作成するテンプレートとしては、例えば、学習処理において求めたパワースペクトルを使用してもよい。または、ディープラーニングによって学習済の操作音を分類しておき、推測処理ではその学習結果に基づいて、マイクロフォン25で収集された操作音(または操作音入音声)が属する分類に従って、対応する変換情報を選択するようにしてもよい。
【0099】
また、第1の実施形態では、評価処理と推測処理とを別々に行う構成について説明したが、この処理の流れに限られず、推測処理の実行中に、評価処理を並列的に行うことも可能である。
【0100】
推測処理部40Cは、操作音入音声から被検者の音声領域の信号を除いた操作音の信号と、学習で用いた被検者のクリーン音声と、から評価用の操作音入音声を作成する。推測処理部40Cは、学習用の操作音入音声からクリーン音声へ変換するための複数の変換情報(S111)を用いて、評価用の操作音入音声から操作音の信号を低減した操作音低減音声を作成する(S123)。そして、推測処理部40Cは、操作音低減音声と、クリーン音声とを用いて、複数の変換情報を評価するための評価情報を取得し(S124)、評価情報に基づいて、複数の変換情報から一つの変換情報(最適変換情報)を学習結果として選択する(S125)。
【0101】
具体的には、評価処理と同様に、推測処理中において、推測処理部40Cは、操作音入音声(S133)のうち音声が含まれていないと考えられる時刻の信号(例えば、操作音入音声の信号から図9(A)の901~903を除いた信号)と、学習処理のS101(評価処理のS101)で用いたクリーン音声と、から評価用の操作音入音声(S107)を作成し、学習処理で取得した複数の変換情報(S111)を用いて操作音低減音声を作成し(S123)、複数の評価情報のうち最も高い評価の変換情報を最適変換情報として選択すればよい(S125、S132)。
【0102】
また、推測処理中の操作情報または操作音の分類(S131)及び最適変換情報(学習結果)の選択(S132)は、計算負荷が増加するため、操作音の分類専用のプロセッサを割り当ててもよい。例えば、推測処理部40Cは、第1のプロセッサを用いて、操作情報または操作音に対応した学習結果を選択し、第1のプロセッサとは異なる第2のプロセッサを用いて、操作音入音声から操作音を低減した音声を推測する処理を行うようにしてもよい。本実施形態によれば、操作音低減音声の計算に負荷を掛けずに、操作音低減性能を向上させることができる。
【0103】
(第4の実施形態)
本実施形態では、推測処理における最適変換情報の選択時期に関する構成を説明する。推測処理において、最適変換情報の選択時期(S132)は、例えば、装置の立ち上げ時であるが、選択時期は、この他、次の(a)~(c)のいずれかのタイミングで、最適変換情報(学習結果)を選択してもよい。例えば、推測処理部40Cは、(a)~(c)のいずれか一つに該当する場合に、最適変換情報(学習結果)を取得する。
【0104】
(a)操作情報が変更された場合
磁気共鳴イメージング装置1から入力された操作情報が変更された場合には、推測処理部40Cは、新たな操作情報に対応する最適変換情報(学習結果)を取得する。磁気共鳴イメージング装置1から取得した操作情報が、例えば、第1操作情報から第2操作情報に変化した場合には、推測処理部40Cは、新たに第2操作情報を取得したタイミングで、新たな操作情報(第2操作情報)に対応する最適変換情報(学習結果)を取得する。
【0105】
(b)入力音量の変化
推測処理部40Cは、操作音(S131)または操作音入音声(S133)の入力音量のレベルを時系列に判定し、一定時間、入力音量が閾値音量に比べて小さくなり、次に、入力音量が閾値音量を超えて立ち上がった場合に、新たに取得された操作音に対応する最適変換情報(学習結果)を取得する。
【0106】
(c)入力音量の標準偏差またはピーク値の変化
推測処理部40Cは、所定の時間間隔ごとに、操作音(S131)または操作音入音声(S133)の入力音量のレベルを時系列に取得し、入力音量の標準偏差またはピーク値の変化を求める。推測処理部40Cは、取得した標準偏差またはピーク値が基準の閾値を超えて変化した場合、基準の閾値を超えた後に新たに取得された操作音に対応する最適変換情報(学習結果)を取得する。本実施形態によれば、操作情報の変更または入力音量のレベルの変化または入力音量の時系列の変化に応じて適切な最適変換情報(学習結果)を取得して推測処理を行うことが可能になり、推測精度の向上を図ることが可能になる。
【0107】
(第5の実施形態)
本実施形態では、学習処理における学習用の操作音入音声の作成(S107)に関する構成を説明する。第1の実施形態では、予め取得した学習用の操作音(S106)と、クリーン音声(S101)とを合成して、学習用の操作音入音声を作成する方法について説明した。
【0108】
しかし、磁気共鳴イメージング装置1の操作音は、音の反射や気温、機種差によっても異なることがあり、多くの操作音で学習しなければ、操作音低減性能に影響が及ぶ場合が生じ得る。そこで、本実施形態では、予め取得した学習用の操作音Sk(k=1~N)を使用して、新規な操作音S0を以下の数3式で作成する構成について説明する。
【0109】
学習処理部40Aは、以下の数3式に従い、学習用の既存の操作音に係数を乗算した結果を加算することにより新たな操作音を生成する。学習処理部40Aは、新たに生成した操作音を、学習用の既存の操作音に加えて学習処理を行ってもよいし、新たに生成した操作音について追加的に学習処理を行ってもよい。
【0110】
[数3]
0(t) = Σαi × Si(t)
ここで、iは1~Nまでの重複がない任意のM個の整数であり、αiは係数である。例えば、Σαi=1を満たす乱数でもよい。
【0111】
図8は乱数を用いて生成した新たな操作音S0(t)を模式的に示す図である。図8において、8A~8Cは学習用の既存の操作音を示し、R、R、Rは係数(乱数)を示す。操作音8A~8Cにおいて、横軸は時刻を示し、縦軸は振幅を規格化して示している。学習処理部40Aは、学習処理を行う際に、学習用の既存の操作音8A~8Cに係数R、R、Rを乗算した結果を加算することにより新たな操作音S0を生成する。
【0112】
新規な操作音S0は、整数iと係数αiを変更すれば、無数に作成できるため、操作音のデータ数が少ないときには、特に有効である。
【0113】
(第6の実施形態)
本実施形態では、学習処理において、新規の操作音を追加する構成について説明する。第3の実施形態で説明した、推測処理におけるテンプレートマッチングの相関情報や、評価情報(信号対歪比(SDR))が所定の基準値に比べて小さい場合、あるいは、操作音低減音声(S123)において操作音の除去が十分でない場合(一定レベル以上の操作音が残されている場合)、未学習の操作音の可能性がある。その場合、学習処理部40Aは、新規な操作音を録音し、新規な操作音として分類に追加し(S105)、新たな学習を行う。
【0114】
例えば、未学習の操作音(新規な操作音)の操作情報が、学習済である既存の操作情報と同一であり、個別の撮像条件等の設定が異なる場合には、既存の操作情報に基づいて分類される操作音に追加すればよい。例えば、図3に示すように、操作情報が共通であり、新規な操作音の設定が、既存の操作音3A、操作音3B及び操作音3Cの設定と、個別の撮像条件等の設定が異なる場合には、既存の操作情報に基づいて分類される操作音(3A~3C)に、未学習の操作音(新規な操作音)を3Dとして追加して学習処理を行ってもよい。
【0115】
また、学習済である既存の操作音と未学習の操作音(新規な操作音)との信号波形の相関情報を取得し、学習済の操作音のうち相関情報が最も高い既存の操作音を含む分類に、未学習の操作音(新規な操作音)を追加して学習処理を行ってもよい。
【0116】
また、学習済である既存の操作情報と異なる場合や、学習済である既存の操作音との相関情報が所定の基準相関値より低い場合には、既存の分類に追加せず、新たな操作情報に基づいた操作音として新規に追加してもよい。本実施形態によれば、未学習の操作音が追加された操作情報について学習処理を限定的に行えばよいので、効率的な学習処理が可能になる。
【0117】
(第7の実施形態)
本実施形態では、コンソール400におけるプロセッサの計算能力や処理負荷状態によって、計算モデルを変更する構成について説明する。第1の実施形態で説明したように、ディープラーニングで使用するモデルには様々な種類がある。畳み込みによるディープラーニングの計算モデル(R-CEDモデル)でも、層数やフィルター数によって、算出される変換情報の個数が変わり得る。変換情報の増加とともに操作音除去性能も向上するが、計算に要する処理時間も増加し得る。また、データのサンプリング周波数の増加でも計算時間が増加し得る。そのため、プロセッサの計算能力や処理状態によって、計算モデルや計算条件を選択することが好ましい。
【0118】
本実施形態の学習処理部40A、評価処理部40B及び推測処理部40Cは、プロセッサの処理負荷の状態によって、各処理で使用する計算モデルまたは計算条件を選択することが可能である。
【0119】
図11は、第7の実施形態における処理の流れを説明する図である。図11では、処理の主体を推測処理部40Cとして説明しているが、学習処理部40A及び評価処理部40Bが、各処理で使用する計算モデルを選択する場合にも同様に適用することが可能である。
【0120】
S1100において、推測処理部40Cは、プロセッサにおける負荷情報を取得する。ここで、負荷情報は、プロセッサの負荷の状態を示す情報であり、例えば、プロセッサの使用率が含まれる。この他、プロセッサの計算能力を示す情報として、コア数やクロック数等を合わせて使用してもよい。
【0121】
S1110において、推測処理部40Cは、S1100で取得した負荷が、負荷閾値を超えるか判定する。プロセッサの負荷が負荷閾値を超えない場合(S1110でYES)、処理はS1120に進められる。
【0122】
S1120において、推測処理部40Cは、推測処理で使用する計算モデルを選択する。ここで、通常の計算モデル(第1の計算モデル)とは、所定の層数(N)や所定のフィルター数(F)で構成された計算モデルである。
【0123】
S1130において、推測処理部40Cは、S1120で選択された、通常の計算モデル(第1の計算モデル)を用いて、図2で説明した推測処理を行う。
【0124】
一方、S1110の判定で、負荷が負荷閾値を超える場合(S1110でNO)、処理はS1140に進められる。
【0125】
S1140において、推測処理部40Cは、推測処理で使用する計算モデルを選択する。ここで、負荷低減用の計算モデル(第2の計算モデル)とは、通常の計算モデル(第1の計算モデル:S1130)に比べて、計算負荷が低くなるように構成(例えば、層数やフィルター数が低減)された計算モデルである。また、データのサンプリング周波数を、通常の計算モデル(第1の計算モデル)に比べて低下させるように、計算条件を変更してもよい。
【0126】
そして、S1130において、推測処理部40Cは、S1140で選択された、負荷低減用の計算モデル(第2の計算モデル)を用いて、図2で説明した推測処理を行う。なお、図11では計算モデルを変更する処理の例を説明したが、第1の計算モデルを使用する場合の計算条件と、第2の計算モデルを使用する場合の計算条件とを合わせて変更してもよい。本実施形態によれば、プロセッサの負荷状態に合わせて、計算モデルや計算条件を選択し、選択した計算モデルを用いて処理を行うことが可能になる。
【0127】
本明細書の開示は、以下の情報処理装置、磁気共鳴イメージング装置、情報処理方法、プログラムを含む。
【0128】
(項目1)
磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択する選択手段と、
前記学習結果を用いて、前記操作音と被検者の音声とが重畳した操作音入音声から前記操作音を低減した音声を推測する推測手段と、
を備えることを特徴とする情報処理装置。
【0129】
(項目2)
前記選択手段は、前記操作音の波形と前記操作音入音声の波形との少なくとも一部の比較により、前記学習結果を選択することを特徴とする項目1に記載の情報処理装置。
【0130】
(項目3)
前記選択手段は、前記操作音の波形と、前記操作音入音声の波形とから取得した相関情報に基づいて、前記学習結果を選択することを特徴とする項目2に記載の情報処理装置。
【0131】
(項目4)
前記選択手段は、前記磁気共鳴イメージング装置から取得した操作情報が変更された場合、新たな操作情報に対応する学習結果を取得することを特徴とする項目1に記載の情報処理装置。
【0132】
(項目5)
前記選択手段は、前記操作音または前記操作音入音声の入力音量のレベルを時系列に判定し、一定時間、入力音量が閾値音量に比べて小さくなり、前記入力音量が閾値音量を超えて立ち上がった場合に、新たに取得された操作音に対応する学習結果を取得することを特徴とする項目1に記載の情報処理装置。
【0133】
(項目6)
前記選択手段は、所定の時間間隔ごとに、前記操作音または前記操作音入音声の入力音量のレベルを取得し、前記入力音量の標準偏差またはピーク値が基準の閾値を超えた場合に、新たに取得された操作音に対応する学習結果を取得することを特徴とする項目1に記載の情報処理装置。
【0134】
(項目7)
前記推測手段は、
前記推測した音声に基づいて取得した音声領域を示す信号と、前記操作音入音声に基づいて取得した非音声領域を示す信号とを合成した合成音声を音声出力手段から出力させることを特徴とする項目1に記載の情報処理装置。
【0135】
(項目8)
前記推測手段は、前記音声領域を示す信号を、前記非音声領域を示す信号に比べて強調した強調信号、または、前記非音声領域を示す信号を、前記音声領域を示す信号に比べて抑制した抑制信号、を用いて前記合成音声を生成することを特徴とする項目7に記載の情報処理装置。
【0136】
(項目9)
前記推測手段は、
前記操作音入音声から前記被検者の音声領域の信号を除いた操作音の信号と、前記学習結果で用いた被検者のクリーン音声と、から評価用の操作音入音声を作成し、
学習用の操作音入音声から前記クリーン音声へ変換するための複数の変換情報を用いて、前記評価用の操作音入音声から前記操作音の信号を低減した操作音低減音声を作成し、
前記操作音低減音声と、前記クリーン音声とを用いて、前記複数の変換情報を評価するための評価情報を取得し、
前記評価情報に基づいて、前記複数の変換情報から一つの変換情報を前記学習結果として選択する
ことを特徴とする項目1に記載の情報処理装置。
【0137】
(項目10)
予め取得した、学習用の操作音と、被検者のクリーン音声との重畳により作成した学習用の操作音入音声を用いて、前記学習結果を得るための学習処理を行う学習処理手段を更に備え、
前記学習処理手段は、
前記学習用の操作音に係数を乗算した結果を加算することにより新たな操作音を生成し、前記生成した新たな操作音を前記学習用の操作音に加えて前記学習処理を行うことを特徴とする項目1に記載の情報処理装置。
【0138】
(項目11)
前記学習処理手段は、未学習の操作音の操作情報が、学習済の操作情報と同一であり、かつ、前記操作情報に基づいて分類されている操作音と撮像条件の設定が異なる場合には、前記操作情報に基づいた分類に、前記未学習の操作音を追加して前記学習処理を行うことを特徴とする項目10に記載の情報処理装置。
【0139】
(項目12)
前記学習処理手段は、学習済の操作音と前記未学習の操作音との波形の相関情報を取得し、前記相関情報が最も高い前記学習済の操作音を含む分類に、前記未学習の操作音を追加して前記学習処理を行うことを特徴とする項目11に記載の情報処理装置。
【0140】
(項目13)
前記学習処理手段は、前記未学習の操作音の操作情報が、前記学習済の操作情報と異なる場合、または、前記相関情報が所定の基準相関値より低い場合には、
前記未学習の操作音を新たな操作情報に基づいた操作音として追加して前記学習処理を行うことを特徴とする項目12に記載の情報処理装置。
【0141】
(項目14)
前記学習処理手段は、前記操作情報に基づいて分類されている複数の操作音の特性を比較して、前記特性の少なくとも一部の特性が一致する操作音を前記分類から分割し、前記分割した単位で前記学習処理を行うことを特徴とする項目10に記載の情報処理装置。
【0142】
(項目15)
前記学習処理手段は、複数の操作情報のそれぞれに分類されている複数の操作音の特性を比較して、前記特性の少なくとも一部の特性が一致する場合、前記複数の操作音をまとめた単位で前記学習処理を行うことを特徴とする項目10に記載の情報処理装置。
【0143】
(項目16)
前記推測手段は、
前記推測を行うための第1の計算モデルと、前記第1の計算モデルに比べて計算負荷が低くなるように構成された第2の計算モデルと、を有し、
プロセッサの処理負荷が負荷閾値を超えない場合には前記第1の計算モデルを選択して前記推測を行い、
前記プロセッサの処理負荷が前記負荷閾値を超える場合には、前記第2の計算モデルを選択して前記推測を行うことを特徴とする項目1に記載の情報処理装置。
【0144】
(項目17)
前記選択手段は、第1のプロセッサを用いて前記選択を行い、前記推測手段は、前記第1のプロセッサとは異なる第2のプロセッサを用いて、前記推測を行うことを特徴とする項目1に記載の情報処理装置。
【0145】
(項目18)
操作音と被検者の音声とが重畳した操作音入音声を収集する集音手段と、
操作情報または前記操作音に対応した学習結果を選択する選択手段と、
前記学習結果を用いて、前記操作音入音声から前記操作音を低減した音声を推測する推測手段と、
を備えることを特徴とする磁気共鳴イメージング装置。
【0146】
(項目19)
磁気共鳴イメージング装置の操作情報または操作音に対応した学習結果を選択する選択工程と、
前記学習結果を用いて、前記操作音と被検者の音声とが重畳した操作音入音声から前記操作音を低減した音声を推測する推測工程と、
を有することを特徴とする情報処理方法。
【0147】
(項目20)
コンピュータに、項目19に記載の情報処理方法を実行させるプログラム。
【0148】
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0149】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0150】
1:磁気共鳴イメージング装置、25:マイクロフォン(集音装置)、40:処理回路、41A:学習処理部、40B:評価処理部、40C:推測処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11