特許第6985811号(P6985811)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ OMデジタルソリューションズ株式会社の特許一覧

<>
  • 特許6985811-音声情報取得装置 図000002
  • 特許6985811-音声情報取得装置 図000003
  • 特許6985811-音声情報取得装置 図000004
  • 特許6985811-音声情報取得装置 図000005
  • 特許6985811-音声情報取得装置 図000006
  • 特許6985811-音声情報取得装置 図000007
  • 特許6985811-音声情報取得装置 図000008
  • 特許6985811-音声情報取得装置 図000009
  • 特許6985811-音声情報取得装置 図000010
  • 特許6985811-音声情報取得装置 図000011
  • 特許6985811-音声情報取得装置 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6985811
(24)【登録日】2021年11月30日
(45)【発行日】2021年12月22日
(54)【発明の名称】音声情報取得装置
(51)【国際特許分類】
   H04R 1/08 20060101AFI20211213BHJP
   H04R 3/00 20060101ALI20211213BHJP
   H04R 1/40 20060101ALI20211213BHJP
   H04R 1/02 20060101ALI20211213BHJP
【FI】
   H04R1/08
   H04R3/00 320
   H04R1/40 320A
   H04R1/02 108
【請求項の数】8
【全頁数】17
(21)【出願番号】特願2017-90488(P2017-90488)
(22)【出願日】2017年4月28日
(65)【公開番号】特開2018-191078(P2018-191078A)
(43)【公開日】2018年11月29日
【審査請求日】2020年4月23日
(73)【特許権者】
【識別番号】321001056
【氏名又は名称】OMデジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002907
【氏名又は名称】特許業務法人イトーシン国際特許事務所
(72)【発明者】
【氏名】内田 純一
【審査官】 大石 剛
(56)【参考文献】
【文献】 実開平06−077391(JP,U)
【文献】 特開2007−174488(JP,A)
【文献】 特開昭54−155820(JP,A)
【文献】 実開平05−048491(JP,U)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 1/08
H04R 3/00
H04R 1/40
H04R 1/02
(57)【特許請求の範囲】
【請求項1】
音声を収音するマイクと、
前記マイクを内部に収容する筐体と、
前記筐体の表面に設けられ、表面側に位置するメッシュ状の第1フィルタおよび前記マイクと対向する側に位置するメッシュ状の第2フィルタを含む少なくとも三層のフィルタを有する多層フィルタと、
を備え
前記多層フィルタと前記マイクは、前記多層フィルタによる空気の分散および吸収時に発生する音声ノイズと、前記多層フィルタを通過した音声とが、距離に従って減衰する効果によって定められた距離だけ離間していることを特徴とする音声情報取得装置。
【請求項2】
前記第1フィルタの目開きが前記第2フィルタの目開きより大きく、かつ前記第1フィルタの線径が前記第2フィルタの線径より大きいことを特徴とする請求項に記載の音声情報取得装置。
【請求項3】
前記第1および第2フィルタは金属を用いて構成され、
前記多層フィルタは、
前記第1フィルタと前記第2フィルタとの間に位置し、不織布を用いて構成される第3フィルタを有することを特徴とする請求項1又は2に記載の音声情報取得装置 。
【請求項4】
前記マイクは、無指向性マイクであることを特徴とする請求項1〜のいずれか一項に記載の音声情報取得装置。
【請求項5】
弾性を有し、前記筐体の内部で前記マイクを保持する弾性保持部材をさらに備えたことを特徴とする請求項1〜のいずれか一項に記載の音声情報取得装置。
【請求項6】
前記筐体の表面のうち前記多層フィルタが設けられる表面と反対側の表面に位置し、前記マイクと前記筐体の内部において空間的に隔離されている第2マイクをさらに備えたことを特徴とする請求項1〜のいずれか一項に記載の音声情報取得装置。
【請求項7】
前記第2マイクは、前記マイクと前記筐体の表面に沿って並んでいることを特徴とする請求項に記載の音声情報取得装置。
【請求項8】
前記多層フィルタは、前記筐体の高さ方向の上端部の表面に位置し、
前記筐体は、前記多層フィルタが位置する表面と反対側の表面の高さ方向略中央部に、ユーザが当該筐体を把持する際に指を掛ける指掛け部を有することを特徴とする請求項1〜のいずれか一項に記載の音声情報取得装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声情報を取得する音声情報取得装置に関する。
【背景技術】
【0002】
従来、マイクで音声を録音する際、不要な方向から受けるノイズの影響を低減させる信号処理とマイクの指向性感度とを組み合わせることによって、指向性音声を取得する技術が知られている。例えば、特許文献1には、特定方向以外の方向を向いている主ローブと、関心のある特定方向を向いている副ローブとを含む指向性感度を有する一つまたは複数のマイクを利用し、信号処理回路によって主ローブの方向から受信される音声の影響を低減させる技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2004−536536号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
マイクで音声を録音する際に音声の発声者が半濁音等を発すると、マイクに吹きかかる息の影響により、いわゆるポップノイズが生じることが知られている。しかしながら、上述した従来技術では、ポップノイズの低減については十分に考慮されていなかった。
【0005】
本発明は、上記に鑑みてなされたものであって、ポップノイズを低減した音声情報を取得することができる音声情報取得装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る音声情報取得装置は、音声を収音するマイクと、前記マイクを内部に収容する筐体と、前記筐体の表面に設けられ、表面側に位置するメッシュ状の第1フィルタおよび前記マイクと対向する側に位置するメッシュ状の第2フィルタを含む少なくとも三層のフィルタを有する多層フィルタと、を備え、前記多層フィルタと前記マイクは、前記多層フィルタによる空気の分散および吸収時に発生する音声ノイズと、前記多層フィルタを通過した音声とが、距離に従って減衰する効果によって定められた距離だけ離間している。
【発明の効果】
【0007】
本発明によれば、ポップノイズを低減した音声情報を取得することができる。
【図面の簡単な説明】
【0008】
図1図1は、本発明の実施の形態1に係る音声情報取得装置の正面側の外観を示す斜視図である。
図2図2は、本発明の実施の形態1に係る音声情報取得装置の背面側の外観を示す斜視図である。
図3図3は、本発明の実施の形態1に係る音声情報取得装置の収音部の構成を示す部分断面図である。
図4図4は、音声が空気の流れとして多層フィルタを通過する様子を模式的に示す図である。
図5図5は、本発明の実施の形態1に係る音声情報取得装置の構造上の利点を説明する図である。
図6図6は、本発明の実施の形態1に係る音声情報取得装置を備えた音声処理システムの機能構成を示すブロック図である。
図7図7は、音声情報処理装置のドキュメント化部が作成するドキュメントの構成を模式的に示す図である。
図8図8は、音声処理システムが実行する処理の概要を示すフローチャートである。
図9図9は、本発明の実施の形態1の変形例1に係る音声情報取得装置の要部の構成を示す部分断面図である。
図10図10は、本発明の実施の形態1の変形例2に係る音声情報取得装置の要部の構成を示す部分断面図である。
図11図11は、本発明の実施の形態2に係る音声情報取得装置の要部の構成を示す部分断面図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明を実施するための形態(以下、「実施の形態」という)を説明する。なお、図面はあくまでも模式的なものに過ぎない。
【0010】
本発明の実施の形態に係る音声情報取得装置は、音声を収音するマイクと、マイクを内部に収容する筐体と、筐体の表面に設けられ、表面側に位置するメッシュ状の第1フィルタおよびマイクと対向する側に位置するメッシュ状の第2フィルタを含む少なくとも三層のフィルタを有する多層フィルタとを備える。多層フィルタとマイクは、多層フィルタによる空気の分散および吸収時に発生する音声ノイズと、多層フィルタを通過した音声とが、距離に従って減衰する効果によって定められた距離だけ離間している。この音声情報取得装置は、例えば医療用途に適用され、医師等のユーザが診断結果を見ながら患者のカルテを作成するために音声入力を行う際に利用される。この際、ユーザは音声情報取得装置を手で把持してマイクに向けて音声を入力する。なお、本実施の形態に係る音声情報取得装置は、医療用途以外の用途にも適用可能である。
【0011】
(実施の形態1)
図1は、本発明の実施の形態1に係る音声情報取得装置の正面側の外観を示す斜視図である。図2は、本実施の形態1に係る音声情報取得装置の背面側の外観を示す斜視図である。図1および図2に示す音声情報取得装置1は、装置外部で発生した音声を収音して音声情報を生成する装置である。音声情報取得装置1は、筐体2と、収音部3と、操作部4と、接続コード5とを備える。
【0012】
筐体2は、正面側の第1筐体21と、背面側の第2筐体22とを含む構造体であり、収音部3や音声情報取得装置1の機能を実現するための各種電子部品を内部に収容している。図1に示すように、筐体2は略直方体形状をなしており、ユーザの手によって把持された状態で縦長に延びる形状をなしている。筐体2は、ユーザが手で把持した状態で高さ方向(図1および図2の上下方向)の略半分が手のひらに収まる程度の大きさを有する。また、筐体2は、ユーザが第1筐体21の正面2aに親指を添えた状態で第2筐体22の背面2bを人差し指から小指を添えて把持できる程度の厚さを有する。
【0013】
第2筐体22の高さ方向の略中央部には、ユーザが筐体2を手で把持する際に指を掛ける指掛け部6が設けられている。図2に示すように、指掛け部6は、高さ方向に沿って上方から下方に2つの凹部61、62を有する。ユーザは、この2つの凹部61、62に親指以外の指を適宜掛けることによって第1筐体21の正面2aに置く親指とともに筐体2を把持する。
【0014】
なお、筐体2は、第1筐体21および第2筐体22の2つの部材からなる構造体に限定されず、三つ以上の部材を組み合わせた構造体であってもよい。例えば、収音部3の形状を構成するフレーム部材(フィルタ用フレーム)などが筐体2に含まれてもよい。また、第1筐体21の正面2a側の形状は、図1における高さ方向に沿って湾曲面状をなしてもよいし、平面状をなしてもよい。
【0015】
収音部3は、筐体2の高さ方向の上端部に設けられており、音声を収音する機能を有する。収音部3は、音声に含まれるノイズを含む各種ノイズを除去する多層フィルタ7と、筐体2の内部に収容されており、多層フィルタ7を介して伝搬する音声を収音するマイク8とを含む。収音部3の詳細構成については、図4を参照して後述する。
【0016】
操作部4は、筐体2の正面2a側に設けられた複数のボタンにより構成されている。これらのボタンには、例えば録音ボタンや、再生ボタンなどが含まれる。図1に示すように、操作部4は、第1筐体21から正面2aよりも突出するボタンであって、高さ方向で第1筐体21の中央部付近に複数個配置されている。ユーザは、筐体2を把持した状態で、正面2a側の操作部4に添えた親指によって操作部4を操作する。なお、第2筐体22の2つの凹部61、62の少なくともいずれか一方に、操作部4の一部を構成するボタン等の部材を設けてもよい。
【0017】
接続コード5は、外部の装置に接続され、音声情報を外部の装置に出力するとともに、外部の装置からの信号を受信する。なお、音声情報取得装置1は、無線により外部の装置と通信可能に接続する構成としてもよい。
【0018】
図3は、音声情報取得装置1の収音部3の構成を示す部分断面図である。図3に示すように、収音部3は、第1筐体21の正面2aに取り付けられた三層構造の多層フィルタ7と、筐体2の内部に形成された収容部31に取り付けられたマイク8とを有する。図3では、ユーザの口Mから発せられる音声の進行方向を矢印で示している。この進行方向は、第1筐体21の正面2aに対して約45度をなす角度である。また、図3では、親指F1と人差し指F2を図示することによってユーザが把持している状態であることを示している。
【0019】
多層フィルタ7は、音声情報取得装置1の外表面(正面2a側の外表面)の一部を構成する第1フィルタ71と、マイク8と対向する第2フィルタ72と、第1フィルタ71と第2フィルタ72との間に位置する第3フィルタ73と、を有する。多層フィルタ7は、ユーザが発する破裂音に伴って収音部3に吹き込まれてくる空気の流れの一部をせき止め、その一部を分散させたり吸収したりすることにより、マイク8に対して空気が直接的に衝突することによって生じるノイズを抑える機能を有する。
【0020】
第1フィルタ71は、シート状の金属製のメッシュを用いて構成されており、音声情報取得装置1の外表面の一部をなしている。このため、第1フィルタ71にはユーザの手が触れることによって手の脂(皮脂)が付着することがある。第1フィルタ71を構成するメッシュを構成する線の線径が細く、かつ隣り合う線同士の隙間の大きさである目開きが小さすぎると、付着した皮脂による汚れが目立ってしまうおそれがある。そこで、第1フィルタ71は、皮脂の汚れが目立たない程度の目開きを有していることが好ましい。また、第1フィルタ71は外表面の一部を構成するため、適度な強度も必要である。以上の点に鑑みて、第1フィルタ71を構成するメッシュの線径と目開きが設定される。なお、第1フィルタ71は平らなシート状でなくでもよく、例えば筐体2の上端部において、正面側から上端面側に延びるように曲がったシート状をなしていてもよい。
【0021】
第2フィルタ72は、第1フィルタ71と同様にシート状の金属製のメッシュを用いて構成されている。第2フィルタ72のメッシュの目開きは第1フィルタ71の目開きよりも小さく、第2フィルタ72の線径は第1フィルタ71の線径よりも小さい。また、第2フィルタ72の単位面積当たりの線径と線の本数との積は、第1フィルタ71の同じ積よりも小さい。一般に、メッシュの目開きが小さいほどポップノイズの除去効果が高い。したがって、第2フィルタ72は、第1フィルタ71よりもポップノイズの除去効果が高いフィルタであるということができる。
【0022】
第3フィルタ73は、不織布を用いて構成されており、第1フィルタ71および第2フィルタ72よりも厚いシート状のフィルタである。第3フィルタ73は、厚いほどポップノイズの低減効果が大きい。第3フィルタ73は、第1フィルタ71とは離間している一方、第2フィルタ72とは接触(密着)している。第1フィルタ71を通過した際に分散された空気は、第3フィルタ73に衝突する。なお、第1フィルタ71と第3フィルタ73は接触していてもよい。この結果、第3フィルタ73は空気の衝突によるエネルギーを吸収して衝突音を減衰させる。第3フィルタ73の積層方向の厚さが1mm以下、より好ましくは0.9mm程度である場合、マイク8の周波数特性および感度にほとんど影響が生じないことが確かめられている。なお、第3フィルタ73の主面の大きさは、第2フィルタ72の主面の大きさと同じであってもよいし、第2フィルタ72の主面の大きさと異なっていてもよい。
【0023】
第2フィルタ72と第3フィルタ73は、第1筐体21の高さ方向の上部に形成された四角形状のフィルタ収容用凹部21aに取り付けられている。フィルタ収容用凹部21aは、第1筐体21の正面2aよりもマイク8側に凹んでいる。なお、フィルタ収容用凹部21aは四角形状に限定されない。すなわち、第2フィルタ72および第3フィルタ73は四角形状のシートに限定されない。
【0024】
なお、多層フィルタ7は少なくとも三層を有していればよく、第1フィルタ71と第2フィルタ72との間にさらに別の層を有していてもよい。また、第1フィルタ71と第2フィルタ72の目開きの大小関係が逆であってもよい。すなわち、第1フィルタ71の目開きが第2フィルタ72の目開きより小さい場合にも、上述した多層フィルタ7と同等の性能を得ることができる。
【0025】
マイク8は、無指向性マイクであって、外部から多層フィルタ7を介して伝わる音声を収音する。マイク8は、収容部31の内部で振動板が筐体2(第1筐体21)の正面2a側を向いた状態で配置されている。筐体2の厚さ方向(図4の左右方向)において、マイク8は多層フィルタ7から離間した位置であって、相対的に第2筐体22の背面2b側に位置するように設けられている。マイク8には長さ方向で上下に弾性保持部材9が取り付けられている。図4に示す例では、マイク8が筐体2の長さ方向に沿って配置され、多層フィルタ7とその高さ方向に平行に配置されている。例えば、マイク8に含まれる振動板が筐体2の長さ方向に沿って平行に配置されている。すなわち、マイク8は、多層フィルタ7と振動板とを最短距離で結ぶ線が振動板と直交するように配置されている。なお、マイク8は指向性を有していてもよい。
【0026】
多層フィルタ7とマイク8とは、収容部31において所定距離Zdだけ離間している。以下、この所定距離Zdをマイク深さという。マイク深さZdは、10〜20mmである。これにより、収音部3によるポップノイズを精度よく除去することができるとともに、筐体2の大型化を抑制することができる。マイク深さZdが15〜20mmであれば、ポップノイズの低減効果が一段と向上することが確かめられており、さらに好ましい。多層フィルタ7は、ユーザが発する破裂音に伴って収音部3に吹き込まれてくる空気の流れの一部をせき止め、その一部を分散させたり吸収したりすることにより、マイク8に対して空気が直接的に衝突することによって生じるノイズを抑える機能を有する。この際に多層フィルタ7が振動、変形等することによって生じる音が減衰する距離がマイク深さZdに相当する。収音部3の開口(第3フィルタ73のサイズで規定してもよい)が10mm×30mm程度で、ユーザの口と音声情報取得装置1の距離が10cm程度離れている場合は、この距離(10cm)程度のマイク深さZdを有しているのが好ましい。この距離は大きければ大きいほどよいが、あまり大きすぎると、多層フィルタ7を通過して来る声の振動そのものが減衰するだけでなく、機器も大型化するので、それらの点に鑑みて距離が設定されるのが好ましい。ここで、第3フィルタ73の孔が小さい方がエネルギー分散効果が大きく、高周波で振動して、距離に従ってノイズ音の減衰効果を大きくすることができる。また、第3フィルタ73の孔が小さいほど、マイク深さZdを小さくすることができ、省スペースでポップ音対策を有効に行うことが可能となる。想定されるユーザの息づかいにもよるが、マイク深さZd(多層フィルタ7とマイク8との離間距離)は、フィルタ孔径の100〜500倍に設定すれば有効な効果が得られることがわかっているので、この範囲の値での設計を行うとよい。例えば、第3フィルタ73の孔が約50μm(開口率28%程度)のものを適用することが想定される。このような第3フィルタ73を適用することにより、ポップ音の原因となる呼気の一部が遮られて、マイク8に到達するまでのエネルギーを抑えることができる。
【0027】
弾性保持部材9は、マイク8を保持して筐体2に固定する部材であって、筐体2の振動がマイク8に伝達することを抑制するための部材である。筐体2からマイク8に伝達する振動には、筐体2に加わる衝撃だけではなく、筐体2を伝播する音が含まれる。筐体2を伝播する音には、ユーザが筐体2の外表面(正面2aや背面2bや側面)を擦った際に生じる音に起因する、いわゆるタッチノイズが含まれる。弾性保持部材9はタッチノイズを吸収して、マイク8にタッチノイズが収音されることを抑制する。
【0028】
なお、図3では弾性保持部材9をばね状に記載しているが、これは模式的なものであり、中空円筒状の弾性部材を収容部31に取り付けるとともに、その部材の中空部にマイク8をはめ込むような構成としてもよい。また、弾性保持部材9は、収容部31内でマイク8が多層フィルタ7から所定距離だけ離間した位置に配置可能であれば、第1筐体21に取り付けられてもよい。
【0029】
また、タッチノイズの発生を抑制するために、筐体2の外表面を紫外線硬化樹脂などの被膜によってコーティングしてもよい。これにより、筐体2の外表面が円滑化し、その外表面上をユーザの指先が摺動してもタッチノイズの発生を抑制することができる。
【0030】
図4は、音声が空気の流れとして多層フィルタ7を通過する様子を模式的に示す図である。図4に示すように、ユーザが発した音声を伝える疎密波は、空気の流れ(気流)として第1フィルタ71を通過することによってポップノイズが低減される。第1フィルタ71を通過した空気は分散して衝突する。この衝突が起こる箇所には第3フィルタ73が存在しているため、第3フィルタ73が気流の衝突エネルギーを吸収して衝突音を減衰させる。第3フィルタ73を通過した空気は第2フィルタ72によってさらにポップノイズが低減される。第2フィルタ72とマイク8とはマイク深さZdだけ離間しているため、マイク8が収音する音声は気流の乱れが減衰している。マイク深さZdは、破裂音等発生時の呼気の多層フィルタ7による分散および吸収時に発生する音声ノイズと、多層フィルタ7を通過した人の声の音声とが、距離に従って減衰する効果によって定められる。すなわち、マイク深さZdとして、声が減衰せず、ポップノイズが十分に減衰する距離を選んでもよい。なお、ここでは、上述した分散効果による声の減衰は無視できるものとしている。
【0031】
次に、図5の(a)〜(c)を参照して、以上の構成を有する音声情報取得装置1の構造上の利点を説明する。図5の(a)に示すように、ユーザが音声を録音するために音声情報取得装置1を手に持って音声を発する場合、音声情報取得装置1の音声入力位置すなわちち多層フィルタ7の位置をユーザの口の前方付近の近傍に位置させるとともに、手首を曲げない姿勢で把持しているのが最も自然な状態である。このとき、ユーザが音声情報取得装置1を把持している手は、ユーザの胸と同じほぼ高さに位置している。この場合、ユーザの口から発せられた音声に対応する疎密波は、多層フィルタ7に向けて第1筐体21の正面2aに対してほぼ正面から入射する。したがって、上述したように、音声情報取得装置1は、高さ方向の上端部に多層フィルタ7(収音部3)が位置しているため、ユーザが自然で負担の少ない姿勢を保ちながら音声入力を行うことを可能にしている。
【0032】
これに対して、多層フィルタ7(収音部3)が設けられている位置によっては、ユーザが不自然な姿勢を取らざるを得ない場合がある。例えば、図5の(b)に示すように、収音用フィルタ7Aが筐体の上面に設けられた音声情報取得装置1Aの場合、ユーザは収音用フィルタ7Aが口と対向するように筐体上部を自らに近づけ、反対に筐体下部を遠ざけるように音声情報取得装置1Aを傾けて収音用フィルタ7Aに向けて音声を発することになる。この場合、ユーザは音声情報取得装置1Aを傾けて把持しなければならず、手首やひじに負担のかかる姿勢を取らなければならない。また、図5の(c)に示すように、収音用フィルタ7Bが筐体の前面の高さ方向略中央部に設けられた音声情報取得装置1Bの場合にも、ユーザは収音範囲に口が入るように不安定な持ち方を強いられることとなり、ユーザへの負担が大きい。
【0033】
このように、本実施の形態1に係る音声情報取得装置1は、収音部3をユーザの把持態様に応じて負担の少ない適切な位置に設けているため、人間工学的にも優れた構造上の特性を有している。
【0034】
図6は、音声情報取得装置1が取得した音声情報をテキスト情報に変換することによってドキュメント化する音声処理システムの機能構成を示すブロック図である。同図に示す音声処理システムSYSは、音声情報取得装置1と、音声情報取得装置1と通信可能に接続され、音声情報に対応するテキスト情報を含むドキュメントを生成する音声情報処理装置100とを備える。音声処理システムSYSは、例えば医師等のユーザが音声情報取得装置1に音声を入力し、その音声情報に基づいてカルテとして活用可能なドキュメントを作成する。音声処理システムSYSは、音声の入力と並行して取得した音声情報をテキスト情報に変換する機能を有してもよい。
【0035】
まず、音声情報取得装置1の機能構成を説明する。音声情報取得装置1は、収音部3と、操作部4と、姿勢検出部11と、通信部12と、制御部13と、記録部14とを備える。
【0036】
姿勢検出部11は、音声情報取得装置1の姿勢を検出する。姿勢検出部11は、例えば加速度センサを用いて構成されている。
【0037】
通信部12は、音声情報処理装置100との間で情報の送受信を行う。通信部12は、制御部13の制御のもと、音声情報を音声情報処理装置100へ送信する。上述した図1等に示す音声情報取得装置1は接続コード5を備えるため、通信部12は接続コード5を介して音声情報処理装置100に情報を送信する。なお、通信部12が無線によって音声情報処理装置100と通信可能な構成としてもよい。
【0038】
制御部13は、音声情報取得装置1の動作を制御する。制御部13は、CPU(Central Processing Unit)等の汎用プロセッサまたはASIC(Application Specific Integrated Circuit)もしくはFPGA(Field Programmable Gate Array)等の特定の機能を実行する専用の集積回路等を用いて構成される。制御部13は、必要に応じて、人工知能の回路を含んでいてもよく、深層学習等の機械学習の結果を利用した制御を行ってもよい。音声情報取得装置1が有する各種機能は、専用の回路やプログラムが連携して特定のシーケンス制御で各種制御を行う回路を用いて実現される。また、制御部13が人工知能の回路を含む場合には、機械学習の結果を利用した制御を行う機能を有する。例えば、制御部13は、機械学習を行うことによって精度を高めた音声情報を取得することも可能である。
【0039】
記録部14は、多層フィルタ7に関する情報であるフィルタ情報14aを記録している。また、記録部14は、制御部13が動作を制御するための各種プログラムを記録する。記録部14は、例えば、RAM(Random Access Memory)等の揮発性メモリおよびROM(Read Only Memory)等の不揮発性メモリを用いて構成される。このうち、RAMは、収音部3が収音した音声情報を一時的に記憶してもよい。なお、外部から装着可能なメモリカード等のコンピュータ読み取り可能な記録媒体を用いて記録部14を構成してもよい。
【0040】
次に、音声情報処理装置100の機能構成を説明する。音声情報処理装置100は、通信部101と、時計部102と、音声出力部103と、表示部104と、制御部105と、記録部106と、を備える。
【0041】
通信部101は、音声情報取得装置1の通信部12との間で情報の送受信を行う。通信部101は、受信した音声情報を制御部105に送信する。
【0042】
時計部102は、通信部101が音声情報を受信した日時を制御部105に送信する。時計部102により記録された日時は、制御部105によって音声情報と関連付けられて記録部106に記録される。
【0043】
音声出力部103は、音声を出力するスピーカ等を用いて構成される。なお、音声出力部103を音声情報処理装置100と別の構成としてもよい。
【0044】
表示部104は、ドキュメント化部105bにより作成されたドキュメント150に対応する情報を表示する。表示部104は、例えば液晶または有機EL(Electro Luminescence)等からなる表示パネルを用いて構成される。なお、表示部104を音声情報処理装置100と別の構成としてもよい。
【0045】
制御部105は、音声情報処理装置100の動作を制御する。制御部105は、音声処理部105aと、ドキュメント化部105bとを有する。
【0046】
音声処理部105aは、通信部101が受信した音声情報に対してノイズ除去処理等の音声処理を実施する。例えば、音声処理部105aは、音声情報に風切音などの環境音が含まれているか否かを判別し、音声情報をテキスト情報に変換する際に不要な環境音などのノイズを音声情報から除去する。
【0047】
ドキュメント化部105bは、音声処理部105aによってノイズ処理が施された音声情報をテキスト情報に変換し、所定のフォーマットにしたがってドキュメントを作成する。図7は、ドキュメント化部105bが作成するドキュメントの構成を模式的に示す図である。同図に示すドキュメント150には「患者」、「年齢」、「性別」、「部位」、「所見」、「日付」などの複数の項目151が含まれる。ドキュメント化部105bが作成したドキュメント150は、記録部106に格納される。ドキュメント化部105bは、記録部106に格納されている音声テキスト化辞書106aを用いることにより、音声情報をテキスト情報に変換する。
【0048】
制御部105は、CPU等の汎用プロセッサまたはASICもしくはFPGA等の特定の機能を実行する専用の集積回路等を用いて構成される。制御部105は、必要に応じて、人工知能の回路を含んでいてもよく、深層学習等の機械学習の結果を利用した制御を行ってもよい。音声情報処理装置100が有する各種機能は、専用の回路やプログラムが連携して特定のシーケンス制御で各種制御を行う回路を用いて実現される。また、制御部105が人工知能の回路を含む場合には、機械学習の結果を利用した制御を行う機能を有する。例えば、制御部105は、機械学習を行うことにより、記録部106が記録している音声テキスト化辞書106aの単語を登録し、語彙を増やしてもよい。
【0049】
記録部106は、制御部105による各種の処理に用いられる情報や、通信部101が受信した音声情報等を記録している。記録部106には、音声テキスト化辞書106aと、フォーマット情報106bと、ドキュメント記録106cと、音声処理テーブル106dとが格納されている。
【0050】
音声テキスト化辞書106aは、上述したように、ドキュメント化部105bが音声情報をテキスト情報に変換する際に参照される。音声テキスト化辞書106aには、日常会話で使われる単語に対応する辞書が含まれている。また、音声処理システムSYSを医療用途で使用する場合、音声テキスト化辞書106aには予め医療用語が含まれている。
【0051】
フォーマット情報106bは、ドキュメント化部105bがドキュメント150を作成する際に参照するフォーマットの情報である。フォーマット情報106bには、項目151に関する情報などが含まれる。
【0052】
ドキュメント記録106cは、ドキュメント化部105bが作成したドキュメント150を記録する。ドキュメント記録106cは、分類可能な態様で記録されていてもよい。例えば、音声処理システムSYSを医療用途に適用する場合、記録部106は、患者や診察日等の項目毎にドキュメント150を関連付けてドキュメント記録106cを構成してもよい。
【0053】
音声処理テーブル106dは、通信部101が受信した音声情報の処理状況を示すテーブルである。音声処理テーブル106dには、例えば音声情報からテキスト情報への変換の進捗状況を示す状況や、ドキュメント作成の進捗状況を示す情報などが含まれる。
【0054】
以上の構成を有する音声情報処理装置100は、1または複数のコンピュータを用いて構成される。音声情報処理装置100が複数のコンピュータを用いて構成される場合には、複数のコンピュータを有線で互いに通信可能に接続していてもよいし、通信ネットワークを介して互いに通信可能に接続してもよい。
【0055】
図8は、音声処理システムSYSが実行する処理の概要を示すフローチャートである。まず、音声情報取得装置1では、制御部105が録音を実施するか否かを判定する(ステップS1)。録音を実施すると判定した場合(ステップS1:Yes)、音声情報取得装置1は音声情報の入力を受け付ける(ステップS2)。音声情報取得装置1の通信部12は、制御部13の制御のもと、取得した音声情報を音声情報処理装置100に送信する。
【0056】
続いて、音声情報を受信した音声情報処理装置100では、音声処理部105aが音声情報に対してノイズ除去処理を行う(ステップS3)。
【0057】
その後、音声情報処理装置100の制御部105は、ステップS3でノイズ除去した音声情報をテキスト情報に変換可能であるか否かを判定する(ステップS4)。判定の結果、音声情報をテキスト情報に変換可能である場合(ステップS4:Yes)、ドキュメント化部105bは音声情報をテキスト情報に変換する処理を行う(ステップS5)。
【0058】
続いて、制御部105は、ドキュメントに含まれる項目のうちテキスト情報が該当する項目を判別可能であるか否かを判定する(ステップS6)。テキスト情報が該当する項目を判別可能である場合(ステップS6:Yes)、ドキュメント化部105bは、フォーマット情報106bを参照して該当する項目にテキスト情報を入力することにより、ドキュメントを作成するドキュメント化の処理を行う(ステップS7)。
【0059】
この後、ドキュメント化部105bは、ドキュメント化の処理を終了するか否かを判定する(ステップS8)。この際、ドキュメント化部105bは、フォーマット情報106bに含まれるすべての項目へのテキスト情報の入力状況に基づいてドキュメント化の処理を終了するか否かを判定する。ドキュメント化の処理を終了すると判定した場合(ステップS8:Yes)、ドキュメント化部105bは作成したドキュメントを記録部106に記録する(ステップS9)。図7に示すドキュメント150は、ドキュメント化部105bが作成を完了したドキュメントの一例を示しており、全ての項目に対応するテキストが書き込まれた状態を示している。ステップS9の後、音声処理システムSYSは一連の処理を終了する。
【0060】
ステップS1において、制御部105が録音を実施しないと判定した場合(ステップS1:No)、音声情報処理装置100の音声出力部103は、受信した音声の再生を行う(ステップS10)。その後、音声処理システムSYSはステップS1に戻る。なお、ここでは音声の再生を行う場合を説明したが、音声処理システムSYSが他の処理を行うようにしてもよい。
【0061】
ステップS4において、制御部105が音声情報をテキスト情報に変換可能ではないと判定した場合(ステップS4:No)、制御部105は表示部104にテキスト化ができない旨の警告(エラー情報を含む)を表示させる(ステップS11)。なお、音声出力部103が音声によって警告を出力するようにしてもよい。ステップS11の後、音声処理システムSYSは、ステップS2に戻る。
【0062】
ステップS6において、制御部105が、ドキュメントに含まれる項目のうちテキスト情報が該当する項目を判別可能でないと判定した場合(ステップS6:No)、制御部105は表示部104に該当項目を判別できない旨の警告(エラー情報を含む)を表示する(ステップS12)。なお、このステップS12においても、音声出力部103が音声によって警告を出力するようにしてもよい。ステップS12の後、音声処理システムSYSは、ステップS2に戻る。
【0063】
ステップS8において、ドキュメント化部105bがドキュメント化の処理を終了しないと判定した場合(ステップS8:No)、すなわちドキュメントの項目でテキスト情報が入力されていない項目がある場合、音声処理システムSYSはステップS2に戻る。
【0064】
以上のフローチャートの説明では、「まず」、「この後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、処理の順序は、それらの表現によって一義的に定められるわけではない。すなわち、図8に記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。
【0065】
以上説明した本発明の実施の形態1によれば、筐体2の表面に設けられ、表面側に位置するメッシュ状の第1フィルタ71およびマイク8と対向する側に位置するメッシュ状の第2フィルタ72を含む少なくとも三層のフィルタを有する多層フィルタ7を備えているため、ポップノイズを低減した音声情報を取得することができる。
【0066】
また、本実施の形態1によれば、第1フィルタの目開きが第2フィルタの目開きよりも大きいため、表面の第1フィルタが皮脂による汚れを目立たなくすることができる。
【0067】
また、本実施の形態1によれば、多層フィルタ7を設けることにより、取得対象である音声以外に環境音等のノイズが存在する環境下であっても、鮮明な音声を取得することができる。
【0068】
また、本実施の形態1によれば、音声情報取得装置1が正確な音声情報を取得することができるため、音声情報処理装置100が精度の高い文字情報に変換してドキュメントを作成することが可能となる。
【0069】
(変形例)
図9は、実施の形態1の変形例1に係る音声情報取得装置の要部の構成を示す部分断面図である。同図に示す音声情報取得装置1Cは、多層フィルタ7が筐体2Cの高さ方向に対して傾斜して配置されている。音声情報取得装置1Cにおいて、第1筐体21Cには、多層フィルタ7が斜め上方を向くように取り付けられるフィルタ収容用凹部21Caが形成されている。具体的には、多層フィルタ7は、高さ方向と平行な正面2Caに対して約45度傾斜している。収容部31C内部におけるマイク深さZdは、上述した図4に示す音声情報取得装置1と同じである。
【0070】
図10は、実施の形態1の変形例2に係る音声情報取得装置の要部の構成を示す部分断面図である。同図に示す音声情報取得装置1Dは、図9に示す音声情報取得装置1Cとはマイク8の振動板が向いている方向が異なる。音声情報取得装置1Dでは、マイク8の振動板が筐体2Dの第1筐体21Dの正面2Daに対して傾斜しており、第1筐体21Dのフィルタ収容用凹部21Daに取り付けられた多層フィルタ7のフィルタ主面と平行に対向している。収容部31D内部におけるマイク深さZdは、上述した音声情報取得装置1および1Cと同じである。
【0071】
以上説明した変形例が、上述した実施の形態1と同様の効果を奏することは言うまでもない。
【0072】
(実施の形態2)
次に、本発明の実施の形態2を説明する。本実施の形態2に係る音声情報取得装置は、上述した実施の形態1とは異なり、2つのマイクによって音声を収音する。なお、以下の説明において、上述した実施の形態1と同様の構成については説明を省略し、その参照符号を引用する。
【0073】
図11は、本実施の形態2に係る音声情報取得装置の要部の構成を示す部分断面図である。図11に示す音声情報取得装置201において、収音部203は、多層フィルタ7と、筐体202の正面202a側を向く無指向性のマイク8と、筐体202の背面202b側に振動板を向けて配置されたマイク(第2マイク)15とを備える。収音部203は、マイク8および15がそれぞれ取得した音声を用いて音声情報を生成する。
【0074】
マイク15は、筐体202の背面202b側に回り込んだ発声者の音声を収音するとともに、音声情報取得装置201の周囲の環境音などのノイズを除去する機能も有する。マイク15は、第2筐体222の収容凹部222aによって収容部231とは空間的に隔離されており、収容部231の内部を伝播する音声は収音しない。マイク15は、マイク8と合わせて全体で指向性を確保している。
【0075】
図11に示すように、マイク15は収容凹部222aの内部に収容されている。マイク15は、マイク8よりも高さ方向で下側に位置しており、高さ方向に沿ってマイク8と並んで配置されている。これにより、筐体202の厚さを薄くすることが可能である。
【0076】
収容凹部222aは、筐体202の背面202b側から正面202a側に凹んだ形状を有する。収容凹部222aには、マイク15用のフィルタ(以下「背面フィルタ」という)16が取り付けられている。背面フィルタ16は筐体202の背面202bに沿った形状をなす。背面フィルタ16は、多層フィルタ7とは異なる素材により構成されている。なお、背面フィルタを多層フィルタ7と同様の構成にしてもよい。
【0077】
収容凹部222aの内部において、マイク15は弾性保持部材17によって保持されている。弾性保持部材17は、収容凹部222aに嵌合した中空円柱状の部材であり、その中空部にマイク15を保持している。なお、収容凹部222aの枠を設けて2つのマイクを筐体内で空間的に隔離する代わりに、ポリエステル系ポリウレタンフォーム等の吸音性に優れた部材を筐体202の内部に設けることによってマイク8とマイク15を空間的に隔離し、筐体202の内部を通過する音声がマイク15に収音されることがないように遮蔽するようにしてもよい。
【0078】
以上の構成を備えた音声情報取得装置201は、実施の形態1で説明した音声情報処理装置100とともに、本実施の形態2に係る音声処理システムを構成する。本実施の形態2において、音声情報処理装置100は、音声処理部105aにおいて、マイク15が取得した音声情報を用いて環境音等の外部ノイズを除去するとともに、マイク8とマイク15の位置関係に基づいて定まる位相差に基づいて2つの音声情報を合成することによって1つの合成音声情報を作成する。また、ドキュメント化部105bは、この合成音声情報をテキスト情報に変換してドキュメントを作成する。記録部106には、音声処理部105aが2つの音声情報を合成する際に参照する2つの音声情報の位相差情報等が記録されている。
【0079】
以上説明した本発明の実施の形態2によれば、実施の形態1と同様、ポップノイズを低減した音声情報を取得することができる。
【0080】
また、本実施の形態2によれば、背面側にマイク15をさらに備えたことにより、外部ノイズを確実に除去し、一段と明瞭な音声情報(合成音声情報)を取得することが可能になる。その結果、音声情報のテキスト情報への変換を一段と精度よく行うことが可能となる。
【0081】
(その他の実施の形態)
ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態によってのみ限定されるべきものではない。例えば、音声情報処理装置100が作成したドキュメントを、通信ネットワークを介して外部サーバなどに送信することにより、その外部サーバ内に保存するようにしてもよい。
【0082】
また、音声情報取得装置が、音声情報処理装置が有する機能の少なくとも一部を具備してもよい。例えば、音声情報取得装置が音声情報をテキスト情報に変換する機能を有していてもよいし、さらにドキュメントを作成する機能を有していてもよい。
【0083】
また、本明細書においてフローチャートを用いて説明した処理のアルゴリズムは、プログラムとして記述することが可能である。このようなプログラムは、コンピュータ内部の記憶部が記憶してもよいし、コンピュータ読み取り可能な記録媒体に記録してもよい。プログラムの記憶部の記憶または記録媒体への記録は、コンピュータまたは記録媒体を製品として出荷する際に行ってもよいし、通信ネットワークを介したダウンロードにより行ってもよい。
【0084】
このように、本発明は、ここでは記載していない様々な実施の形態を含みうるものであり、特許請求の範囲によって特定される技術的思想の範囲内で種々の設計変更等を行うことが可能である。
【符号の説明】
【0085】
1、1A、1B、1C、1D、201…音声情報取得装置;2、2C、2D、202…筐体;3、3C、3D、203…収音部;4…操作部;6…指掛け部;7…多層フィルタ;8、15…マイク;9、17…弾性保持部材;16…背面フィルタ;100…音声情報処理装置;SYS…音声処理システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11