IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラ株式会社の特許一覧

特開2024-138563音処理方法、音処理装置及び音処理プログラム
<>
  • 特開-音処理方法、音処理装置及び音処理プログラム 図1
  • 特開-音処理方法、音処理装置及び音処理プログラム 図2
  • 特開-音処理方法、音処理装置及び音処理プログラム 図3
  • 特開-音処理方法、音処理装置及び音処理プログラム 図4
  • 特開-音処理方法、音処理装置及び音処理プログラム 図5
  • 特開-音処理方法、音処理装置及び音処理プログラム 図6
  • 特開-音処理方法、音処理装置及び音処理プログラム 図7
  • 特開-音処理方法、音処理装置及び音処理プログラム 図8
  • 特開-音処理方法、音処理装置及び音処理プログラム 図9
  • 特開-音処理方法、音処理装置及び音処理プログラム 図10
  • 特開-音処理方法、音処理装置及び音処理プログラム 図11
  • 特開-音処理方法、音処理装置及び音処理プログラム 図12
  • 特開-音処理方法、音処理装置及び音処理プログラム 図13
  • 特開-音処理方法、音処理装置及び音処理プログラム 図14
  • 特開-音処理方法、音処理装置及び音処理プログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024138563
(43)【公開日】2024-10-08
(54)【発明の名称】音処理方法、音処理装置及び音処理プログラム
(51)【国際特許分類】
   H04M 1/72442 20210101AFI20241001BHJP
   G06F 3/16 20060101ALI20241001BHJP
【FI】
H04M1/72442
G06F3/16 650
G06F3/16 620
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2024118774
(22)【出願日】2024-07-24
(62)【分割の表示】P 2023575207の分割
【原出願日】2023-01-10
(31)【優先権主張番号】P 2022008227
(32)【優先日】2022-01-21
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100132045
【弁理士】
【氏名又は名称】坪内 伸
(74)【代理人】
【識別番号】100203264
【弁理士】
【氏名又は名称】塩川 未久
(72)【発明者】
【氏名】金岡 利知
(72)【発明者】
【氏名】長尾 正太郎
(72)【発明者】
【氏名】大角 耕介
【テーマコード(参考)】
5K127
【Fターム(参考)】
5K127AA36
5K127BA03
5K127BB02
5K127CA08
5K127CA27
5K127CB22
5K127CB33
5K127CB37
5K127GA02
5K127GD03
5K127HA11
5K127KA04
5K127KA17
(57)【要約】
【課題】改善された、音声処理装置、音声処理方法及び音声処理システムを提供する。
【解決手段】
音声処理装置は、制御部を備える。制御部は、音声データに対して音声を認識する音声認識処理の結果を取得する。制御部は、音声に関して予め設定された設定条件を満たす音声を音声認識処理の結果に基づいて検出した場合、設定条件に設定された検出された音声に対応する通知条件に応じて、設定条件を満たす音声が検出されたことをユーザに通知する。
【選択図】図2
【特許請求の範囲】
【請求項1】
蓄積部が、マイクが集音したユーザの周囲の音を蓄積することと、
制御部が、前記周囲の音から条件を満たす音を検出した場合に、通知条件に応じて通知手段に前記ユーザに対して通知をさせることと、を含む、
音処理方法。
【請求項2】
前記通知手段は、通知音を出力するスピーカ又は視覚情報を呈示する表示部である、
請求項1に記載の音処理方法。
【請求項3】
前記制御部は、音声認識の結果に基づいて前記条件を満たす音を検出したか否かを判定する、
請求項1に記載の音処理方法。
【請求項4】
前記条件は、前記ユーザによって設定され、前記ユーザに対して表示される、
請求項1から3までの何れか一項に記載の音処理方法。
【請求項5】
マイクが集音したユーザの周囲の音を蓄積する蓄積部と、
前記周囲の音から条件を満たす音を検出した場合に、通知条件に応じて通知手段に前記ユーザに対して通知をさせる制御部と、含む、
音処理装置。
【請求項6】
マイクが集音したユーザの周囲の音を蓄積させることと、
前記周囲の音から条件を満たす音を検出した場合に、通知条件に応じて通知手段に前記ユーザに対して通知をさせることと、
を含む動作をコンピュータに実行させる、
音処理プログラム。
【発明の詳細な説明】
【関連出願へのクロスリファレンス】
【0001】
本出願は、2022年1月21日に日本国に特許出願された特願2022-008227の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。
【技術分野】
【0002】
本開示は、音声処理装置、音声処理方法及び音声処理システムに関する。
【背景技術】
【0003】
従来、ヘッドホン又はイヤホン等の音声出力機器を装着した状態でユーザが周囲の音声を聞くことを可能にする技術が知られている。このような技術において、外部音と所定の語句とが一致した場合、一致した旨をヘッドホンから通知する通知手段を具備する携帯音楽再生装置が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001-256771号公報
【発明の概要】
【0005】
本開示の一実施形態に係る音声処理装置は、
音声データに対して音声を認識する音声認識処理の結果を取得し、音声に関して予め設定された設定条件を満たす音声を前記音声認識処理の結果に基づいて検出した場合、前記設定条件に設定された検出された音声に対応する通知条件に応じて、前記設定条件を満たす音声が検出されたことをユーザに通知する制御部を備える。
【0006】
本開示の一実施形態に係る音声処理方法は、
音声データに対して音声を認識する音声認識処理の結果を取得することと、
音声に関して予め設定された設定条件を満たす音声を前記音声認識処理の結果に基づいて検出した場合、前記設定条件に設定された検出された音声に対応する通知条件に応じて、前記設定条件を満たす音声が検出されたことをユーザに通知することと、を含む。
【0007】
本開示の一実施形態に係る音声処理システムは、
周囲の音声を集音する集音器と、
前記集音器が集音した音声データに対して音声を認識する音声認識処理の結果を取得し、音声に関して予め設定された設定条件を満たす音声を前記音声認識処理の結果に基づいて検出した場合、前記設定条件に設定された検出された音声に対応する通知条件に応じて、前記設定条件を満たす音声が検出されたことをユーザに通知する音声処理装置と、を含む。
【図面の簡単な説明】
【0008】
図1】本開示の一実施形態に係る音声処理システムの概略構成を示す図である。
図2図1に示す音声処理システムのブロック図である。
図3】検索リストの一例を示す図である。
図4】通知音リストの一例を示す図である。
図5】優先度に応じた通知手段及び通知タイミングを説明するための図である。
図6】メイン画面の一例を示す図である。
図7】設定画面の一例を示す図である。
図8】通知画面の一例を示す図である。
図9図2に示す区間検出部の処理の一例を説明する図である。
図10図2に示す発話蓄積部のブロック図である。
図11図2に示す音声処理装置が実行するイベント検出処理の動作を示すフローチャートである。
図12図2に示す音声処理装置が実行する再生データの出力処理の動作を示すフローチャートである。
図13図2に示す音声処理装置が実行する再生データの出力処理の動作を示すフローチャートである。
図14】本開示の他の実施形態に係る音声処理システムの概略構成を示す図である。
図15】本開示のさらに他の実施形態に係る音声処理システムの概略構成を示す図である。
【発明を実施するための形態】
【0009】
従来の技術には、改善の余地がある。例えば、ユーザには、検出された音声の内容によって、音声が検出されたことを、優先的に通知して欲しい場合と、優先的に通知して欲しくない場合とがある。本開示の一実施形態によれば、改善された、音声処理装置、音声処理方法及び音声処理システムを提供することができる。
【0010】
本開示において「音声」は、任意の音を含む。例えば、音声は、人が発した声、機械が出力した音、動物が発した鳴き声及び環境音等を含む。
【0011】
以下、本開示に係る実施形態について、図面を参照して説明する。
【0012】
図1に示すように、音声処理システム1は、集音器10と、音声処理装置20とを含む。集音器10と音声処理装置20とは、通信線を介して通信可能である。通信線は、有線及び無線の少なくとも何れかを含む。
【0013】
本実施形態では、集音器10は、イヤホンである。ただし、集音器10は、イヤホンに限定されない。集音器10は、ヘッドホン等であってもよい。集音器10は、ユーザに装着される。集音器10は、音楽等を出力することができる。集音器10は、ユーザの左側の耳部に装着されるイヤホン部と、ユーザの右側に装着されるイヤホン部とを備えてよい。
【0014】
集音器10は、集音器10の周囲の音声を集音する。集音器10は、ユーザに装着されることにより、ユーザの周囲の音声を集音する。集音器10は、音声処理装置20の制御に基づいて、集音したユーザの周囲の音声を出力する。このような構成により、ユーザは、集音器10を装着した状態で自身の周囲の音声を聞くことができる。
【0015】
本実施形態では、音声処理装置20は、端末装置である。音声処理装置20となる端末装置は、例えば、携帯電話機、スマートフォン、タブレット、又はパーソナルコンピュータ(PC:personal computer)等である。ただし、音声処理装置20は、端末装置に限定されない。
【0016】
音声処理装置20は、ユーザによって操作される。ユーザは、音声処理装置20を操作し、集音器10の設定等をすることができる。
【0017】
音声処理装置20は、集音器10を制御し、ユーザの周囲の音声を集音する。音声処理装置20は、集音したユーザの周囲の音声のうちから、予め設定された設定条件を満たす音声を検出した場合、設定条件を満たす音声が検出されたことをユーザに通知する。この処理の詳細については、後述する。
【0018】
図2は、図1に示す音声処理システム1のブロック図である。図2では、データ等の主な流れを実線で示す。
【0019】
集音器10は、マイク11と、スピーカ12と、通信部13と、記憶部14と、制御部15とを備える。
【0020】
マイク11は、集音器10の周囲の音声を集音可能である。マイク11は、左用マイクと、右用マイクとを含む。左用マイクは、集音器10に含まれるユーザの左側の耳部に装着されるイヤホン部に、含まれてよい。右用マイクは、集音器10に含まれるユーザの右側に装着されるイヤホン部に、含まれてよい。例えば、マイク11は、ステレオマイクロフォン等である。
【0021】
スピーカ12は、音声を出力可能である。スピーカ12は、左用スピーカと、右用スピーカとを含む。左用スピーカは、集音器10に含まれるユーザの左側の耳部に装着されるイヤホン部に、含まれてよい。右用スピーカは、集音器10に含まれるユーザの右側に装着されるイヤホン部に、含まれてよい。例えば、スピーカ12は、ステレオスピーカ等ある。
【0022】
通信部13は、通信線を介して音声処理装置20と通信可能な少なくとも1つの通信モジュールを含んで構成される。通信モジュールは、通信線の規格に対応した通信モジュールである。通信線の規格は、例えば、有線通信規格であるか、又は、Bluetooth(登録商標)、赤外線及びNFC(Near Field Communication)等を含む近距離無線通信規格である。
【0023】
記憶部14は、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ又はこれらのうちの少なくとも2種類の組み合わせを含んで構成される。半導体メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)等である。RAMは、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)等である。ROMは、例えば、EEPROM(Electrically Erasable Programmable Read Only Memory)等である。記憶部14は、主記憶装置、補助記憶装置又はキャッシュメモリとして機能してよい。記憶部14は、集音器10の動作に用いられるデータと、集音器10の動作によって得られたデータとを記憶する。例えば、記憶部14は、システムプログラム、アプリケーションプログラム及び組み込みソフトウェア等を記憶する。
【0024】
制御部15は、少なくとも1つのプロセッサ、少なくとも1つの専用回路又はこれらの組み合わせを含んで構成される。プロセッサは、CPU(Central Processing Unit)若しくはGPU(Graphics Processing Unit)等の汎用プロセッサ又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit)等である。制御部15は、集音器10の各部を制御しながら集音器10の動作に関わる処理を実行する。
【0025】
本実施形態では、制御部15は、音声取得部16と、音声再生部17と、蓄積部18とを含む。蓄積部18は、記憶部14と同じ又は類似の構成要素を含んで構成される。蓄積部18の少なくとも一部は、記憶部14の一部であってもよい。蓄積部18の動作は、制御部15のプロセッサ等により実行される。
【0026】
音声取得部16は、マイク11が集音した音声のアナログデータから、音声のデジタルデータを取得する。本実施形態では、音声取得部16は、音声のアナログデータを予め設定されたサンプリングレートでサンプリングすることにより、音声のデジタルデータとして音声サンプリングデータを取得する。
【0027】
音声取得部16は、音声サンプリングデータを音声再生部17に出力する。また、音声取得部16は、音声サンプリングデータを音声処理装置20に通信部13によって送信する。
【0028】
音声取得部16は、マイク11が左用マイク及び右用マイクを含む場合、左用マイクが集音した音声のアナログデータから、左用の音声サンプリングデータを取得してよい。また、音声取得部16は、右用マイクが集音した音声のアナログデータから、右用の音声サンプリングデータを取得してよい。音声取得部16は、左用の音声サンプリングデータと右用の音声サンプリングデータとを、音声処理装置20に通信部13によって送信してよい。以下、左用の音声サンプリングデータと右用の音声サンプリングデータとを特に区別しない場合、これらは、単に「音声サンプリングデータ」とも記載される。
【0029】
音声再生部17は、音声取得部16から音声サンプリングデータを取得する。音声再生部17は、音声処理装置20から、リプレイフラグを通信部13によって受信する。
【0030】
リプレイフラグは、True又はFalseに設定される。リプレイフラグがFalseである場合、音声処理システム1は、スルーモードで動作する。スルーモードは、集音器10が集音した音声データを、音声処理装置20を介さずに、集音器10から出力するモードである。リプレイフラグがTrueである場合、音声処理システム1は、再生モードで動作する。再生モードは、集音器10が音声処理装置20から取得した再生データを出力するモードである。リプレイフラグがTrue又はFalseに設定される条件については後述する。
【0031】
音声再生部17は、リプレイフラグがFalseである場合すなわち音声処理システム1がスルーモードである場合、音声取得部16から取得した音声サンプリングデータをスピーカ12に出力させる。
【0032】
音声再生部17は、リプレイフラグがTrueである場合すなわち音声処理システム1が再生モードである場合、蓄積部18に蓄積された再生データをスピーカ12に出力させる。
【0033】
音声再生部17は、通知音ファイルを音声処理装置20から通信部13によって受信する。通知音ファイルは、音声処理装置20が設定条件を満たす音声を検出した場合、音声処理装置20から音声再生部17に送信される。音声再生部17は、通知音ファイルを受信すると、通知音をスピーカ12に出力される。このような構成により、ユーザは、設定条件を満たす音声が検出されたことを知ることができる。
【0034】
蓄積部18には、再生データが蓄積される。再生データは、音声処理装置20から集音器10へ送信されるデータである。制御部15は、音声処理装置20から再生データを通信部13によって受信すると、受信した再生データを蓄積部18に蓄積させる。制御部15は、音声処理装置20から、後述の再生停止指示及びリプレイ停止指示を、通信部13によって受信し得る。制御部15は、再生停止指示又はリプレイ停止指示を受信すると、蓄積部18に蓄積された再生データを消去する。
【0035】
制御部15は、左用の再生データ及び右用の再生データを音声処理装置20から受信し、これらを蓄積部18に蓄積させてよい。この場合、音声再生部17は、蓄積部18に蓄積された左用の再生データをスピーカ12の左用スピーカに出力させ、蓄積部18に蓄積された右用の再生データをスピーカ12の右用のスピーカに出力させてよい。
【0036】
音声処理装置20は、通信部21と、入力部22と、表示部23と、振動部24と、記憶部26と、制御部27とを備える。
【0037】
通信部21は、通信線を介して集音器10と通信可能な少なくとも1つの通信モジュールを含んで構成される。通信モジュールは、通信線の規格に対応した通信モジュールである。通信線の規格は、例えば、有線通信規格であるか、又は、Bluetooth(登録商標)、赤外線及びNFC等を含む近距離無線通信規格である。
【0038】
通信部21は、移動体通信網及びインターネット等を含む任意のネットワークに接続可能な少なくとも1つの通信モジュールをさらに含んで構成されてよい。通信モジュールは、例えば、LTE(Long Term Evolution)、4G(4th Generation)又は5G(5th Generation)等の移動体通信規格に対応した通信モジュールである。
【0039】
入力部22は、ユーザからの入力を受付可能である。入力部22は、ユーザからの入力を受付可能な少なくとも1つの入力用インタフェースを含んで構成される。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン又はマイク等である。
【0040】
表示部23は、データを表示可能である。表示部23は、例えば、ディスプレイ等である。ディスプレイは、例えば、LCD(Liquid Crystal Display)又は有機EL(Electro Luminescence)ディスプレイ等である。
【0041】
振動部24は、音声処理装置20を振動可能である。振動部24は、振動素子を含んで構成される。振動素子は、例えば、圧電素子等である。
【0042】
発光部25は、発光可能である。発光部25は、例えば、LED(Light Emitting Diode)等である。
【0043】
記憶部26は、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ又はこれらのうちの少なくとも2種類の組み合わせを含んで構成される。半導体メモリは、例えば、RAM又はROM等である。RAMは、例えば、SRAM又はDRAM等である。ROMは、例えば、EEPROM等である。記憶部26は、主記憶装置、補助記憶装置又はキャッシュメモリとして機能してよい。記憶部26は、音声処理装置20の動作に用いられるデータと、音声処理装置20の動作によって得られたデータとを記憶する。例えば、記憶部26は、システムプログラム、アプリケーションプログラム及び組み込みソフトウェア等を記憶する。
【0044】
記憶部26は、例えば、後述の図3に示すような検索リスト並びに後述の図4に示すような通知音リスト及び通知音ファイルを記憶する。記憶部26は、例えば、後述の通知リストを記憶する。
【0045】
制御部27は、少なくとも1つのプロセッサ、少なくとも1つの専用回路又はこれらの組み合わせを含んで構成される。プロセッサは、CPU若しくはGPU等の汎用プロセッサ又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA又はASIC等である。制御部27は、音声処理装置20の各部を制御しながら音声処理装置20の動作に関わる処理を実行する。
【0046】
制御部27は、音声データに対して音声を認識する音声認識処理を実行する。ただし、制御部27は、外部装置が実行した音声認識処理の結果を取得してもよい。制御部27は、音声認識処理の結果に基づいて設定条件を満たす音声を検出した場合、設定条件を満たす音声が検出されたことをユーザに通知する。設定条件は、音声に関して予め設定された条件である。制御部27は、設定条件において設定された検出された音声に対応する通知条件に応じて、設定条件を満たす音声が検出されたことをユーザに通知する。
【0047】
通知条件は、音声が検出されたことをユーザに通知する優先順位を決定するための条件である。優先順位が高いほど、ユーザに通知するタイミングが早くてよい。優先順位が高いほど、ユーザが気付きやすい通知手段でユーザに通知してよい。例えば、上述したように、ユーザは、集音器10であるイヤホンを装着している。そのため、通知音等の音声が集音器10から出力される場合、ユーザは、その音声に即座に気付くことができる。つまり、通知音等の音声による通知手段の方が、視覚情報の呈示等による通知手段よりも、優先順位が高くなる。後述するように、検出された音声を再生することにより、ユーザに音声が検出されたことを通知してよい。この場合、優先順位が高いほど、検出された音声を再生するタイミングが早くてよい。また、優先順位が低い場合、検出された音声は、任意のタイミングで再生されてよい。
【0048】
通知条件は、第1条件と、第2条件とを含む。通知条件が第2条件を満たす場合、通知条件が第1条件を満たす場合よりも、ユーザに通知する優先順位が低くなる。第1条件は、第3条件と、第4条件とを含む。通知条件が第4条件を満たす場合、通知条件が第3条件を満たす場合よりも、ユーザに通知する優先順位が低くなる。
【0049】
本実施形態では、通知条件は、優先度によって設定される。優先度は、設定条件を満たす音声をユーザに通知する優先順位を示す。優先度は、複数の段階に設定されてよい。優先度が高いほど、ユーザに通知する優先順位が高い。本実施形態では、優先度は、図3及び図4に示すように、「高」、「中」及び「低」を含む3段階に設定される。「高」との優先度は、3段階の優先度のうち、最も高い優先度である。「中」との優先度は、3段階の優先度のうち、中間の優先度である。「低」との優先度は、3段階の優先度のうち、最も低い優先度である。
【0050】
本実施形態では、通知条件が第1条件を満たすとは、優先度が「高」又は「中」であるとの条件を満たすことである。通知条件が第2条件を満たすとは、優先度が「低」であるとの条件を満たすことである。通知条件が第3条件を満たすとは、優先度が「高」であるとの条件を満たすことである。通知条件が第4条件を満たすとは、優先度が「中」であるとの条件を満たすことである。
【0051】
制御部27は、検出された音声に対応する通知条件が第1条件を満たす場合すなわち検出された音声に対応する優先度が「中」又は「高」である場合、通知音を再生することにより、設定条件を満たす音声が検出されたことをユーザに通知してもよい。このような構成により、ユーザは、音声が検出されたことに即座に気付くことができる。
【0052】
制御部27は、検出された音声に対応する通知条件が第1条件を満たす場合すなわち検出された音声に対応する優先度が「中」又は「高」である場合、通知音が再生された後、設定条件を満たす音声を再生してもよい。このような構成により、優先度が「中」又は「高」である場合、検出された音声が自動的に再生される。優先度が「中」又は「高」である場合、ユーザが検出された音声の内容を即座に確認したい可能性が高い。通知条件が第1条件を満たす場合に設定条件を満たす音声が自動的に再生されることにより、ユーザは、検出された音声を直ぐに確認することができる。よって、ユーザの利便性を向上させることができる。
【0053】
制御部27は、検出された音声に対応する通知条件が第2条件を満たす場合すなわち検出された音声に対応する優先度が「低」である場合、ユーザに視覚情報を呈示することにより、設定条件を満たす音声が検出されたことをユーザに通知してもよい。優先度が「低」である場合、通知音を再生するのではなく、ユーザに視覚情報を呈示することにより、低い優先度に見合った通知をすることができる。
【0054】
本実施形態では、設定条件は、予め設定された検索ワードを含むとの条件である。各検索ワードには、優先度が設定される。検索ワードは、例えば、文字及び数字の少なくとも何れかを含んで構成される。検索ワードは、テキストデータとして処理可能であれば、任意の情報であってよい。本実施形態では、制御部27は、設定条件を満たす音声として検索ワードを含む発話を検出した場合、その発話が検出されたことをユーザに通知する。
【0055】
図3に、検索リストを示す。検索リストは、検索ワードと、検索ワードに設定された優先度とを対応付けたものである。「153便」との検索ワードに、「高」との優先度が設定されている。「こんにちは」との検索ワードに、「中」との優先度が設定されている。「おはよう」との検索ワードに、「低」との優先度が設定されている。例えば、制御部27は、検索リストを後述の図7に示すような設定画面50に対するユーザの入力に基づいて生成する。
【0056】
図4に、通知音リストを示す。通知音リストは、優先度と、優先度に設定された通知音とを対応付けたものである。通知音は、発話が検出されたことをユーザに通知するときに用いられる。本実施形態では、通知音は、「低」との優先度に対応する発話が検出された場合にも用いられる。ただし、「低」との優先度に対応する発話が検出された場合、通知音は、用いられなくてもよい。図4では、優先度と、通知音ファイルとが対応付けられている。通知音ファイルは、通知音をコンピュータ上に格納するためのファイルである。「高」との優先度には、「ring.wav」との通知音ファイルが対応付けられている。「中」との優先度には、「alert.wav」との通知音ファイルが対応付けられている。「低」との優先度には、「notify.wav」との通知音ファイルが対応付けられている。
【0057】
本実施形態に係る優先度に応じた通知について、図5を参照して説明する。図5において、通知手段は、検索ワードを含む発話が検出されたことをユーザに通知する手段である。通知タイミングは、検索ワードを含む発話が検出されたことをユーザに通知するタイミングである。再生タイミングは、検出した発話を再生するタイミングである。
【0058】
図5に示すように、制御部27は、「高」との優先度に対応する発話を検出した場合、通知手段として、通知音と、振動部24による振動とを用いる。制御部27は、通知タイミングを、検索ワードを検出した直後のタイミングとする。制御部27は、再生タイミングを、発話が検出されたことを通知した直後のタイミングとする。つまり、制御部27は、通知条件が第3条件を満たす場合、検索ワードを検出した直後に、通知音が再生され、発話の再生が開始されるように制御する。例えば、「153便」との検索ワードに「高」との優先度が設定されるものとする。この場合、制御部27は、「153便」との検索ワードを検出した直後を通知タイミングとする。つまり、制御部27は、「153便」との検索ワードを検出した直後に、振動部24を振動させ、且つ通知音を再生する。また、制御部27は、通知音を再生した直後を再生タイミングとし、「153便は20分遅れで出発予定です」との発話が再生されるように制御する。このような構成により、「153便」との検索ワードを検出した直後に、通知音が再生され、「153便は20分遅れで出発予定です」との発話の再生が開始される。また、検索ワードを含む発話は、自動的に再生される。
【0059】
図5に示すように、制御部27は、「中」との優先度に対応する発話を検出した場合、通知手段として、通知音と、振動部24による振動とを用いる。制御部27は、通知タイミングを、検索ワードを含む発話が終了した直後のタイミングとする。制御部27は、再生タイミングを、発話が検出されたことを通知した直後のタイミングとする。つまり、制御部27は、通知条件が第4条件を満たす場合、検索ワードを含む発話が終了した直後に、通知音が再生され、発話の再生が開始されるように制御する。例えば、「153便」との検索ワードに「中」との優先度が設定されるものとする。この場合、制御部27は、「153便は20分遅れで出発予定です」との発話が終了した直後のタイミングを通知タイミングとし、振動部24を振動させ、且つ通知音を再生する。また、制御部27は、通知音を再生した直後を再生タイミングとし、「153便は20分遅れで出発予定です」との発話が再生されるように制御する。このような構成により、「153便は20分遅れで出発予定です」との発話が終了した直後に、通知音が再生され、「153便は20分遅れで出発予定です」との発話の再生が開始される。また、検索ワードを含む発話は、自動的に再生される。
【0060】
図5に示すように、制御部27は、「低」との優先度に対応する発話を検出した場合、通知手段として、表示部23による画面表示と、発光部25による発光とを用いる。画面表示及び発光は、ユーザに視覚情報を呈示する通知手段の一例である。制御部27は、画面表示として通知リストを表示部23に表示させる。通知リストは、検出された設定条件を満たす音声の情報の一覧である。本実施形態では、通知リストは、イベント情報の一覧である。イベントは、検索ワードを含む発話である。通知リストの詳細については後述する。制御部27は、再生タイミングを、ユーザが発話の再生を指示した直後とする。つまり、制御部27は、通知条件が第2条件を満たす場合、ユーザの入力に基づいて、検索ワードを含む発話を再生する。このような構成により、検索ワードを含む発話は、手動で再生される。
【0061】
<入出力処理>
制御部27は、ユーザからの入力を入力部22によって受け付ける。制御部27は、入力部22によって受け付けた入力に基づいて、表示部23に表示させる画面を選択等する。例えば、制御部27は、入力部22によって受け付けた入力に基づいて、図6図7又は図8に示すような画面を表示させる。図6から図8に示す構成では、入力部22は、表示部23のディスプレイと一体的に設けられたタッチスクリーンである。
【0062】
図6に示すようなメイン画面40は、領域41と、領域42と、領域43と、領域44とを含む。
【0063】
領域41には、集音器10の状態が表示される。図6では、領域41には、集音器10がリプレイ中であることを示す「Replaying…」との情報が表示されている。
【0064】
領域42には、音声処理システム1がスルーモードである場合、「リプレイ開始」との文字が表示される。領域42には、音声処理システム1が再生モードである場合、「リプレイ停止」との文字が表示される。制御部27は、領域42に対する入力を入力部22によって受け付け可能である。
【0065】
領域42に「リプレイ開始」との文字が表示されている場合すなわち音声処理システム1がスルーモードである場合、制御部27は、領域42に対する入力を入力部22によって受け付けることにより、リプレイ開始を受け付け可能である。制御部27は、リプレイ開始を受け付けると、リプレイフラグをTrueに設定するとともに、リプレイ指示を後述の発話蓄積部32に出力する。
【0066】
領域42に「リプレイ停止」との文字が表示されている場合すなわち音声処理システム1が再生モードである場合、制御部27は、領域42に対する入力を入力部22によって受け付けることにより、リプレイ停止を受け付け可能である。制御部27は、リプレイ停止を受け付けると、リプレイフラグをFalseに設定するとともに、リプレイ停止指示を集音器10に通信部21によって送信する。
【0067】
領域43には、「通知リスト」との文字が表示されている。制御部27は、領域43に対する入力を入力部22によって受け付け可能である。制御部27は、領域43に対する入力を入力部22によって受け付けた場合、図8に示すような通知画面60を表示部23に表示させる。
【0068】
領域44には、「設定」との文字が表示されている。制御部27は、領域44に対する入力を入力部22によって受け付け可能である。制御部27は、領域44に対する入力を入力部22によって受け付けた場合、図7に示すような設定画面50を表示部23に表示させる。
【0069】
図7に示すような設定画面50は、ユーザが各種設定を行うための画面である。設定画面50は、領域51と、領域52と、領域53と、領域54と、領域55と、領域56とを含む。
【0070】
領域51には、「検索ワード追加」との文字が表示されている。制御部27は、領域51に対する入力を入力部22によって受け付け可能である。制御部27は、領域51から、検索ワードの入力と、その検索ワードに対応する優先度の入力とを受け付ける。
【0071】
領域52には、設定された検索ワードが表示される。図7では、領域52に、「153便」、「こんにちは」及び「おはよう」との検索ワードが表示されている。制御部27は、領域52に対する入力を入力部22によって受け付け可能である。制御部27は、領域52に対する入力を入力部22によって受け付けた場合、図3に示すような検索リストを表示部23に表示させる。
【0072】
領域53には、「録音バッファ設定」との文字が表示されている。領域53は、集音器10によって集音した音声を録音する録音時間の長さを設定するために用いられる。本実施形態では、録音時間分の音声サンプリングデータが後述の図10に示すようなリングバッファ34に蓄積される。制御部27は、領域53に対する入力を入力部22によって受け付け可能である。制御部27は、例えば、5秒、10秒及び15秒等の録音時間の入力を受け付ける。制御部27は、受け付けた録音時間の情報を記憶部26に記憶させる。
【0073】
領域54には、「速度設定」との文字が表示されている。領域54は、集音器10から出力される音声の再生速度を設定するために用いられる。制御部27は、領域54に対する入力を入力部22によって受け付け可能である。制御部27は、例えば、1倍速、1.1倍速及び1.2倍速等の音声速度の入力を受け付ける。制御部27は、受け付けた音声速度の情報を記憶部26に記憶させる。
【0074】
領域55には、「音声閾値設定」との文字が表示されている。領域55は、集音器10によって集音した音声のうち、ノイズとしてカットする音声閾値を設定するために用いられる。本実施形態では、音声閾値以下の音声がノイズとしてカットされる。制御部27は、領域55に対する入力を入力部22によって受け付け可能である。制御部27は、例えば、-50[dBA]から-5[dBA]までの音声閾値の入力を受け付ける。制御部27は、受け付けた音声閾値の情報を記憶部26に記憶させる。
【0075】
領域56には、「設定終了」との文字が表示されている。制御部27は、領域56に対する入力を入力部22によって受け付け可能である。制御部27は、領域56に対する入力を入力部22によって受け付けた場合、図6に示すようなメイン画面40を表示部23に表示させる。
【0076】
図8に示すような通知画面60は、ユーザに対して各種情報を通知するための画面である。通知画面60は、領域61と、領域62と、領域63と、領域64とを含む。
【0077】
領域61には、通知リストが表示される。通知リストは、上述したように、イベント情報の一覧である。イベントは、上述したように、検索ワードを含む発話である。制御部27は、通知リストに含まれるイベントのうち、優先度が「低」であるイベント情報を、領域61に表示させる。ただし、制御部27は、優先度に関わらず、通知リストに含まれる全てのイベント情報を領域61に表示させてもよい。制御部27は、領域61に表示された通知リストの各イベントに対する入力を入力部22によって受け付け可能である。制御部27は、領域61から入力部22によって、通知リストの各イベントに対する入力を受け付けることにより、通知リストのイベントの選択を受け付ける。
【0078】
領域62には、「詳細表示」との文字が表示されている。制御部27は、領域62に対する入力を入力部22によって受け付け可能である。制御部27は、領域61から通知リストに含まれるイベントの選択を受け付け、さらに領域62に対する入力を入力部22によって受け付け得る。この場合、制御部27は、領域61から選択されたイベント情報の詳細を、領域61に表示部23によって表示させる。例えば、制御部27は、イベント情報の詳細として、後述の左用の音声認識結果及び右用の音声認識結果を表示させる。
【0079】
領域63には、「再生開始/再生停止」との文字が表示されている。制御部27は、領域63に対する入力を入力部22によって受け付けることにより、再生開始又は再生停止を受け付け可能である。制御部27は、発話が再生中ではないとき、領域61から通知リストに含まれるイベントの選択を受け付け、さらに領域63に対する入力を入力部22によって受け付けることにより、イベントの再生開始を受け付ける。イベントの再生開始を受け付けた場合、制御部27は、領域61から選択されたイベントすなわち発話が再生されるように制御する。本実施形態では、制御部27は、記憶部26の通知リストを参照し、領域61から選択されたイベントの後述のイベントIDを取得する。制御部27は、イベントIDと再生開始指示とを後述の発話保持部36に出力し、発話が再生されるように制御する。また、制御部27は、発話が再生中であるとき、領域63に対する入力を入力部22によって受け付けることにより、イベントの再生停止を受け付ける。イベントの再生停止を受け付けた場合、制御部27は、発話の再生が停止するように制御する。本実施形態では、再生停止指示を集音器10に通信部21によって送信し、発話の再生が停止するように制御する。
【0080】
領域64には、「戻る」との文字が表示されている。制御部27は、領域64に対する入力を入力部22によって受け付け可能である。制御部27は、領域64に対する入力を入力部22によって受け付けた場合、図6に示すようなメイン画面40を表示部23に表示させる。
【0081】
<音声処理>
図2に示すように、制御部27は、区間検出部28と、音声認識部29と、イベント検出部30と、発話通知部31と、発話蓄積部32と、音声変調部35と、発話保持部36を含む。発話保持部36は、記憶部26と同じ又は類似の構成要素を含んで構成される。発話保持部36の少なくとも一部は、記憶部26の一部であってもよい。発話保持部36の動作は、制御部27のプロセッサ等により実行される。
【0082】
区間検出部28は、集音器10から、音声サンプリングデータを通信部21によって受信する。区間検出部28は、音声サンプリングデータから、発話区間を検出する。発話区間は、発話状態が続く区間である。区間検出部28は、音声サンプリングデータから発話区間を検出することにより、非発話区間を検出することもできる。非発話区間は、非発話状態が続く区間である。発話区間の始点は、「発話開始時点」とも記載される。発話区間の始点は、非発話区間の終点である。発話区間の終点は、「発話終了時点」とも記載される。発話区間の終点は、非発話区間の始点である。
【0083】
区間検出部28の処理の一例について、図9を参照して説明する。ただし、区間検出部28の処理は、図9を参照して説明する処理に限定されない。区間検出部28は、任意の方法によって、音声サンプリングデータから発話区間を検出してよい。他の例として、区間検出部28は、任意の機械学習アルゴリズムを用いて生成された機械学習モデルによって、音声サンプリングデータから発話区間を検出してもよい。
【0084】
図9において、横軸は、時刻を示す。図9に示すような音声サンプリングデータは、集音器10の音声取得部16によって取得されたものである。区間検出部28は、音声サンプリングデータから音声区間検出データを取得する。音声区間検出データは、音声サンプリングデータの電力を予め設定された時間幅で平均化したデータである。音声区間検出データの時間幅は、音声処理装置20の仕様等に基づいて設定されてよい。図9では、1つの音声区間検出データを、1つの四角として示す。この1つの四角の時間幅すなわち1つの音声区間検出データの時間幅は、例えば、200[ms]である。
【0085】
区間検出部28は、記憶部26から音声閾値の情報を取得し、音声区間検出データを音声データと非音声データとに分類する。図9では、音声データは、四角として示される音声区間検出データのうち、濃い色が付されたデータである。また、非音声データは、四角として示される音声区間検出データのうち、白抜きのデータである。区間検出部28は、音声区間検出データの値がヌル(Null)である場合、その音声区間検出データを非音声データに分類する。区間検出部28は、音声区間検出データの値がヌルではない場合であって、音声区間検出データが音声閾値未満である場合、その音声区間検出データを非音声データに分類する。区間検出部28は、音声区間検出データの値がヌルではない場合であって、音声区間検出データの値が音声閾値以上である場合、その音声区間検出データを音声データに分類する。
【0086】
区間検出部28は、設定時間を空けずに音声データが続く区間を発話区間として検出する。設定時間は、音声処理装置20が処理する言語に基づいて設定されてよい。設定時間は、処理する言語が日本語である場合、例えば、500[ms]である。図9では、区間検出部28は、非音声データが設定時間を超えて続いた後、音声データを検出したとき、その音声データが検出された時点を発話開始時点として特定する。例えば、区間検出部28は、時刻t1を発話開始時点として特定する。区間検出部28は、発話開始時点を特定した後、非音声データが設定時間を超えて続いたと判定した場合、その判定をした時点を、発話終了時点として特定する。例えば、区間検出部28は、時刻t2を発話終了時点として特定する。区間検出部28は、発話開始時点から発話終了時点までの区間を発話区間として検出する。
【0087】
区間検出部28は、集音器10から、左用の音声サンプリングデータ及び右用の音声サンプリングデータを受信してよい。この場合、区間検出部28は、左用及び右用の両方の音声サンプリングデータにて非音声データが設定時間を超えて続いた後、左用及び右用の何れか一方において音声データを検出したとき、その音声データが検出された時点を発話開始時点として特定してよい。また、区間検出部28は、左用及び右用の両方において非音声データが設定時間を超えて続いたと判定した場合、その判定をした時点を、発話終了時点として特定してよい。
【0088】
区間検出部28は、音声サンプリングデータから発話開始時点を特定すると、発話IDを生成する。発話IDは、それぞれ一意に識別可能な識別情報である。区間検出部28は、発話開始時点の情報及び発話IDを、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0089】
区間検出部28は、音声サンプリングデータから発話終了時点を特定すると、発話終了時点の情報を、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0090】
区間検出部28は、逐次、集音器10から受信した音声サンプリングデータを、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0091】
音声認識部29は、区間検出部28から、発話開始時点の情報及び発話IDを取得する。音声認識部29は、発話開始時点の情報等を取得すると、区間検出部28から逐次取得する音声サンプリングデータに対して音声を認識する音声認識処理を実行する。本実施形態では、音声認識部29は、音声認識処理によって音声サンプリングデータに含まれる音声データをテキストデータに変換することにより、音声を認識する。
【0092】
音声認識部29は、区間検出部28から取得した発話開始時点の情報及び発話IDを、イベント検出部30に出力する。音声認識部29は、発話開始時点の情報等をイベント検出部30に出力すると、逐次、音声認識結果としてのテキストデータをイベント検出部30に出力する。
【0093】
音声認識部29は、区間検出部28から発話終了時点の情報を取得する。音声認識部29は、発話終了時点の情報を取得すると、音声認識処理を終了する。音声認識部29は、区間検出部28から取得した発話終了時点の情報を、イベント検出部30に出力する。この後、音声認識部29は、区間検出部28から、新たな発話開始時点の情報及び発話IDを取得し得る。音声認識部29は、新たな発話開始時点の情報等を取得すると、区間検出部28から逐次取得する音声サンプリングデータに対して音声認識処理を再度実行する。
【0094】
音声認識部29は、区間検出部28から、左用の音声サンプリングデータ及び右用の音声サンプリングデータを取得してよい。この場合、音声認識部29は、左用の音声サンプリングデータ及び右用の音声サンプリングデータのそれぞれをテキストデータに変換してよい。以下、左用の音声サンプリングデータから取得されたテキストデータは、「左用のテキストデータ」又は「左用の音声認識結果」とも記載される。右用の音声サンプリングデータから取得されたテキストデータは、「右用のテキストデータ」又は「右用の音声認識結果」とも記載される。
【0095】
イベント検出部30は、音声認識部29から、発話開始時点の情報及び発話IDを取得する。イベント検出部30は、発話開始時点の情報等を取得した後、音声認識部29からテキストデータを逐次取得する。イベント検出部30は、図3に示すような検索リストを参照し、音声認識部29から逐次取得するテキストデータに検索リストの検索ワードの何れかが含まれるか否かを判定する。
【0096】
イベント検出部30は、テキストデータに検索ワードが含まれると判定した場合、検索ワードを含む発話をイベントとして検出する。イベント検出部30は、イベントを検出した場合、音声認識部29から取得した発話IDをイベントIDとして取得する。さらに、イベント検出部30は、図3に示すような検索リストを参照し、そのテキストデータに含まれる検索ワードに対応する優先度を取得する。イベント検出部30は、優先度を取得すると、優先度に応じた通知処理を実行する。
【0097】
優先度が「高」である場合、イベント検出部30は、テキストデータに検索ワードが含まれると判定すると、イベントID及び出力指示を発話蓄積部32に出力し、「高」との優先度を発話通知部31に出力する。出力指示は、発話蓄積部32に、イベントIDに対応する音声サンプリングデータを再生データとして音声変調部35に出力させる指示である。イベント検出部30は、出力指示を出力すると、リプレイフラグをTrueに設定する。このように優先度が「高」である場合、テキストデータに含まれる検索ワードが検出された直後に、出力指示等が発話蓄積部32等に出力される。このような構成により、図5に示すように優先度が「高」である場合、検索ワードが検出された直後に、通知音が再生され、発話の再生が開始される。
【0098】
優先度が「中」である場合、イベント検出部30は、音声認識部29から発話終了時点の情報を取得すると、イベントID及び出力指示を発話蓄積部32に出力し、「中」との優先度を発話通知部31に出力する。イベント検出部30は、出力指示を出力すると、リプレイフラグをTrueに設定する。このように優先度が「中」である場合、発話が終了した時点で、出力指示等が発話蓄積部32等に出力される。このような構成により、図5に示すように優先度が「中」である場合、検索ワードを含む発話が終了した直後に、通知音が再生され、発話の再生が開始される。
【0099】
優先度が「低」である場合、イベント検出部30は、音声認識部29から発話終了時点の情報を取得すると、イベントID及び保持指示を発話蓄積部32に出力し、「低」との優先度を発話通知部31に出力する。保持指示は、発話蓄積部32に、イベントIDに対応する音声サンプリングデータを発話保持部36に出力させる指示である。発話保持部36に保持される音声サンプリングデータは、図8を参照して上述したようにユーザが再生を指示すると再生される。このような構成により、図5に示すように優先度が「低」である場合、検索ワードを含む発話は、ユーザが再生を指示した直後に再生される。
【0100】
イベント検出部30は、イベントIDと、優先度と、イベントが検出された検出日時と、テキストデータに含まれる検索ワードとに基づいて、記憶部26に記憶された通知リストを更新する。記憶部26の通知リストは、例えば、イベントIDと、優先度と、イベントが検出された検出日時と、検索ワードと、テキストデータとの対応付けを含む。更新処理の一例として、イベント検出部30は、イベントIDと、優先度と、検出日時と、検索ワードと、テキストデータとを対応付ける。イベント検出部30は、この対応付けを通知リストに含めることにより、通知リストを更新する。
【0101】
イベント検出部30は、音声認識部29から発話終了時点の情報を取得するまで、テキストデータに検索ワードが含まれるか否かを判定する。イベント検出部30は、発話終了時点の情報を取得した時点で、音声認識部29から逐次取得したテキストデータに検索ワードが含まれないと判定した場合、音声認識部29から取得した発話IDをクリアイベントIDとして取得する。イベント検出部30は、クリアイベントIDを発話蓄積部32に出力する。
【0102】
イベント検出部30は、音声認識部29から、新たな発話開始時点の情報及び発話IDを取得し得る。イベント検出部30は、新たな発話開始時点の情報等を取得すると、音声認識部29から新たに逐次取得するテキストデータに検索リストの検索ワードの何れかが含まれるか否かを判定する。
【0103】
イベント検出部30は、音声認識部29から、左用のテキストデータ及び右用のテキストデータを取得してよい。この場合、イベント検出部30は、左用のテキストデータ及び右用のテキストデータの何れか一方に検索ワードが含まれると判定した場合、その検索ワードを含む発話をイベントとして検出してよい。イベント検出部30は、左用のテキストデータ及び右用のテキストデータの両方に検索ワードが含まれないと判定した場合、それらのテキストデータに対応する発話IDをクリアイベントIDとして取得してよい。
【0104】
発話通知部31は、イベント検出部30から、優先度を取得する。発話通知部31は、優先度に対応する通知音ファイルを記憶部26から取得する。発話通知部31は、取得した通知音ファイルを集音器10に通信部21によって送信する。
【0105】
優先度が「高」である場合、発話通知部31は、図4に示すような通知音リストを参照し、「高」との優先度に対応付けられた「ring.wav」との通知音ファイルを記憶部26から取得する。発話通知部31は、取得した通知音ファイルを、集音器10に通信部21によって送信する。
【0106】
優先度が「中」である場合、発話通知部31は、図4に示すような通知音リストを参照し、「中」との優先度に対応付けられた「alert.wav」との通知音ファイルを記憶部26から取得する。発話通知部31は、取得した通知音ファイルを、集音器10に通信部21によって送信する。
【0107】
優先度が「低」である場合、発話通知部31は、図4に示すような通知音リストを参照し、「低」との優先度に対応付けられた「notify.wav」との通知音ファイルを記憶部26から取得する。発話通知部31は、取得した通知音ファイルを、集音器10に通信部21によって送信する。
【0108】
図10に示すように、発話蓄積部32は、データバッファ33と、リングバッファ34とを有する。データバッファ33及びリングバッファ34は、記憶部26と同じ又は類似の構成要素を含んで構成される。データバッファ33及びリングバッファ34の少なくとも一部は、記憶部26の一部であってもよい。発話蓄積部32の動作は、制御部27のプロセッサ等により実行される。
【0109】
発話蓄積部32は、区間検出部28から、発話開始時点の情報及び発話IDを取得する。発話蓄積部32は、発話開始時点の情報等を取得すると、区間検出部28から逐次取得する音声サンプリングデータを発話IDに対応付けてデータバッファ33に蓄積させる。発話蓄積部32は、区間検出部28から新たな発話開始時点の情報及び新たな発話IDを取得すると、区間検出部28から逐次取得する音声サンプリングデータを新たな発話IDに対応付けてデータバッファ33に蓄積させる。図10では、データバッファ33には、発話ID1に対応する複数の音声サンプリングデータ、発話ID2に対応する複数の音声サンプリングデータ、及び、発話ID3に対応する複数の音声サンプリングデータが蓄積されている。
【0110】
発話蓄積部32は、集音器10から、音声サンプリングデータを通信部21によって受信する。発話蓄積部32は、集音器10から受信した音声サンプリングデータを、リングバッファ34に蓄積させる。発話蓄積部32は、記憶部26に記憶された録音時間の情報を参照し、録音時間分の音声サンプリングデータをリングバッファ34に蓄積させる。発話蓄積部32は、リングバッファ34に、音声サンプリングデータを時系列に順次蓄積させる。
【0111】
発話蓄積部32は、イベント検出部30から、クリアイベントIDを取得し得る。発話蓄積部32は、クリアイベントIDを取得した場合、データバッファ33に蓄積された音声サンプリングデータのうち、クリアイベントIDと一致する発話IDに対応付けられた音声サンプリングデータを削除する。
【0112】
発話蓄積部32は、イベント検出部30から、イベントIDと、出力指示とを取得し得る。発話蓄積部32は、出力指示を取得すると、データバッファ33に蓄積された音声サンプリングデータのうちから、出力指示とともに取得したイベントIDと一致する発話IDを特定する。発話蓄積部32は、特定した発話IDに対応する音声サンプリングデータを再生データとして音声変調部35に出力する。発話蓄積部32は、先頭の音声サンプリングデータから再生されるように、音声サンプリングデータを音声変調部35に出力する。音声サンプリングデータの先頭とは、時系列に沿った複数の音声サンプリングデータのうち、最古の時刻の音声サンプリングデータである。
【0113】
発話蓄積部32は、イベント検出部30から、イベントIDと、保持指示とを取得し得る。発話蓄積部32は、保持指示を取得すると、データバッファ33に蓄積された音声サンプリングデータのうちから、保持指示とともに取得したイベントIDと一致する発話IDを特定する。発話蓄積部32は、特定した発話IDに対応付けられた音声サンプリングデータをイベントIDとともに発話保持部36に出力する。
【0114】
発話蓄積部32は、リプレイ指示を取得し得る。発話蓄積部32は、リプレイ指示を取得した場合、リングバッファ34に蓄積された音声サンプリングデータを、先頭の音声サンンプリングデータから再生されるように、再生データとして音声変調部35に出力する。
【0115】
図2に示すように、音声変調部35は、発話蓄積部32から、再生データを取得する。音声変調部35は、リプレイフラグがTruleである場合、記憶部26に記憶された音声速度の情報を参照し、その音声速度で再生データが音声として再生されるように、再生データを変調する。音声変調部35は、変調後の再生データを集音器10に通信部21によって送信する。
【0116】
発話保持部36は、発話蓄積部32から、イベントID及び音声サンプリングデータを取得する。発話保持部36は、取得した音声サンプリングデータを取得したイベントIDに対応付けて保持する。
【0117】
発話保持部36は、イベントIDと、再生開始指示とを取得し得る。発話保持部36は、再生開始指示を取得すると、イベントIDに対応付けられた音声サンプリングデータを特定する。発話保持部36は、特定した音声サンプリングデータを再生データとして集音器10に通信部21によって送信する。
【0118】
図11は、図2に示す音声処理装置20が実行するイベント検出処理の動作を示すフローチャートである。この動作は、本実施形態に係る音声処理方法の一例に相当する。例えば、音声処理装置20は、集音器10から音声処理装置20への音声サンプリングデータの送信が開始されると、ステップS1の処理を開始する。
【0119】
区間検出部28は、集音器10から、音声サンプリングデータを通信部21によって受信する(ステップS1)。
【0120】
ステップS2の処理において、区間検出部28は、逐次、ステップS1の処理で取得した音声サンプリングデータを、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0121】
ステップS2の処理において、区間検出部28は、ステップS1の処理で取得した音声サンプリングデータから発話開始時点を特定する。区間検出部28は、発話開始時点を特定すると、発話IDを生成する。区間検出部28は、発話開始時点の情報及び発話IDを、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0122】
ステップS2の処理において、区間検出部28は、ステップS1の処理で取得した音声サンプリングデータから発話終了時点を特定する。区間検出部28は、発話終了時点を特定すると、発話終了時点の情報を、音声認識部29及び発話蓄積部32にそれぞれ出力する。
【0123】
ステップS3の処理において、音声認識部29は、区間検出部28から発話開始時点の情報等を取得すると、区間検出部28から逐次取得する音声サンプリングデータをテキストデータに逐次変換する。音声認識部29は、発話開始時点の情報等をイベント検出部30に出力すると、逐次、音声認識結果としてのテキストデータをイベント検出部30に出力する。音声認識部29は、区間検出部28から発話終了時点の情報を取得すると、音声認識処理を終了する。ただし、音声認識部29は、区間検出部28から新たな発話開始時点の情報等を取得すると、区間検出部28から逐次取得する音声サンプリングデータをテキストデータに逐次変換する。
【0124】
ステップS4の処理において、イベント検出部30は、図3に示すような検索リストを参照し、音声認識部29から逐次取得するテキストデータに検索リストの検索ワードの何れかが含まれるか否かを判定する。
【0125】
イベント検出部30は、音声認識部29から発話終了時点の情報を取得した時点で、逐次取得したテキストデータに検索ワードが含まれないと判定した場合(ステップS4:NO)、ステップS5の処理に進む。イベント検出部30は、発話終了時点の情報を取得するまでに、音声認識部29から逐次取得したテキストデータに検索ワードが含まれると判定した場合(ステップS4:YES)、ステップS6の処理に進む。
【0126】
ステップS5の処理において、イベント検出部30は、音声認識部29から取得した発話IDをクリアイベントIDとして取得する。イベント検出部30は、クリアイベントIDを発話蓄積部32に出力する。
【0127】
ステップS6の処理において、イベント検出部30は、検索ワードを含む発話をイベントとして検出する。
【0128】
ステップS7の処理において、イベント検出部30は、音声認識部29から取得した発話IDをイベントIDとして取得する。さらに、イベント検出部30は、図3に示すような検索リストを参照し、そのテキストデータに含まれる検索ワードに対応する優先度を取得する。
【0129】
ステップS8の処理において、イベント検出部30は、ステップS7の処理で取得した優先度に応じた通知処理を実行する。
【0130】
ステップS9の処理において、イベント検出部30は、イベントIDと、優先度と、イベントが検出された検出日時と、テキストデータに含まれる検索ワードとに基づいて、記憶部26に記憶された通知リストを更新する。
【0131】
図12及び図13は、図2に示す音声処理装置20が実行する再生データの出力処理の動作を示すフローチャートである。この動作は、本実施形態に係る音声処理方法の一例に相当する。例えば、集音器10から音声処理装置20への音声サンプリングデータの送信が開始されると、音声処理装置20は、図12に示すようなステップS11の処理を開始する。
【0132】
ステップS11の処理において、音声処理装置20は、スルーモードで動作する。集音器10では、音声再生部17は、音声取得部16から取得した音声サンプリングデータをスピーカ12に出力させる。ステップS11の処理では、リプレイフラグは、Falseに設定されている。
【0133】
ステップS12の処理において、制御部27は、図6に示すような領域42に対する入力を入力部22から受け付けることにより、リプレイ開始を受け付けたか否かを判定する。制御部27は、リプレイ開始を受け付けたと判定した場合(ステップS12:YES)、ステップS13の処理に進む。制御部27は、リプレイ開始を受け付けたと判定しない場合(ステップS12:NO)、ステップS18の処理に進む。
【0134】
ステップS13の処理において、制御部27は、リプレイフラグをTrueに設定するとともに、リプレイ指示を発話蓄積部32に出力する。
【0135】
ステップS14の処理において、発話蓄積部32は、リプレイ指示を取得する。発話蓄積部32は、リプレイ指示を取得すると、リングバッファ34から音声変調部35への再生データの出力を開始する。
【0136】
ステップS15の処理において、制御部27は、リングバッファ34から音声変調部35に再生データが全て出力されたか否かを判定する。制御部27は、再生データが全て出力されたと判定した場合(ステップS15:YES)、ステップS17の処理に進む。制御部27は、再生データが全て出力されたと判定しない場合(ステップS15:NO)、ステップS16の処理に進む。
【0137】
ステップS16の処理において、制御部27は、図6に示すような領域42に対する入力を入力部22から受け付けることにより、リプレイ停止を受け付けたか否かを判定する。制御部27は、リプレイ停止を受け付けたと判定した場合(ステップS16:YES)、ステップS17の処理に進む。制御部27は、リプレイ停止を受け付けたと判定しない場合(ステップS16:NO)、ステップS15の処理に戻る。
【0138】
ステップS17の処理において、制御部27は、リプレイフラグをFаlseに設定する。ステップS17の処理を実行した後、制御部27は、ステップS11の処理に戻る。
【0139】
ステップS18の処理において、制御部27は、図8に示すような領域63に対する入力を入力部22によって受け付けることにより、イベントの再生開始を受け付けたか否かを判定する。制御部27は、イベントの再生開始を受け付けたと判定した場合(ステップS18:YES)、ステップS19の処理に進む。制御部27は、イベントの再生開始を受け付けたと判定しない場合(ステップS18:NO)、図13に示すようなステップS24の処理に進む。
【0140】
ステップS19の処理において、制御部27は、リプレイフラグをTrueに設定する。また、制御部27は、記憶部26の通知リストを参照し、図8に示すような領域61から選択されたイベントのイベントIDを取得する。制御部27は、イベントIDと再生開始指示とを発話保持部36に出力する。
【0141】
ステップS20の処理において、発話保持部36は、イベントIDと、再生開始指示とを取得する。発話保持部36は、再生開始指示を取得すると、イベントIDに対応付けられた音声サンプリングデータを特定する。発話保持部36は、特定した音声サンプリングデータすなわち再生データの集音器10への送信を開始する。
【0142】
ステップS21の処理において、制御部27は、発話保持部36から集音器10に再生データが全て送信されたか否かを判定する。制御部27は、再生データが全て送信されたと判定した場合(ステップS21:YES)、ステップS23の処理に進む。制御部27は、再生データが全て送信されたと判定しない場合(ステップS21:NO)、ステップS22の処理に進む。
【0143】
ステップS22の処理において、制御部27は、図8に示すような領域63に対する入力を入力部22によって受け付けることにより、イベントの再生停止を受け付けたか否かを判定する。制御部27は、イベントの再生停止を受け付けたと判定した場合(ステップS22:YES)、ステップS23の処理に進む。制御部27は、イベントの再生停止を受け付けたと判定しない場合(ステップS22:NO)、ステップS21の処理に戻る。
【0144】
ステップS23の処理において、制御部27は、リプレイフラグをFаlseに設定する。ステップS23の処理を実行した後、制御部27は、ステップS11の処理に戻る。
【0145】
図13に示すようなステップS24の処理において、発話蓄積部32は、イベント検出部30から、イベントID及び出力指示を取得したか否かを判定する。発話蓄積部32は、イベントID及び出力指示を取得したと判定した場合(ステップS24:YES)、ステップS25の処理に進む。発話蓄積部32は、イベントID及び出力指示を取得したと判定しない場合(ステップS24:NO)、ステップS30の処理に進む。
【0146】
ステップS25の処理において、リプレイフラグは、Trueに設定される。このリプレイフラグは、ステップS24の処理における出力指示をイベント検出部30が発話蓄積部32に出力するとき、イベント検出部30によってTrueに設定される。
【0147】
ステップS26の処理において、発話蓄積部32は、データバッファ33に蓄積された音声サンプリングデータのうちから、ステップS24の処理にて取得したイベントIDと一致する発話IDを特定する。発話蓄積部32は、特定した発話IDに対応する音声サンプリングデータを再生データとして取得する。発話蓄積部32は、データバッファ33から音声変調部35への再生データの出力を開始する。
【0148】
ステップS27の処理において、制御部27は、データバッファ33から音声変調部35に再生データが全て出力されたか否かを判定する。制御部27は、再生データが全て出力されたと判定した場合(ステップS27:YES)、ステップS29の処理に進む。制御部27は、再生データが全て出力されたと判定しない場合(ステップS27:NO)、ステップS28の処理に進む。
【0149】
ステップS28の処理において、制御部27は、図6に示すような領域42に対する入力を入力部22から受け付けることにより、リプレイ停止を受け付けたか否かを判定する。制御部27は、リプレイ停止を受け付けたと判定した場合(ステップS28:YES)、ステップS29の処理に進む。制御部27は、リプレイ停止を受け付けたと判定しない場合(ステップS28:NO)、ステップS27の処理に戻る。
【0150】
ステップS29の処理において、制御部27は、リプレイフラグをFаlseに設定する。ステップS29の処理を実行した後、制御部27は、図12に示すようなステップS11の処理に戻る。
【0151】
ステップS30の処理において、発話蓄積部32は、イベント検出部30から、イベントID及び保持指示を取得したか否かを判定する。発話蓄積部32は、イベントID及び保持指示を取得したと判定した場合(ステップS30:YES)、ステップS31の処理に進む。発話蓄積部32がイベントID及び保持指示を取得したと判定しない場合(ステップS30:NO)、制御部27は、図12に示すようなステップS11の処理に戻る。
【0152】
ステップS31の処理において、発話蓄積部32は、データバッファ33に蓄積された音声サンプリングデータのうちから、ステップS30の処理で取得したイベントIDと一致する発話IDを特定する。発話蓄積部32は、特定した発話IDに対応付けられた音声サンプリングデータをイベントIDとともに発話保持部36に出力する。
【0153】
ステップS31の処理を実行した後、制御部27は、図12に示すようなステップS11の処理に戻る。
【0154】
このように音声処理装置20では、制御部27は、設定条件を満たす音声を検出した場合、設定条件を満たす音声が検出されたことを、通知条件に応じて、ユーザに通知する。本実施形態では、制御部27は、設定条件を満たす音声として検索ワードを含む発話を検出した場合、検索ワードに設定された優先度に応じて、発話が検出されたことをユーザに通知する。
【0155】
ここで、ユーザには、設定条件を満たす音声が検出されたことを、その音声の内容に応じて、優先的に通知して欲しい場合と、優先的に通知して欲しくない場合とがある。本実施形態では、ユーザは、通知条件としての優先度を設定することにより、検出されたことを優先的に通知する音声と、検出されたことを優先的に通知しない音声とに分けることができる。したがって、音声処理装置20は、ユーザの利便性を向上させることができる。
【0156】
また、設定条件を満たす音声が検出された場合に、単に、その音声を再生しただけでは、ユーザがその再生された音声を聞き逃してしまう場合がある。音声処理装置20では、音声が検出されたことをユーザに通知することにより、ユーザが再生された音声を聞き逃してしまう可能性を低減させることができる。
【0157】
よって、本実施形態によれば、改善された、音声処理装置20、音声処理方法及び音声処理システム1を提供することができる。
【0158】
さらに、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第1条件を満たす場合、通知音を再生することにより、設定条件を満たす音声が検出されたことをユーザに通知してよい。上述したように、通知音が再生されることにより、ユーザは、音声が検出されたことに即座に気付くことができる。
【0159】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第1条件を満たす場合、通知音が再生された後、設定条件を満たす音声を再生してもよい。このような構成により、上述したように、ユーザの利便性を向上させることができる。
【0160】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第2条件を満たす場合、ユーザに視覚情報を呈示することにより、設定条件を満たす音声が検出されたことをユーザに通知してよい。上述したように、第2条件は、第1条件、第3条件及び第4条件よりも、ユーザに通知する優先順位が低い。優先順位が低い場合、通知音を再生するのではなく、ユーザに視覚情報を呈示することにより、低い優先順位に見合った通知をすることができる。
【0161】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第2条件を満たす場合、通知リストをユーザに呈示することにより、ユーザに視覚情報を呈示してよい。ユーザは、通知リストを見ることにより、音声が検出された日時等を把握し、音声が検出した経緯等を把握することができる。
【0162】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第2条件を満たす場合、ユーザの入力に基づいて、検出した音声を再生してよい。優先順位が低い場合、ユーザが検出された音声を後で確認したい可能性が高い。このような構成により、ユーザの利便性を向上させることができる。
【0163】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第3条件を満たす場合、検索ワードを検出した直後に、通知音が再生され、発話の再生が開始されるように制御してもよい。このような構成により、優先順位が高い場合、ユーザは、発話の内容を即座に確認することができる。
【0164】
また、音声処理装置20の制御部27は、検出された音声に対応する通知条件が第4条件を満たす場合、発話が終了した直後に、通知音が再生され、発話の再生が開始されるように制御してもよい。発話が終了した直後に発話の再生が開始されることにより、リアルタイムに発せられた発話と、再生された発話とが重ならなくなる。このような構成により、ユーザは、再生された発話の内容をより的確に把握することができる。
【0165】
また、音声処理装置20の制御部27は、検出された発話を含む発話区間の音声データが再生されるように制御してよい。発話区間は、図9を参照して上述したように、設定時間を空けずに音声データが続く区間である。このような発話区間の音声データが再生されることにより、検索ワードを含む発話のまとまりが再生される。このような構成により、ユーザは、検索ワードを含む発話の意味を理解することができる。
【0166】
また、音声処理装置20の制御部27は、優先度に関わらず、通知リストに含まれる情報のうち、イベントすなわち発話が検出された検出日時と、その発話に含まれる検索ワードとを表示部23に表示させてもよい。このような構成により、ユーザは、検出された発話がどのような経緯で発せられたかを把握することができる。
【0167】
(他の実施形態)
図14に示すような音声処理システム101は、赤ちゃん等の見守りサービスを提供することができる。音声処理システム101は、集音器110と、音声処理装置20とを含む。
【0168】
集音器110と音声処理装置20とは、図1に示すような集音器10及び音声処理装置20よりも、互いに離れて位置する。例えば、集音器110と音声処理装置20とは、別個の部屋に位置する。集音器110は、赤ちゃんがいる部屋に位置する。音声処理装置20は、ユーザがいる部屋に位置する。
【0169】
他の実施形態では、設定条件は、予め設定された音声の特徴と一致するとの条件である。ユーザは、設定条件として設定したい音声の特徴を、図2に示すような音声処理装置20の入力部22のマイクから入力し、音声処理装置20に設定条件として設定してよい。例えば、ユーザは、赤ちゃんの泣き声の特徴を音声処理装置20に設定条件として設定する。
【0170】
集音器110は、図2に示すようなマイク11と、スピーカ12と、通信部13と、記憶部14と、制御部15とを備える。集音器110は、スピーカ12を備えなくてもよい。
【0171】
音声処理装置20は、図2に示すようなスピーカ12をさらに備えてもよい。音声処理装置20の制御部27は、図2に示すような音声再生部17と、蓄積部18とをさらに備えてもよい。
【0172】
他の実施形態では、図2に示すような記憶部26は、図3に示すような検索リストの代わりに、音声の特徴を示すデータと優先度とを対応付けた検索リストを記憶する。音声の特徴を示すデータは、音声認識部29が用いる機械学習モデルによって処理可能な音声の特徴量のデータであってよい。音声の特徴量は、例えば、メル周波数ケプストラム係数(МFCC:Mel-Frequency Cepstral Coefficient)又はPLP(Perceptual Linear Prediction)等である。例えば、記憶部26は、赤ちゃんの泣き声を示すデータと、「高」との優先度とを対応付けた検索リストを記憶する。
【0173】
他の実施形態では、図2に示すような制御部27は、設定条件を満たす音声として、予め設定された音声の特徴と特徴が一致する音声を検出する。
【0174】
音声認識部29は、上述した実施形態と同じ又は類似に、区間検出部28から、発話開始時点の情報、発話終了時点の情報、発話ID及び音声サンプリングデータを取得する。他の実施形態では、音声認識部29は、任意の機械学習アルゴリズムによって生成された学習モデルを用いた音声認識処理によって、発話区間における音声の特徴が予め設定された音声の特徴と一致するか否かを判定する。
【0175】
音声認識部29は、発話区間における音声の特徴が予め設定された音声の特徴と一致すると判定した場合、音声認識結果としての一致を示す結果と、その発話区間の発話IDと、音声の特徴を示すデータとを、イベント検出部30に出力する。音声認識部29は、発話区間における音声の特徴が予め設定された音声の特徴と一致しない場合、音声認識結果としての不一致を示す結果と、その発話区間の発話IDとを、イベント検出部30に出力する。
【0176】
イベント検出部30は、音声認識部29から、音声認識結果としての一致を示す結果と、発話IDと、予め設定された音声の特徴を示すデータとを取得し得る。イベント検出部30は、一致を示す結果を取得した場合、予め設定された音声の特徴と特徴が一致する音声を、イベントとして検出する。イベント検出部30は、イベントを検出した場合、音声認識部29から取得した発話IDをイベントIDとして取得する。さらに、イベント検出部30は、検索リストを参照し、音声認識部29から取得した音声の特徴を示すデータに対応する優先度を取得する。イベント検出部30は、上述した実施形態と同じ又は類似に、取得した優先度に応じた通知処理を実行する。
【0177】
イベント検出部30は、音声認識部29から、音声認識結果としての不一致を示す結果と、発話IDとを取得し得る。イベント検出部30は、不一致を示す結果を取得した場合、音声認識部29から取得した発話IDをクリアイベントIDとして取得する。イベント検出部30は、クリアイベントIDを発話蓄積部32に出力する。
【0178】
他の実施形態に係る音声処理装置20の処理は、上述した処理に限定されない。他の例として、制御部27は、複数種類の音声を分類可能な分類器を構築してよい。さらに、制御部27は、構築された分類器に集音器110によって集音した音声データを入力した結果に基づいて、集音器110によって集音した音声がどの優先度に対応するかを判定してよい。
【0179】
他の実施形態に係る音声処理システム101のその他の効果及び構成は、図1に示すような音声処理システム1と同じ又は類似である。
【0180】
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。したがって、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各機能部に含まれる機能等は論理的に矛盾しないように再配置可能である。複数の機能部等は、1つに組み合わせられたり、分割されたりしてよい。上述した本開示に係る各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施され得る。つまり、本開示の内容は、当業者であれば本開示に基づき種々の変形及び修正を行うことができる。したがって、これらの変形及び修正は本開示の範囲に含まれる。例えば、各実施形態において、各機能部、各手段、各ステップ等は論理的に矛盾しないように他の実施形態に追加し、若しくは、他の実施形態の各機能部、各手段、各ステップ等と置き換えることが可能である。また、各実施形態において、複数の各機能部、各手段、各ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、上述した本開示の各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。
【0181】
例えば、音声処理装置20の制御部27は、1つの発話区間から、異なる設定条件をそれぞれ満たす複数の音声を検出してもよい。この場合、制御部27は、異なる設定条件のそれぞれに設定された複数の通知条件のそれぞれに応じて、設定条件を満たす音声が検出されたことをユーザに通知してもよい。又は、制御部27は、異なる設定条件のそれぞれに設定された複数の通知条件のうちの一部に応じて、設定条件を満たす音声が検出されたことをユーザに通知してもよい。当該複数の通知条件のうちの一部は、選択条件を満たす通知条件であってもよい。選択条件は、第1条件、第2条件、第3条件及び第4条件のうちから、ユーザ操作等に基づいて予め選択された条件である。又は、当該複数の通知条件のうちの一部は、当該複数の通知条件によってそれぞれ決定されるユーザに通知する優先順位が高い方から数えてN番目(Nは、1以上の整数)までに含まれる通知条件であってもよい。N番目は、ユーザ操作等に基づいて予め設定されてよい。例えば、制御部27は、1つの発話区間から、それぞれ異なる複数の検索ワードを検出してよい。この場合、制御部27は、それぞれ異なる複数の検索ワードにそれぞれ設定された複数の優先度のそれぞれに応じた処理を実行してもよい。又は、制御部27は、それぞれ異なる複数の検索ワードにそれぞれ設定された複数の優先度のうちの一部に応じた処理を実行してもよい。複数の優先度のうちの一部は、例えば、優先順位が高い方から数えてN番目までに含まれる優先度であってよい。
【0182】
例えば、音声処理装置20の制御部27は、1つの発話区間から、同じ設定条件を満たす音声を複数回検出してもよい。この場合、制御部27は、1つの発話区間において、通知条件に応じたユーザに通知する処理を、1回のみ実行してもよいし、設定条件を満たす音声を検出した回数だけ実行してもよい。例えば、制御部27は、1つの発話区間から、同じ検索ワードを複数回検出してよい。この場合、制御部27は、1つの発話区間において、優先度に応じた処理を1回のみ実行してもよいし、検索ワードを検出した回数だけ実行してもよい。
【0183】
例えば、図2に示すような区間検出部28は、リプレイフラグがTrueに設定されている間、発話区間の検出を停止してもよい。
【0184】
例えば、図14に示すような音声処理システム101において、設定条件として予め設定される音声の特徴が赤ちゃんの泣き声の特徴であるものとして説明した。ただし、設定条件として予め設定される音声の特徴は、赤ちゃんの泣き声の特徴に限定されない。音声処理システム101の使用状況に応じて、設定条件には、任意の音声の特徴が設定されてよい。他の例として、上司の声、インタホーンの呼び出し音又は電話の着信音の特徴が設定条件に設定されてよい。
【0185】
例えば、上述した実施形態では、優先度は、「高」、「中」及び「低」を含む3段階に設定されるものとして説明した。ただし、優先度は、3段階に設定されることに限定されない。優先度は、複数の段階に設定されればよい。例えば、優先度は、2段階又は4段階以上の複数の段階に設定されてよい。
【0186】
例えば、上述した実施形態では、集音器10と音声処理装置20とは、別個の装置であるものとして説明した。ただし、集音器10と音声処理装置20とは、1個の装置として構成されてよい。この一例について、図15を参照して説明する。図15に示すような音声処理システム201は、集音器210を含む。集音器210は、イヤホンである。集音器210は、音声処理装置20の処理を実行するように構成される。つまり、イヤホンとしての集音器210は、本開示の音声処理装置となる。集音器210は、図2に示すようなマイク11と、スピーカ12と、通信部13と、記憶部14と、制御部15とを備える。集音器210の制御部15は、音声処理装置20の制御部27に対応する構成要素を含む。集音器210の記憶部14は、通知リストを記憶する。集音器210は、図5に示すような通知手段としての画面表示及び発光を、ユーザのスマートフォン等の他の端末装置を利用して実行してよい。例えば、集音器210の制御部15は、記憶部14の通知リストを、ユーザのスマートフォン等に通信部13によって送信し、ユーザのスマートフォン等に表示させる。
【0187】
例えば、上述した実施形態では、音声処理装置20が音声認識処理を実行するものとして説明した。ただし、音声処理装置20以外の外部装置が、音声認識処理を実行してもよい。音声処理装置20の制御部27は、外部装置が実行した音声認識処理の結果を取得してもよい。外部装置は、例えば、サーバとして機能するように構成された専用のコンピュータ、汎用のパーソナルコンピュータ又はクラウドコンピューティングシステム等であってよい。この場合、集音器10の通信部13は、通信部21と同じ又は類似に、移動体通信網及びインターネット等を含む任意のネットワークに接続可能な少なくとも1つの通信モジュールをさらに含んで構成されてよい。集音器10では、制御部15は、音声サンプリングデータを、ネットワークを介して外部装置に通信部13によって送信してよい。外部装置は、ネットワークを介して音声サンプリングデータを集音器10から受信すると、音声認識処理を実行してよい。外部装置は、ネットワークを介して音声処理装置20に、音声認識処理の結果を送信してよい。音声処理装置20では、制御部27は、ネットワークを介して外部装置から音声認識処理の結果を通信部21によって受信することにより取得してよい。
【0188】
例えば、上述した実施形態では、音声処理装置20は、端末装置であるものとして説明した。ただし、音声処理装置20は、端末装置に限定されない。他の例として、音声処理装置20は、サーバとして機能するように構成された専用のコンピュータ、汎用のパーソナルコンピュータ又はクラウドコンピューティングシステム等であってよい。この場合、集音器10の通信部13は、通信部21と同じ又は類似に、移動体通信網及びインターネット等を含む任意のネットワークに接続可能な少なくとも1つの通信モジュールをさらに含んで構成されてよい。集音器10と、音声処理装置20とは、ネットワークを介して通信してよい。
【0189】
例えば、汎用のコンピュータを、上述した実施形態に係る音声処理装置20として機能させる実施形態も可能である。具体的には、上述した実施形態に係る音声処理装置20の各機能を実現する処理内容を記述したプログラムを、汎用のコンピュータのメモリに格納し、プロセッサによって当該プログラムを読み出して実行させる。したがって、上述した実施形態に係る構成は、プロセッサが実行可能なプログラム又は当該プログラムを記憶する非一時的なコンピュータ可読媒体としても実現可能である。
【符号の説明】
【0190】
1,101,201 音声処理システム
10,110,210 集音器
11 マイク
12 スピーカ
13 通信部
14 記憶部
15 制御部
16 音声取得部
17 音声再生部
18 蓄積部
20 音声処理装置
21 通信部
22 入力部
23 表示部
24 振動部
25 発光部
26 記憶部
27 制御部
28 区間検出部
29 音声認識部
30 イベント検出部
31 発話通知部
32 発話蓄積部
33 データバッファ
34 リングバッファ
35 音声変調部
40 メイン画面
41,42,43,44 領域
50 設定画面
51,52,53,54,55,56 領域
60 通知画面
61,62,63,64 領域
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15