(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025005165
(43)【公開日】2025-01-16
(54)【発明の名称】情報処理装置及び情報処理プログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20250108BHJP
G10L 15/10 20060101ALI20250108BHJP
G10L 25/63 20130101ALI20250108BHJP
H04R 3/04 20060101ALI20250108BHJP
【FI】
H04R3/00 310
H04R3/00 320
G10L15/10 500N
G10L25/63
H04R3/04
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023105225
(22)【出願日】2023-06-27
(71)【出願人】
【識別番号】000003621
【氏名又は名称】株式会社竹中工務店
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】金澤 朗蘭
(72)【発明者】
【氏名】中川 武彦
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220AA01
(57)【要約】
【課題】対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを得る。
【解決手段】情報処理装置10は、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得する取得部11Aと、取得部11Aによる音声情報の取得と並行して、当該音声情報から、上記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び上記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定する推定部11Bと、種類別感情値及び総合感情値の少なくとも一方を用いて、上記背景音に作用させることで、対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出する導出部11Cと、選択情報に応じたフィルタによるフィルタリングを上記背景音に対して実行する実行部11Dと、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得する取得部と、
前記取得部による前記音声情報の取得と並行して、当該音声情報から、前記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び前記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定する推定部と、
前記種類別感情値及び前記総合感情値の少なくとも一方を用いて、前記背景音に作用させることで、前記対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出する導出部と、
前記選択情報に応じたフィルタによるフィルタリングを前記背景音に対して実行する実行部と、
を備えた情報処理装置。
【請求項2】
前記導出部は、前記種類別感情値を用いて前記選択情報を導出する場合、前記目標とする心理状態に相関する感情の前記種類別感情値の、前記種類別感情値の合計値に対する割合を用いて前記選択情報を導出する、
請求項1に記載の情報処理装置。
【請求項3】
前記実行部は、前記選択情報に応じた適応フィルタを用いて前記背景音に対してフィルタリングを実行する、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記複数種類の感情は、ポジティブな感情及びネガティブな感情を含む、
請求項1に記載の情報処理装置。
【請求項5】
前記目標とする心理状態は、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の少なくとも1つの心理状態である、
請求項1に記載の情報処理装置。
【請求項6】
予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得し、
前記音声情報の取得と並行して、当該音声情報から、前記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び前記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定し、
前記種類別感情値及び前記総合感情値の少なくとも一方を用いて、前記背景音に作用させることで、前記対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出し、
前記選択情報に応じたフィルタによるフィルタリングを前記背景音に対して実行する、
処理をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、音環境の改善のために適用することのできる技術として、次の技術があった。
【0003】
特許文献1には、騒音に応じたより的確なマスキング音の生成を行い、作業者への騒音の影響の低減をより的確に提供することを目的とした作業環境改善システムが開示されている。
【0004】
この作業環境改善システムは、所定の空間内で作業を行う作業者の騒音に関する作業環境をマスキング音出力手段からのマスキング音の出力によってより良好なものとするための作業環境改善システムにおいて、前記作業者の前記空間内での所在位置を認識する作業者位置認識手段と、前記騒音の種類及び位置等の騒音情報を取得する騒音情報取得手段と、を有する。また、この作業環境改善システムは、該騒音情報取得手段により取得した騒音情報に基づいて前記作業者の前記騒音に対する感受性を弱めるためのマスキング音の種類を決定するマスキング音決定手段と、予め設定した前記作業者の前記騒音に対する感受性を弱めるために良好な音像定位情報を有し、該音像定位情報に基づいて前記マスキング音出力手段によるマスキング音の音像定位を行うマスキング音制御部と、を有する。そして、この作業環境改善システムは、前記マスキング音制御部は、前記作業者位置認識手段からの作業者の所在位置情報と、前記マスキング音決定手段からのマスキング音の種類情報と、前記良好な音像定位情報と、に基づいて、マスキング音の音像定位を行うことを特徴とする。
【0005】
また、特許文献2には、執務(業務)環境を改善し、それによってオフィスワーカーやエンジニア、ワーキングウーマン等の労働者個人の知的活動を活性化させることができ、各労働者の知的生産性を向上させることを目的とした知的生産性向上支援システムが開示されている。
【0006】
この知的生産性向上支援システムは、所定容積の小空間と、前記小空間に存在する労働者が周囲で発生する暗騒音を聞き取ることが可能な音圧レベルであって、前記労働者が無意識のうちにリフレッシュすることが可能かつ知的活動を活性化させることが可能な所定の付加音を前記小空間に発音させる付加音発音手段とから形成され、前記付加音の音圧レベルが、前記暗騒音の音圧レベルに対して-6dB~+8dBの範囲にあり、前記付加音発音手段によって発音された付加音が、前記暗騒音に加わって前記小空間に存在する労働者の気持ちをリラックスさせ又は労働者の知的活動を活性化させることを特徴とする。
【0007】
更に、特許文献3には、会話を伴う執務と会話を伴わない執務とが混在する場合に、執務者らの集中力低下を防止できるようにすることを目的とした執務環境調整システムが開示されている。
【0008】
この執務環境調整システムは、複数の執務領域を有する執務室の執務環境を調整する執務環境調整システムであって、前記執務室の全体を照らすアビエント照明部と、前記複数の執務領域のそれぞれを前記アビエント照明よりも高い照度で照らす複数のタスク照明部と、前記複数の執務領域のそれぞれに向けて音を流す複数のサウンドマスキング部と、を備えている。また、この執務環境調整システムは、前記複数の執務領域のうち、現に執務が行われる現行執務領域を選択する選択部と、前記現行執務領域に対して前記タスク照明部を点灯すると共に、前記現行執務領域又は前記現行執務領域に隣接する隣接領域に対して前記サウンドマスキング部を鳴らす制御部と、を備えている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2017-146517号公報
【特許文献2】特開2020-181539号公報
【特許文献3】特開2014-154483号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、近年、様々な人が個々に作業をしているオープンプランのオフィス等において、他人の声が気になり、かつ、話しにくい静かな音環境となっている場合がある。
【0011】
特に、ABW(Activity Based Working)を導入したオープンプランのオフィスにおいては、建築学会やISO(International Organization for Standardization)における残響時間の基準を満たした場合、吸音仕様の内装の影響を受けて静かな環境となるため、必要以上に音声が周囲に届いてしまい、自分が話しにくいといった音環境となっている場合がある。
【0012】
即ち、このような音環境においては、静かな環境を享受することができる反面、他者とのコミュニケーションが取りにくい、という問題点があった。
【0013】
この問題点に対し、特許文献1~特許文献3の各文献に開示されている技術は、コミュニケーションの取りやすさについては考慮されておらず、必ずしも、対象空間におけるコミュニケーションの取りやすさを向上させることができるとは限らない。
【0014】
本開示は、以上の事情を鑑みて成されたものであり、対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
請求項1に記載の本発明に係る情報処理装置は、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得する取得部と、前記取得部による前記音声情報の取得と並行して、当該音声情報から、前記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び前記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定する推定部と、前記種類別感情値及び前記総合感情値の少なくとも一方を用いて、前記背景音に作用させることで、前記対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出する導出部と、前記選択情報に応じたフィルタによるフィルタリングを前記背景音に対して実行する実行部と、を備えている。
【0016】
請求項1に記載の本発明に係る情報処理装置によれば、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得し、音声情報の取得と並行して、当該音声情報から、上記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び上記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定し、種類別感情値及び総合感情値の少なくとも一方を用いて、上記背景音に作用させることで、対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出し、選択情報に応じたフィルタによるフィルタリングを上記背景音に対して実行することで、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0017】
請求項2に記載の本発明に係る情報処理装置は、請求項1に記載の情報処理装置であって、前記導出部が、前記種類別感情値を用いて前記選択情報を導出する場合、前記目標とする心理状態に相関する感情の前記種類別感情値の、前記種類別感情値の合計値に対する割合を用いて前記選択情報を導出するものである。
【0018】
請求項2に記載の本発明に係る情報処理装置によれば、種類別感情値を用いて選択情報を導出する場合、目標とする心理状態に相関する感情の種類別感情値の、種類別感情値の合計値に対する割合を用いて選択情報を導出することで、対象空間に存在する人を、より効果的に目標とする心理状態に誘導することができる。
【0019】
請求項3に記載の本発明に係る情報処理装置は、請求項1又は請求項2に記載の情報処理装置であって、前記実行部が、前記選択情報に応じた適応フィルタを用いて前記背景音に対してフィルタリングを実行するものである。
【0020】
請求項3に記載の本発明に係る情報処理装置によれば、選択情報に応じた適応フィルタを用いて背景音に対してフィルタリングを実行することで、適応フィルタを用いない場合に比較して、より違和感のない背景音を流すことができる。
【0021】
請求項4に記載の本発明に係る情報処理装置は、請求項1に記載の情報処理装置であって、前記複数種類の感情が、ポジティブな感情及びネガティブな感情を含むものである。
【0022】
請求項4に記載の本発明に係る情報処理装置によれば、複数種類の感情が、ポジティブな感情及びネガティブな感情を含むことで、背景音に、ポジティブな感情及びネガティブな感情の双方の影響を反映させることができる。
【0023】
請求項5に記載の本発明に係る情報処理装置は、請求項1に記載の情報処理装置であって、前記目標とする心理状態が、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の少なくとも1つの心理状態であるものである。
【0024】
請求項5に記載の本発明に係る情報処理装置によれば、目標とする心理状態を、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の少なくとも1つの心理状態とすることで、背景音を、適用した目標とする心理状態に誘導しやすくすることができる。
【0025】
請求項6に記載の本発明に係る情報処理プログラムは、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得し、前記音声情報の取得と並行して、当該音声情報から、前記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び前記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定し、前記種類別感情値及び前記総合感情値の少なくとも一方を用いて、前記背景音に作用させることで、前記対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出し、前記選択情報に応じたフィルタによるフィルタリングを前記背景音に対して実行する、処理をコンピュータに実行させる。
【0026】
請求項6に記載の本発明に係る情報処理プログラムによれば、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得し、音声情報の取得と並行して、当該音声情報から、上記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び上記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定し、種類別感情値及び総合感情値の少なくとも一方を用いて、上記背景音に作用させることで、対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出し、選択情報に応じたフィルタによるフィルタリングを上記背景音に対して実行することで、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【発明の効果】
【0027】
以上説明したように、本発明によれば、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【図面の簡単な説明】
【0028】
【
図1】実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図2】実施形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。
【
図3】実施形態に係る情報処理装置が対象としている種類別感情値及び総合感情値の一例を示す図である。
【
図4】実施形態に係る適応フィルタ(感情フィルタ)の一例を示す図である。
【
図5】実施形態に係る適応フィルタを適用したシステム同定の一例を示す図である。
【
図6】実施形態に係る背景音情報データベースの構成の一例を示す模式図である。
【
図7】実施形態に係る感情フィルタデータベースの構成の一例を示す模式図である。
【
図8】実施形態に係る選択情報データベースの構成の一例を示す模式図である。
【
図9】実施形態に係る情報処理の一例を示すフローチャートである。
【
図10】実施形態に係る初期情報入力画面の構成の一例を示す正面図である。
【発明を実施するための形態】
【0029】
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、ABWを導入したオープンプランのオフィスに適用した場合について説明する。但し、本発明の適用対象は当該オフィスに限るものではなく、固定プランのオフィスや、オフィス以外の屋内の空間、屋外の空間等、基本的には静かだが、会話までは制限されていない空間であれば、如何なる空間でも本発明は適用可能である。
【0030】
まず、
図1を参照して、本実施形態に係る情報処理装置10の構成を説明する。
図1は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。なお、情報処理装置10の例としては、パーソナルコンピュータ及びサーバコンピュータ等の情報処理装置が挙げられる。
【0031】
図1に示すように、本実施形態に係る情報処理装置10は、CPU(Central Processing Unit)11、一時記憶領域としてのメモリ12、不揮発性の記憶部13、キーボードとマウス等の入力部14、液晶ディスプレイ等の表示部15、媒体読み書き装置(R/W)16及び通信インタフェース(I/F)部18を備えている。CPU11、メモリ12、記憶部13、入力部14、表示部15、媒体読み書き装置16及び通信I/F部18はバスBを介して互いに接続されている。媒体読み書き装置16は、記録媒体17に書き込まれている情報の読み出し及び記録媒体17への情報の書き込みを行う。
【0032】
本実施形態に係る記憶部13はHDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現される。記憶媒体としての記憶部13には、情報処理プログラム13Aが記憶されている。情報処理プログラム13Aは、当該プログラム13Aが書き込まれた記録媒体17が媒体読み書き装置16にセットされ、媒体読み書き装置16が記録媒体17からの上記プログラム13Aの読み出しを行うことで、記憶部13へ記憶(インストール)される。CPU11は、情報処理プログラム13Aを記憶部13から適宜読み出してメモリ12に展開し、当該情報処理プログラム13Aが有するプロセスを順次実行する。
【0033】
また、記憶部13には、背景音情報データベース13B、感情フィルタデータベース13C、及び選択情報データベース13Dが記憶される。背景音情報データベース13B、感情フィルタデータベース13C、及び選択情報データベース13Dについては、詳細を後述する。
【0034】
一方、通信I/F部18には、各々情報処理装置10が対象としている空間(以下、「対象空間」という。)に設けられたマイクロフォン(以下、「マイク」ともいう。)30及びスピーカ40が接続されている。
【0035】
本実施形態では、マイク30が、対象空間における人が比較的多く集まる位置に設けられ、スピーカ40が、当該人が比較的多く集まる位置において、発した音が十分聴取される位置に設けられている。但し、この形態に限るものではなく、例えば、マイク30については、対象空間の可能な限り広域における音を集音することのできる位置に設けたり、スピーカ40についても、当該広域において、発した音が十分聴取される位置に設けたりする形態としてもよい。
【0036】
また、本実施形態では、マイク30として無指向性のマイクロフォンを適用しているが、これに限るものではなく、例えば、単一指向性のマイクロフォンや双指向性のマイクロフォン等の他の指向性のマイクロフォンをマイク30として適用する形態としてもよい。また、本実施形態では、スピーカ40としてダイナミック型のスピーカを適用しているが、これに限るものではなく、例えば、静電型やマグネティック型等の他の方式のスピーカをスピーカ40として適用する形態としてもよい。
【0037】
次に、
図2を参照して、本実施形態に係る情報処理装置10の機能的な構成について説明する。
図2は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
【0038】
図2に示すように、本実施形態に係る情報処理装置10は、取得部11A、推定部11B、導出部11C、及び実行部11Dを含む。情報処理装置10のCPU11が情報処理プログラム13Aを実行することで、取得部11A、推定部11B、導出部11C、及び実行部11Dとして機能する。
【0039】
本実施形態に係る取得部11Aは、予め定められた背景音がスピーカ40によって流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を、マイク30を用いて取得する。また、本実施形態に係る推定部11Bは、取得部11Aによる音声情報の取得と並行して、当該音声情報から、人による予め定められた複数種類の感情の高さを示す種類別感情値、及び人による総合的な感情の高さを示す総合感情値の少なくとも一方(本実施形態では、両方)を推定する。
【0040】
本実施形態では、推定部11Bによる推定として、機械学習モデルを利用した推定(感情解析)を行う。この感情解析には、何れも既存の機械学習モデルである、NTTレゾナント株式会社製のAI Suite、株式会社Empath製のEmo Value Generator(以下、「EVG」という。)等といった従来既知の各種モデルを適用することができる。
図3には、本実施形態に係る情報処理装置10が対象としている種類別感情値及び総合感情値の一例が示されている。なお、
図3に示す例は、感情解析としてAI Suiteを適用した場合の例である。
【0041】
一例として
図3に示すように、本実施形態に係る情報処理装置10では、種類別感情値が対象としている感情の種類として、怒り(anger)、嫌悪(disgust)、恐怖(fear)、幸福(happiness)、悲しみ(sadness)、及び驚き(surprise)の6種類の感情を適用しているが、これに限るものでない。例えば、これらの6種類の感情のうちの2種類から5種類までの組み合わせを、種類別感情値が対象としている感情の種類として適用する形態としてもよいし、更に、これらの6種類以外の感情を適用する形態としてもよい。
【0042】
本実施形態では、種類別感情値を、発話の内容と、音声の特徴(例えば、よどみ、高調域の強調度合い、ピッチ、滑らかさ等)とに基づいて導出している。なお、本実施形態では、種類別感情値として、0(零)から1までの範囲の値で、かつ、対応する種類の感情が強いほど大きな値となる値を適用しているが、これに限るものでないことは言うまでもない。
【0043】
また、
図3に示すように、本実施形態に係る情報処理装置10では、総合感情値としてセンチメント(sentiment)を適用しているが、これに限るものではない。例えば、感情解析としてEVGを適用する場合には、当該EVGによって推定される「元気度」を総合感情値として適用する形態としてもよい。
【0044】
なお、センチメントは、上記6種類の感情値を元に算出される値であって、総合的な感情の高まりの程度を示す値であり、本実施形態では、0(零)を中心として負の値及び正の値を有する。ここで、センチメントが0(零)はノーマル(冷静)である状態を表し、センチメントの値が正の値である場合は、大きくなるほど正の状態で感情が高まっている状態を表し、負の値である場合は、絶対値が大きくなるほど負の状態で感情が高まっている状態を表す。但し、総合感情値の範囲は、以上のような0(零)を中心とした範囲に限定されるものでないことも言うまでもない。
【0045】
本実施形態に係る感情解析では、入力された音声情報が示す音声に対し、上述した種類別感情値、及び総合感情値を数値で出力する。何れの感情解析についても、1セグメント(1語又は1発話(機械学習モデルによって異なる))毎に解析結果を出力する。
【0046】
なお、本実施形態に係る感情解析では、人が発した音声を示す音声情報を対象としているため、上述したように、マイク30を対象空間における人が比較的多く集まる位置に設けているが、背景音の影響が大きい場合等には、マイク30に代えて、ヘッドセットを用いて音声情報を取得する形態としてもよい。また、機械的な雑音や、人為的な雑音等といった雑音が含まれる場合には、取得した音声情報に対して当該雑音の周波数帯域をカットするフィルタリングを行う形態としてもよい。
【0047】
また、本実施形態に係る導出部11Cは、種類別感情値及び総合感情値の少なくとも一方(本実施形態では、両方)を用いて、上記背景音に作用させることで、対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出する。そして、本実施形態に係る実行部11Dは、選択情報に応じたフィルタによるフィルタリングを上記背景音に対して実行する。
【0048】
ここで、本実施形態に係る導出部11Cは、種類別感情値を用いて選択情報を導出する場合、目標とする心理状態に相関する感情の種類別感情値の、種類別感情値の合計値に対する割合(以下、「目標感情割合」という。)を用いて選択情報を導出する。
【0049】
本実施形態に係る情報処理装置10では、選択情報を、その時点の対象空間における、目標とする心理状態に相関する感情の高さ(レベル)を示す情報として導出しており、当該レベルの高さに応じた適応フィルタを選択的に適用するために導出している。
【0050】
そして、本実施形態に係る実行部11Dは、選択情報に応じた適応フィルタを用いて背景音に対してフィルタリングを実行する。これにより、適応フィルタを用いない場合に比較して、より違和感のない背景音を流すことができる。なお、本実施形態では、上記適応フィルタとしてFIR(Finite Impulse Response、有限インパルス応答)フィルタを適用しているが、これに限るものではない。例えば、IIR(Infinite Impulse Response、無限インパルス応答)フィルタを、上記適応フィルタとして適用する形態としてもよい。
【0051】
また、本実施形態では、上述したように、上記複数種類の感情として、ポジティブな感情及びネガティブな感情の双方を適用しており、上記目標とする心理状態として、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の少なくとも1つ(本実施形態では、全て)の心理状態を適用している。これにより、背景音にポジティブな感情及びネガティブな感情の双方の影響を反映させることができ、更には、背景音を、適用した目標とする心理状態に誘導しやすくすることができる。
【0052】
次に、
図4を参照して、本実施形態に係る適応フィルタ(以下、「感情フィルタ」ともいう。)について説明する。
図4は、本実施形態に係る適応フィルタ(感情フィルタ)の一例を示す図であり、横軸はサンプル数(タップ数)を、縦軸は振幅を、各々表す。
【0053】
本実施形態に係る情報処理装置10では、上述した目標とする心理状態として、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の3種類の心理状態を適用している。このため、本実施形態に係る情報処理装置10では、これらの3種類の心理状態の各々毎で、かつ、上述した選択情報の各々毎に対応して、一例として
図4に示した感情フィルタを予め用意しておく。
【0054】
例えば、目標とする心理状態としてポジティブな心理状態を適用する場合、一例として
図4に示したような、「幸福」を感じる音色の特徴を有する感情フィルタを上記選択情報の区切り毎に予め用意しておく。なお、本実施形態に係る感情フィルタは、LMS(Least Mean Square、最小平均二乗)アルゴリズムにより、ノーマルな音声との差分をフィルタ化することで作成する。
【0055】
ところで、本実施形態に係る情報処理装置10では、適応フィルタである感情フィルタを用いて、LMSアルゴリズムにより徐々にフィルタを変化させることで背景音を変化させる。以下、
図5を参照して、本実施形態に係る情報処理装置10で実行される、感情フィルタによるフィルタリングについて説明する。
図5は、本実施形態に係る適応フィルタを適用したシステム同定の一例を示す図である。
【0056】
図5に示すように、本実施形態に係る情報処理装置10では、以下のようにフィルタリングが行われる。なお、以下におけるa、b、cは、各々、
図5におけるa、b、cに一対一で対応している。
【0057】
a.既存の背景音xにC^フィルタがかかり、背景音yとして出力される。
【0058】
b.既存の背景音xにCフィルタがかかった背景音y’との差dと、既存の背景音xから差dが0(零)となるように、即ちC^フィルタがCフィルタとなるようにC^フィルタを推定する。
【0059】
a.次に入力する背景音xに、推定した(更新した)C^フィルタがかかり、背景音が出力される。
【0060】
これを繰り返すことにより、徐々にC^フィルタがCフィルタとなり、徐々に背景音yが背景音y’となる。この際の推定頻度は、LMSアルゴリズムのパラメータで決定することができる。
【0061】
c.数秒~数10秒毎に感情解析の結果の平均値からCフィルタが更新される。
【0062】
b.更新されたCフィルタに応じてC^フィルタが推定される。
【0063】
次に、
図6~
図8を参照して、本実施形態に係る各種データベースについて説明する。まず、
図6を参照して、本実施形態に係る背景音情報データベース13Bについて説明する。
図6は、本実施形態に係る背景音情報データベース13Bの構成の一例を示す模式図である。
【0064】
図6に示すように、本実施形態に係る背景音情報データベース13Bは、複数種類の背景音を示す背景音情報S1、S2、・・・が記憶されており、本実施形態では、上記背景音の種類として、自然音、発声音、空調音、及び音楽等を適用している。
【0065】
ここで、上記自然音は、自然界での音を示す時系列情報であり、本実施形態では、雨の音を適用しているが、これに限るものではない。例えば、風の音、せせらぎの音といった他の自然界の音を、上記自然音として適用する形態としてもよい。また、上記発声音は、人が発した声を示す時系列情報であり、本実施形態では、標準的な感情の女性の声を適用しているが、これに限るものではない。例えば、男性の声を上記発声音として適用してもよいし、性別の区別がつかない、人工的に生成した発声音を上記発声音として適用する形態としてもよい。更に、これらの発声音に対して内容がわからない状態にフィルタリング等の処理を施したものを上記発声音として適用する形態としてもよい。
【0066】
同様に、上記空調音は、空気調和機から発する音を示す時系列情報であり、上記音楽は、予め定められたジャンル(本実施形態では、ジャズ)の音楽を示す時系列情報である。なお、以上の背景音は一部の例示であり、他の種類の背景音を適用することができることは言うまでもない。
【0067】
次に、
図7を参照して、本実施形態に係る感情フィルタデータベース13Cについて説明する。
図7は、本実施形態に係る感情フィルタデータベース13Cの構成の一例を示す模式図である。
【0068】
図7に示すように、本実施形態に係る感情フィルタデータベース13Cは、目標心理状態、及び感情フィルタの各情報が記憶されている。
【0069】
上記目標心理状態は、上述した目標とする心理状態(以下、単に「目標心理状態」ともいう。)を示す情報であり、本実施形態では、上述したように、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の3種類の心理状態を適用している。
【0070】
一方、上記感情フィルタは、上述した感情フィルタそのものを示す情報であり、対応する目標心理状態に対応し、かつ、上述した選択情報の区切り毎に予め記憶された情報である。
【0071】
本実施形態に係る選択情報の区切りは、対応する目標心理状態の強さのレベル毎の区切りとされている。このため、本実施形態に係る感情フィルタデータベース13Cでは、
図7に示すように、感情フィルタを上記レベル毎に用意している。なお、
図7に示す例では、レベル2以上のレベルの感情フィルタのみが記憶されているが、これは、以下の理由による。即ち、感情フィルタは、現状における感情のレベルを引き揚げるためのフィルタであるため、現状の感情の最低レベル(
図7に示す例では、レベル1)よりも高いレベルの感情フィルタが必要であり、レベル1の感情フィルタは不要であるためである。目標心理状態が同一である感情フィルタであっても、レベルが異なれば、その振幅のピーク値や波形幅等が異なるものとなる。
【0072】
次に、
図8を参照して、本実施形態に係る選択情報データベース13Dについて説明する。
図8は、本実施形態に係る選択情報データベース13Dの構成の一例を示す模式図である。
【0073】
図8に示すように、本実施形態に係る選択情報データベース13Dは、目標心理状態、感情解析値、及び選択情報の各情報が記憶されている。
【0074】
上記目標心理状態は、感情フィルタデータベース13Cの目標心理状態と同一の情報である。また、上記感情解析値は、推定部11Bによって推定された総合感情値と、推定部11Bによって推定された種類別感情値から得られる上述した目標感情割合と、の組み合わせを示す情報である。更に、上記選択情報は、上述した選択情報そのものを示す情報である。
【0075】
図8に示す例では、例えば、目標心理状態がポジティブな心理状態である場合、総合感情値が1.0以上で、かつ、目標感情割合が0.5以上である場合には、選択情報は5であることが登録されている。また、例えば、目標心理状態がポジティブな心理状態である場合、総合感情値が-0.5以上+0.5未満で、かつ、目標感情割合が0.3以上0.5未満である場合、選択情報は3であることが登録されている。
【0076】
なお、
図8に示す例では、総合感情値と目標感情割合との組み合わせが存在しない場合があるが、この場合、本実施形態では、現状の選択情報のまま維持する、即ち、感情フィルタの切り替えを行わないこととする。但し、この形態に限るものではなく、総合感情値と目標感情割合との全ての組み合わせについて選択情報を登録しておく形態としてもよい。
【0077】
次に、
図9~
図10を参照して、情報処理を実行する場合の情報処理装置10の作用を説明する。ユーザによって情報処理プログラム13Aの実行を開始する指示入力が入力部14を介して行われた場合に、情報処理装置10のCPU11が当該プログラム13Aを実行することにより、
図9に示す情報処理が実行される。なお、ここでは、錯綜を回避するために、背景音情報データベース13B、感情フィルタデータベース13C、及び選択情報データベース13Dの各データベースが既に構築されている場合について説明する。
【0078】
図9のステップ100で、CPU11は、予め定められた構成とされた初期情報入力画面を表示するように表示部15を制御し、ステップ102で、CPU11は、所定情報が入力されるまで待機する。
【0079】
図10には、本実施形態に係る初期情報入力画面の一例が示されている。
図10に示すように、本実施形態に係る初期情報入力画面では、目標心理状態及び背景音の入力を促すメッセージが表示される。また、この初期情報入力画面では、目標心理状態を入力するための入力領域15A、及び所望の背景音を入力するための入力領域15Bが表示される。
【0080】
一例として
図10に示す初期情報入力画面が表示部15に表示されると、ユーザは、入力部14を介して、対応する情報を、対応する入力領域に入力した後に、終了ボタン15Cを指定する。これに応じて、ステップ102が肯定判定となって、ステップ104に移行する。
【0081】
ステップ104で、CPU11は、ユーザによって入力された背景音に対応する背景音情報を背景音情報データベース13Bから読み出す。ステップ106で、CPU11は、マイク30の作動を開始させることで、マイク30から受信した音声情報の記憶部13への蓄積を開始する。ステップ108で、CPU11は、読み出した背景音情報が示す背景音のスピーカ40による再生を開始する。
【0082】
ステップ110で、CPU11は、予め定められた時間(本実施形態では、10秒間であり、以下、「所定経過時間」という。)が経過するまで待機する。ステップ112で、CPU11は、この時点から上記所定経過時間だけ遡った期間分の音声情報を記憶部13から読み出す。ステップ114で、CPU11は、読み出した音声情報について、上述したように感情解析を行う。
【0083】
ステップ116で、CPU11は、感情解析によって得られた種類別感情値を用いて目標感情割合を導出し、感情解析によって得られた総合感情値と、導出した目標感情割合との組み合わせに対応する選択情報を選択情報データベース13Dから読み出す。なお、ここで適用する目標感情割合及び総合感情値は、上記所定経過時間における各々の値の平均値としているが、これに限るものではない。例えば、上記所定経過時間における各々の値の中央値、最大値、最小値等を、その用途等に応じて、上記目標感情割合及び総合感情値として適宜適用する形態としてもよい。
【0084】
ここで、目標心理状態がポジティブな心理状態である場合は、幸福(happiness)に関する種類別感情値が支配的であるため、目標感情割合として、幸福の種類別感情値の全感情値に対する割合を適用している。これに対し、目標心理状態が冷静である心理状態である場合や、リラックスしている心理状態である場合には、これらの心理状態には複数種類の感情が相関するため、目標感情割合として、当該複数種類の感情の種類別感情値の全感情値に対する割合を適用する。
【0085】
ステップ118で、CPU11は、ユーザによって入力された目標心理状態に対応し、かつ、読み出した選択情報が示すレベルより1段階上のレベルに対応する感情フィルタを感情フィルタデータベース13Cから読み出す。ステップ120で、CPU11は、スピーカ40によって再生している背景音に対して、読み出した感情フィルタを適用してフィルタリングを行うように設定する。この際、CPU11は、
図5を参照して説明したように、読み出した感情フィルタを用いて適応アルゴリズム(本実施形態では、LMSアルゴリズム)により、徐々に感情フィルタを変化させることで、スピーカ40から発せられる背景音を変化させる。
【0086】
なお、ステップ116の処理において、感情解析によって得られた総合感情値と、導出した目標感情割合との組み合わせが選択情報データベース13Dに存在しない場合もあるが、この場合は、ステップ118における感情フィルタの読み出しや、ステップ120による感情フィルタの設定は行わないことは言うまでもない。
【0087】
ステップ122で、CPU11は、予め定められた終了タイミングが到来したか否かを判定し、否定判定となった場合はステップ110に戻る一方、肯定判定となった場合はステップ124に移行する。なお、本実施形態では、上記終了タイミングとして、ユーザによって情報処理プログラム13Aの実行を停止する指示入力が入力部14を介して行われたタイミングを適用しているが、これに限るものでないことは言うまでもない。
【0088】
ステップ124で、CPU11は、背景音のスピーカ40による再生を停止し、ステップ126で、CPU11は、ステップ106の処理によって開始した、マイク30から受信した音声情報の記憶部13への蓄積を停止した後、本情報処理を終了する。
【0089】
なお、本情報処理において、感情フィルタとして、選択情報が示すレベルの1段階上のレベルの感情フィルタを適用するのは、現状とかけ離れた感情特性を有する感情フィルタを適用しても、ミラー効果による感情の変化が起きにくいためである。
【0090】
以上説明したように、本実施形態によれば、予め定められた背景音が流されている対象空間において、当該対象空間に存在する人が発した音声を示す音声情報を取得し、音声情報の取得と並行して、当該音声情報から、上記人による予め定められた複数種類の感情の高さを示す種類別感情値、及び上記人による総合的な感情の高さを示す総合感情値の少なくとも一方を推定し、種類別感情値及び総合感情値の少なくとも一方を用いて、上記背景音に作用させることで、対象空間に存在する人を目標とする心理状態に誘導するフィルタを選択するための選択情報を導出し、選択情報に応じたフィルタによるフィルタリングを上記背景音に対して実行している。従って、対象空間に存在する人を目標とする心理状態に誘導することができる結果、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0091】
また、本実施形態によれば、種類別感情値を用いて選択情報を導出する場合、目標とする心理状態に相関する感情の種類別感情値の、種類別感情値の合計値に対する割合を用いて選択情報を導出する。従って、対象空間に存在する人を、より効果的に目標とする心理状態に誘導することができる。
【0092】
また、本実施形態によれば、選択情報に応じた適応フィルタを用いて背景音に対してフィルタリングを実行する。従って、適応フィルタを用いない場合に比較して、より違和感のない背景音を流すことができる。
【0093】
即ち、人は背景音が急に変化すると、当該変化に気付いてしまい、背景音を意識してしまうが、背景音は人に意識して欲しくないものであるので、滑らかに変化させたい。このため、本実施形態では、あえて適応アルゴリズムを採用することとし、背景音の変更の速度を調整するようにしている。
【0094】
また、本実施形態によれば、複数種類の感情が、ポジティブな感情及びネガティブな感情を含む。従って、背景音に、ポジティブな感情及びネガティブな感情の双方の影響を反映させることができる。
【0095】
更に、本実施形態によれば、目標とする心理状態を、ポジティブな心理状態、冷静である心理状態、及びリラックスしている心理状態の少なくとも1つの心理状態とする。従って、背景音を、適用した目標とする心理状態に誘導しやすくすることができる。
【0096】
なお、上記実施形態では、1つの対象空間に対して1つのマイク及びスピーカを適用して背景音を再生する場合について説明したが、これに限定されるものではない。例えば、1つの対象空間に対して、マイク及びスピーカの少なくとも一方を複数設けて背景音を再生する形態としてもよい。
【0097】
また、本実施形態では、感情フィルタによるフィルタリングとして、LMSアルゴリズムによるフィルタリングを適用した場合について説明したが、これに限定されるものではない。例えば、NLMS(Normalized Least Mean Square、正規化最小平均二乗)アルゴリズムや、RLS(Recursive Least Squares、逐次最小二乗)アルゴリズムによるフィルタリングを、感情フィルタによるフィルタリングとして適用する形態としてもよい。
【0098】
また、本実施形態では、感情フィルタとして、目標心理状態の各々毎に5段階のレベル別のものを用意した場合について説明したが、これに限定されるものではなく、その段階数が5段階に限るものでないことは言うまでもない。
【0099】
また、本実施形態では言及しなかったが、本発明は、主として対象空間に複数の人が存在する場合に適用することになるが、例えば、対象空間には1人のみが存在し、当該1人がオンライン会議を行っていたり、電話していたりする態様にも本発明は適用することができる。
【0100】
また、本実施形態では、適応フィルタを用いて背景音をフィルタリングする場合について説明したが、これに限定されるものではない。例えば、ニューラルネットワークを用いて背景音のフィルタリングを行う形態としてもよい。この場合、教師データは感情フィルタを通した信号として、入力信号を学習させる。この学習の回数の設定によって、更新の速度を調整することができる。
【0101】
また、上記実施形態で適用した各種数値は一例であり、本発明の趣旨を逸脱しない範囲で変更を加えることができることは言うまでもない。
【0102】
また、上記実施形態において、例えば、取得部11A、推定部11B、導出部11C、及び実行部11Dの各処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0103】
処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、処理部を1つのプロセッサで構成してもよい。
【0104】
処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0105】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)を用いることができる。
【符号の説明】
【0106】
10 情報処理装置
11 CPU
11A 取得部
11B 推定部
11C 導出部
11D 実行部
12 メモリ
13 記憶部
13A 情報処理プログラム
13B 背景音情報データベース
13C 感情フィルタデータベース
13D 選択情報データベース
14 入力部
15 表示部
16 媒体読み書き装置
17 記録媒体
18 通信I/F部
30 マイク
40 スピーカ