(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024080167
(43)【公開日】2024-06-13
(54)【発明の名称】情報処理装置及び情報処理プログラム
(51)【国際特許分類】
G10K 11/175 20060101AFI20240606BHJP
G10K 15/08 20060101ALI20240606BHJP
G10L 25/63 20130101ALI20240606BHJP
【FI】
G10K11/175
G10K15/08
G10L25/63
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022193121
(22)【出願日】2022-12-01
(71)【出願人】
【識別番号】000003621
【氏名又は名称】株式会社竹中工務店
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】金澤 朗蘭
(72)【発明者】
【氏名】中川 武彦
【テーマコード(参考)】
5D061
5D208
【Fターム(参考)】
5D061FF02
5D208AA20
(57)【要約】
【課題】対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを得る。
【解決手段】情報処理装置10は、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部11Aと、対象空間において背景音情報が示す背景音を再生する制御を行う制御部11Cと、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部と、
前記対象空間において前記背景音情報が示す背景音を再生する制御を行う制御部と、
を備えた情報処理装置。
【請求項2】
前記作成部は、前記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで前記背景音情報を作成する、
請求項1に記載の情報処理装置。
【請求項3】
前記対象空間における音声を示す対象空間音声情報を取得する取得部を更に備え、
前記制御部は、前記対象空間音声情報が示す音声の大きさに応じて、前記背景音の再生の大きさを調整する、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記ポジティブな印象を与える発話は、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも1種類の印象を与える発話である、
請求項1に記載の情報処理装置。
【請求項5】
人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、
前記対象空間において前記背景音情報が示す背景音を再生する制御を行う、
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、音環境の改善のために適用することのできる技術として、次の技術があった。
【0003】
特許文献1には、騒音に応じたより的確なマスキング音の生成を行い、作業者への騒音の影響の低減をより的確に提供することを目的とした作業環境改善システムが開示されている。
【0004】
この作業環境改善システムは、所定の空間内で作業を行う作業者の騒音に関する作業環境をマスキング音出力手段からのマスキング音の出力によってより良好なものとするための作業環境改善システムにおいて、前記作業者の前記空間内での所在位置を認識する作業者位置認識手段と、前記騒音の種類及び位置等の騒音情報を取得する騒音情報取得手段と、を有する。また、この作業環境改善システムは、該騒音情報取得手段により取得した騒音情報に基づいて前記作業者の前記騒音に対する感受性を弱めるためのマスキング音の種類を決定するマスキング音決定手段と、予め設定した前記作業者の前記騒音に対する感受性を弱めるために良好な音像定位情報を有し、該音像定位情報に基づいて前記マスキング音出力手段によるマスキング音の音像定位を行うマスキング音制御部と、を有する。そして、この作業環境改善システムは、前記マスキング音制御部は、前記作業者位置認識手段からの作業者の所在位置情報と、前記マスキング音決定手段からのマスキング音の種類情報と、前記良好な音像定位情報と、に基づいて、マスキング音の音像定位を行うことを特徴とする。
【0005】
また、特許文献2には、執務(業務)環境を改善し、それによってオフィスワーカーやエンジニア、ワーキングウーマン等の労働者個人の知的活動を活性化させることができ、各労働者の知的生産性を向上させることを目的とした知的生産性向上支援システムが開示されている。
【0006】
この知的生産性向上支援システムは、所定容積の小空間と、前記小空間に存在する労働者が周囲で発生する暗騒音を聞き取ることが可能な音圧レベルであって、前記労働者が無意識のうちにリフレッシュすることが可能かつ知的活動を活性化させることが可能な所定の付加音を前記小空間に発音させる付加音発音手段とから形成され、前記付加音の音圧レベルが、前記暗騒音の音圧レベルに対して-6dB~+8dBの範囲にあり、前記付加音発音手段によって発音された付加音が、前記暗騒音に加わって前記小空間に存在する労働者の気持ちをリラックスさせ又は労働者の知的活動を活性化させることを特徴とする。
【0007】
更に、特許文献3には、会話を伴う執務と会話を伴わない執務とが混在する場合に、執務者らの集中力低下を防止できるようにすることを目的とした執務環境調整システムが開示されている。
【0008】
この執務環境調整システムは、複数の執務領域を有する執務室の執務環境を調整する執務環境調整システムであって、前記執務室の全体を照らすアビエント照明部と、前記複数の執務領域のそれぞれを前記アビエント照明よりも高い照度で照らす複数のタスク照明部と、前記複数の執務領域のそれぞれに向けて音を流す複数のサウンドマスキング部と、を備えている。また、この執務環境調整システムは、前記複数の執務領域のうち、現に執務が行われる現行執務領域を選択する選択部と、前記現行執務領域に対して前記タスク照明部を点灯すると共に、前記現行執務領域又は前記現行執務領域に隣接する隣接領域に対して前記サウンドマスキング部を鳴らす制御部と、を備えている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2017-146517号公報
【特許文献2】特開2020-181539号公報
【特許文献3】特開2014-154483号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、近年、様々な人が個々に作業をしているオープンプランのオフィス等において、他人の声が気になり、かつ、話しにくい静かな音環境となっている場合がある。
【0011】
特に、ABW(Activity Based Working)を導入したオープンプランのオフィスにおいては、建築学会やISO(International Organization for Standardization)における残響時間の基準を満たした場合、吸音仕様の内装の影響を受けて静かな環境となるため、必要以上に音声が周囲に届いてしまい、自分が話しにくいといった音環境となっている場合がある。
【0012】
即ち、このような音環境においては、静かな環境を享受することができる反面、他者とのコミュニケーションが取りにくい、という問題点があった。
【0013】
この問題点に対し、特許文献1~特許文献3の各文献に開示されている技術は、コミュニケーションの取りやすさについては考慮されておらず、必ずしも、対象空間におけるコミュニケーションの取りやすさを向上させることができるとは限らない。
【0014】
本開示は、以上の事情を鑑みて成されたものであり、対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
請求項1に記載の本発明に係る情報処理装置は、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部と、前記対象空間において前記背景音情報が示す背景音を再生する制御を行う制御部と、を備えている。
【0016】
請求項1に記載の本発明に係る情報処理装置によれば、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行うことで、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能(ポジティブ感情によって注意や認知、行動の範囲が広がること、受容性の向上:Estrada, Isen, &Young,1997、注意の幅を広げる:Isen,2002、などが実証済み)をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0017】
請求項2に記載の本発明に係る情報処理装置は、請求項1に記載の情報処理装置であって、前記作成部が、前記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで前記背景音情報を作成するものである。
【0018】
請求項2に記載の本発明に係る情報処理装置によれば、ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成することで、確実に音声の内容が認識できなくなる結果、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0019】
請求項3に記載の本発明に係る情報処理装置は、請求項1又は請求項2に記載の情報処理装置であって、前記対象空間における音声を示す対象空間音声情報を取得する取得部を更に備え、前記制御部が、前記対象空間音声情報が示す音声の大きさに応じて、前記背景音の再生の大きさを調整するものである。
【0020】
請求項3に記載の本発明に係る情報処理装置によれば、対象空間における音声を示す対象空間音声情報を取得し、当該対象空間音声情報が示す音声の大きさに応じて背景音の再生の大きさを調整することで、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0021】
請求項4に記載の本発明に係る情報処理装置は、請求項1に記載の情報処理装置であって、前記ポジティブな印象を与える発話が、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも1種類の印象を与える発話であるものである。
【0022】
請求項4に記載の本発明に係る情報処理装置によれば、ポジティブな印象を与える発話を、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも1種類の印象を与える発話とすることで、対象空間に存在する人に対して、適用した種類に応じたポジティブな印象を与えることができる。
【0023】
請求項5に記載の本発明に係る情報処理プログラムは、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、前記対象空間において前記背景音情報が示す背景音を再生する制御を行う、処理をコンピュータに実行させる。
【0024】
請求項5に記載の本発明に係る情報処理プログラムによれば、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行うことで、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【発明の効果】
【0025】
以上説明したように、本発明によれば、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【図面の簡単な説明】
【0026】
【
図1】実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図2】実施形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。
【
図3】実施形態に係る音声情報データベースの構成の一例を示す模式図である。
【
図4】実施形態に係る第1情報処理の一例を示すフローチャートである。
【
図5】実施形態に係る第1情報処理における背景音の作成の説明に供する模式図である。
【
図6】実施形態に係る第1情報処理における背景音の作成の説明に供する模式図である。
【
図7】実施形態に係る第1情報処理における背景音の作成の説明に供する模式図である。
【
図8】実施形態に係る第2情報処理の一例を示すフローチャートである。
【
図9】実施形態に係る背景音の効果の説明に供するグラフであり、同一人物(俳優)に同一の文を異なる感情に聞こえるように発声させた場合に計測された音声の周波数の時系列データであり、左図は感情として「平常」の感情を適用し、中央図は感情として「喜び」の感情を適用し、右図は感情として「悲しみ」の感情を適用したものである。
【
図10】実施形態に係る背景音の効果の説明に供するグラフであり、音声を聞いたときの聴者の感情を調査したアンケート結果を示すグラフである。
【発明を実施するための形態】
【0027】
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、ABWを導入したオープンプランのオフィスに適用した場合について説明する。但し、本発明の適用対象は当該オフィスに限るものではなく、固定プランのオフィスや、オフィス以外の屋内の空間、屋外の空間等、基本的には静かだが、会話までは制限されていない空間であれば、如何なる空間でも本発明は適用可能である。
【0028】
まず、
図1を参照して、本実施形態に係る情報処理装置10の構成を説明する。
図1は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。なお、情報処理装置10の例としては、パーソナルコンピュータ及びサーバコンピュータ等の情報処理装置が挙げられる。
【0029】
図1に示すように、本実施形態に係る情報処理装置10は、CPU(Central Processing Unit)11、一時記憶領域としてのメモリ12、不揮発性の記憶部13、キーボードとマウス等の入力部14、液晶ディスプレイ等の表示部15、媒体読み書き装置(R/W)16及び通信インタフェース(I/F)部18を備えている。CPU11、メモリ12、記憶部13、入力部14、表示部15、媒体読み書き装置16及び通信I/F部18はバスBを介して互いに接続されている。媒体読み書き装置16は、記録媒体17に書き込まれている情報の読み出し及び記録媒体17への情報の書き込みを行う。
【0030】
本実施形態に係る記憶部13はHDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現される。記憶媒体としての記憶部13には、第1情報処理プログラム13A及び第2情報処理プログラム13Bが記憶されている。第1情報処理プログラム13A及び第2情報処理プログラム13Bの各プログラムは、当該各プログラムが書き込まれた記録媒体17が媒体読み書き装置16にセットされ、媒体読み書き装置16が記録媒体17からの上記各プログラムの読み出しを行うことで、記憶部13へ記憶される。CPU11は、第1情報処理プログラム13A及び第2情報処理プログラム13Bの各プログラムを記憶部13から適宜読み出してメモリ12に展開し、当該各プログラムが有するプロセスを順次実行する。
【0031】
また、記憶部13には、音声情報データベース13C及び背景音情報13Dが記憶される。音声情報データベース13C及び背景音情報13Dについては、詳細を後述する。
【0032】
一方、通信I/F部18には、各々情報処理装置10が対象としている空間(以下、「対象空間」という。)に設けられたマイクロフォン(以下、「マイク」ともいう。)30及びスピーカ40が接続されている。
【0033】
本実施形態では、マイク30が、対象空間における人が比較的多く集まる位置に設けられ、スピーカ40が、当該人が比較的多く集まる位置において、発した音が十分聴取される位置に設けられている。但し、この形態に限るものではなく、例えば、マイク30については、対象空間の可能な限り広域における音を集音することのできる位置に設けたり、スピーカ40についても、当該広域において、発した音が十分聴取される位置に設けたりする形態としてもよい。
【0034】
また、本実施形態では、マイク30として無指向性のマイクロフォンを適用しているが、これに限るものではなく、例えば、単一指向性のマイクロフォンや双指向性のマイクロフォン等の他の指向性のマイクロフォンをマイク30として適用する形態としてもよい。また、本実施形態では、スピーカ40としてダイナミック型のスピーカを適用しているが、これに限るものではなく、例えば、静電型やマグネティック型等の他の方式のスピーカをスピーカ40として適用する形態としてもよい。
【0035】
次に、
図2を参照して、本実施形態に係る情報処理装置10の機能的な構成について説明する。
図2は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
【0036】
図2に示すように、本実施形態に係る情報処理装置10は、作成部11A、取得部11B、及び制御部11Cを含む。情報処理装置10のCPU11が第1情報処理プログラム13A及び第2情報処理プログラム13Bの各プログラムを実行することで、作成部11A、取得部11B、及び制御部11Cとして機能する。
【0037】
本実施形態に係る作成部11Aは、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加する。これにより、作成部11Aは、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する。
【0038】
特に、本実施形態に係る作成部11Aは、上記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成する。但し、この形態に限るものではなく、当該無作為な配置を実施しない形態、即ち、単に残響効果を付加するのみで背景音情報を作成する形態としてもよい。要は、再生される音声の内容が認識できない程度にデフォルメされているが、人の感情にポジティブな影響を与えることのできる背景音情報が作成できるのであれば、如何なる処理も当該背景音情報の作成に適用し得る。
【0039】
また、本実施形態に係る制御部11Cは、対象空間において、作成部11Aにより作成された背景音情報が示す背景音を再生する制御を行う。
【0040】
ここで、本実施形態に係る取得部11Bは、対象空間における音声を示す対象空間音声情報を取得し、制御部11Cは、取得部11Bによって取得された対象空間音声情報が示す音声の大きさに応じて、背景音の再生の大きさを調整する。本実施形態では、当該背景音の再生の大きさの調整として、対象空間音声情報が示す音声の大きさが大きくなるほど、背景音の再生の大きさを線形に大きくする調整を適用しているが、これに限るものではない。例えば、対象空間音声情報が示す音声の大きさが大きくなるほど、背景音の再生の大きさを非線形に大きくする調整を適用する形態としてもよい。
【0041】
また、本実施形態では、ポジティブな印象を与える発話として、喜び、感謝、安らぎ、興味、幸せ、及び希望の6種類の印象の各々を与える発話を適用しているが、これに限るものではない。例えば、これらの印象のうちの1種類のみ、又は2種類から5種類の組み合わせの印象を与える発話を、ポジティブな印象を与える発話として適用する形態としてもよい。また、ポジティブな印象を与える発話の種類は上記6種類に限るものでははく、誇り、愉快、畏敬、愛等も、ポジティブな印象を与える発話の種類に含まれ得る。
【0042】
ここで、
図9及び
図10の各図を参照して、本実施形態に係る作成部11Aによって作成される背景音情報が示す背景音の効果について説明する。なお、
図9は、同一人物(俳優)に同一の文を異なる感情に聞こえるように発声させた場合に計測された音声の周波数の時系列データである。ここで、
図9の左図は上記感情として「平常」の感情を適用し、
図9の中央図は上記感情として「喜び」の感情を適用し、
図9の右図は上記感情として「悲しみ」の感情を適用している。また、
図10は、音声を聞いたときの聴者の感情を調査したアンケート結果を示すグラフであり、横軸は提示した感情の提示時間全体に占める割合(
図10では、「音声のもつ感情特性」と表記)で、縦軸は対応する感情反応を示した聴者数の全体数に占める割合(
図10では、「聴者の感情反応」と表記)である。
【0043】
図9の中央図に示す「喜び」の感情の場合は、
図9の左図に示す「平常」の感情に比較してピッチ(音の高さ(周波数))が高く、高域の音圧が高くなっている一方、
図9の右図に示す「悲しみ」の感情の場合は、「平常」の感情に比較してピッチが低く、高域の音圧も低くなっていることがわかる。これらのことから、異なる感情では、同じ語でも音の特性が変わることがわかる。
【0044】
一方、
図10は、回帰分析により、音声のもつ感情特性が聴者の感情反応に有意に影響する(有意水準5%)ことがわかった感情(上グラフが聴者「幸せ」-音声「幸せ」、下グラフが聴者「幸せ」-音声「怒り」)についての相関性を示すグラフである。
【0045】
図10から、「幸せ」の音声を提示する時間が長いほど、「幸せ」と感じる人が増えており、感情推定で「幸せ」の音声を聞いた聴者は、相関はあまり高くないものの、「幸せ」を感じる傾向があることがわかる。このことから、「幸せ」等のポジティブな感情と推定された音声による背景音を提示することで、ミラー効果により執務者のポジティブな感情を誘発し、一定数の執務者はポジティブ感情による拡張機能の影響を受けて執務ができると考えられる。
【0046】
次に、
図3を参照して、本実施形態に係る音声情報データベース13Cについて説明する。
図3は、本実施形態に係る音声情報データベース13Cの構成の一例を示す模式図である。音声情報データベース13Cは、本実施形態に係る情報処理装置10が背景音情報を作成する際に用いる音声情報が記憶されたデータベースである。
【0047】
図3に示すように、本実施形態に係る音声情報データベース13Cは、複数の音声情報S1、S2、・・・が記憶されている。
【0048】
なお、本実施形態では、上記音声情報として、対象空間とは異なる空間において録音され、かつ、性別や年齢層を問わない複数の人から得られたものを適用しているが、これに限るものではない。例えば、対象空間において録音されたものや、性別や年齢層に制限を加えたものを上記音声情報として適用する形態としてもよい。
【0049】
また、上記音声情報の録音にはマイクロフォンを使用し、データレコーダ等の記憶媒体に一旦収録した後に音声情報データベース13Cに登録する。この際の収録はステレオで行ってもモノラルで行っても構わないが、詳細を後述する感情解析を行うことを踏まえて、感情の判定に影響を与える周波数(10kHz程度まで)が周波数分析できるサンプリング間隔とする。
【0050】
次に、
図4~
図8を参照して、本実施形態に係る情報処理装置10の作用を説明する。まず、
図4~
図7を参照して、第1情報処理を実行する場合の情報処理装置10の作用を説明する。ユーザによって第1情報処理プログラム13Aの実行を開始する指示入力が入力部14を介して行われた場合に、情報処理装置10のCPU11が当該プログラム13Aを実行することにより、
図4に示す第1情報処理が実行される。なお、ここでは、錯綜を回避するために、音声情報データベース13Cに背景音情報の作成に十分な量の音声情報が既に登録されている場合について説明する。
【0051】
図4のステップ100で、CPU11は、音声情報データベース13Cから全ての音声情報を読み出し、ステップ102で、CPU11は、以下に示すように、読み出した音声情報について感情解析を実行する。
【0052】
即ち、本実施形態では、取得した音声情報が示す音声が聴者に与える印象について、機械学習モデルを利用した推定(感情解析)を行う。この感情解析には、何れも既存の機械学習モデルである、NTTレゾナント株式会社製のAI Suite、株式会社Empath製のEmo Value Generator等の各種モデルを適用することができる。
【0053】
本実施形態に係る感情解析では、入力された音声情報が示す音声に対し、怒り、嫌悪、喜び、驚き、幸福、冷静さ、悲しみ等といった感情毎にスコア(以下、「感情スコア」ともいう。)を数値で出力する。何れの感情解析についても、1セグメント(1語又は1発話(機械学習モデルによって異なる))毎に解析結果を出力する。
【0054】
ステップ104で、CPU11は、以下に示すように、機械学習モデルから出力された解析結果を用いてポジティブな音声を抽出する。
【0055】
即ち、本実施形態では、機械学習モデルから出力された感情スコアのうち、ポジティブな感情に分類される感情のスコアが最大となるセグメントを「ポジティブ音声」として抽出する。
【0056】
一般的にポジティブな感情は、これまであまり注目されていなかったこともあり、ネガティブな感情に比べて評価を行う感情項目の数が少ない。このため、ポジティブな感情のトータルスコアとネガティブな感情のトータルスコアとの比較では、そのセグメントが聴者にポジティブな印象を与えるかどうかを判断することが難しい。また、ポジティブな感情の強さはネガティブな感情と正比例するとは考え難く、ポジティブな感情のスコアが大きなときにはポジティブな印象が支配的であると考えられる。このことから、各感情のスコアを比較したときに、ポジティブな感情に分類される、ある感情のスコアが最大であれば、そのセグメントの音声に対する印象はポジティブなものと判断することができる。
【0057】
例えば、ある感情解析手法の例によれば、感情解析は「冷静さ、怒り、喜び、悲しみ」の4感情について、それぞれ1から10までの感情スコアを出力する。
図5に示す例の場合、唯一のポジティブな感情である「喜び」のスコアが7.1であり、各感情スコアを比較して最大となることから、このセグメントはポジティブな音声であると判断する。
【0058】
なお、ポジティブ感情という概念は近年注目を浴びているものの、公益社団法人日本心理学会内部でも、他の心理系を扱う学会でも意見が分かれており、統一された明確な定義がない。このため、ここでは、ポジティブ心理学の第一人者であるフレドリクソン氏(Fredrickson, B. L, University of North Carolina, Chapel Hill, North Carolina, USA)が提唱したポジティブ感情「喜び、感謝、安らぎ、興味、希望、誇り、愉快、鼓舞、畏敬、愛」と、これらを表現する同等の言葉で表す感情をポジティブ感情と定義する(参考文献:Barbara L. Fredrickson, The broaden-and-build theory of positive emotions, The royal society, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1693418/pdf/15347528.pdf)。
【0059】
ステップ106で、CPU11は、抽出したポジティブな音声をランダムに並べ、1つの音声データとする。より具体的には、抽出したポジティブな音声にナンバリングを行い、種々の乱数発生器で作成した乱数順にポジティブな音声を接続することで、上記音声データを作成する。
【0060】
ステップ108で、CPU11は、作成した音声データに残響効果を付加した後、重畳して音声テキストを認識できないようにする。
【0061】
具体的には、まず、次の(1)式を基に、作成した音声データに残響成分をもつインパルス応答を畳み込み積分する。インパルス応答は、実際の空間を測定したもの、又は人工的に作成したものを適用する。
【0062】
【0063】
(1)式において、yは出力信号を表し、hはインパルス応答を表し、xは入力信号(作成した音声データ)を表す。
【0064】
インパルス応答は、最終的に音を提示する空間(本実施形態では、対象空間)について、部屋の容積や用途に合わせ、残響成分や反射音構造を調整したものを使用する。具体的には次の表に示すように、インパルス応答の実測を行う空間は、背景音の提示空間(対象空間)に対し、1.3~1.5倍程度の空間の大きさを持つ多目的ホールや講堂などのスピーチを行うことを想定した大空間とする。また、残響成分について、音声の周波数範囲は概ね80~10000Hzと言われており、音声データを使用した本背景音では低音域の成分が不要となるため、インパルス応答についてもハイパスフィルタ(HPF)により約80Hz以下の成分をカットする。
【0065】
【0066】
そして、本実施形態では、残響効果を付加した後、出力した信号を重畳することで、背景音情報を作成する。当該重畳は信号を線形的に加算して行い、例えば、
図6に示す方法(信号をスライドして加算する方法)や、
図7に示す方法(信号を分割し、順番を入れ替えて加算する方法)で重ね合わせることで背景音情報を作成する。なお、これらの方法の他、信号の時間軸を反転させることや、分割長さをランダムにする等といったことを組み合わせて適用してもよい。
【0067】
ステップ110で、CPU11は、以上の処理によって得られた背景音情報13Dを記憶部13に記憶(登録)し、その後に本第1情報処理を終了する。
【0068】
次に、
図8を参照して、第2情報処理を実行する場合の情報処理装置10の作用を説明する。ユーザによって第2情報処理プログラム13Bの実行を開始する指示入力が入力部14を介して行われた場合に、情報処理装置10のCPU11が当該プログラム13Bを実行することにより、
図8に示す第2情報処理が実行される。なお、ここでは、錯綜を回避するために、背景音情報13Dが記憶部13に登録されている場合について説明する。
【0069】
図8のステップ200で、CPU11は、背景音情報13Dを記憶部13から読み出し、ステップ202で、CPU11は、マイク30から音声情報(上述した「対象空間音声情報」に相当)を取得する。
【0070】
ステップ204で、CPU11は、取得した音声情報が示す音声の大きさに応じて、上述したように、即ち、当該音声情報が示す音声の大きさが大きくなるほど線形に大きくするように、取得した背景音情報13Dが示す背景音の再生レベルを導出する。ステップ206で、CPU11は、背景音情報13Dが示す背景音の再生レベルが、導出した再生レベルとなるように設定する。
【0071】
ステップ208で、CPU11は、設定した再生レベルでの背景音のスピーカ40による再生を開始し、ステップ210で、CPU11は、予め定められた時間(本実施形態では、5分間)が経過するまで待機する。
【0072】
ステップ212で、CPU11は、予め定められた終了タイミングが到来したか否かを判定し、否定判定となった場合はステップ202に戻る一方、肯定判定となった場合はステップ214に移行する。なお、本実施形態では、上記終了タイミングとして、ユーザによって第2情報処理プログラム13Bの実行を停止する指示入力が入力部14を介して行われたタイミングを適用しているが、これに限るものでないことは言うまでもない。
【0073】
ステップ214で、CPU11は、背景音のスピーカ40による再生を停止し、その後に本第2情報処理を終了する。
【0074】
なお、本第2情報処理において、上記再生レベルの上限とするレベルを予め設定しておき、背景音の再生レベルが当該上限とするレベルを超えないように、当該再生レベルを調整する処理を含める形態としてもよい。
【0075】
以上説明したように、本実施形態によれば、人が発した音声を示す音声情報の1セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行っている。従って、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0076】
また、本実施形態によれば、ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成している。従って、より確実に音声の内容が認識できなくなる結果、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0077】
また、本実施形態によれば、対象空間における音声を示す対象空間音声情報を取得し、当該対象空間音声情報が示す音声の大きさに応じて背景音の再生の大きさを調整している。従って、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。
【0078】
更に、本実施形態によれば、ポジティブな印象を与える発話を、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも1種類の印象を与える発話としている。従って、対象空間に存在する人に対して、適用した種類に応じたポジティブな印象を与えることができる。
【0079】
なお、上記実施形態では、1つの対象空間に対して1つのマイク及びスピーカを適用して背景音を再生する場合について説明したが、これに限定されるものではない。例えば、1つの対象空間に対して、マイク及びスピーカの少なくとも一方を複数設けて背景音を再生する形態としてもよい。
【0080】
また、上記実施形態で適用した各種数値や演算式は一例であり、本発明の趣旨を逸脱しない範囲で変更を加えることができることは言うまでもない。
【0081】
また、上記実施形態において、例えば、作成部11A、取得部11B、及び制御部11Cの各処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0082】
処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、処理部を1つのプロセッサで構成してもよい。
【0083】
処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0084】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)を用いることができる。
【符号の説明】
【0085】
10 情報処理装置
11 CPU
11A 作成部
11B 取得部
11C 制御部
12 メモリ
13 記憶部
13A 第1情報処理プログラム
13B 第2情報処理プログラム
13C 音声情報データベース
13D 背景音情報
14 入力部
15 表示部
16 媒体読み書き装置
17 記録媒体
18 通信I/F部
30 マイク
40 スピーカ