2024-80167 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-80167情報処理装置及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024080167

(43)【公開日】2024-06-13

(54)【発明の名称】情報処理装置及び情報処理プログラム

(51)【国際特許分類】

G10K 11/175 20060101AFI20240606BHJP

G10K 15/08 20060101ALI20240606BHJP

G10L 25/63 20130101ALI20240606BHJP

【ＦＩ】

G10K11/175

G10K15/08

G10L25/63

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022193121

(22)【出願日】2022-12-01

(71)【出願人】

【識別番号】000003621

【氏名又は名称】株式会社竹中工務店

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】金澤朗蘭

(72)【発明者】

【氏名】中川武彦

【テーマコード（参考）】

5D061

5D208

【Ｆターム（参考）】

5D061FF02

5D208AA20

(57)【要約】

【課題】対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを得る。
【解決手段】情報処理装置１０は、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部１１Ａと、対象空間において背景音情報が示す背景音を再生する制御を行う制御部１１Ｃと、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部と、
前記対象空間において前記背景音情報が示す背景音を再生する制御を行う制御部と、
を備えた情報処理装置。

【請求項2】

前記作成部は、前記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで前記背景音情報を作成する、
請求項１に記載の情報処理装置。

【請求項3】

前記対象空間における音声を示す対象空間音声情報を取得する取得部を更に備え、
前記制御部は、前記対象空間音声情報が示す音声の大きさに応じて、前記背景音の再生の大きさを調整する、
請求項１又は請求項２に記載の情報処理装置。

【請求項4】

前記ポジティブな印象を与える発話は、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも１種類の印象を与える発話である、
請求項１に記載の情報処理装置。

【請求項5】

人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、
前記対象空間において前記背景音情報が示す背景音を再生する制御を行う、
処理をコンピュータに実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、音環境の改善のために適用することのできる技術として、次の技術があった。

【0003】

特許文献１には、騒音に応じたより的確なマスキング音の生成を行い、作業者への騒音の影響の低減をより的確に提供することを目的とした作業環境改善システムが開示されている。

【0004】

この作業環境改善システムは、所定の空間内で作業を行う作業者の騒音に関する作業環境をマスキング音出力手段からのマスキング音の出力によってより良好なものとするための作業環境改善システムにおいて、前記作業者の前記空間内での所在位置を認識する作業者位置認識手段と、前記騒音の種類及び位置等の騒音情報を取得する騒音情報取得手段と、を有する。また、この作業環境改善システムは、該騒音情報取得手段により取得した騒音情報に基づいて前記作業者の前記騒音に対する感受性を弱めるためのマスキング音の種類を決定するマスキング音決定手段と、予め設定した前記作業者の前記騒音に対する感受性を弱めるために良好な音像定位情報を有し、該音像定位情報に基づいて前記マスキング音出力手段によるマスキング音の音像定位を行うマスキング音制御部と、を有する。そして、この作業環境改善システムは、前記マスキング音制御部は、前記作業者位置認識手段からの作業者の所在位置情報と、前記マスキング音決定手段からのマスキング音の種類情報と、前記良好な音像定位情報と、に基づいて、マスキング音の音像定位を行うことを特徴とする。

【0005】

また、特許文献２には、執務（業務）環境を改善し、それによってオフィスワーカーやエンジニア、ワーキングウーマン等の労働者個人の知的活動を活性化させることができ、各労働者の知的生産性を向上させることを目的とした知的生産性向上支援システムが開示されている。

【0006】

この知的生産性向上支援システムは、所定容積の小空間と、前記小空間に存在する労働者が周囲で発生する暗騒音を聞き取ることが可能な音圧レベルであって、前記労働者が無意識のうちにリフレッシュすることが可能かつ知的活動を活性化させることが可能な所定の付加音を前記小空間に発音させる付加音発音手段とから形成され、前記付加音の音圧レベルが、前記暗騒音の音圧レベルに対して－６ｄＢ～＋８ｄＢの範囲にあり、前記付加音発音手段によって発音された付加音が、前記暗騒音に加わって前記小空間に存在する労働者の気持ちをリラックスさせ又は労働者の知的活動を活性化させることを特徴とする。

【0007】

更に、特許文献３には、会話を伴う執務と会話を伴わない執務とが混在する場合に、執務者らの集中力低下を防止できるようにすることを目的とした執務環境調整システムが開示されている。

【0008】

この執務環境調整システムは、複数の執務領域を有する執務室の執務環境を調整する執務環境調整システムであって、前記執務室の全体を照らすアビエント照明部と、前記複数の執務領域のそれぞれを前記アビエント照明よりも高い照度で照らす複数のタスク照明部と、前記複数の執務領域のそれぞれに向けて音を流す複数のサウンドマスキング部と、を備えている。また、この執務環境調整システムは、前記複数の執務領域のうち、現に執務が行われる現行執務領域を選択する選択部と、前記現行執務領域に対して前記タスク照明部を点灯すると共に、前記現行執務領域又は前記現行執務領域に隣接する隣接領域に対して前記サウンドマスキング部を鳴らす制御部と、を備えている。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０１７－１４６５１７号公報

【特許文献2】特開２０２０－１８１５３９号公報

【特許文献3】特開２０１４－１５４４８３号公報

【発明の概要】

【発明が解決しようとする課題】

【0010】

ところで、近年、様々な人が個々に作業をしているオープンプランのオフィス等において、他人の声が気になり、かつ、話しにくい静かな音環境となっている場合がある。

【0011】

特に、ＡＢＷ（Activity Based Working）を導入したオープンプランのオフィスにおいては、建築学会やＩＳＯ（International Organization for Standardization）における残響時間の基準を満たした場合、吸音仕様の内装の影響を受けて静かな環境となるため、必要以上に音声が周囲に届いてしまい、自分が話しにくいといった音環境となっている場合がある。

【0012】

即ち、このような音環境においては、静かな環境を享受することができる反面、他者とのコミュニケーションが取りにくい、という問題点があった。

【0013】

この問題点に対し、特許文献１～特許文献３の各文献に開示されている技術は、コミュニケーションの取りやすさについては考慮されておらず、必ずしも、対象空間におけるコミュニケーションの取りやすさを向上させることができるとは限らない。

【0014】

本開示は、以上の事情を鑑みて成されたものであり、対象空間におけるコミュニケーションの取りやすさを向上させることができる情報処理装置及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0015】

請求項１に記載の本発明に係る情報処理装置は、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する作成部と、前記対象空間において前記背景音情報が示す背景音を再生する制御を行う制御部と、を備えている。

【0016】

請求項１に記載の本発明に係る情報処理装置によれば、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行うことで、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能（ポジティブ感情によって注意や認知、行動の範囲が広がること、受容性の向上：Estrada, Isen, &Young,1997、注意の幅を広げる：Isen,2002、などが実証済み）をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0017】

請求項２に記載の本発明に係る情報処理装置は、請求項１に記載の情報処理装置であって、前記作成部が、前記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで前記背景音情報を作成するものである。

【0018】

請求項２に記載の本発明に係る情報処理装置によれば、ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成することで、確実に音声の内容が認識できなくなる結果、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0019】

請求項３に記載の本発明に係る情報処理装置は、請求項１又は請求項２に記載の情報処理装置であって、前記対象空間における音声を示す対象空間音声情報を取得する取得部を更に備え、前記制御部が、前記対象空間音声情報が示す音声の大きさに応じて、前記背景音の再生の大きさを調整するものである。

【0020】

請求項３に記載の本発明に係る情報処理装置によれば、対象空間における音声を示す対象空間音声情報を取得し、当該対象空間音声情報が示す音声の大きさに応じて背景音の再生の大きさを調整することで、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0021】

請求項４に記載の本発明に係る情報処理装置は、請求項１に記載の情報処理装置であって、前記ポジティブな印象を与える発話が、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも１種類の印象を与える発話であるものである。

【0022】

請求項４に記載の本発明に係る情報処理装置によれば、ポジティブな印象を与える発話を、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも１種類の印象を与える発話とすることで、対象空間に存在する人に対して、適用した種類に応じたポジティブな印象を与えることができる。

【0023】

請求項５に記載の本発明に係る情報処理プログラムは、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、前記対象空間において前記背景音情報が示す背景音を再生する制御を行う、処理をコンピュータに実行させる。

【0024】

請求項５に記載の本発明に係る情報処理プログラムによれば、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行うことで、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【発明の効果】

【0025】

以上説明したように、本発明によれば、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【図面の簡単な説明】

【0026】

【図1】実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

【図2】実施形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。

【図3】実施形態に係る音声情報データベースの構成の一例を示す模式図である。

【図4】実施形態に係る第１情報処理の一例を示すフローチャートである。

【図5】実施形態に係る第１情報処理における背景音の作成の説明に供する模式図である。

【図6】実施形態に係る第１情報処理における背景音の作成の説明に供する模式図である。

【図7】実施形態に係る第１情報処理における背景音の作成の説明に供する模式図である。

【図8】実施形態に係る第２情報処理の一例を示すフローチャートである。

【図9】実施形態に係る背景音の効果の説明に供するグラフであり、同一人物（俳優）に同一の文を異なる感情に聞こえるように発声させた場合に計測された音声の周波数の時系列データであり、左図は感情として「平常」の感情を適用し、中央図は感情として「喜び」の感情を適用し、右図は感情として「悲しみ」の感情を適用したものである。

【図10】実施形態に係る背景音の効果の説明に供するグラフであり、音声を聞いたときの聴者の感情を調査したアンケート結果を示すグラフである。

【発明を実施するための形態】

【0027】

以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、ＡＢＷを導入したオープンプランのオフィスに適用した場合について説明する。但し、本発明の適用対象は当該オフィスに限るものではなく、固定プランのオフィスや、オフィス以外の屋内の空間、屋外の空間等、基本的には静かだが、会話までは制限されていない空間であれば、如何なる空間でも本発明は適用可能である。

【0028】

まず、図１を参照して、本実施形態に係る情報処理装置１０の構成を説明する。図１は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示すブロック図である。なお、情報処理装置１０の例としては、パーソナルコンピュータ及びサーバコンピュータ等の情報処理装置が挙げられる。

【0029】

図１に示すように、本実施形態に係る情報処理装置１０は、ＣＰＵ（Central Processing Unit）１１、一時記憶領域としてのメモリ１２、不揮発性の記憶部１３、キーボードとマウス等の入力部１４、液晶ディスプレイ等の表示部１５、媒体読み書き装置（Ｒ／Ｗ）１６及び通信インタフェース（Ｉ／Ｆ）部１８を備えている。ＣＰＵ１１、メモリ１２、記憶部１３、入力部１４、表示部１５、媒体読み書き装置１６及び通信Ｉ／Ｆ部１８はバスＢを介して互いに接続されている。媒体読み書き装置１６は、記録媒体１７に書き込まれている情報の読み出し及び記録媒体１７への情報の書き込みを行う。

【0030】

本実施形態に係る記憶部１３はＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現される。記憶媒体としての記憶部１３には、第１情報処理プログラム１３Ａ及び第２情報処理プログラム１３Ｂが記憶されている。第１情報処理プログラム１３Ａ及び第２情報処理プログラム１３Ｂの各プログラムは、当該各プログラムが書き込まれた記録媒体１７が媒体読み書き装置１６にセットされ、媒体読み書き装置１６が記録媒体１７からの上記各プログラムの読み出しを行うことで、記憶部１３へ記憶される。ＣＰＵ１１は、第１情報処理プログラム１３Ａ及び第２情報処理プログラム１３Ｂの各プログラムを記憶部１３から適宜読み出してメモリ１２に展開し、当該各プログラムが有するプロセスを順次実行する。

【0031】

また、記憶部１３には、音声情報データベース１３Ｃ及び背景音情報１３Ｄが記憶される。音声情報データベース１３Ｃ及び背景音情報１３Ｄについては、詳細を後述する。

【0032】

一方、通信Ｉ／Ｆ部１８には、各々情報処理装置１０が対象としている空間（以下、「対象空間」という。）に設けられたマイクロフォン（以下、「マイク」ともいう。）３０及びスピーカ４０が接続されている。

【0033】

本実施形態では、マイク３０が、対象空間における人が比較的多く集まる位置に設けられ、スピーカ４０が、当該人が比較的多く集まる位置において、発した音が十分聴取される位置に設けられている。但し、この形態に限るものではなく、例えば、マイク３０については、対象空間の可能な限り広域における音を集音することのできる位置に設けたり、スピーカ４０についても、当該広域において、発した音が十分聴取される位置に設けたりする形態としてもよい。

【0034】

また、本実施形態では、マイク３０として無指向性のマイクロフォンを適用しているが、これに限るものではなく、例えば、単一指向性のマイクロフォンや双指向性のマイクロフォン等の他の指向性のマイクロフォンをマイク３０として適用する形態としてもよい。また、本実施形態では、スピーカ４０としてダイナミック型のスピーカを適用しているが、これに限るものではなく、例えば、静電型やマグネティック型等の他の方式のスピーカをスピーカ４０として適用する形態としてもよい。

【0035】

次に、図２を参照して、本実施形態に係る情報処理装置１０の機能的な構成について説明する。図２は、本実施形態に係る情報処理装置１０の機能的な構成の一例を示すブロック図である。

【0036】

図２に示すように、本実施形態に係る情報処理装置１０は、作成部１１Ａ、取得部１１Ｂ、及び制御部１１Ｃを含む。情報処理装置１０のＣＰＵ１１が第１情報処理プログラム１３Ａ及び第２情報処理プログラム１３Ｂの各プログラムを実行することで、作成部１１Ａ、取得部１１Ｂ、及び制御部１１Ｃとして機能する。

【0037】

本実施形態に係る作成部１１Ａは、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加する。これにより、作成部１１Ａは、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成する。

【0038】

特に、本実施形態に係る作成部１１Ａは、上記ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成する。但し、この形態に限るものではなく、当該無作為な配置を実施しない形態、即ち、単に残響効果を付加するのみで背景音情報を作成する形態としてもよい。要は、再生される音声の内容が認識できない程度にデフォルメされているが、人の感情にポジティブな影響を与えることのできる背景音情報が作成できるのであれば、如何なる処理も当該背景音情報の作成に適用し得る。

【0039】

また、本実施形態に係る制御部１１Ｃは、対象空間において、作成部１１Ａにより作成された背景音情報が示す背景音を再生する制御を行う。

【0040】

ここで、本実施形態に係る取得部１１Ｂは、対象空間における音声を示す対象空間音声情報を取得し、制御部１１Ｃは、取得部１１Ｂによって取得された対象空間音声情報が示す音声の大きさに応じて、背景音の再生の大きさを調整する。本実施形態では、当該背景音の再生の大きさの調整として、対象空間音声情報が示す音声の大きさが大きくなるほど、背景音の再生の大きさを線形に大きくする調整を適用しているが、これに限るものではない。例えば、対象空間音声情報が示す音声の大きさが大きくなるほど、背景音の再生の大きさを非線形に大きくする調整を適用する形態としてもよい。

【0041】

また、本実施形態では、ポジティブな印象を与える発話として、喜び、感謝、安らぎ、興味、幸せ、及び希望の６種類の印象の各々を与える発話を適用しているが、これに限るものではない。例えば、これらの印象のうちの１種類のみ、又は２種類から５種類の組み合わせの印象を与える発話を、ポジティブな印象を与える発話として適用する形態としてもよい。また、ポジティブな印象を与える発話の種類は上記６種類に限るものでははく、誇り、愉快、畏敬、愛等も、ポジティブな印象を与える発話の種類に含まれ得る。

【0042】

ここで、図９及び図１０の各図を参照して、本実施形態に係る作成部１１Ａによって作成される背景音情報が示す背景音の効果について説明する。なお、図９は、同一人物（俳優）に同一の文を異なる感情に聞こえるように発声させた場合に計測された音声の周波数の時系列データである。ここで、図９の左図は上記感情として「平常」の感情を適用し、図９の中央図は上記感情として「喜び」の感情を適用し、図９の右図は上記感情として「悲しみ」の感情を適用している。また、図１０は、音声を聞いたときの聴者の感情を調査したアンケート結果を示すグラフであり、横軸は提示した感情の提示時間全体に占める割合（図１０では、「音声のもつ感情特性」と表記）で、縦軸は対応する感情反応を示した聴者数の全体数に占める割合（図１０では、「聴者の感情反応」と表記）である。

【0043】

図９の中央図に示す「喜び」の感情の場合は、図９の左図に示す「平常」の感情に比較してピッチ（音の高さ（周波数））が高く、高域の音圧が高くなっている一方、図９の右図に示す「悲しみ」の感情の場合は、「平常」の感情に比較してピッチが低く、高域の音圧も低くなっていることがわかる。これらのことから、異なる感情では、同じ語でも音の特性が変わることがわかる。

【0044】

一方、図１０は、回帰分析により、音声のもつ感情特性が聴者の感情反応に有意に影響する（有意水準５％）ことがわかった感情（上グラフが聴者「幸せ」－音声「幸せ」、下グラフが聴者「幸せ」－音声「怒り」）についての相関性を示すグラフである。

【0045】

図１０から、「幸せ」の音声を提示する時間が長いほど、「幸せ」と感じる人が増えており、感情推定で「幸せ」の音声を聞いた聴者は、相関はあまり高くないものの、「幸せ」を感じる傾向があることがわかる。このことから、「幸せ」等のポジティブな感情と推定された音声による背景音を提示することで、ミラー効果により執務者のポジティブな感情を誘発し、一定数の執務者はポジティブ感情による拡張機能の影響を受けて執務ができると考えられる。

【0046】

次に、図３を参照して、本実施形態に係る音声情報データベース１３Ｃについて説明する。図３は、本実施形態に係る音声情報データベース１３Ｃの構成の一例を示す模式図である。音声情報データベース１３Ｃは、本実施形態に係る情報処理装置１０が背景音情報を作成する際に用いる音声情報が記憶されたデータベースである。

【0047】

図３に示すように、本実施形態に係る音声情報データベース１３Ｃは、複数の音声情報Ｓ１、Ｓ２、・・・が記憶されている。

【0048】

なお、本実施形態では、上記音声情報として、対象空間とは異なる空間において録音され、かつ、性別や年齢層を問わない複数の人から得られたものを適用しているが、これに限るものではない。例えば、対象空間において録音されたものや、性別や年齢層に制限を加えたものを上記音声情報として適用する形態としてもよい。

【0049】

また、上記音声情報の録音にはマイクロフォンを使用し、データレコーダ等の記憶媒体に一旦収録した後に音声情報データベース１３Ｃに登録する。この際の収録はステレオで行ってもモノラルで行っても構わないが、詳細を後述する感情解析を行うことを踏まえて、感情の判定に影響を与える周波数（１０ｋＨｚ程度まで）が周波数分析できるサンプリング間隔とする。

【0050】

次に、図４～図８を参照して、本実施形態に係る情報処理装置１０の作用を説明する。まず、図４～図７を参照して、第１情報処理を実行する場合の情報処理装置１０の作用を説明する。ユーザによって第１情報処理プログラム１３Ａの実行を開始する指示入力が入力部１４を介して行われた場合に、情報処理装置１０のＣＰＵ１１が当該プログラム１３Ａを実行することにより、図４に示す第１情報処理が実行される。なお、ここでは、錯綜を回避するために、音声情報データベース１３Ｃに背景音情報の作成に十分な量の音声情報が既に登録されている場合について説明する。

【0051】

図４のステップ１００で、ＣＰＵ１１は、音声情報データベース１３Ｃから全ての音声情報を読み出し、ステップ１０２で、ＣＰＵ１１は、以下に示すように、読み出した音声情報について感情解析を実行する。

【0052】

即ち、本実施形態では、取得した音声情報が示す音声が聴者に与える印象について、機械学習モデルを利用した推定（感情解析）を行う。この感情解析には、何れも既存の機械学習モデルである、ＮＴＴレゾナント株式会社製のＡＩＳｕｉｔｅ、株式会社Ｅｍｐａｔｈ製のＥｍｏＶａｌｕｅＧｅｎｅｒａｔｏｒ等の各種モデルを適用することができる。

【0053】

本実施形態に係る感情解析では、入力された音声情報が示す音声に対し、怒り、嫌悪、喜び、驚き、幸福、冷静さ、悲しみ等といった感情毎にスコア（以下、「感情スコア」ともいう。）を数値で出力する。何れの感情解析についても、１セグメント（１語又は１発話（機械学習モデルによって異なる））毎に解析結果を出力する。

【0054】

ステップ１０４で、ＣＰＵ１１は、以下に示すように、機械学習モデルから出力された解析結果を用いてポジティブな音声を抽出する。

【0055】

即ち、本実施形態では、機械学習モデルから出力された感情スコアのうち、ポジティブな感情に分類される感情のスコアが最大となるセグメントを「ポジティブ音声」として抽出する。

【0056】

一般的にポジティブな感情は、これまであまり注目されていなかったこともあり、ネガティブな感情に比べて評価を行う感情項目の数が少ない。このため、ポジティブな感情のトータルスコアとネガティブな感情のトータルスコアとの比較では、そのセグメントが聴者にポジティブな印象を与えるかどうかを判断することが難しい。また、ポジティブな感情の強さはネガティブな感情と正比例するとは考え難く、ポジティブな感情のスコアが大きなときにはポジティブな印象が支配的であると考えられる。このことから、各感情のスコアを比較したときに、ポジティブな感情に分類される、ある感情のスコアが最大であれば、そのセグメントの音声に対する印象はポジティブなものと判断することができる。

【0057】

例えば、ある感情解析手法の例によれば、感情解析は「冷静さ、怒り、喜び、悲しみ」の４感情について、それぞれ１から１０までの感情スコアを出力する。図５に示す例の場合、唯一のポジティブな感情である「喜び」のスコアが７．１であり、各感情スコアを比較して最大となることから、このセグメントはポジティブな音声であると判断する。

【0058】

なお、ポジティブ感情という概念は近年注目を浴びているものの、公益社団法人日本心理学会内部でも、他の心理系を扱う学会でも意見が分かれており、統一された明確な定義がない。このため、ここでは、ポジティブ心理学の第一人者であるフレドリクソン氏（Fredrickson, B. L, University of North Carolina, Chapel Hill, North Carolina, USA）が提唱したポジティブ感情「喜び、感謝、安らぎ、興味、希望、誇り、愉快、鼓舞、畏敬、愛」と、これらを表現する同等の言葉で表す感情をポジティブ感情と定義する（参考文献：Barbara L. Fredrickson, The broaden-and-build theory of positive emotions, The royal society, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1693418/pdf/15347528.pdf）。

【0059】

ステップ１０６で、ＣＰＵ１１は、抽出したポジティブな音声をランダムに並べ、１つの音声データとする。より具体的には、抽出したポジティブな音声にナンバリングを行い、種々の乱数発生器で作成した乱数順にポジティブな音声を接続することで、上記音声データを作成する。

【0060】

ステップ１０８で、ＣＰＵ１１は、作成した音声データに残響効果を付加した後、重畳して音声テキストを認識できないようにする。

【0061】

具体的には、まず、次の（１）式を基に、作成した音声データに残響成分をもつインパルス応答を畳み込み積分する。インパルス応答は、実際の空間を測定したもの、又は人工的に作成したものを適用する。

【0062】

【数1】

【0063】

（１）式において、ｙは出力信号を表し、ｈはインパルス応答を表し、ｘは入力信号（作成した音声データ）を表す。

【0064】

インパルス応答は、最終的に音を提示する空間（本実施形態では、対象空間）について、部屋の容積や用途に合わせ、残響成分や反射音構造を調整したものを使用する。具体的には次の表に示すように、インパルス応答の実測を行う空間は、背景音の提示空間（対象空間）に対し、１．３～１．５倍程度の空間の大きさを持つ多目的ホールや講堂などのスピーチを行うことを想定した大空間とする。また、残響成分について、音声の周波数範囲は概ね８０～１００００Ｈｚと言われており、音声データを使用した本背景音では低音域の成分が不要となるため、インパルス応答についてもハイパスフィルタ（ＨＰＦ）により約８０Ｈｚ以下の成分をカットする。

【0065】

【表1】

【0066】

そして、本実施形態では、残響効果を付加した後、出力した信号を重畳することで、背景音情報を作成する。当該重畳は信号を線形的に加算して行い、例えば、図６に示す方法（信号をスライドして加算する方法）や、図７に示す方法（信号を分割し、順番を入れ替えて加算する方法）で重ね合わせることで背景音情報を作成する。なお、これらの方法の他、信号の時間軸を反転させることや、分割長さをランダムにする等といったことを組み合わせて適用してもよい。

【0067】

ステップ１１０で、ＣＰＵ１１は、以上の処理によって得られた背景音情報１３Ｄを記憶部１３に記憶（登録）し、その後に本第１情報処理を終了する。

【0068】

次に、図８を参照して、第２情報処理を実行する場合の情報処理装置１０の作用を説明する。ユーザによって第２情報処理プログラム１３Ｂの実行を開始する指示入力が入力部１４を介して行われた場合に、情報処理装置１０のＣＰＵ１１が当該プログラム１３Ｂを実行することにより、図８に示す第２情報処理が実行される。なお、ここでは、錯綜を回避するために、背景音情報１３Ｄが記憶部１３に登録されている場合について説明する。

【0069】

図８のステップ２００で、ＣＰＵ１１は、背景音情報１３Ｄを記憶部１３から読み出し、ステップ２０２で、ＣＰＵ１１は、マイク３０から音声情報（上述した「対象空間音声情報」に相当）を取得する。

【0070】

ステップ２０４で、ＣＰＵ１１は、取得した音声情報が示す音声の大きさに応じて、上述したように、即ち、当該音声情報が示す音声の大きさが大きくなるほど線形に大きくするように、取得した背景音情報１３Ｄが示す背景音の再生レベルを導出する。ステップ２０６で、ＣＰＵ１１は、背景音情報１３Ｄが示す背景音の再生レベルが、導出した再生レベルとなるように設定する。

【0071】

ステップ２０８で、ＣＰＵ１１は、設定した再生レベルでの背景音のスピーカ４０による再生を開始し、ステップ２１０で、ＣＰＵ１１は、予め定められた時間（本実施形態では、５分間）が経過するまで待機する。

【0072】

ステップ２１２で、ＣＰＵ１１は、予め定められた終了タイミングが到来したか否かを判定し、否定判定となった場合はステップ２０２に戻る一方、肯定判定となった場合はステップ２１４に移行する。なお、本実施形態では、上記終了タイミングとして、ユーザによって第２情報処理プログラム１３Ｂの実行を停止する指示入力が入力部１４を介して行われたタイミングを適用しているが、これに限るものでないことは言うまでもない。

【0073】

ステップ２１４で、ＣＰＵ１１は、背景音のスピーカ４０による再生を停止し、その後に本第２情報処理を終了する。

【0074】

なお、本第２情報処理において、上記再生レベルの上限とするレベルを予め設定しておき、背景音の再生レベルが当該上限とするレベルを超えないように、当該再生レベルを調整する処理を含める形態としてもよい。

【0075】

以上説明したように、本実施形態によれば、人が発した音声を示す音声情報の１セグメント毎の感情解析を行い、ポジティブな印象を与える発話に残響効果を付加することで、音声の内容が認識できず、かつ、対象空間に存在する複数の人の少なくとも一部の人の感情にポジティブな影響を与える背景音を示す背景音情報を作成し、対象空間において背景音情報が示す背景音を再生する制御を行っている。従って、当該背景音を聴取した複数の人に対してポジティブ感情の拡張機能をもたらし、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0076】

また、本実施形態によれば、ポジティブな印象を与える発話を無作為に配置したものに残響効果を付加することで背景音情報を作成している。従って、より確実に音声の内容が認識できなくなる結果、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0077】

また、本実施形態によれば、対象空間における音声を示す対象空間音声情報を取得し、当該対象空間音声情報が示す音声の大きさに応じて背景音の再生の大きさを調整している。従って、より効果的に、対象空間におけるコミュニケーションの取りやすさを向上させることができる。

【0078】

更に、本実施形態によれば、ポジティブな印象を与える発話を、喜び、感謝、安らぎ、興味、幸せ、及び希望の少なくとも１種類の印象を与える発話としている。従って、対象空間に存在する人に対して、適用した種類に応じたポジティブな印象を与えることができる。

【0079】

なお、上記実施形態では、１つの対象空間に対して１つのマイク及びスピーカを適用して背景音を再生する場合について説明したが、これに限定されるものではない。例えば、１つの対象空間に対して、マイク及びスピーカの少なくとも一方を複数設けて背景音を再生する形態としてもよい。

【0080】

また、上記実施形態で適用した各種数値や演算式は一例であり、本発明の趣旨を逸脱しない範囲で変更を加えることができることは言うまでもない。

【0081】

また、上記実施形態において、例えば、作成部１１Ａ、取得部１１Ｂ、及び制御部１１Ｃの各処理を実行する処理部（processing unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（processor）を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア（プログラム）を実行して処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

【0082】

処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせや、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、処理部を１つのプロセッサで構成してもよい。

【0083】

処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：SoC）等に代表されるように、処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

【0084】

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）を用いることができる。

【符号の説明】

【0085】

１０情報処理装置
１１ＣＰＵ
１１Ａ作成部
１１Ｂ取得部
１１Ｃ制御部
１２メモリ
１３記憶部
１３Ａ第１情報処理プログラム
１３Ｂ第２情報処理プログラム
１３Ｃ音声情報データベース
１３Ｄ背景音情報
１４入力部
１５表示部
１６媒体読み書き装置
１７記録媒体
１８通信Ｉ／Ｆ部
３０マイク
４０スピーカ

【図1】