(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-13
(45)【発行日】2023-12-21
(54)【発明の名称】感情解析装置、感情解析方法、及び感情解析プログラム
(51)【国際特許分類】
G10K 15/04 20060101AFI20231214BHJP
【FI】
G10K15/04 302D
(21)【出願番号】P 2020001087
(22)【出願日】2020-01-07
【審査請求日】2023-01-06
(73)【特許権者】
【識別番号】503274018
【氏名又は名称】株式会社鉄人化計画
(73)【特許権者】
【識別番号】515082623
【氏名又は名称】株式会社シーエーシー
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】梶山 尋史
(72)【発明者】
【氏名】毛利 春幸
(72)【発明者】
【氏名】郡 達彦
(72)【発明者】
【氏名】下地 貴明
(72)【発明者】
【氏名】茶圓 亮
(72)【発明者】
【氏名】中野 裕介
【審査官】中嶋 樹理
(56)【参考文献】
【文献】特開2019-028251(JP,A)
【文献】特開平10-187178(JP,A)
【文献】特開2016-057570(JP,A)
【文献】国際公開第2006/132159(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04
(57)【特許請求の範囲】
【請求項1】
歌唱するユーザの音声から音声データを取得する音声取得部と、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化する感情解析部と、
前記定量化の結果を表示装置に表示させる表示制御部と、
を備えた感情解析装置。
【請求項2】
前記音声の特徴量が、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、または、前記少なくとも一つの変化量である請求項1に記載の感情解析装置。
【請求項3】
一つの楽曲に係る前記音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から、一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する請求項1又は2に記載の感情解析装置。
【請求項4】
前記感情が、喜び、平常、悲しみ、怒り、及び元気度のうち少なくとも一つであり、前記評価が前記一つの楽曲において定量化された前記感情の大小関係である請求項3に記載の感情解析装置。
【請求項5】
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する感情解析方法。
【請求項6】
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する感情解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、感情解析装置、感情解析方法、及び感情解析プログラムする技術に関する。
【背景技術】
【0002】
現在普及しているカラオケの演奏装置には、利用者の歌唱を採点する機能を有しているものがある。
【0003】
特許文献1では、複数の評価項目を利用者が選択可能に表示し、利用者が指定した評価項目について歌唱採点を行うカラオケ演奏装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来のカラオケ演奏装置は主に、利用者の歌唱データと基準データとを比較し、音程や、発音のタイミングや音程などの評価項目について、歌唱データと基準データとの差分が小さいほど、即ち正確なほど、評価値が高くなるように評価を行っている。但し、歌唱の評価は、正確さだけで行えるものではなく、歌唱に現れる感情も重要なファクターである。例えば、評価が高くなるように、単に正確に歌おうとすると、歌唱が画一的なつまらないものになってしまう。しかしながら、従来のカラオケ演奏装置では、歌唱に現れる感情を評価できなかった。特に、カラオケの利用者は、自身の楽しみの為にカラオケを利用するのであって、職業歌手のように正確さが求められるものではない。このため、カラオケの利用者にとって、従来のカラオケ演奏装置は、歌唱を充分に評価できるものではなかった。
【0006】
そこで本発明は、歌唱に現れるユーザの感情を定量的に評価することを可能にする技術の提供を目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明は、以下の構成を採用した。
本発明の感情解析装置は、
歌唱するユーザの音声から音声データを取得する音声取得部と、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化する感情解析部と、
前記定量化の結果を表示装置に表示させる表示制御部と、
を備える。
【0008】
前記感情解析装置は、
前記音声の特徴量が、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、または、前記少なくとも一つの変化量であってもよい。
【0009】
前記感情解析装置は、
一つの楽曲に係る前記音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から、一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの
楽曲毎の感情を評価してもよい。
【0010】
前記感情解析装置は、
前記感情が、喜び、平常、悲しみ、怒り、及び元気度のうち少なくとも一つであり、前記評価が前記一つの楽曲において定量化された前記感情の大小関係であってもよい。
【0011】
本発明の感情解析方法は、
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータが実行する。
【0012】
本発明の感情解析プログラムは、
歌唱するユーザの音声から音声データを取得するステップと、
前記音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、前記ユーザの感情を定量化するステップと、
前記定量化の結果を表示装置に表示させるステップと、
をコンピュータに実行させる。
【0013】
また、本発明は、前記感情解析プログラムをコンピュータが読み取り可能な記録媒体に記録したものであってもよい。コンピュータに、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
【0014】
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD(Compact Disc)、CD-R/W、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray(登録商標) Disc)、DAT、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。
【発明の効果】
【0015】
本発明によれば、歌唱に現れるユーザの感情を定量的に評価することを可能にする技術を提供できる。
【図面の簡単な説明】
【0016】
【
図1】カラオケ演奏システムの構成を示す図である。
【
図2】カラオケ演奏装置(感情解析装置)が実行する感情解析方法の一例を示す図である。
【
図3】所定期間毎に求めた感情の評価結果の表示例を示す図である。
【発明を実施するための形態】
【0017】
以下、図面を参照して、一実施形態に係るカラオケ演奏システムについて説明する。以下の実施形態の構成は例示であり、本カラオケ演奏システムは実施形態の構成には限定されない。
【0018】
《装置構成》
図1は、本実施形態に係るカラオケ演奏システム1の構成を示す図である。
図1に示すように、カラオケ演奏システム1は、カラオケ演奏装置10と、リモートコントローラ20と、楽曲サーバ30とを有する。
【0019】
本実施形態において、カラオケ演奏装置10は、カラオケを演奏する機能の他、ユーザの歌唱を評価する機能を有するものであり、歌唱評価装置の一形態である。カラオケ演奏装置10は、制御部101と、記憶部102と、入出力部103と、通信部104とを備えるコンピュータ(情報処理装置)である。
【0020】
制御部101は、カラオケ演奏装置10全体の動作を制御し、カラオケ演奏装置10が有する各種の機能を実現する。制御部101は、例えば、プロセッサ及びメモリを備える。プロセッサは、CPU又はMPU等とも呼ばれる。メモリは、例えばROM及びRAMである。ROMは、各種プログラム又はデータを記憶する記憶媒体である。RAMは、各種プログラム又はデータを一時的に記憶する記憶媒体である。RAMは、プロセッサから直接アクセス可能とし、メインメモリとして機能してもよい。
【0021】
記憶部102は、HDD又はSSDなどの記憶装置である。記憶部102は、制御部101の外部記憶装置として機能する。記憶部102は、アプリケーションプログラム(ソフトウェア)及び感情を評価する為の情報等を記憶する。
【0022】
入出力部103は、制御部101に対する情報の入出力を行う手段であり、例えば、ユーザからの操作の受け付け及びユーザへの情報の出力を行う手段であり、例えば、ボタン、キーボード、タッチパネル、マイク121、表示装置122、及びスピーカ123等である。マイク121は、歌唱しているユーザの音声を電気信号(音声データ)に変換して制御部101に入力する手段である。表示装置122は、情報を表示する手段であり、例えば、液晶表示装置、有機EL表示装置等である。表示装置122は、例えば、ユーザに対して表示を行う装置であり、演奏している楽曲に係る画像、歌詞、及び感情をリアルタイムに評価した結果を表示する。スピーカ123は、カラオケの演奏及びユーザの音声を出力する。マイク121、表示装置122、及びスピーカ123は、カラオケ演奏装置10の筐体内に設けられても筐体外に設けられてもよい。
【0023】
通信部104は、通信回線を介して外部装置と通信を行うための通信インタフェースである。通信部104は、インターネット等の公衆通信回線を介して通信を行うものの他、他の装置との直接、近距離無線通信回線を介して通信を行うものなど、複数の通信インタフェースを備えてもよい。他の装置と直接通信を行うものとしては、ブルートゥース(登録商標)、ZigBee(登録商標)、又はWiFiのアドホックモードを用いて通信を行う通信インタフェースが挙げられる。
【0024】
制御部101は、プロセッサが、RAMをワークエリア(作業領域)とし、ROM又は記憶部102等に格納されたプログラムを実行する。このプログラムを実行することにより、制御部101は、演奏制御部111、音声取得部112、感情解析部113、及び表示制御部114等の機能部として機能する。制御部101は、これら複数の機能部の機能を複数のプロセッサ又は単一のプロセッサに含まれる複数のコアによって、それぞれ実現してもよい。また、制御部101は、これら複数の機能部の機能をマルチタスク又はマルチスレッドといった技術で単一のプロセッサが実現してもよい。
【0025】
演奏制御部111は、ユーザの操作によってリモートコントローラ20から楽曲の指定を受けた場合に、この楽曲のデータを楽曲サーバ30から通信回線を介して受信する。また、演奏制御部111は、受信した楽曲のデータに基づき、映像信号を表示装置122へ送信して表示させると共に、音響信号をスピーカ123へ送信して音(楽曲)として出力
させることにより、演奏を行う。
【0026】
音声取得部112は、マイク121を介して歌唱するユーザの音声から音声データを取得する。
【0027】
感情解析部113は、音声取得部112で取得した音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、ユーザの感情を定量化する。前記所定期間は、例えば、一息で歌唱する期間、即ち、息継ぎから次の息継ぎまでの期間であり、これを1センテンスとする。これに限らず、前記所定期間は、所定の周期、所定数の小節、又は歌詞を構文解析した場合に句点で分けられる一続きの語群等であってもよい。前記音声の特徴量は、前記音声に含まれる音の高さ、前記音の強さ、歌唱した語の抑揚、及び前記語の発話の速さのうち少なくとも一つ、又は前記少なくとも一つの変化量であってもよい。
【0028】
また、感情解析部113は、一つの楽曲に係る前記音声データ、即ち一つの楽曲について歌唱された音声データを構成する複数の前記所定期間の夫々における感情の定量化の結果から一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する。前記感情は、例えば、喜び、平常(冷静)、悲しみ、怒り、及び元気度のうち少なくとも一つである。また、前記評価は、例えば、前記一つの楽曲において定量化された前記感情の大小関係である。
【0029】
表示制御部114は、前記定量化の結果、即ち感情の評価結果を表示装置122に表示させる。これに限らず、表示制御部114は、ユーザのスマートフォン等へ評価結果を送信することで、当該スマートフォンの表示装置に評価結果を表示させてもよい。
【0030】
リモートコントローラ20は、ユーザの操作により、ユーザが所望の楽曲を指定し、この楽曲の演奏を行わせるようにカラオケ演奏装置10を制御する装置である。リモートコントローラ20は、楽曲の識別情報、曲名、歌手名、歌い出しの歌詞等の情報を対応付けて記憶した索引データベースを有している。例えば、ユーザが、曲名又は歌手名等をキーワードとして楽曲を検索し、索出した楽曲から歌いたいものを指定すると、リモートコントローラ20は、当該楽曲の識別情報をカラオケ演奏装置10へ送信することで、当該楽曲をカラオケ演奏装置10に演奏させる。
【0031】
楽曲サーバ30は、楽曲データを蓄積した楽曲データベースを備え、通信回線を介してカラオケ演奏装置10から要求する楽曲の識別情報を受信した場合に、当該楽曲の楽曲データを返信する。
【0032】
〈感情解析方法〉
図2は、カラオケ演奏装置(感情解析装置)10が実行する感情解析方法の一例を示す図である。カラオケ演奏装置10は、ユーザが指定した楽曲の楽曲データを楽曲サーバ30から受信し、演奏を開始した場合に、
図2の処理を開始する。
【0033】
ステップS10にて、カラオケ演奏装置10は、マイク121を介して歌唱するユーザの音声から音声データを取得する。
【0034】
ステップS20にて、カラオケ演奏装置10は、音声データを所定期間毎に区分し、前記所定期間における前記音声の特徴量に基づいて、ユーザの感情を定量化し、この感情の定量値を評価結果とする。なお、感情を定量化するための解析手法については後述する。
【0035】
ステップS30にて、カラオケ演奏装置10は、ステップS20で求めた評価結果を表
示装置122へ表示させる。
図3は、所定期間毎に求めた感情の評価結果の表示例を示す図である。
【0036】
ステップS40にて、カラオケ演奏装置10は、一つの楽曲の歌唱が完了したか否かを判定する。例えば、カラオケ演奏装置10は、楽曲の演奏に伴って順次表示させる歌詞の表示出力が全て終わり、後奏に入った場合に歌唱が完了したと判定する。
【0037】
ステップS40で否定判定の場合、カラオケ演奏装置10は、ステップS10の処理へ戻る。一方、ステップS40で肯定判定の場合、カラオケ演奏装置10は、ステップS50へ移行し、一つの楽曲についてステップS20で求めた感情の定量化の結果から一つの楽曲毎の感情の状態または前記状態の遷移を求め、前記一つの楽曲毎の感情を評価する。
【0038】
ステップS60にて、カラオケ演奏装置10は、ステップS50で求めた評価結果を当該楽曲における総評として表示装置122へ表示させる。
【0039】
〈感情の解析手法の詳細〉
感情を解析するため、予め種々の音声データを再生して、これを聞いた人が、どのような感情を表しているかを評価する。例えば、怒っていると感じる、冷静(平常)だと感じる、悲しんでいると感じる、喜んでいると感じる、元気だと感じる等、各音声データがどのような感情を表しているかを評価し、各音声データに喜び、平常、悲しみ、怒り、又は元気等のタグを付け、これらタグ付けした音声データをリファレンスデータとして記憶部102に記憶しておく。
【0040】
そして、カラオケ演奏装置10は、
図2の処理を実行した際、ステップS10で取得したユーザの音声データ(以下ユーザデータとも称す)と、リファレンスデータとを比較し、音の高さ、音の強さ、歌唱した語の抑揚、及び前記語の発話の速さ等の特徴量について当該ユーザデータと類似するリファレンスデータを求め、類似したリファレンスデータに付加されているタグによって感情の種類を判別し、類似したリファレンスデータの数によって感情の大きさを定量化する。例えば、類似したリファレンスデータのうち、怒りのタグが付加されたものの数が多ければ怒りが大きいと評価でき、悲しみのタグが付加されたものが少なければ悲しみが小さいと評価できる。
【0041】
なお、感情を定量化する手法は、これに限らず他の手法を用いてもよい。例えば、上記リファレンスデータを教師データとして機械学習(ディープラーニング)を行い、音の高さ、音の強さ、歌唱した語の抑揚、及び前記語の発話の速さ等の特徴量から、相関する感情のタグと相関の程度(感情の大きさ)を求める数理モデル(ニューラルネットワーク)を作成し、記憶部102に記憶しておく。
【0042】
そして、カラオケ演奏装置10は、
図2の処理を実行した際、ステップS10で取得したユーザデータの特徴量を数理モデルに入力し、感情の種類とその大きさを求める構成としてもよい。
【0043】
図3では、所定期間毎の感情をリアルタイムに評価し、冷静(レイセイ)のタグ51、怒り(イカリ)のタグ52、喜び(ヨロコビ)のタグ53、悲しみ(カナシミ)のタグ54を表示画面の四隅に表示し、各所定期間の感情の大きさを一つの円の大きさで表している。なお、各円を表示する位置は、ランダムでもよいし、各タグ51~54の近くに表示してから時間経過に伴って移動させるように表示させてもよい。
【0044】
図4は、一楽曲毎の感情の総評を表示した例であり、グラフ55は、所定期間毎の各感情(冷静、怒り、喜び、悲しみ)を示し、評価56は、一つの楽曲毎の感情の状態から求
めた評価結果を示し、評価57は、前記状態の遷移から求めた評価結果を示す。
【0045】
なお、例えば、評価56,57は、各感情の状態及びその遷移と評価結果とを対応付けたデータテーブルを予め記憶しておき、ステップS50でユーザデータにおける一楽曲毎の感情の状態及びその遷移と対応する評価56,57を読み出す。
【0046】
このように、本実施形態によれば、歌唱するユーザの音声から感情を評価して、表示出力することができる。
【符号の説明】
【0047】
1 :カラオケ演奏システム
10 :カラオケ演奏装置
20 :リモートコントローラ
30 :楽曲サーバ
51 :タグ
52 :タグ
53 :タグ
54 :タグ
55 :グラフ
101 :制御部
102 :記憶部
103 :入出力部
104 :通信部
111 :演奏制御部
112 :音声取得部
113 :感情解析部
114 :表示制御部
121 :マイク
122 :表示装置
123 :スピーカ