(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】カラオケ用入力装置
(51)【国際特許分類】
G10K 15/04 20060101AFI20230822BHJP
G10L 15/00 20130101ALI20230822BHJP
【FI】
G10K15/04 302D
G10L15/00 200G
(21)【出願番号】P 2019153833
(22)【出願日】2019-08-26
【審査請求日】2022-07-20
(73)【特許権者】
【識別番号】390004710
【氏名又は名称】株式会社第一興商
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】永沼 宇将
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2019-120935(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G10K 15/00-15/12
(57)【特許請求の範囲】
【請求項1】
カラオケ歌唱を行う際に利用するカラオケ用入力装置であって、
外部の検索システムに対して楽曲の検索を要求するためのトリガーワードであって、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶するデータ記憶部と、
集音手段から出力された利用者の発声に基づく第1の音声信号を音声認識処理し、テキストデータとして出力する音声処理部と、
前記外部の検索システムに対して楽曲の検索を要求し、且つ検索の結果を取得する検索処理部と、
前記利用者に対し、前記検索の結果を報知する報知部と、
前記音声処理部が出力したテキストデータに基づいて前記トリガーワードを取得する制御部であって、前記トリガーワードを取得した後、第1の所定時間が経過するまでに前記集音手段から前記利用者の発声に基づく第2の音声信号が出力された場合、当該第2の音声信号を、取得した前記トリガーワードに対応する言語を示す言語情報と併せて前記外部の検索システムに送信して楽曲の検索を要求するよう前記検索処理部に指示する第1の処理を行う制御部と、
を有するカラオケ用入力装置。
【請求項2】
カラオケ歌唱の際に実行可能な処理に対応するコマンドを実行する実行部を更に有し、
前記トリガーワードは、前記コマンドの実行を要求するためにも用いられ、
前記データ記憶部は、複数の前記コマンドをそれぞれ異なるテキストデータと紐付けて記憶し、
前記制御部は、前記コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを記憶手段に記憶し、前記トリガーワードを取得し且つ前記記憶手段に前記コマンドを記憶している場合、記憶している前記コマンドの実行を前記実行部に指示した後、記憶している前記コマンドを削除する一方、最新のコマンドの記憶から第2の所定時間が経過した場合、記憶している前記コマンドを削除する第2の処理を行うことを特徴とする請求項1記載のカラオケ用入力装置。
【請求項3】
前記制御部は、複数の前記コマンドを記憶している場合、記憶した順に全てのコマンドを実行するよう前記実行部に指示した後、記憶している全てのコマンドを削除することを特徴とする請求項2記載のカラオケ用入力装置。
【請求項4】
前記データ記憶部は、一のコマンドに対応する複数のテキストデータそれぞれを、当該テキストデータに対応する言語を示す言語情報と紐付けて記憶し、
前記制御部は、
前記第2の処理において、前記コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを当該テキストデータに紐付けられた言語情報と併せて記憶手段に記憶し、前記トリガーワードを取得し且つ前記記憶手段に前記コマンドを記憶している場合、記憶している前記コマンドのうち、取得した前記トリガーワードの前記言語情報と一致する言語情報に紐付けられているテキストデータに対応するコマンドのみを実行するよう前記実行部に指示することを特徴とする請求項2または3に記載のカラオケ用入力装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はカラオケ用入力装置に関する。
【背景技術】
【0002】
カラオケ装置に付属するリモコン装置を用いて、コマンドや検索ワードを音声入力し、カラオケ演奏のテンポやキーを変更したり、楽曲検索を行う技術が知られている。
【0003】
たとえば、特許文献1には、複数の検索語を含む一続きの音声データから各検索語を自動的に抽出し、高精度の楽曲検索を行うことが可能な楽曲検索システムが開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
カラオケ装置は日本人だけでなく外国人も利用することがある。従って、音声入力も様々な言語に対応していることが望ましい。ここで、特許文献1の技術を用いて音声入力により楽曲検索を行う場合、多言語の検索語を予め準備しておく必要があるため煩雑である。一方、多言語の検索語を準備する代わりに、外部の検索システムを利用して楽曲検索を行うことも考えられる。しかしながら、この場合には楽曲検索を行う都度、利用者が自己の使用する言語を指定する必要があるため煩雑である。
【0006】
本発明の目的は、外部の検索システムに対し、音声入力による楽曲検索の要求を容易に行うことが可能なカラオケ用入力装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するための一の発明は、カラオケ歌唱を行う際に利用するカラオケ用入力装置であって、外部の検索システムに対して楽曲の検索を要求するためのトリガーワードであって、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶するデータ記憶部と、集音手段から出力された利用者の発声に基づく第1の音声信号を音声認識処理し、テキストデータとして出力する音声処理部と、前記外部の検索システムに対して楽曲の検索を要求し、且つ検索の結果を取得する検索処理部と、前記利用者に対し、前記検索の結果を報知する報知部と、前記音声処理部が出力したテキストデータに基づいて前記トリガーワードを取得する制御部であって、前記トリガーワードを取得した後、第1の所定時間が経過するまでに前記集音手段から前記利用者の発声に基づく第2の音声信号が出力された場合、当該第2の音声信号を、取得した前記トリガーワードに対応する言語を示す言語情報と併せて前記外部の検索システムに送信して楽曲の検索を要求するよう前記検索処理部に指示する第1の処理を行う制御部と、を有するカラオケ用入力装置である。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。
【発明の効果】
【0008】
本発明によれば、外部の検索システムに対し、音声入力による楽曲検索の要求を容易に行うことができる。
【図面の簡単な説明】
【0009】
【
図1】第1実施形態に係るカラオケ装置を示す図である。
【
図2】第1実施形態に係るリモコン装置を示す図である。
【
図3】第1実施形態に係るデータ記憶部が記憶するテーブルを示す図である。
【
図4】第1実施形態に係るリモコン装置の制御部による第1の処理を示すフローチャートである。
【
図5】第2実施形態に係るデータ記憶部が記憶するテーブルを示す図である。
【
図6】第2実施形態に係るリモコン装置を示す図である。
【
図7】第2実施形態に係るリモコン装置の制御部による第2の処理を示すフローチャートである。
【
図8】第3実施形態に係るデータ記憶部が記憶するテーブルを示す図である。
【発明を実施するための形態】
【0010】
<第1実施形態>
図1~
図4を参照して、本実施形態に係るカラオケ用入力装置について説明する。
【0011】
==カラオケ装置==
カラオケ装置Kは、楽曲のカラオケ演奏、及び利用者がカラオケ歌唱を行うための装置である。
図1に示すように、カラオケ装置Kは、カラオケ本体10、スピーカ20、表示装置30、マイク40、及びリモコン装置50を備える。
【0012】
カラオケ本体10は、選曲された楽曲の演奏制御、歌詞や背景映像等の表示制御、マイク40を通じて入力された音声信号の処理といった、カラオケ演奏やカラオケ歌唱に関する各種の制御を行う。スピーカ20はカラオケ本体10からの放音信号に基づいて放音するための構成である。表示装置30はカラオケ本体10からの信号に基づいて映像や画像を画面に表示するための構成である。マイク40は利用者の歌唱音声をアナログの音声信号に変換してカラオケ本体10に入力するための構成である。リモコン装置50は、カラオケ歌唱を行う際、カラオケ本体10に対する各種操作をおこなうための装置である。また、リモコン装置50は、外部の検索システムSEと通信可能となっている。本実施形態におけるリモコン装置50は「カラオケ用入力装置」に相当する。
【0013】
外部の検索システムSEは、リモコン装置50からの要求に応じて、楽曲の検索を行う(詳細は後述)。また、外部の検索システムSEは、検索の結果をリモコン装置50に送信する。外部の検索システムSEとしては、既存の検索エンジンを用いることができる。
【0014】
==リモコン装置==
図2に示すように、本実施形態に係るリモコン装置50は、記憶手段50a、通信手段50b、表示手段50c、入力手段50d、集音手段50e、及び制御手段50fを備える。各構成はインターフェース(図示なし)を介してバスBに接続されている。
【0015】
[記憶手段]
記憶手段50aは、各種のデータを記憶する大容量の記憶装置である。本実施形態において、記憶手段50aの領域の一部は、データ記憶部100として機能する。
【0016】
(データ記憶部)
データ記憶部100は、外部の検索システムに対して楽曲の検索を要求するためのトリガーワードであって、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶する。
【0017】
トリガーワードは、楽曲の検索を要求するための単語または短文である。トリガーワードは、楽曲の歌詞や利用者間の会話に出てこないような造語であることが好ましい。本実施形態において、トリガーワードは、第1の言語用と第2の言語用で予め一のワードが設定されている。第1の言語はたとえば日本語であり、第2の言語はたとえば英語である。また各トリガーワードには、当該トリガーワードに対応する言語を示す言語情報が紐付けられている。
【0018】
テキストデータは、トリガーワードを識別するためのデータである。複数のトリガーワードには、それぞれ異なる一のテキストデータが紐付けられている。
【0019】
図3は、データ記憶部100に記憶されているテーブルの例である。この例では、テキストデータ「ネエカラオケ」が第1の言語用のトリガーワード「ねぇカラオケ」に紐付けられており、テキストデータ「ヘロウキャラオケ」が第2の言語用のトリガーワード「Hello Karaoke」に紐付けられている。また、言語情報として、第1の言語用のトリガーワードには「日本語」が紐付けられており、第2の言語用のトリガーワードには「英語」が紐付けられている。以下、データ記憶部100には
図3のテーブルが記憶されているものとして説明する。
【0020】
[通信手段・表示手段・入力手段・集音手段]
通信手段50bは、カラオケ本体10や外部の検索システムSEとの通信を行うためのインターフェースを提供する。表示手段50cは、各種情報を表示させるための構成である。入力手段50dは、利用者が各種の指示入力を行うための構成である。入力手段50dは、リモコン装置50に設けられたボタン等である。或いは、表示手段50cがタッチパネル形式で構成されている場合、表示手段50cは入力手段50dとしても機能する。集音手段50eは、利用者が発した音声を集音し、音声信号として出力するためのマイクである。
【0021】
[制御手段]
制御手段50fは、リモコン装置50における各種の制御を行う。制御手段50fは、CPUおよびメモリ(いずれも図示無し)を備える。CPUは、メモリに記憶されたプログラムを実行することにより各種の機能を実現する。
【0022】
ここで、カラオケ装置Kを利用する利用者が検索ワードの入力を音声で行いたいと考えたとする。この場合、利用者は、たとえば入力手段50dを介し、表示手段50cに表示されている「音声入力」のアイコンを選択する。当該選択に基づいて、制御手段50fのCPUはメモリに記憶されるプログラムを実行し、音声入力モードに移行する。この場合、制御手段50fは、音声処理部200、検索処理部300、報知部400、及び制御部500として機能する。
【0023】
(音声処理部)
音声処理部200は、集音手段50eから出力された利用者の発声に基づく第1の音声信号を音声認識処理し、テキストデータとして出力する。音声認識処理は、公知の手法を用いることができる。また、テキストデータとして出力する言語は予め一の言語が設定されている。本実施形態では日本語が設定されている。すなわち音声処理部200は、第1の音声信号を日本語で音声認識処理し、仮名のテキストデータとして出力する。
【0024】
たとえば、利用者U1が集音手段50eに対し「Hello Karaoke」と発声したとする。集音手段50eは音声を集音し、音声信号として音声処理部200に出力する。音声処理部200は、音声信号を処理し、音声信号が示す「ヘロウキャラオケ」を日本語のテキストデータとして出力する。この例における「Hello Karaoke」に対応する音声信号は、「第1の音声信号」の一例である。
【0025】
(検索処理部)
検索処理部300は、外部の検索システムに対して楽曲の検索を要求し、且つ検索の結果を取得する。検索の要求は、制御部500からの指示に応じて行う(詳細は後述)。
【0026】
(報知部)
報知部400は、利用者に対し、検索の結果を報知する。たとえば、検索処理部300が検索結果として楽曲X1、X2、X3を取得したとする。この場合、報知部400は楽曲X1、楽曲X2、楽曲X3の曲名や楽曲IDを表示手段50cに表示させることで、検索の結果を報知する。なお、検索の結果は、リモコン装置50に設けられたスピーカ(図示なし)を介し、音声で報知してもよい。
【0027】
(制御部)
制御部500は、音声処理部200が出力したテキストデータに基づいてトリガーワードを取得する。
【0028】
たとえば、音声処理部200から「ヘロウキャラオケ」というテキストデータが出力されたとする。制御部500は、出力されたテキストデータに対応するデータがデータ記憶部100に記憶されているかどうかを確認する。
図3の例によれば、テキストデータ「ヘロウキャラオケ」は第2の言語用のトリガーワードと紐付けられている。この場合、制御部500は、第2の言語用のトリガーワード(言語情報:英語)を取得する。
【0029】
なお、たとえば、音声処理部200から「ハラヘッタ」というテキストデータが出力されたとする。制御部500は、出力されたテキストデータに対応するデータがデータ記憶部100に記憶されているかどうかを確認する。
図3の例によれば、テキストデータ「ハラヘッタ」に紐付けられているトリガーワードは存在しない。この場合、制御部500は以下の処理を行わない。
【0030】
ここで、本実施形態に係る制御部500は、第1の処理を行う。第1の処理は、トリガーワードを取得した後、第1の所定時間が経過するまでに集音手段50eから利用者の発声に基づく第2の音声信号が出力された場合、当該第2の音声信号を、取得したトリガーワードに対応する言語を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示する処理である。
【0031】
第1の所定時間は、たとえば「3秒」のように予め一の値が設定されている。第2の音声信号は、第1の音声信号よりも後に集音手段50eから出力される信号であって、第1の音声信号の基となる音声を発声した利用者は同じであるが、音声の内容が第1の音声信号の基となる音声の内容とは異なる信号である。具体的に、第2の音声信号は、集音手段50eからある利用者の発声に基づく第1の音声信号が出力された後、当該ある利用者が集音手段50eに対して楽曲の検索を意図して発声した検索ワードを示す信号である。検索ワードは、カラオケ歌唱を行う楽曲を検索する際に使用する。検索ワードは、歌手名、楽曲名、歌詞の一部等である。
【0032】
制御部500は、トリガーワードを取得した場合に計時を開始する。ここでは、利用者U1の発声に基づいて、
図3に示す第2の言語用のトリガーワード(Hello Karaoke)を取得したとする。
【0033】
制御部500は、第2の言語用のトリガーワードを取得してから第1の所定時間が経過するまでに集音手段50eが利用者の発声に基づく第2の音声信号を出力するかどうかを確認する。ここで、第1の所定時間が経過するまでに利用者U1がある音声Wを発声し、当該発声に基づいて集音手段50eが第2の音声信号を出力したとする。この場合、制御部500は、第2の音声信号(音声Wを示す信号)を、取得した第2の言語用のトリガーワードに対応する言語(英語)を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示する。なお、リモコン装置50(制御部500)は、発声された音声の言語、及び第2の音声信号が検索ワードを示す信号であるかどうかについては判断しない。
【0034】
検索処理部300は、外部の検索システムSEに対し、音声Wを示す信号及び英語を示す言語情報を送信し、楽曲の検索を要求する。
【0035】
外部の検索システムSEは、受信した言語情報に基づき、受信した音声Wを示す信号を英語で音声認識処理し、英語のテキストデータを取得する。外部の検索システムSEは、取得したテキストデータを検索ワードとして楽曲の検索を行い、検索結果をリモコン装置50に送信する。検索処理部300は検索結果を取得する。なお、検索結果は、送信された言語情報が示す言語に対応している。上記例の場合、検索結果として得られる楽曲名や歌手名は英語表記である。
【0036】
一方、第1の所定時間が経過するまでに集音手段50eが第2の音声信号を出力しなかった場合、制御部500は、外部の検索システムSEに対して楽曲の検索を要求するよう、検索処理部300に指示することはない。
【0037】
なお、第2の音声信号の出力の有無に関わらず、第1の所定時間が経過した場合、制御部500は、計時を終了し、タイマをリセットする。
【0038】
==リモコン装置における処理について==
次に、
図4を参照して本実施形態に係るリモコン装置50の制御部500による処理について述べる。
図4は、音声入力に基づき、外部の検索システムSEに対して楽曲の検索を要求する際の制御部500による処理(第1の処理)を示すフローチャートである。この例では、音声入力モードが実行されているとする。また、データ記憶部100は、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶しているとする。
【0039】
音声処理部200は、集音手段50eから出力された利用者U1の発声に基づく第1の音声信号を音声認識処理し、テキストデータとして出力する(テキストデータの出力。ステップ10)。
【0040】
制御部500は、音声処理部200が出力したテキストデータに基づいて第1の言語用のトリガーワードまたは第2の言語用のトリガーワードを取得する。また、制御部500は、トリガーワードを取得した場合に計時を開始する(トリガーワードの取得及び計時の開始。ステップ11)。
【0041】
トリガーワードを取得してから第1の所定時間が経過するまでに集音手段50eから利用者U1の発声に基づく第2の音声信号が出力された場合(ステップ12でYの場合)、制御部500は、第2の音声信号を、ステップ11で取得したトリガーワードに対応する言語を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示する。また、制御部500は、計時を終了し、タイマをリセットする(検索の要求の指示及び計時の終了。ステップ13)。
【0042】
検索処理部300は、ステップ13の指示に基づき、外部の検索システムSEに対して楽曲の検索を要求する(外部の検索システムに対して楽曲の検索を要求。ステップ14)。外部の検索システムSEは、ステップ14の要求に応じて楽曲の検索を行い、検索の結果をリモコン装置50に送信する。検索処理部300は、外部の検索システムSEから送信された検索の結果を取得する(検索結果を取得。ステップ15)。
【0043】
報知部400は、利用者U1に対し、ステップ15で取得した検索の結果を報知する(検索結果を報知。ステップ16)。
【0044】
一方、トリガーワードを取得した後、第1の所定時間が経過するまでに集音手段50eから第2の音声信号が出力されなかった場合(ステップ12でNの場合)、制御部500は、計時を終了してタイマをリセットし、以降の処理を行わない(計時の終了。ステップ17)。
【0045】
以上から明らかなように、本実施形態に係るリモコン装置50は、カラオケ歌唱を行う際に利用する。リモコン装置50は、外部の検索システムSEに対して楽曲の検索を要求するためのトリガーワードであって、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶するデータ記憶部100と、集音手段50eから出力された利用者の発声に基づく第1の音声信号を音声認識処理し、テキストデータとして出力する音声処理部200と、外部の検索システムSEに対して楽曲の検索を要求し、且つ検索の結果を取得する検索処理部300と、利用者に対し、検索の結果を報知する報知部400と、音声処理部200が出力したテキストデータに基づいてトリガーワードを取得する制御部500であって、トリガーワードを取得した後、第1の所定時間が経過するまでに集音手段50eから利用者の発声に基づく第2の音声信号が出力された場合、当該第2の音声信号を、取得したトリガーワードに対応する言語を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示する第1の処理を行う制御部500と、を有する。
【0046】
このようなリモコン装置50によれば、外部の検索システムに対して楽曲の検索を要求する際に、第2の音声信号(検索ワードを示す信号)と併せて、トリガーワードに対応する言語を示す言語情報を送信することができる。この場合、外部の検索システムは、受信した第2の音声信号を、受信した言語情報が示す言語に基づいて音声認識処理し、当該処理により得られたテキストデータを用いて楽曲の検索を行うことができる。よって、利用者が検索の指示を行う都度、自己の使用する言語を指定する必要がない。すなわち、本実施形態に係るリモコン装置50によれば、外部の検索システムに対し、音声入力による楽曲検索の要求を容易に行うことができる。
【0047】
<第2実施形態>
次に、
図5~
図7を参照して、第2実施形態に係るカラオケ用入力装置について説明する。本実施形態においては、コマンドを音声入力した場合に、トリガーワードの取得を契機としてコマンドが実行される例について述べる。第1実施形態と同様の構成については詳細な説明を省略する。
【0048】
(データ記憶部)
本実施形態に係るデータ記憶部100は、第1実施形態で説明したトリガーワードと併せて、複数のコマンドをそれぞれ異なるテキストデータと紐付けて記憶している。
【0049】
コマンドは、カラオケ歌唱の際に実行可能な処理に対応する命令である。コマンドは、たとえば、「カラオケ演奏のテンポを上げる」、「カラオケ演奏のキーを下げる」、「カラオケ演奏を一時停止する」、「マイクの音量を上げる」、「スピーカからの音量を下げる」、「歌詞の表示を消す」等の処理を実行するための命令である。テキストデータは、コマンドを識別するためのデータである。一のコマンドには、少なくとも2つの異なるテキストデータが紐付けられている。
【0050】
また、本実施形態において、トリガーワードはコマンドの実行を要求するために用いられる。
【0051】
図5は、本実施形態に係るデータ記憶部100に記憶されているテーブルの例である。たとえば、コマンドC01(カラオケ演奏のテンポを5%上げる)に対しては、「テンポアゲテ」及び「レイズザテンポ(Raise the tempo)」のテキストデータが紐付けられている。なお、テーブルに記憶されていないテキストデータについては、対応するコマンドが無いものとして取り扱う。以下、データ記憶部100には
図5のテーブルが記憶されているものとして説明する。
【0052】
[制御手段]
カラオケ装置Kを利用する利用者がコマンドの入力を音声で行いたいと考えたとする。この場合、利用者は、たとえば入力手段50dを介し、表示手段50cに表示されている「音声入力」のアイコンを選択する。当該選択に基づいて、制御手段50fのCPUはメモリに記憶されるプログラムを実行し、音声入力モードに移行する。この場合、本実施形態に係る制御手段50fは、
図6に示すように、音声処理部200、検索処理部300、報知部400、制御部500、及び実行部600として機能する。
【0053】
(実行部)
実行部600は、コマンドを実行する。実行部600は、制御部500からの指示に基づいて記憶手段50aに記憶されたコマンドを実行する(詳細は後述)。
【0054】
(制御部)
たとえば、音声処理部200から「ネエカラオケ」というテキストデータが出力されたとする。制御部500は、出力されたテキストデータに対応するデータがデータ記憶部100に記憶されているかどうかを確認する。
図5の例によれば、テキストデータ「ネエカラオケ」は第1の言語用のトリガーワードと紐付けられている。この場合、制御部500は、トリガーワードを取得する。その後、本実施形態に係る制御部500は第2の処理を行う。
【0055】
第2の処理は、コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを記憶手段50aに記憶し、トリガーワードを取得し且つ記憶手段50aにコマンドを記憶している場合、記憶しているコマンドの実行を実行部600に指示した後、記憶しているコマンドを削除する一方、最新のコマンドの記憶から第2の所定時間が経過した場合、記憶しているコマンドを削除する処理である。第2の所定時間は、たとえば「3秒」のように予め一の値が設定されている。なお、第1の所定時間及び第2の所定時間は、同じ時間であってもよいし、異なっていてもよい。
【0056】
たとえば、楽曲X10の前奏部分を聴いた利用者U2が、自ら楽曲X10をカラオケ歌唱するにはキーが高く、またテンポも速いと感じたとする。この場合、利用者U2は、集音手段50eに対し「キー下げて」、「テンポ下げて」と順番に発声する。音声処理部200は、当該音声に基づく音声信号を音声認識処理し、「キーサゲテ」、「テンポサゲテ」をテキストデータとして出力する。
【0057】
制御部500は、出力されたテキストデータに対応するデータがデータ記憶部100に記憶されているかどうかを確認する。
図5の例によれば、テキストデータ「キーサゲテ」はコマンドC05(カラオケ演奏のキーを1半音下げる)が紐付けられており、テキストデータ「テンポサゲテ」はコマンドC02(カラオケ演奏のテンポを5%下げる)が紐付けられている。よって、制御部500は、テキストデータ「キーサゲテ」、「テンポサゲテ」に紐付けられているコマンドC05及びC02を発声された順番で記憶手段50aに記憶する。
【0058】
制御部500は、コマンドを記憶した場合にタイマをリセットして計時を開始する。上記例のように複数のコマンドを記憶する場合、制御部500は、コマンドが記憶される都度タイマをリセットして新たに計時を開始する。
【0059】
利用者U2が「ねぇカラオケ」と発声し、制御部500がトリガーワードを取得したとする。この場合、制御部500は、記憶手段50aが記憶しているコマンドC05及びC02を実行するよう実行部600に指示する。制御部500は、当該指示を行った後、記憶しているコマンドC05及びコマンドC02を記憶手段50aから削除する。なお、コマンドを削除した場合、制御部500は、計時を終了する。
【0060】
一方、コマンドC02を記憶してから第2の所定時間が経過した場合、制御部500は、記憶手段50aからコマンドC05及びコマンドC02を削除する。なお、コマンドを削除した場合、制御部500は計時を終了する。すなわち、制御部500は、最新のコマンドの記憶から第2の所定時間が経過した場合、記憶しているコマンドを削除する。
【0061】
ここで、複数のコマンドを記憶している場合、制御部500は、全てのコマンドを実行するよう実行部600に指示することができる。
【0062】
たとえば、制御部500は、記憶した順に全てのコマンドを実行するよう実行部600に指示することができる。上記例において、トリガーワードを取得し且つコマンドC05及びコマンドC02を記憶している場合、制御部500は、コマンドC05、コマンドC02の順で実行するよう実行部600に指示する。また、制御部500は、当該指示を行った後、記憶している全てのコマンドを記憶手段50aから削除する。
【0063】
実行部600は、当該指示に基づいて、最初に楽曲X10のカラオケ演奏のキーを1半音下げる処理を実行し、次にテンポを5%下げる処理を実行する。
【0064】
或いは、複数のコマンドを記憶している場合、制御部500は、その一部のコマンドのみを実行するよう実行部600に指示してもよい。
【0065】
たとえば、制御部500は、最新のコマンドのみを実行するよう実行部600に指示した後、記憶している全てのコマンドを削除することでもよい。
【0066】
上記例の場合、記憶手段50aには、コマンドC05、コマンドC02の順で記憶されている。ここで、トリガーワードを取得した場合、制御部500は、最新のコマンドC02のみを実行するよう実行部600に指示する。このように記憶している一部のコマンドの実行を指示する場合であっても、制御部500は、指示した後、記憶している全てのコマンドを記憶手段50aから削除する。
【0067】
実行部600は、当該指示に基づいて、楽曲X10のカラオケ演奏のテンポを5%下げる処理のみを実行する。
【0068】
==リモコン装置における処理について==
次に、
図7を参照して本実施形態に係るリモコン装置50の制御部500による処理について述べる。
図7は、音声入力に基づいてコマンドを実行する際の制御部500による処理(第2の処理)を示すフローチャートである。この例では、音声入力モードが実行されているとする。また、データ記憶部100は、複数のコマンド、第1の言語用のトリガーワード及び第2の言語用のトリガーワードをそれぞれ異なるテキストデータと紐付けて記憶しているとする。
【0069】
音声処理部200は、集音手段50eから出力された利用者U2の音声信号を音声認識処理し、テキストデータとして出力する(テキストデータの出力。ステップ20)。
【0070】
制御部500は、コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを記憶手段50aに記憶する。また、制御部500は、コマンドを記憶した場合にタイマをリセットして計時を開始する(コマンドの記憶、タイマのリセット及び計時の開始。ステップ21)。
【0071】
トリガーワードを取得し且つコマンドを記憶している場合(ステップ22でYの場合)、制御部500は、記憶しているコマンドの実行を実行部600に指示する(コマンドの実行を指示。ステップ23)。なお、実行部600は、ステップ23の指示に基づいてコマンドを実行する。
【0072】
その後、制御部500は、記憶しているコマンドを削除する。また、制御部500は、計時を終了する(コマンドの削除及び計時の終了。ステップ24)。一方、計時を開始してから第2の所定時間が経過した場合(ステップ25でYの場合)、制御部500は、記憶しているコマンドを削除し、計時を終了する(コマンドの削除及び計時の終了。ステップ24)。
【0073】
以上から明らかなように、本実施形態に係るリモコン装置50は、カラオケ歌唱の際に実行可能な処理に対応するコマンドを実行する実行部600を更に有する。また、トリガーワードは、コマンドの実行を要求するためにも用いられる。データ記憶部100は、複数のコマンドをそれぞれ異なるテキストデータと紐付けて記憶する。制御部500は、コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを記憶手段50aに記憶し、トリガーワードを取得し且つ記憶手段50aにコマンドを記憶している場合、記憶しているコマンドの実行を実行部600に指示した後、記憶しているコマンドを削除する一方、最新のコマンドの記憶から第2の所定時間が経過した場合、記憶しているコマンドを削除する第2の処理を行う。
【0074】
このようなリモコン装置50によれば、コマンドを音声入力した場合に、トリガーワードの取得を契機としてコマンドが実行される。よって、コマンドの誤認識による意図しないコマンドの実行がなされる可能性が低くなるため、カラオケ歌唱の場において音声入力を利用する際の誤認識を低減することができる。
【0075】
また、制御部500は、複数のコマンドを記憶している場合、記憶した順に全てのコマンドを実行するよう実行部600に指示した後、記憶している全てのコマンドを削除する。このような構成によれば、利用者が希望する順番で全てのコマンドを実行することができる。また、コマンドの実行を指示した後、記憶している全てのコマンドが削除されるため、次の音声入力が可能となる。
【0076】
<第3実施形態>
次に、
図8を参照して、第3実施形態に係るカラオケ用入力装置について説明する。本実施形態においては、記憶手段が記憶しているコマンドのうち、トリガーワードの言語情報と同じ言語情報に紐付けられているテキストデータに対応するコマンドのみを実行する例について述べる。第1実施形態及び第2実施形態と同様の構成については詳細な説明を省略する。
【0077】
(データ記憶部)
本実施形態に係るデータ記憶部100は、一のコマンドに対応する複数のテキストデータそれぞれを、当該テキストデータに対応する言語を示す言語情報と紐付けて記憶する。
【0078】
図8は、本実施形態に係るデータ記憶部100に記憶されているテーブルの例である。たとえば、コマンドC01(カラオケ演奏のテンポを5%上げる)に対しては、「テンポアゲテ」及び「レイズザテンポ(Raise the tempo)」のテキストデータが紐付けられている。また、「テンポアゲテ」のテキストデータには、対応する「日本語」を示す言語情報が紐付けられている。一方、「レイズザテンポ(Raise the tempo)」のテキストデータには、対応する「英語」を示す言語情報が紐付けられている。以下、データ記憶部100には
図8のテーブルが記憶されているものとして説明する。
【0079】
(制御部)
本実施形態における制御部500は、第2の処理において、コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを当該テキストデータに紐付けられた言語情報と併せて記憶手段50aに記憶し、トリガーワードを取得し且つ記憶手段50aにコマンドを記憶している場合、記憶しているコマンドのうち、取得したトリガーワードの言語情報と一致する言語情報に紐付けられているテキストデータに対応するコマンドのみを実行するよう実行部600に指示する。
【0080】
たとえば、音声処理部200からテキストデータ「キーサゲテ」が出力された場合、制御部500は、テキストデータ「キーサゲテ」に紐付けられたコマンドC05を当該テキストデータに紐付けられた言語情報「日本語」と併せて記憶手段50aに記憶する。或いは、音声処理部200からテキストデータ「ロウワザテンポ」が出力された場合、制御部500は、テキストデータ「ロウワザテンポ」に紐付けられたコマンドC02を当該テキストデータに紐付けられた言語情報「英語」と併せて記憶手段50aに記憶する。
【0081】
ここで、音声処理部200からテキストデータ「ヘロウキャラオケ」が出力され、制御部500がトリガーワードを取得したとする。この場合、制御部500は、記憶手段50aに記憶されているコマンドC05及びC02のうち、取得したトリガーワードの言語情報「英語」と一致する言語情報に紐付けられているテキストデータ「ロウワザテンポ」に対応するコマンドC02のみを実行するよう実行部600に指示する。
【0082】
以上から明らかなように、本実施形態に係るリモコン装置50におけるデータ記憶部100は、一のコマンドに対応する複数のテキストデータそれぞれを、当該テキストデータに対応する言語を示す言語情報と紐付けて記憶する。制御部500は、第2の処理において、コマンドに紐付けられたテキストデータが出力された際、当該テキストデータに紐付けられたコマンドを当該テキストデータに紐付けられた言語情報と併せて記憶手段50aに記憶し、トリガーワードを取得し且つ記憶手段50aにコマンドを記憶している場合、記憶しているコマンドのうち、取得したトリガーワードの言語情報と一致する言語情報に紐付けられているテキストデータに対応するコマンドのみを実行するよう実行部600に指示する。
【0083】
このようなリモコン装置50によれば、たとえば記憶手段50aに異なる言語のコマンドが記憶されている場合であっても、トリガーワードの言語に対応するコマンドのみを確実に実行することができる。
【0084】
<その他>
上記実施形態では、日本語と英語、2種類の言語に基づく例で説明を行ったが、言語は3種類以上あってもよい。この場合、トリガーワードは、言語の数だけ設定されている。また、各コマンドには、言語の数だけテキストデータが設定されている。
【0085】
上記実施形態は、カラオケ用入力装置としてリモコン装置50を例に説明した。一方、カラオケ装置K自体がカラオケ用リモコン装置として機能してもよい。この場合、カラオケ本体10が少なくとも記憶手段50a(データ記憶部100)、通信手段50b、入力手段50d、制御手段50fを備える。制御手段50fは、少なくとも音声処理部200、検索処理部300、報知部400、及び制御部500として機能する。また表示装置30が表示手段50cとして機能し、リモコン装置50が入力手段50dとして機能し、マイク40が集音手段50eとして機能する。
【0086】
第2実施形態の例において、データ記憶部100に記憶されている複数のコマンドに優先度が設定されていてもよい。この場合、データ記憶部100は、複数のコマンドを実行する場合の優先度を示す優先情報をコマンド毎に記憶している。また、制御部500は、複数のコマンドを記憶している場合、優先情報に基づいてコマンドの実行を実行部600に指示した後、記憶している全てのコマンドを削除する。たとえば、第2実施形態の例において、記憶手段50aに記憶されているコマンドC05の優先度が「高」、コマンドC02の優先度が「中」と設定されているとする。この場合、制御部500は、優先度の高いコマンドC05のみを実行するよう、或いは優先度の高いコマンドC05から先に実行するよう実行部600に指示することができる。
【0087】
また、利用者によっては、一度音声入力したコマンドをキャンセルしたいと考えることもありうる。そこで、データ記憶部100は、コマンドの入力をキャンセルするキャンセルワードをテキストデータと紐付けて記憶してもよい。この場合、制御部500は、音声処理部200が出力したテキストデータに基づいてキャンセルワードを取得することができる。また、制御部500は、キャンセルワードを取得した場合、記憶しているコマンドの実行を実行部600に指示することなく、記憶している全てのコマンドを削除する。
【0088】
たとえば、第2実施形態の例において、記憶手段50aにコマンドC05及びコマンドC02が記憶されているとする。また、テキストデータ「モトイ」がキャンセルワードと紐付けられているとする。
【0089】
利用者は、音声入力したコマンドをキャンセルするために、キャンセルワード「もとい」を発声する。音声処理部200は、テキストデータ「モトイ」を出力する。制御部500は、出力されたテキストデータに対応するデータがデータ記憶部100に記憶されているかどうかを確認する。上述の通り、テキストデータ「モトイ」はキャンセルワードと紐付けられている。よって、制御部500はキャンセルワードを取得する。制御部500は、記憶手段50aに記憶されているコマンドC05及びコマンドC02の実行を実行部600に指示することなく、記憶手段50aから削除する。
【0090】
また、上記実施形態で述べた第1の処理及び第2の処理を連続して行ってもよい。すなわち、制御部500は、記憶手段50aに記憶しているコマンドの実行を実行部600に指示した後、更に、第1の所定時間が経過するまでに集音手段50eから利用者の発声に基づく第2の音声信号が出力された場合、当該第2の音声信号を、取得したトリガーワードに対応する言語を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示してもよい。
【0091】
逆に、制御部500は、記憶手段50aに記憶しているコマンドの実行を実行部600に指示した後、新たなトリガーワードの音声入力がなされるまでは、仮に第1の所定時間が経過するまでに集音手段50eから第2の音声信号が出力された場合であっても、当該第2の音声信号を、取得したトリガーワードに対応する言語を示す言語情報と併せて外部の検索システムSEに送信して楽曲の検索を要求するよう検索処理部300に指示しないことでもよい。
【0092】
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0093】
50 リモコン装置
100 データ記憶部
200 音声処理部
300 検索処理部
400 報知部
500 制御部
600 実行部