IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社共同テレビジョンの特許一覧

<>
  • 特許-音処理装置及びカラオケシステム 図1
  • 特許-音処理装置及びカラオケシステム 図2
  • 特許-音処理装置及びカラオケシステム 図3
  • 特許-音処理装置及びカラオケシステム 図4
  • 特許-音処理装置及びカラオケシステム 図5
  • 特許-音処理装置及びカラオケシステム 図6
  • 特許-音処理装置及びカラオケシステム 図7
  • 特許-音処理装置及びカラオケシステム 図8
  • 特許-音処理装置及びカラオケシステム 図9
  • 特許-音処理装置及びカラオケシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-10-02
(45)【発行日】2023-10-11
(54)【発明の名称】音処理装置及びカラオケシステム
(51)【国際特許分類】
   G10K 15/04 20060101AFI20231003BHJP
   H04R 3/00 20060101ALI20231003BHJP
【FI】
G10K15/04 302D
H04R3/00
【請求項の数】 6
(21)【出願番号】P 2022063864
(22)【出願日】2022-04-07
【審査請求日】2022-10-20
【早期審査対象出願】
(73)【特許権者】
【識別番号】591134627
【氏名又は名称】株式会社共同テレビジョン
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】神▲崎▼ 茂
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2016-102982(JP,A)
【文献】特開2004-053736(JP,A)
【文献】特開2011-242560(JP,A)
【文献】特開2001-042878(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
前記合成音データを外部に出力するスピーカと、
ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路と、
を有し、
前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力する、音処理装置。
【請求項2】
外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
前記合成音データを外部に出力するスピーカと、
ネットワークを介して、外部装置との間でデータを送受信する通信回路と、
を有し、
前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期しており前記外部装置から前記通信回路が受信した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データと、を前記音合成回路に入力し、
前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成する、音処理装置。
【請求項3】
前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第1モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付ける、
請求項1又は2に記載の音処理装置。
【請求項4】
前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成する、
請求項1又は2に記載の音処理装置。
【請求項5】
音処理装置と画像表示装置とを備え、
前記音処理装置は、
外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
前記合成音データを外部に出力するスピーカと、
前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、
ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路と、
を有し、
前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力し、
前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する、カラオケシステム。
【請求項6】
音処理装置と画像表示装置とを備え、
前記音処理装置は、
外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
前記合成音データを外部に出力するスピーカと、
前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、
ネットワークを介して、外部装置との間でデータを送受信する通信回路と、
を有し、
前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期しており前記外部装置から前記通信回路が受信した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データと、を前記音合成回路に入力し、
前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成し、
前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する、カラオケシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音処理装置及びカラオケシステムに関する。
【背景技術】
【0002】
従来、マイクロホンから入力された音声と楽曲音とを合成した音をスピーカから出力するカラオケシステムが知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2011-191357号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来のカラオケシステムにおいては、マイクロホンから入力された音声がCPU(Central Processing Unit)に取り込まれてから楽曲音と合成されていた。CPUで音声を処理する場合には、マイクロホンから音声が入力されてから音声がスピーカから出力されるまでの遅延時間が大きい。遅延時間が50ms以上になると、スピーカから聞こえる楽曲音と音声のタイミングがずれることにより違和感が生じる場合があるという問題が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、スピーカから出力される楽曲音と音声のずれを抑制することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、を有する。
【0007】
前記プロセッサは、前記合成音データを記憶媒体に録音データとして記憶させた後に、前記合成音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。
【0008】
前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。
【0009】
前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から、前記コンテンツ音データに同期した外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
【0010】
前記音処理装置は、ネットワークを介して、外部装置との間でデータを送受信する通信回路をさらに有し、前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
【0011】
前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第1モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付けてもよい。
【0012】
前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
【0013】
本発明の第2の態様のカラオケシステムは、音処理装置と画像表示装置とを備え、前記音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、を有し、前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する。
【発明の効果】
【0014】
本発明によれば、スピーカから出力される楽曲音と音声のずれを抑制することができるという効果を奏する。
【図面の簡単な説明】
【0015】
図1】第1の実施形態のカラオケシステムS1の構成を示す図である。
図2】合成音に含まれるコンテンツ音とマイク音との関係を示す図である。
図3】音処理装置1の構成を示す図である。
図4】第2の実施形態のカラオケシステムS2の構成を示す図である。
図5】第1の方法について説明するための図である。
図6】第1の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
図7】第2の方法について説明するための図である。
図8】第2の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
図9】第3の方法について説明するための図である。
図10】第3の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
【発明を実施するための形態】
【0016】
<第1の実施形態>
[カラオケシステムS1の概要]
図1は、第1の実施形態のカラオケシステムS1の構成を示す図である。カラオケシステムS1は、自宅又は店舗等においてカラオケを楽しむためのシステムである。カラオケシステムS1は、音処理装置1と、テレビ2と、サーバ3と、を備える。音処理装置1、テレビ2及びサーバ3は、ネットワークNに接続されている。ネットワークNは例えばインターネットである。
【0017】
音処理装置1は、例えばテレビ2が設置された台上に、テレビ2と接続された状態でテレビ2の前方に設置される棒状のデバイスである。音処理装置1は、その両端付近にスピーカを内蔵している。音処理装置1は、カラオケシステムS1のユーザU(図1におけるユーザU1、U2)がマイクロホンM(図1におけるマイクロホンM1、M2)から入力された音声を楽曲の音(以下、「コンテンツ音」という場合がある)と合成することにより生成した合成音をスピーカから出力する。図1においては、マイクロホンMがワイヤレスマイクロホンである場合を例示しているが、マイクロホンMと音処理装置1とはケーブルにより接続されていてもよい。
【0018】
音処理装置1は、コンテンツ音に対応するコンテンツ音データと、コンテンツ音データに同期した映像に対応する映像データとを含むカラオケコンテンツをサーバ3から取得する。音処理装置1は、合成音をスピーカから出力している間に、テレビ2に対して、コンテンツ音データに同期した映像データを送信する。これにより、ユーザUは、テレビ2で映像を見て、コンテンツ音を聞きながら歌唱することができる。
【0019】
テレビ2は、テレビジョン放送を受信して、受信した放送コンテンツを表示することができる。テレビ2は、例えばHDMI(登録商標)ケーブルにより音処理装置1と接続可能であり、音処理装置1から入力された映像データに基づく映像を表示することもできる。テレビ2は、音処理装置1のスピーカが合成音を出力している間、カラオケコンテンツに対応する映像データを表示する。テレビ2は、カラオケ用のアプリケーションソフトウェアを内蔵しており、リモコンにより、カラオケを開始するための操作が行われた場合に音処理装置1を起動させてもよい。
【0020】
テレビ2は、ネットワークNを介して、各種のコンテンツを取得することができる。例えば、音処理装置1からカラオケ用の映像データが送られてきていない間は、広告コンテンツ、美容・健康に関するコンテンツ等をサーバ3から取得して、取得したコンテンツを表示する。
【0021】
テレビ2は、音処理装置1の各種の設定操作をするための入力デバイスとしても機能する。テレビ2は、例えば、マイクロホンMの音量及びエコーのレベル等を設定するための操作や、音処理装置1の動作モードを選択するための操作を受け付けて、操作の内容を音処理装置1に通知する。
【0022】
また、テレビ2は、ユーザUが歌唱する楽曲を選択するための画面を表示する。テレビ2は、ユーザUにより選択された楽曲を識別するための情報を音処理装置1に通知する。これにより、音処理装置1は、サーバ3から、選択された楽曲に対応するカラオケコンテンツを取得することができる。
【0023】
サーバ3は、カラオケコンテンツを音処理装置1に提供する。サーバ3は、カラオケコンテンツを識別するためのコンテンツIDに関連付けてカラオケコンテンツを記憶しており、音処理装置1から受信したコンテンツIDに対応するカラオケコンテンツを音処理装置1に送信する。サーバ3は、ユーザUが歌唱している間の音声が録音されることにより作成された録音データを音処理装置1から受信し、ユーザUを識別するためのユーザID及び楽曲を識別するための録音データIDに関連付けて録音データを記憶してもよい。サーバ3は、音処理装置1からユーザID及び録音データIDを受信したことに応じて、当該ユーザID及び録音データIDに対応する録音データを音処理装置1に送信する。
【0024】
図2は、音処理装置1がスピーカから出力する合成音に含まれるコンテンツ音とマイク音との関係を示す図である。コンテンツ音は、音処理装置1がサーバ3から取得したコンテンツデータに含まれる楽曲の音データに基づく音である。マイク音データは、マイクロホンMに入力されたユーザUの音声である。図2における複数の長方形は、音が存在する期間を示しており、一つの長方形の横方向の長さは200msに相当する。
【0025】
図2(a)は、コンテンツ音とマイク音とをCPUで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。図2(a)に示す例においては、コンテンツ音に対してマイク音が150ms遅延している。このようにコンテンツ音に対するマイク音の遅延量が大きいと、ユーザUには、楽曲と自分が発した声とがずれて聞こえるので違和感が生じる。
【0026】
図2(b)は、コンテンツ音とマイク音とをCPUを用いないで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。本実施形態の音処理装置1は、このようにコンテンツ音とマイク音とをCPUを用いることなく合成するので、コンテンツ音に対するマイク音の遅延時間が30ms以下となり、ユーザUにとっては、楽曲と自分が発した声とがずれて聞こえにくい。
【0027】
[音処理装置1の構成]
図3は、音処理装置1の構成を示す図である。音処理装置1は、通信回路11と、HDMI回路12と、プロセッサ13と、記憶部14と、無線回路15と、AD変換器16と、音合成回路17と、アンプ18と、スピーカ19と、を有する。
【0028】
通信回路11は、ネットワークNを介してサーバ3との間でデータを送受信するための通信インターフェイスを有する。通信回路11は、例えばLAN(Local Area Network)コントローラを有する。
HDMI回路12は、テレビ2に映像データを送信するためのHDMIインターフェイスを有する。
【0029】
プロセッサ13は、記憶部14に記憶されたプログラムを実行することにより各種の処理をするCPUである。プロセッサ13は、通信回路11を介してサーバ3からカラオケコンテンツを取得して記憶部14に記憶させたり、HDMI回路12を介して、カラオケコンテンツに基づく映像データをテレビ2に送信したりする。プロセッサ13は、カラオケの動作を実行するための操作をユーザUから受けた場合に、プログラムを実行することによりコンテンツ音データを記憶部14から読み出して、音合成回路17に対して出力する。また、プロセッサ13は、音合成回路17から入力されたマイク音データを解析することにより、ユーザUの歌唱力を採点する処理を実行する。
【0030】
記憶部14は、ROM(Read Only Memory)及びRAM(Random Access Memory)を有している。記憶部14は、プロセッサ13が実行するプログラムを記憶している。また、記憶部14は、プロセッサ13がサーバ3から取得したカラオケコンテンツを一時的に記憶する。
【0031】
無線回路15は、マイクロホンM1及びマイクロホンM2から、マイクロホンM1及びマイクロホンM2に入力された音に対応する第1音信号及び第2音信号を受信するためのアンテナ及び復調回路等を有する。無線回路15は、受信した第1音信号及び第2音信号を復調した後の信号をAD変換器16に入力する。
【0032】
AD変換器16は、マイクロホンM1又はマイクロホンM2の少なくともいずれかから入力された音をマイク音データに変換する信号変換回路である。具体的には、AD変換器16は、無線回路15から入力されたマイク音のアナログ信号をデジタルデータに変換する。AD変換器16は、変換後のマイク音データを音合成回路17に入力する。AD変換器16は、例えばマイク音データをIS(Inter-IC Sound)規格に基づくフォーマットで音合成回路17に送信する。
【0033】
音合成回路17は、プロセッサを経由していないマイク音データと、プロセッサが出力したコンテンツ音データと、を合成することにより合成音データを生成する。音合成回路17は、マイクロホンM1において入力されたユーザU1の声に基づくマイク音データと、マイクロホンM2において入力されたユーザU2の声に基づくマイク音データとを合成することにより合成音データを生成してもよい。これにより、ユーザU1とユーザU2がデュエットを楽しむことができる。音合成回路17は、生成した合成音データをアンプ18に入力する。音合成回路17は、例えばIS規格に基づいて合成音データをアンプ18に送信する。
【0034】
音合成回路17は、例えばDSP(Digital Signal Processor)により構成されており、所定のサンプリング時間ごとにデジタル信号処理を実行することで、合成音データを生成する。音合成回路17がDSPにより構成されていることで、積和演算を高速に処理することができるので、ユーザUがマイクロホンMに音声を入力してから合成音データが生成されるまでの遅延時間を30ms以下に抑えることができる。なお、音合成回路17は、合成する前のマイク音データをIS規格に基づいてプロセッサ13に送信してもよい。
【0035】
音合成回路17は、マイクロホンMから入力された音にエコー処理を施した後のマイク音データと、エコー処理を施していないコンテンツ音データとを合成することにより合成音データを生成してもよい。音合成回路17がエコー処理を施すことで、遅延時間を抑えつつ、ユーザUが歌った声にエコーをかけることが可能になる。
【0036】
アンプ18は、音合成回路17から入力された合成音データを増幅し、増幅した後のアナログ合成音をスピーカ19に入力する。スピーカ19は、入力されたアナログ合成音を出力する。
【0037】
ところで、デュエット曲を歌う場合に、デュエットをする相手がいないという場合がある。そこで、プロセッサ13は、ユーザUの音声に対応するマイク音データとコンテンツ音データとを合成した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力してもよい。記憶媒体は例えばサーバ3が有するハードディスクであるが、プロセッサ13は記憶部14に合成音データを記憶させてもよい。ユーザUは、このコンテンツ音データを聞きながら歌唱することで、過去の自分自身、又は音処理装置1を過去に使用した他のユーザUとデュエットをすることが可能になる。
【0038】
<第2の実施形態>
[カラオケシステムS2の概要]
図4は、第2の実施形態のカラオケシステムS2の構成を示す図である。図4に示すカラオケシステムS2は、第1の拠点に音処理装置1a及びテレビ2aが設置されており、第2の拠点に音処理装置1b及びテレビ2bが設置されているという点で図1に示したカラオケシステムS1と異なる。音処理装置1a及び音処理装置1bのそれぞれは、第1の実施形態において説明した音処理装置1の機能を有する。テレビ2a及びテレビ2bは、第1の実施形態において説明したテレビ2の機能を有する。
【0039】
カラオケシステムS2においては、音処理装置1aを使用するユーザU1と外部装置(図4の例では音処理装置1b)を使用するユーザU2とがデュエットをできるという点でカラオケシステムS1と異なる。音処理装置1a及び音処理装置1bは、各種の方法によりユーザU1とユーザU2とのデュエットを実現することができる。以下、それぞれの方法を詳細に説明する。
【0040】
[第1の方法]
第1の方法は、ユーザU2がコンテンツ音データに合わせて歌ったときの音声を予め録音しておき、ユーザU1が、コンテンツ音データと録音されたユーザU2の音声とを聞きながらマイクロホンM1に音声を入力するという方法である。図5は、第1の方法について説明するための図である。図6は、第1の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
【0041】
第1の方法において、音処理装置1aのプロセッサ13は、音処理装置1bから受信した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作をユーザU1から受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力する。第1の実施形態と同様に、記憶媒体は例えばサーバ3が有するハードディスクであるが、プロセッサ13は記憶部14に合成音データを記憶させてもよい。
【0042】
このようにするために、通信回路11は、ネットワークNを介して、コンテンツ音データを音処理装置1bに送信し、かつ音処理装置1bから、ユーザU2がマイクロホンMに入力した音声に対応する外部音データ(すなわち第2マイク音データ)を受信する。マイクロホンM2には、スピーカ19から出力されるコンテンツ音も入るが、ここでは、マイクロホンM2の指向性が十分に強く、マイク音にはコンテンツ音が含まれていないものとする。なお、マイク音にコンテンツ音が含まれる場合、音合成回路17が、マイク音からコンテンツ音を除去する処理をすることにより、音処理装置1aに送信される第2マイク音データにコンテンツ音データが含まれないようにしてもよい。
【0043】
そして、プロセッサ13は、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データと第2マイク音データとを合成することにより録音データを生成し、生成した録音データを記憶媒体に記憶させる。そして、プロセッサ13は、録音データを記憶媒体に記憶させた後に、録音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力する。
【0044】
図5に示す例においては、まず、音処理装置1aのプロセッサ13が音処理装置1bに対してコンテンツ音データを送信し、音処理装置1bは、音処理装置1aから受信したコンテンツ音データに基づくコンテンツ音をスピーカ19から出力させる。音処理装置1bは、マイクロホンM2に入力されたユーザU2の音声に基づく第2マイク音データを音処理装置1aに送信する。
【0045】
音処理装置1aのプロセッサ13は、音処理装置1bから受信した第2マイク音データと、第2マイク音データに同期させたコンテンツ音データと合成した録音データをサーバ3に記憶させることで録音する。この際、プロセッサ13は、ユーザU2のユーザID及びコンテンツID(例えば楽曲名)に関連付けた録音データをサーバ3に記憶させる。
【0046】
その後、ユーザU1が、ユーザU2が録音した第2マイク音データを用いてユーザU2とデュエットをするための操作をすると、プロセッサ13は、ユーザU1により選択されたユーザID及びコンテンツIDに対応する録音データを読み出す。プロセッサ13は、読み出したコンテンツ音データを出力コンテンツ音データとして音合成回路17に入力し、読み出した録音データを第2マイク録音データとして音合成回路17に入力する。
【0047】
音合成回路17は、録音データと、AD変換器16を介してマイクロホンM1から入力された第1マイク音データとを合成することにより、合成音データを生成する。図6に示すように、第1マイク音データは、録音データに対して30ms以下の遅延時間となる。生成された合成音データに基づく合成音がスピーカ19から出力されることにより、ユーザU1は、ユーザU2とデュエットする気分で歌唱することができる。
【0048】
なお、以上の説明においては、マイクロホンM2の指向性が高く、音処理装置1bから送信された第2マイク音データにはコンテンツ音データが含まれていない場合を例示したが、第2マイク音データにコンテンツ音データが含まれていてもよい。この場合、プロセッサ13は、第2マイク音データに含まれているユーザU2の音声に同期したコンテンツ音データを合成させず、第2マイク音データを録音データとして記憶媒体に記憶させてもよい。このような構成により、プロセッサ13の処理の負荷を軽くすることができる。
【0049】
[第2の方法]
図7は、第2の方法について説明するための図である。図8は、第2の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第2の方法においては、ユーザU2の音声の録音データを使わず、リアルタイムでユーザU1がユーザU2とデュエットをできるという点で第1の方法と異なる。
【0050】
音処理装置1aのプロセッサ13は、第1の方法と同様に、ネットワークNを介して、コンテンツ音データを外部装置である音処理装置1bに送信し、かつ音処理装置1bから第2マイク音データを受信する。音処理装置1bは、音処理装置1aから受信したコンテンツ音データに基づくコンテンツ音をスピーカ19から出力させる。音処理装置1bは、マイクロホンM2に入力されたユーザU2の音声に基づく第2マイク音データを音処理装置1aに送信する。
【0051】
音処理装置1aのプロセッサ13は、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データ(すなわち遅延コンテンツ音データ)を音合成回路17に入力する。所定の遅延時間は、音処理装置1aから送信したコンテンツ音データが音処理装置1bに到達するまでの伝送時間と、音処理装置1bから送信した第2マイク音データが音処理装置1aに到達するまでの伝送時間とを加算した時間に相当する。通信回路11が音処理装置1bに送信したコンテンツ音データに対して、音処理装置1aと音処理装置1bとの間の往復の伝送時間に相当する時間だけ遅延したコンテンツ音データは、第2マイク音データに同期した音データになる。
【0052】
音合成回路17は、マイクロホンM1に入力されたユーザU1の音声に対応する第1マイク音データと、マイクロホンM2に入力されたユーザU2の音声に対応する第2マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置1aがこのように動作することで、図8に示すように、音処理装置1aが送信したコンテンツ音データに対して、第2マイク音データが音処理装置1aに到達した時間が遅れていたとしても、第2マイク音データと遅延コンテンツ音データとが同期する。そして、音合成回路17がこれらの音データと第1マイク音データとを合成するので、第2マイク音データに対する第1マイク音データの遅延時間は30ms以下であり、ユーザU1は、コンテンツ音に同期したユーザU2の声に合わせて歌唱することができる。
【0053】
[第3の方法]
図9は、第3の方法について説明するための図である。図10は、第3の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第3の方法においては、ユーザU1とユーザU2の両方がリアルタイムでデュエットをできるという点で第1の方法及び第2の方法と異なる。
【0054】
図9に示すように、まず、音処理装置1aのプロセッサ13は、第1の実施形態で説明した方法によりユーザU1がマイクロホンM1に入力した録音用マイク音データを取得し、録音用マイク音データを第1マイク録音データとして記憶部14に記憶させることにより録音する。ここでは、マイクロホンM1の指向性が十分に高く、第1マイク録音データにはコンテンツ音データが含まれていないものとする。
【0055】
続いて、プロセッサ13は、第1マイク録音データを記憶部14に記憶させた後に、第1マイク録音データを外部装置である音処理装置1bに送信するための操作を受けた場合に、通信回路11を介して第1マイク録音データとコンテンツ音データとを音処理装置1bに送信する。第1マイク録音データを音処理装置1bに送信するための操作は、例えば、音処理装置1bを利用するユーザU2とデュエットをするための操作である。音処理装置1bは、第1マイク録音データとコンテンツ音データに基づく音を聞きながらユーザU2が歌唱した際の音声に対応する第2マイク音データを生成する。音処理装置1bのプロセッサ13は、生成した第2マイク音データを音処理装置1aに送信する。
【0056】
音処理装置1aのプロセッサ13は、音処理装置1bから第2マイク音データを受信すると、第2マイク音データと、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データとを音合成回路17に入力する。所定の遅延時間は、第2の方法における遅延時間と同様に、音処理装置1aと音処理装置1bとの間の伝送時間に対応する時間である。
【0057】
音合成回路17は、第1マイク音データと、第2マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置1a及び音処理装置1bがこのように動作することで、図10に示すように、音処理装置1aが送信したコンテンツ音データに対して、第2マイク音データが音処理装置1aに到達した時間が遅れていたとしても、第2マイク音データと遅延コンテンツ音データとが同期する。
【0058】
第3の方法によれば、音処理装置1bを利用するユーザU2は、予めユーザU1が録音をした音声を聞きながらデュエット曲を歌唱し、ユーザU1は、ユーザU2が歌唱をしている音声を聞きながら同じデュエット曲を歌唱することができる。したがって、二人が離れた場所にいる場合であっても、同時にデュエットを楽しむことが可能になる。
【0059】
[デュエットモードの切り替え]
音処理装置1aを利用するユーザUが、音処理装置1a以外の外部装置を利用する他のユーザUとデュエットをできるように音処理装置1aが構成されている場合、プロセッサ13は、音処理装置1aを利用する複数のユーザUがデュエットをする第1モードと、音処理装置1aを利用するユーザUが外部装置を利用する他のユーザUとデュエットをする第2モードとを切り替えられるようにしてもよい。
【0060】
具体的には、プロセッサ13は、音処理装置1aと接続されたマイクロホンM1及びマイクロホンM2から入力された音に基づく複数のマイク音データとコンテンツ音データとを合成する第1モード、及び音処理装置1aに接続されたマイクロホンMから入力された音に基づくマイク音データと、音処理装置1bから受信した外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付けてもよい。プロセッサ13は、第2モードが選択された場合に、さらに、上記の第1の方法から第3の方法までのいずれかの方法を選択する操作を受け付けてもよい。プロセッサ13がこのように動作することで、ユーザUがデュエットをしようとする相手の状況に適した方法でデュエットをすることが可能になる。
【0061】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0062】
1 音処理装置
2 テレビ
3 サーバ
11 通信回路
12 HDMI回路
13 プロセッサ
14 記憶部
15 無線回路
16 AD変換器
17 音合成回路
18 アンプ
19 スピーカ
M マイクロホン
N ネットワーク
S1 カラオケシステム
S2 カラオケシステム
【要約】
【課題】スピーカから出力される楽曲音と音声のずれを抑制する。
【解決手段】音処理装置1は、外部マイクロホンMから入力された音をマイク音データに変換するAD変換器16と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサ13と、プロセッサ13を経由していないマイク音データと、プロセッサ13が出力したコンテンツ音データと、を合成することにより合成音データを生成する音合成回路17と、合成音データを外部に出力するスピーカ19と、を有する。
【選択図】図3
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10