(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-14
(45)【発行日】2022-11-22
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20221115BHJP
【FI】
H04R3/00 310
(21)【出願番号】P 2018021619
(22)【出願日】2018-02-09
【審査請求日】2020-12-22
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】関口 康平
(72)【発明者】
【氏名】湯山 雄太
(72)【発明者】
【氏名】熊谷 邦洋
【審査官】辻 勇貴
(56)【参考文献】
【文献】米国特許出願公開第2017/0325028(US,A1)
【文献】特開2008-061137(JP,A)
【文献】特開2009-260458(JP,A)
【文献】特開2003-283599(JP,A)
【文献】特開2014-060690(JP,A)
【文献】特開2001-238298(JP,A)
【文献】特開2011-044884(JP,A)
【文献】特開2011-023862(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00-3/14
H04S 1/00-7/00
(57)【特許請求の範囲】
【請求項1】
コンテンツ信号を、目的音である主成分と、該目的音以外の副成分とに分離する分離部と、
前記主成分を出力するスピーカと、
前記副成分を他装置に送信する送信部と、
を備え
た情報処理装置であって、
前記目的音は、セリフもしくは歌詞の音声成分、または効果音を含み、
前記副成分は、前記音声成分および前記効果音以外の成分であ
り、
前記情報処理装置は、受付部及び信号処理部をさらに備え、
前記受付部は、ユーザから自装置までの距離、及び該ユーザから前記他装置までの距離の入力を受付け、
前記信号処理部は、前記自装置及び前記他装置の位置に応じて前記コンテンツ信号を補正し、
前記主成分は、前記副成分よりも相対的に前記ユーザに近い位置で再生され、
前記副成分は、前記主成分よりも相対的に前記ユーザから離れた位置で再生される、
情報処理装置。
【請求項2】
前記信号処理部は、前記ユーザから前記自装置までの距離及び前記ユーザから前記他装置までの距離の比に応じて前記コンテンツ信号を補正する、
請求項
1に記載の情報処理装置。
【請求項3】
マイクをさらに備え、
前記スピーカは、テスト音を出力し、
前記送信部は、前記他装置へテスト信号を送信し、
前記他装置は、テスト音を出力し、
前記マイクは、前記スピーカ又は前記他装置から出力されたテスト音を取得し、
前記ユーザから前記自装置までの距離及び前記ユーザから前記他装置までの距離
の比を測定する、
請求項
2に記載の情報処理装置。
【請求項4】
コンテンツ信号を、目的音である主成分と、該目的音以外の副成分とに分離し、
前記主成分をスピーカから出力し、
前記副成分を他装置に送信する、
情報処理方法であって、
前記目的音は、セリフもしくは歌詞の音声成分、または効果音を含み、
前記副成分は、前記音声成分および前記効果音以外の成分であ
り、
前記情報処理方法は、ユーザから自装置までの距離、及び該ユーザから前記他装置までの距離の入力を受付け、
前記情報処理方法は、前記自装置及び前記他装置の位置に応じて前記コンテンツ信号を補正し、
前記主成分は、前記副成分よりも相対的に前記ユーザに近い位置で再生され、
前記副成分は、前記主成分よりも相対的に前記ユーザから離れた位置で再生される、
情報処理方法。
【請求項5】
コンテンツ信号を、目的音である主成分と、該目的音以外の副成分とに分離し、
前記主成分をスピーカから出力し、
前記副成分を他装置に送信する処理を、
情報処理装置に実行させる情報処理プログラムであって、
前記目的音は、セリフもしくは歌詞の音声成分、または効果音を含み、
前記副成分は、前記音声成分および前記効果音以外の成分であ
り、
前記情報処理プログラムは、ユーザから自装置までの距離、及び該ユーザから前記他装置までの距離の入力を受付ける処理を前記情報処理装置に実行させ、
前記情報処理プログラムは、前記自装置及び前記他装置の位置に応じて前記コンテンツ信号を補正する処理を前記情報処理装置に実行させ、
前記主成分は、前記副成分よりも相対的に前記ユーザに近い位置で再生され、
前記副成分は、前記主成分よりも相対的に前記ユーザから離れた位置で再生される、
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ信号を処理する情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、無線携帯電話端末の内蔵スピーカと、該無線携帯電話端末とイヤホンジャックを介して接続されたスピーカとから音を放音する無線携帯電話端末及びそれに用いるスピーカ制御方法が開示されている。特許文献1のスピーカ制御方法においては、臨場感を出すために、メインの音楽を内蔵スピーカLch、内蔵スピーカRchから出力し、反響音や残存音等を外部スピーカLch、外部スピーカRchから出力する制御を行う。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1のスピーカ制御方法においては、メインの音楽と、反響音や残存音等とが内部と外部とのスピーカに分けられているだけの簡易な設定であるため、各スピーカから出力される音源は同じである。このため、別の音源が別の場所から出力されないため、立体的には再生できないおそれがある。
【0005】
そこで、本発明の目的は、従来にない立体感を実現できる情報処理装置、情報処理方法、及び情報処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明に係る情報処理装置は、コンテンツ信号を、目的音である主成分と、該目的音以外の副成分とに分離する分離部と、前記主成分を出力するスピーカと、前記副成分を他装置に送信する送信部と、を備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、従来にない立体感を実現できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、第1実施形態に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
【
図2】
図2は、第1実施形態に係る携帯端末の構成を示したブロック図である。
【
図3】
図3は、ユーザが受付部へ入力をする際の画面の例を示す図である。
【
図4】
図4は、第1実施形態に係るオーディオシステム1の動作を示すフローチャートである。
【
図5】
図5は、第2実施形態に係る携帯端末の構成を示したブロック図である。
【
図6】
図6は、第3実施形態に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
【
図7】
図7は、変形例に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
【発明を実施するための形態】
【0009】
図1は、第1実施形態に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
図2は、第1実施形態に係る携帯端末の構成を示したブロック図である。
図3は、第1実施形態に係る携帯端末における情報処理の機能的なブロック図である。
【0010】
図1に示すように、オーディオシステム1は、携帯端末20及び無線スピーカ11を備えている。携帯端末20は、内部スピーカ12を備えている。なお、携帯端末20は、本発明に係る「情報処理装置」の一例である。また、無線スピーカ11は、本発明の「他装置」の一例である。
【0011】
携帯端末20は、一般的にユーザUが持ち運びするものである。このため、第1実施形態においては、携帯端末20は、無線スピーカ11よりユーザUの直近にある状態を想定して説明する。
【0012】
携帯端末20は、例えば、スマートフォン、タブレット又はパソコン等である。携帯端末20は、ネットワーク内の各機器を操作する。携帯端末20及び無線スピーカ11は、Wi-Fi(登録商標)規格又はBluetooth(登録商標)規格等の無線信号を入出力して、オーディオデータを送受信する。携帯端末20は、携帯端末20自体に内蔵されている内部スピーカ12へオーディオデータを送信する。これにより、無線スピーカ11及び内部スピーカ12は、それぞれが受信したオーディオデータを再生する。なお、無線スピーカ11の代わりに、有線接続された有線スピーカを用いることも可能である。
【0013】
図2に示すように、携帯端末20は、CPU21と、メモリ22と、受付部23と、ディスプレイ24と、DSP(Digital Signal Processor)26と、ネットワークI/F26と、を備えている。ネットワークI/F26は、本発明に係る「送信部」の一例であり、DSP25は、本発明に係る「分離部」の一例である。
【0014】
ネットワークI/F26は、Wi-Fi(登録商標)規格、Bluetooth(登録商標)規格等の無線信号を入出力する。ネットワークI/F26により、携帯端末20は、無線スピーカ11との通信が可能となる。
【0015】
受付部23は、ユーザUによる操作を受付ける。受付部23は、操作ボタンであってもよいし、タッチパネルであってもよい。ディスプレイ24は、携帯端末20に内蔵のディスプレイである。また、本実施形態においては、ディスプレイ24にタッチパネルが積層されている。
【0016】
メモリ22は、RAM及びROMである。メモリ22は、CPU21が実行するプログラム、演算処理結果、及びネットワークI/F26が受信する情報、等を記憶する。また、メモリ22は、コンテンツデータを記憶している。なお、コンテンツデータは、メモリ22に記憶されたものに限らず、ネットワークI/F26を介してサーバ上から取得したものであってもよい。
【0017】
第1実施形態においては、コンテンツデータとして映画コンテンツを扱う場合について説明する。映画コンテンツは、セリフ、効果音、BGM、環境音等を含む。なお、映画コンテンツは、コンテンツデータの一例であり、映画コンテンツのみに限られない。
【0018】
CPU21は、メモリ22からプログラムを読み出し、読み出したプログラムを実行する。DSP25は、信号処理部28を備える。信号処理部28の処理については後で詳細に述べる。
【0019】
また、携帯端末20は、D/Aコンバータ32と、AMP42と、内部スピーカ12と、を備える。CPU21は、DSP25から供給されたデジタル信号をD/Aコンバータ32に入力する。D/Aコンバータ32は、供給されたデジタル信号をアナログ信号に変換し、変換後の信号をAMP42に入力する。AMP42は、供給されたアナログ信号を増幅し、増幅後の信号を内部スピーカ12に出力する。内部スピーカ12はAMP42から供給される信号に応じて放音する。
【0020】
次に、ネットワークI/F26を介して携帯端末20が映画コンテンツを取得した場合について説明する。ネットワークI/F26が取得した映画コンテンツは、DSP25へ入力される。DSP25は、入力された映画コンテンツをデコードし、オーディオ信号を抽出する。DSP25は、オーディオ信号を、主成分と副成分とに分離する。オーディオ信号は、本発明に係る「コンテンツ信号」の一例である。
【0021】
ここで、主成分とは、オーディオ信号における目的音である。例えば、オーディオ信号が映画コンテンツである場合、主成分は、音声成分であるセリフ若しくは歌詞等、又は効果音等である。一方、副成分とは、オーディオ信号における目的音以外の成分である。例えば、オーディオ信号が映画コンテンツである場合、副成分は、セリフ又は効果音以外のBGM等である。
【0022】
オーディオ信号の主成分と副成分との分離は、例えば、独立成分分析(ICA:Independent Component Analysis)又は非負値行列因子分解(NMF:Nonnegative Matrix Factorization)等の既知の手法を用いて行う。なお、オーディオ信号の分離は、オーディオ信号を主成分と副成分とに分離できればよく、例えばICA及びNMF等の手法を組み合わせたものを用いて行ってもよい。また、いくつかのガウス分布を線形結合させた混合ガウス分布を用いた混合ガウスモデル(GMM:Gaussian. Mixture Model)による機械学習において、周波数領域の特徴量を解析することでも、分離が可能となる。これにより、DSP25は、オーディオ信号を主成分のセリフ又は効果音等と、副成分のBGM等とに分離することができる。
【0023】
分離された主成分は、携帯端末20におけるスピーカ12に出力されて放音される。一方、分離された副成分は、無線スピーカ11に出力されて放音される。セリフ、歌詞、又は効果音等の音がユーザUに近い位置で再生され、BGM等の音がユーザUから離れた位置で再生される。これにより、オーディオシステム1は、ユーザUにセリフ、歌詞、又は効果音等の音を直近に、BGM等の音を遠くに聞かせることができる。このように、従来にはないコンテンツ音の再生手法を実現することにより、より立体的に奥行のある音を再生することができる。
【0024】
次に、ユーザUから携帯端末20及びユーザUから無線スピーカ11までの距離に応じて、信号処理部28がオーディオデータを補正する場合について説明する。
図3は、ユーザUが受付部へ入力をする際の画面の例を示す図である。ここでは、
図1に示すように、ユーザUの聴取位置から無線スピーカ11までの距離をD1、ユーザUから携帯端末20までの距離をD2として説明する。
【0025】
図3に示すように、CPU21は、携帯端末20のディスプレイ24に、ユーザUがユーザUから携帯端末20及びユーザUから無線スピーカ11までの距離の入力をする画面を表示する。受付部23は、ユーザUから携帯端末20及びユーザUから無線スピーカ11までの距離の入力をユーザUから受付ける。距離の入力は、ユーザUから携帯端末20までの距離D2及びユーザUから無線スピーカ11までの距離D1の比(D2:D1)である。ここで、距離の入力は、実寸の距離から算出されたものに限られず、ユーザUからの見た目の距離の比であってもよい。これにより、ユーザUは見た目でおおよその比を簡単に入力することができる。
【0026】
DSP25は、ユーザUから携帯端末20までの距離及びユーザUから無線スピーカ11までの距離の比(D2:D1)に応じて、主成分と副成分とに分離されたオーディオ信号を補正する。オーディオ信号の補正は、例えば、音量調整、及びタイミング調整である。
【0027】
音量調整は、無線スピーカ11から放音される音量と、携帯端末20の内部スピーカ12から放音される音量との調整である。ユーザUから遠い方のレベルを、ユーザUからの距離の比に応じて増加する。タイミング調整は、距離の比(D2:D1)によって生じる、ユーザUへ到達する音のずれを補正するためのものである。これにより、ユーザUへ到達する音のずれがなくなると、ユーザUに与える音のずれから生じる違和感を減少させることができる。なお、距離の入力は、距離の比に限らず実際の距離を入力してもよい。また、ユーザUから携帯端末20までの距離を予め所定の推定距離D2を設定しておくことにより、ユーザUから無線スピーカ11までの距離D1のみの入力で済むため、ユーザの利便性を向上させることができる。
【0028】
図4は、第1実施形態に係るオーディオシステム1の動作を示すフローチャートである。オーディオシステム1の動作により本発明の情報処理方法が実現される。
【0029】
図4に示すように、オーディオシステム1においては、携帯端末20のDSP25は、ユーザUにより選択されたオーディオデータを、目的音である主成分と、目的音以外の副成分とに分離する。すなわち、DSP25は、オーディオデータに含まれる各成分が主成分であるか否かに基づきオーディオデータを分離する(s11)。
【0030】
DSP25において分離された成分が主成分である場合(s11:YES)、CPU21は、主成分を内部スピーカ12へ出力する(s12)。携帯端末20の内部スピーカ12は、主成分を放音する(s13)。一方、DSP25において分離された成分が主成分ではない副成分の場合(s11:NO)、CPU21は、副成分を無線スピーカ11へ送信する(s14)。無線スピーカ11は、入力された副成分を出力する(s15)。これにより、セリフ、歌詞、又は効果音等の音がユーザUに近い内部スピーカ12で再生され、BGM等の音がユーザUから離れた無線スピーカ11で再生される。したがって、情報処理方法は、従来にはないコンテンツ音の再生手法を実現することにより、より立体的に奥行のある音を再生することができる。
【0031】
次に、第2実施形態に係る携帯端末について説明する。
図5は、第2実施形態に係る携帯端末の構成を示したブロック図である。
図5に示すように、第2実施形態に係る携帯端末30は、内蔵マイク31及びA/Dコンバータ33を備える。内蔵マイク31は、音を収音し、収音した音をアナログ信号としてA/Dコンバータ33に入力する。A/Dコンバータ33は、供給されたアナログ信号をデジタル信号に変換し、変換後の信号を信号処理部28に入力する。
【0032】
携帯端末20のネットワークI/F26は、無線スピーカ11へテスト信号を送信する。無線スピーカ11は、受信したテスト信号を基にテスト音を出力する。
【0033】
携帯端末20の内蔵マイク31は、無線スピーカ11が出力したテスト音を取得する。内蔵マイク31が取得する内部スピーカ12が出力したテスト音のズレをDSP25で解析を行う。DSP25は、得られたテスト音のズレから携帯端末20から無線スピーカ11までの距離D1を推定する。
【0034】
推定された距離をオーディオデータの補正に適応させることにより、さらにDSP25におけるオーディオデータの補正を最適化することができる。例えば、推定されたD1の距離が150cmの場合、携帯端末20からユーザUまでの距離D2が15cmであると予め設定されていれば、距離の比(D2:D1)は、1:10となる。この比をオーディオデータの補正に適応させることができる。
【0035】
次に、第3実施形態に係るオーディオシステムについて説明する。
図6は、第3実施形態に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
図6に示すように、第3実施形態に係るオーディオシステム61は、外部マイク62をさらに備える点以外はオーディオシステム1と同様である。第3実施形態に係るオーディオシステム61の説明において、オーディオシステム1と同様の点については説明を省略する。
【0036】
オーディオシステム61は、外部マイク62を備えている。外部マイク62は、無線又は有線により携帯端末20との通信が可能である。オーディオシステム61は、外部マイク62を用いてオーディオデータを補正する。
【0037】
携帯端末20は、内部スピーカ12からテスト音を出力する。携帯端末20のネットワークI/F26は、無線スピーカ11へテスト信号を送信する。無線スピーカ11は、受信したテスト信号を基にテスト音を出力する。外部マイク62は、無線スピーカ11が出力したテスト音と、内部スピーカ12が出力したテスト音と、をそれぞれ取得する。外部マイク62が取得する内部スピーカ12が出力したテスト音と、無線スピーカ11が出力したテスト音とのズレをDSP25で解析を行う。
【0038】
DSP25の解析により無線スピーカ11からユーザUまでの距離と、携帯端末20からユーザUまでの距離とが測定される。これにより、ユーザUから携帯端末20までの距離D2及びユーザUから無線スピーカ11までの距離D1の比(D2:D1)がさらに正確に得られる。このため、得られた比をオーディオデータの補正に適応させることにより、DSP25におけるオーディオデータの補正を実際の使用状況に応じて最適化することができる。なお、外部マイク62のみだけでなく、内蔵マイク31及び外部マイク62の双方を用いて、オーディオデータの補正を行ってもよい。
【0039】
次に、変形例に係るオーディオシステムについて説明する。
図7は、変形例に係る携帯端末を用いたオーディオシステムの使用を説明するための図である。
図7に示すように、変形例に係るオーディオシステム71は、無線スピーカ11の代わりに携帯端末200を用いる点以外はオーディオシステム1と同様である。変形例に係るオーディオシステム71の説明において、オーディオシステム1と同様の点については説明を省略する。
【0040】
オーディオシステム71は、携帯端末20及び携帯端末200を備える。携帯端末200は、内部スピーカ212を備える。変形例において、携帯端末20は、携帯端末200よりユーザUの聴取位置に近い位置に配置されている。ここで、ユーザUの聴取位置から携帯端末200までの距離をD3、ユーザUから携帯端末20までの距離をD4とする。ユーザUは、例えば、携帯端末20を身近に、携帯端末200を遠くに配置することができる。このように、携帯端末20及び携帯端末200を配置することにより、携帯端末20の内部スピーカ12と携帯端末200の内部スピーカ212の位置をユーザUの聴取位置からそれぞれ異なった距離に配置することができる。これにより、従来にはないコンテンツ音の再生手法を実現することにより、より立体的に奥行のある音を再生することができる。
【0041】
なお、本実施形態及び変形例において、無線スピーカ11又は携帯端末200はそれぞれ一つであったが、必ずしも一つには限らず、複数備えられていてもよい。これにより、さらに広がりのある音場を形成することができる。
【0042】
なお、本実施形態及び変形例において、無線スピーカ11はユーザからみて前方、すなわちユーザからみて携帯端末200の先に備えられたが、必ずしも前方には限らず、ユーザの後方又は左右横方向に備えられていてもよい。これにより、さらに広がりのある音場を形成することができる。
【0043】
なお、コンテンツ信号は、オーディオ信号に限られず、その他の信号を含んでいてもよい。その他の信号とは、例えば、光、振動等が挙げられる。変形例に係るオーディオシステム71において、携帯端末200から、再生するコンテンツに応じた色の光を発生させる。これにより、ユーザは、再生するコンテンツに対して、視覚的にも臨場感を得ることができる。
【0044】
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0045】
1,61,71…オーディオシステム
11…無線スピーカ(他装置)
12…内部スピーカ(スピーカ)
20…携帯端末(情報処理装置)
23…オーディオI/O(送信部)
24…受付部
26…DSP(分離部)
28…信号処理部
31…内蔵マイク
62…外部マイク(マイク)