(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-06
(45)【発行日】2024-02-15
(54)【発明の名称】音声再生システム、音声再生のための音色構成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
G10L 13/033 20130101AFI20240207BHJP
G10L 13/10 20130101ALI20240207BHJP
G10L 13/06 20130101ALI20240207BHJP
【FI】
G10L13/033
G10L13/10 114
G10L13/06 230Z
(21)【出願番号】P 2022552530
(86)(22)【出願日】2021-12-28
(86)【国際出願番号】 CN2021141962
(87)【国際公開番号】W WO2022247267
(87)【国際公開日】2022-12-01
【審査請求日】2022-09-01
(31)【優先権主張番号】202110570865.1
(32)【優先日】2021-05-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】王 中一
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2019-109278(JP,A)
【文献】特開平06-089098(JP,A)
【文献】特開2004-294813(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00
(57)【特許請求の範囲】
【請求項1】
近距離無線通信メカニズムにより読み取り可能な音色構成情報を記憶するように構成される近距離無線通信情報記憶手段と、
近距離無線通信スキャナが設けられた音声再生本体であって、前記近距離無線通信スキャナにより前記近距離無線通信情報記憶手段に記憶されている音色構成情報を読み取り、前記音色構成情報に対応する音色に基づいて音声内容を再生するように構成される音声再生本体と、
を備え
、
前記近距離無線通信情報記憶手段は、前記音声再生本体の外表面に磁気吸着により吸着される音声再生システム。
【請求項2】
前記近距離無線通信情報記憶手段は前記音色構成情報を記憶している近距離無線通信チップである、
請求項1に記載の音声再生システム。
【請求項3】
前記近距離無線通信チップは、メダル、バッジ、カードまたはボトルキャップに内蔵されている請求項2に記載の音声再生システム。
【請求項4】
前記近距離無線通信情報記憶手段を配置し、収納し、または包み込むための開口部が前記音声再生本体に設けられ、
前記開口部の形状は前記近距離無線通信情報記憶手段を内蔵しているキャリアの形状に対応している、
請求項1に記載の音声再生システム。
【請求項5】
前記音声再生本体にシールド収納ボックスが設けられ、
前記シールド収納ボックスは、前記近距離無線通信スキャナによる、ボックス内の空間にある近距離無線通信情報記憶手段に記憶されている音色構成情報の読み取りを遮断するために用いられる、請求項1に記載の音声再生システム。
【請求項6】
前記音声再生本体と通信可能に接続され、前記音声再生本体のダウンロード要求に応じて前記ダウンロード要求に対応する音声パッケージを返すように構成される音声パッケージ記憶サーバをさらに備え
、前記音声パッケージは、音声データパケットを表す、
請求項1~
5のいずれか1項に記載の音声再生システム。
【請求項7】
請求項1~
6のいずれか1項に記載の音声再生システムに適用される音声再生のための音色構成方法であって、
予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の前記音色構成情報に基づいて融合音色構成情報を生成するステップと、
前記融合音色構成情報に対応する融合音色に基づいて音声内容を再生するステップと、を含む音声再生のための音色構成方法。
【請求項8】
連続して予め設定された時間帯内に音色構成情報が読み取れなかったことに応答して、再生音色をデフォルト音色に修正するステップをさらに含む、
請求項
7に記載の音声再生のための音色構成方法。
【請求項9】
請求項1~
6のいずれか1項に記載の音声再生システムにおける音声再生本体に適用される音声再生のための音色構成装置であって、
予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の前記音色構成情報に基づいて融合音色構成情報を生成するように構成される音色融合ユニットと、
前記融合音色構成情報に対応する融合音色に基づいて音声内容を再生するように構成される音声再生ユニットと、
を備える音声再生のための音色構成装置。
【請求項10】
連続して予め設定された時間帯内に音色構成情報が読み取れなかったことに応答して、再生音色をデフォルト音色に修正するように構成されるデフォルト回復ユニットをさらに備える、
請求項
9に記載の音声再生のための音色構成装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項
7または
8に記載の音声再生のための音色構成方法を実行させる、電子機器。
【請求項12】
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項
7または
8に記載の音声再生のための音色構成方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項13】
プロセッサによって実行されると、請求項
7または
8に記載の音声再生のための音色構成方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本出願は、2021年5月25日に提出した、出願番号が202110570865.1で、発明の名称が「音声再生システム、音声再生のための音色構成方法および関連装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本出願に組み込む。
【0002】
本出願は、データ処理の技術分野、特に音声再生および近距離無線通信の技術分野に関し、特に、音声再生システム、音声再生のための音色構成方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0003】
従来のスマート音声再生装置は、ヒューマンコンピュータインタラクション方式により構成情報を取得する方式が単一である。例えば、ユーザの音声指示、ボタンによる指示などに応じて、対応する構成情報をサーバからダウンロードし、または他の記憶装置から受信する方式である。
【0004】
ユーザとスマートデバイスとの間のインタラクション方式を、如何にさらに充実させ、インタラクション効率を高めるかは、当業者の研究の焦点である。
【発明の概要】
【0005】
本出願の実施形態は、音声再生システム、音声再生のための音色構成方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。
【0006】
第1の態様では、本出願の実施形態は、近距離無線通信メカニズムにより読み取り可能な音色構成情報を記憶するように構成される近距離無線通信情報記憶手段と、近距離無線通信スキャナが設けられた音声再生本体であって、当該近距離無線通信スキャナにより当該近距離無線通信情報記憶手段に記憶されている音色構成情報を読み取り、当該音色構成情報に対応する音色に基づいて音声内容を再生するように構成される音声再生本体と、を備える音声再生システムを提供する。
【0007】
第2の態様では、本出願の実施形態は、第1の態様のいずれかの実施形態に記載の音声再生システムに適用される音声再生のための音色構成方法であって、予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の当該音色構成情報に基づいて融合音色構成情報を生成するステップと、当該融合音色構成情報に対応する融合音色に基づいて音声内容を再生するステップと、を含む音声再生のための音色構成方法を提供する。
【0008】
第3の態様では、本出願の実施形態は、第1の態様のいずれかの実施形態に記載の音声再生システムにおける音声再生本体に適用される音声再生のための音色構成装置であって、予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の当該音色構成情報に基づいて融合音色構成情報を生成するように構成される音色融合ユニットと、当該融合音色構成情報に対応する融合音色に基づいて音声内容を再生するように構成される音声再生ユニットと、を備える音声再生のための音色構成装置を提供する。
【0009】
第4の態様では、本出願の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が記憶され、当該指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第2の態様のいずれかの実施形態に記載の音声再生のための音色構成方法を実現する電子機器を提供する。
【0010】
第5の態様では、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、当該コンピュータ指令は第2の態様のいずれかの実施形態に記載の音声再生のための音色構成方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
【0011】
第6の態様では、本出願の実施形態は、プロセッサによって実行されると、第2の態様のいずれかの実施形態に記載の音声再生のための音色構成方法が実現されるコンピュータプログラムを提供する。
【0012】
本出願の音声再生システムは、近距離無線通信メカニズムにより読み取り可能な音色構成情報を記憶するように構成される近距離無線通信情報記憶手段と、近距離無線通信スキャナが設けられた音声再生本体であって、近距離無線通信スキャナにより近距離無線通信情報記憶手段に記憶されている音色構成情報を読み取り、音色構成情報に対応する音色の再生を呈する音声再生本体とを含む。
【0013】
本出願の実施形態に係る音声再生システムは、音色構成情報を近距離無線通信情報記憶手段に独立して記憶することにより、音声再生本体が近距離無線認識メカニズムにより近距離無線通信情報記憶手段から音色構成情報を読み取ることができ、音色構成情報に基づいて音声内容を再生するための音色を構成し、構成後の音色に基づいて音声内容を再生することにより、異なる音色構成情報が記憶された記憶手段を交換することにより、音声内容を再生するための音色の柔軟な構成を実現することができる。
【0014】
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって理解が容易になる。
【図面の簡単な説明】
【0015】
本出願の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
【
図1】本出願の実施形態に係る音声再生システムの構造概略図である。
【
図2】本出願の実施形態に係る別の音声再生システムの構造概略図である。
【
図3】本出願の実施形態に係る音声再生のための音色構成方法のフローチャートである。
【
図4】本出願の実施形態に係る音声再生のための音色構成装置の構造概略図である。
【
図5】本出願の実施形態に係る音声再生のための音色構成方法を実行するために適する電子機器の構造概略図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本出願の例示的な実施形態を説明し、ここで理解を助けるため、本出願の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書に記載された実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。
【0017】
本出願の技術方案では、関連するユーザ個人情報(例えば、音色構成情報に対応する音色は、ユーザの個人的な音色である)の取得、記憶および応用などは、いずれも関連法律法規の規定に準拠し、必要な秘密保持措置を採っており、且つ公序良俗に反しない。
【0018】
図1は、音声再生システム100の構造概略図を示している。
【0019】
音声再生システム100は、音声再生本体101と、近距離無線通信情報記憶手段102とを備えている。ここで、近距離無線通信情報記憶手段102は、近距離無線通信メカニズムによって読み取り可能な音色構成情報を記憶するように構成される。音声再生本体101には近距離無線通信スキャナが設けられ、音声再生本体101は当該近距離無線通信スキャナによって当該近距離無線通信情報記憶手段における音色構成情報を読み取り、当該音色構成情報に対応する音色に基づいて音声内容を再生するように構成される。
【0020】
ここで、音色構成情報は、音声再生本体101に、音声内容を再生するための後続の音色を目標音色に調整するように指示するための構成情報であり、例えば、音声内容を再生するための音色がアニメキャラクタAの音色である場合には、そのアニメキャラクタAの音色に対応する音色構成に基づいて調整するように構成し、すなわち、音声出力パラメータをそのアニメキャラクタAの音声パラメータと同じになるようにして、そのアニメキャラクタAの音色を復元することができる。通常、当該音声パラメータは、高音振幅(amplitude)、低音振幅、オーディオの振動周波数などの情報を含む。もちろん、音色の種類は、通常、人間の音色に限定されるものではなく、仮想音色、合成音色等を含んでもよい。
【0021】
なお、音声再生本体によって再生される音声内容は、リアルタイムに取得されたユーザからの音声内容であってもよいし、予めネットワーク伝送等の方式により、サーバや非ローカル端末の記憶媒体から取得された音声内容であってもよいし、上記のようにして取得されたテキスト情報を、テキスト-音声技術(Text To Speech,TTSと略称する)などにより変換して得られた音声内容であってもよい。
【0022】
例示として、ユーザは、端末装置を介して予め音声再生本体に指令を出し、音声再生本体101を直接動作させて再生すべき音声内容のテキスト情報を取得した後、ユーザが近距離無線通信メカニズムにより読み取り可能な音色構成情報を記憶した近距離無線通信情報記憶手段を用いて当該音声再生本体101に音声構成情報を送信した後、当該音声再生本体101は、近距離無線通信スキャナにより当該近距離無線通信情報記憶手段における音色構成情報を読み取り、当該音色構成情報に対応する音色に基づいて、上記テキスト情報をTTS変換して音声内容を取得し、最終的に設定された音色で当該音声内容の再生を行うことができる。
【0023】
いくつかのオプション的な実施形態では、当該音声再生システムは、音声再生本体と通信可能に接続された音声パッケージ記憶サーバをさらに備え、当該音声再生本体のダウンロード要求に応じて、当該ダウンロード要求に対応する音声パッケージを返すことができ、音声内容を多様化し、ユーザのニーズに答えることができる。
【0024】
また、一般的に近距離無線通信情報記憶手段102の情報記憶容量が通常は小さめであることを考慮し、具体的な音色構成情報のデータ量が大きくて、近距離無線通信情報記憶手段102の有効記憶上限を超えた場合には、具体的な音色構成情報をさらにクエリできるインデックスまたはリンクのみを音声再生本体101に設けられた近距離無線通信スキャナに記憶させ、実の音色構成情報の取得を助けることができる「擬似音色構成情報」として機能させるように制御してもよい。
【0025】
近距離無線通信は、英語でNear Field Communicationと呼ばれ、NFCと略称される新興技術であり、NFC技術を使用した装置(例えば携帯電話)は互いに近接する情況の下でデータの交換を行うことができ、非接触式無線周波数認識(RFID)と相互接続(interconnection)技術を統合して進化したもので、単一のチップに非接触カードリーダ、非接触カードおよびポイントツーポイント通信の機能を統合することによって、移動端末を利用してモバイル決済、電子チケット、アクセスカード、モバイルID識別、偽造防止などへの応用を実現する。RFIDを介したNFCの他に、赤外線、ブルートゥース(登録商標)等の近距離でのデータ交換が可能な技術も近距離無線通信方式の一つである。NFCチップに基づく近距離無線通信方式は、ブルートゥース(登録商標)、赤外線に比べて相対的に低コストである。この場合、近距離無線通信情報記憶手段は、音色構成情報が記憶された近距離無線通信チップ(NFCチップ)になる。
【0026】
本出願は、音声再生の分野に近距離無線通信技術を適用することで、音声再生本体が呈示する音声内容を再生するための音色を、音色構成情報が独立して記憶された近距離無線通信情報記憶手段によって便利に調整することができる。
【0027】
具体的には、音声再生本体101は、他の機能を持たない音声再生装置として具現化されてもよいし、音声再生機能コンポーネントを統合したスマートスピーカ、スマートモバイル端末などとして具現化されてもよい。
【0028】
本実施形態に係る音声再生システムは、音色構成情報を独立して近距離無線通信情報記憶手段に記憶することにより、音声再生本体は近距離無線認識メカニズムにより近距離無線通信情報記憶手段から音色構成情報を非接触で読み取り、さらに音色構成情報に応じて対応する音色を設定し、その音色で音声内容の再生を行い、異なる音色構成情報を記憶した記憶手段を取換えることにより、音色の柔軟な変更を実現することができる。
【0029】
本出願は、上記実施形態に加えて、
図2を用いて、他の音声再生システムの概略図を提供する。
【0030】
図2に示すように、近距離無線通信情報記憶手段の可用性を考慮し、実際の状況に合わせて様々なキャリアを設け、例えば、
図2に示すボトルキャップ1021、バッジ1022、カード1023などのように、具体的な近距離無線通信情報記憶手段としてNFCチップを例にとると、音色構成情報が記憶されたNFCチップをボトルキャップ1021、バッジ1022またはカード1023などに内蔵することで、NFCチップに記憶されているデータを、より大きな表面積、より丈夫な材料特性を有するキャリアを借りて保護することができる。ボトルキャップ、バッジ、カード、メダルなどのようなサイズの小さいキャリアの他に、サイズの大きいキャリア、例えばおもちゃ、箱、台座などを選択することもでき、ここではキャリアのサイズ、形態を限定せず、実際のニーズに応じて柔軟に選択することができる。
【0031】
なお、近距離無線通信情報記憶手段が具体的にNFCチップである場合に、NFCチップに給電しなくても、対応するスキャナによってNFCチップにおける情報を読み取ることができるので、対応する給電コンポーネントをそのキャリアに設ける必要がない。しかし、近距離無線通信情報記憶手段が採用されているのがブルートゥース(登録商標)または赤外線などの技術の場合に、実際の必要に応じて対応する給電コンポーネントを増設する必要がある。
【0032】
また、
図2には、音声再生本体101と通信可能に接続され、音声再生本体のダウンロード要求に応じてダウンロード要求に対応する目標音色構成情報を返すための音色記憶サーバ103がさらに増設されている。すなわち、この音色記憶サーバ103は、音声再生本体が近距離無線通信情報記憶手段102から完全な音色構成情報を直接読み取ることができなかった場合に、読み取れた「擬似音色構成情報」により完全な真の音色構成情報を取得し、さらに受信した目標音色構成情報に基づいて音色構成を完了させ、対応する音声再生を行うように機能する。
【0033】
上述したいずれかの実施形態に加えて、近距離無線通信情報記憶手段102の設置を便利にし、近距離無線通信の距離を必要な距離に維持するために、音声再生本体101には、近距離無線通信情報記憶手段102を設置し、収納、または包み込むための開口部を設けてもよい。当該開口部の形状は、近距離無線通信情報記憶手段102を内蔵するキャリアの形状に対応する。例えば、近距離無線通信情報記憶手段102のキャリアがコイン状のプラスチックメダルである場合、音声再生本体101にそのコイン状のプラスチックメダルを載置するためのコイン状のグリッドを設けたり、コイン状のプラスチックメダルを投入するための内部空間等を設けたりしてもよい。
【0034】
また、上述した開口部の設計に加えて、音声再生本体101の外表面に近距離無線通信情報記憶手段102を磁気吸着方式で吸着させるように設置してもよく、すなわち、音声再生本体101と近距離無線通信情報記憶手段102とにそれぞれ互いに吸着可能な異なる磁極を設け、近距離無線通信情報記憶手段102を音声再生本体101の外表面に磁力で吸着させるようにしてもよい。磁極の設置位置によっては、近距離無線通信情報記憶手段102を音声再生本体101の内部に吸着してもよい。
【0035】
上記いずれの実施形態において、近距離無線通信の距離内に近距離無線通信情報記憶手段102が同時に複数存在することによる構成情報の読み取りへの干渉を回避するために、音声再生本体101にシールド収納ボックス(
図1および
図2のいずれも図示せず)が設けられていてもよい。当該シールド収納ボックスは、近距離無線通信スキャナによるボックス内の空間にある近距離無線通信情報記憶手段に記憶されている音色構成情報の読み取りを遮断するために用いられ、例えば、当該シールド収納ボックスは信号の伝送を遮断可能な特定の材料または材料の特定の編み方や織り方によって作製される。
【0036】
上記のシールド収納ボックスが設置された実施形態では、1つの近距離無線通信情報記憶手段102内の構成情報のみを近距離無線通信の距離の下で読み取る場合、すなわち、異なる近距離無線通信情報記憶手段102から異なる構成情報を読み取る能力をサポートしていないシーンについて説明した。ただし、異なる近距離無線通信情報記憶手段102から異なる構成情報を読み取る能力をサポートしているシーンでは、異なる近距離無線通信情報記憶手段102からそれぞれ読み取った異なる音色構成情報を融合して融合音色構成情報を得るようにしてもよく、この融合音色構成情報は、異なる音色構成情報に基づいて重畳、置き換え等の動作を行って生成した、いずれかの音色構成情報と全く異なる融合音色構成情報であってもよく、取得した複数の音色構成情報を予め設定された構成規則に従って設定し、それぞれ異なる音色構成情報に対応する音色を用いて完全な音声内容の一部を再生するようにしてもよい。
【0037】
例示として、第1の近距離無線通信情報記憶手段に記憶されている音色構成情報が女声の高い音域の音色に対応し、第2の近距離無線通信情報記憶手段に記憶されている音色構成情報が女声の低い音域の音色に対応している場合には、女声の高い音域の音色と女声の低い音域の音色とを融合して全く新しい融合音色を得るようにしてもよいし、融合中に、予め定められた重み付け規則に従って複数の異なる融合音色を得るようにしてもよく、この重み付け規則は、実際のニーズに応じて割合を調整してもよく、すなわち、同種の音色の組み合わせにおいて、融合時に対応する重み付け規則に応じて異なる融合音色の結果を得るようにして、より豊かな音色を得ることができる。
【0038】
例示として、再生すべき音声内容がストーリーブックであり、このストーリーブックには複数の異なる役A、B、Cが設けられ、第1の近距離無線通信情報記憶手段に記憶されている音色構成情報は女声の高い音域の音色に対応し、第2の近距離無線通信情報記憶手段に記憶されている音色構成情報は女声の低い音域の音色に対応し、第3の近距離無線通信情報記憶手段に記憶されている音色構成情報は男性の低い音域の音色に対応しており、これらの役A、B、Cが対応しているセリフを、女声の高い音域の音色、女声の低い音域の音色、男性の低い音域の音色に対応して割り当てた後、このストーリーブックの完全な再生を完成させ、同一セグメントの音声内容において異なる再生音色を利用してマルチ役、マルチシーン等の効果が得られ、音声内容の再生効果が向上する。
【0039】
一の具体的な実施形態は、本出願の実施形態に係る音声再生のための音色構成方法のフローチャートである
図3を参照してもよい。フロー300は以下のステップを含む。
【0040】
ステップ301では、予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の音色構成情報に基づいて融合音色構成情報を生成する。
【0041】
本ステップは、音声再生のための音色構成方法の実行主体(例えば、
図1に示す音声再生本体101)が、予め設定された時間帯内に複数の異なる音色構成情報を読み取り、取得した複数の音色構成情報を融合して融合音色構成情報を得、この融合音色構成情報に基づいて対応する融合音色を取得し、この融合音色を用いて音声内容を再生することを目的とする。
【0042】
このうち、複数の異なる音色構成情報は、通常、それぞれ異なる近距離無線通信情報記憶手段102から来たものであるが、1つの近距離無線通信情報記憶手段102に複数の異なる音色構成情報が記憶されている特別な場合を排除するものではない。予め設定された時間帯は、5秒、10秒、またはカスタム時間に設定されてもよい。さらに、予め異なる時間帯を設定し、前の音色構成情報の読み取り時刻との時間的間隔の長さに応じて、上記の重み付け規則を決定し、対応する融合メカニズムを得ることができる。例えば、2つの異なる音色構成情報を連続して取得し、読み取りの時間的間隔が5秒未満である場合に、融合音色構成情報を生成する際の第1の音色構成情報と第2の音色構成情報との間の融合重みの関係が2:1であると決定し、読み取りの時間的間隔が5秒を超えて10秒未満である場合に、融合音色構成情報を生成する際の第1の音色構成情報と第2の音色構成情報との間の融合重みの関係が1:1であると決定し、読み取り時間的間隔が10秒を超えた場合に、融合音色構成情報を生成する際の第1の音色構成情報と第2の音色構成情報との間の融合重みの関係が1:2であると決定する。
【0043】
ステップ302では、融合音色構成情報に対応する融合音色に基づいて音声内容を再生する。
【0044】
また、新たな音色構成情報が記憶されている近距離無線通信情報記憶手段を取得し続けるユーザの能動性を高めるために、上記実行主体(例えば、
図1に示す音声再生本体101)が連続して予め設定された時間帯に音色構成情報を読み取れていない(すなわち、音色構成情報が記憶されている近距離無線通信情報記憶手段102が近距離無線通信の距離内に位置していない)場合に、その前の近距離無線通信情報記憶手段102から読み取れた音色構成情報に対応する音色に基づく音声の再生を継続せずに、デフォルトの音色構成情報に対応する音声の再生を行うようにしてもよい。
【0045】
例えば、ユーザは、限定版で発売されたあるアニメキャラクタの記念メダルNを取得しており、その記念メダルNには、そのアニメキャラクタに対応する声優Aの音色構成情報のネットワークリンクが記録されている。ユーザは、このメダルNを取得した後、自宅で音声再生をサポートするスマートスピーカの隣にメダルNを置くことにより、このスマートスピーカが近距離無線通信技術によりメダルNから声優Aの音色に対応する音色構成情報を取得するためのリンクを読み取り、このスマートスピーカがこのリンクに基づいて記憶サーバから声優Aの音色に対応する音色構成情報をダウンロードし、音声再生の機能コンポーネントをこの音色構成情報に基づいて構成するように制御した後、声優Aの音色で音声内容を再生することができる。
【0046】
しかし、その後のある日にメダルNがユーザに不用意に捨てられた場合、スマートスピーカは連続2週間以内に近距離無線通信の距離内でメダルNを継続して検出できなかったので、声優Aの音色による音声内容を引き続き再生しなくなり、音色をデフォルト音色に設定するようにする。
【0047】
さらに、ユーザが、不法手段によりこのスマートスピーカ(音声再生本体)のローカルデータを無断に改ざんされることを防止し、デフォルト音色に対応する音色構成情報を過去に取得した他の音色構成情報に修正することでローカルのデフォルト音色を過去に取得した他の音色構成情報に改ざんされることを防止するために、スマートスピーカの履歴データにおける過去に構成で使った音色構成情報を所定時間後に自ら削除するように設定したり、スマートスピーカのデータ書き込み権限を特定のユーザに設定するようにしたりすることもできる。
【0048】
図3に示された方法の実施態様として、本出願は、音声再生のための音色構成装置の一実施形態をさらに
図4に提供し、当該装置の実施形態は、
図3に示された方法の実施形態に対応し、当該装置は具体的に様々な電子機器に適用することができる。
【0049】
図4に示すように、本実施形態の音声再生のための音色構成装置400は、音色融合ユニット401と、音声再生ユニット402とを備えてもよい。音色融合ユニット401は、予め設定された時間帯内に複数の異なる音色構成情報が読み取れたことに応答して、複数の当該音色構成情報に基づいて融合音色構成情報を生成するように構成される。音声再生ユニット402は、当該融合音色構成情報に対応する融合音色に基づいて音声内容を再生するように構成される。
【0050】
本実施形態では、音声再生のための音色構成装置400における音色融合ユニット401、音声再生ユニット402の具体的な処理およびそれらによって奏される技術的効果は、それぞれ
図3の対応する実施形態におけるステップ301~302の関連する説明を参照してもよく、ここでその説明を省略する。
【0051】
本実施形態のいくつかのオプション的な実施形態では、音声再生のための音色構成装置400は、連続して予め設定された時間帯内に音色構成情報が読み取れなかったことに応答して、再生音色をデフォルト音色に修正するように構成されるデフォルト回復ユニットをさらに備えてもよい。
【0052】
本出願の実施形態によれば、本出願はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が記憶され、当該指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに上述したいずれかの実施形態に記載の音声再生のための音色構成方法を実現する電子機器を提供する。
【0053】
本出願の実施形態によれば、本出願はさらに、上述したいずれかの実施形態に記載の音声再生のための音色構成方法をコンピュータに実行させるためのコンピュータ指令を記憶している読み取り可能な記憶媒体を提供する。
【0054】
本出願の実施形態は、プロセッサによって実行されると、上記のいずれかの実施形態に記載の音声再生のための音色構成方法を実現できるコンピュータプログラムを提供する。
【0055】
図5は、本出願の実施形態を実施するために使用できる例示的な電子機器500の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
【0056】
図5に示すように、電子機器500は、読み出し専用メモリ(ROM)502に記憶されているコンピュータプログラムまたはストレージユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムによって様々な適切な動作および処理を実行することができる計算ユニット501を備える。RAM503には、機器500の動作に必要な様々なプログラムおよびデータがさらに記憶されることが可能である。コンピューティングユニット501、ROM502およびRAM503は、バス504を介して互いに接続されている。入/出力(I/O)インターフェース505もバス504に接続されている。
【0057】
電子機器500において、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、磁気ディスク、光ディスクなどのストレージユニット508と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット509とを含む複数のコンポーネントは、I/Oインターフェース505に接続されている。通信ユニット509は、機器500がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0058】
計算ユニット501は、処理および計算機能を有する様々なユニバーサルおよび/または専用処理コンポーネントであってもよい。計算ユニット501のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、上述した音声再生のための音色構成方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、音声再生のための音色構成方法は、記憶ユニット508などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介して機器500にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM503にロードされ、計算ユニット501によって実行されると、上述した音声再生のための音色構成方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット501は、他の任意の適切な形態によって(例えば、ファームウェアを介して)音声再生のための音色構成方法を実行するように構成されてもよい。
【0059】
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
【0060】
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0061】
本出願のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または記憶することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0062】
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0063】
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0064】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決する。
【0065】
なお、上述した様々な態様のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0066】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。