(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022088601
(43)【公開日】2022-06-14
(54)【発明の名称】リマインドオーディオの生成方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
G10L 15/10 20060101AFI20220607BHJP
G10L 25/78 20130101ALI20220607BHJP
G10L 15/20 20060101ALI20220607BHJP
G10L 15/30 20130101ALI20220607BHJP
【FI】
G10L15/10 500T
G10L25/78
G10L15/20 370Z
G10L15/30
【審査請求】有
【請求項の数】13
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022059557
(22)【出願日】2022-03-31
(31)【優先権主張番号】202110653252.4
(32)【優先日】2021-06-11
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】521208273
【氏名又は名称】阿波▲羅▼智▲聯▼(北京)科技有限公司
【氏名又は名称原語表記】APOLLO INTELLIGENT CONNECTIVITY(BEIJING)TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】101, 1st Floor, Building 1, Yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】リュウ ジン
(72)【発明者】
【氏名】リュウ ジェンリ
(57)【要約】 (修正有)
【課題】取得したオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現するリマインドオーディオの生成方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】リマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合は、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合は、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合は、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
リマインドオーディオの生成方法であって、
オーディオデータを取得するステップと、
前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、
前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む、
ことを特徴とするリマインドオーディオの生成方法。
【請求項2】
音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するステップをさらに含む、
ことを特徴とする請求項1に記載の生成方法。
【請求項3】
前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
ことを特徴とする請求項2に記載の生成方法。
【請求項4】
前記オーディオデータをキャッシュするステップは、
前記オーディオデータを共通データキューに書き込むステップと、
前記共通データキューにおける前記オーディオデータを読み取るステップと、
読み取られた前記オーディオデータをキャッシュするステップと、を含む、
ことを特徴とする請求項1に記載の生成方法。
【請求項5】
キャッシュされた前記オーディオデータをクラウドに送信するステップと、
前記クラウドから送信されたオーディオ保存命令を受信するステップであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成されるステップと、
前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するステップと、をさらに含む、
ことを特徴とする請求項1に記載の生成方法。
【請求項6】
リマインドオーディオの生成装置であって、
オーディオデータを取得するための取得モジュールと、
前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするためのキャッシュモジュールと、
前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための記憶モジュールと、を含む、
ことを特徴とするリマインドオーディオの生成装置。
【請求項7】
音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するための検出モジュールをさらに含む、
ことを特徴とする請求項6に記載の生成装置。
【請求項8】
前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
ことを特徴とする請求項7に記載の生成装置。
【請求項9】
前記キャッシュモジュールが、
前記オーディオデータを共通データキューに書き込むための書き込みユニットと、
前記共通データキューにおける前記オーディオデータを読み取るための読み取りユニットと、
読み取られた前記オーディオデータをキャッシュするためのキャッシュユニットと、を含む、
ことを特徴とする請求項6に記載の生成装置。
【請求項10】
キャッシュされた前記オーディオデータをクラウドに送信するための送信モジュールと、
前記クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される受信モジュールと、
前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するための決定モジュールと、をさらに含む、
ことを特徴とする請求項6に記載の生成装置。
【請求項11】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。
【請求項12】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項13】
コンピュータプログラムであって、
前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~5のいずれかに記載の方法を実現する、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野、具体的には深層学習、クラウドプラットホーム技術の分野に関し、特にリマインドオーディオの生成方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
現在、車載端末のユーザ体験を高めるために、スマート車両に対する研究がますます多くなり、音声作成リマインド機能は車載端末で最も広く応用されている技術の1つとなっている。
【0003】
しかしながら、どのようにリマインドオーディオを正確に録音するかは業界で急速に解決しなければならない課題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、リマインドオーディオの生成方法、装置、電子機器及び記憶媒体を提供する。
【0005】
第1の態様によれば、リマインドオーディオの生成方法を提供し、オーディオデータを取得するステップと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む。
【0006】
第2の態様によれば、リマインドオーディオの生成装置を提供し、オーディオデータを取得するための取得モジュールと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするための第1の検出モジュールと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための第2の検出モジュールと、を含む。
【0007】
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本開示の第1の態様に記載のリマインドオーディオの生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0008】
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の第1の態様に記載のリマインドオーディオの生成方法を実行させる。
【0009】
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の第1の態様に記載のリマインドオーディオの生成方法を実現する。
【0010】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0011】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
【
図1】本開示の第1の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【
図2】本開示の第2の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【
図3】本開示の第3の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【
図4】本開示の第4の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【
図5】本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。
【
図6】本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。
【
図7】本開示の第1の実施例に係るリマインドオーディオの生成装置のブロック図である。
【
図8】本開示の第2の実施例に係るリマインドオーディオの生成装置のブロック図である。
【
図9】本開示の実施例に係るリマインドオーディオの生成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確および簡潔にするために、以下の説明では、周知の機能および構造の説明を省略する。
【0013】
人工知能(Artificial Intelligence、AIと省略する)は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術および応用システムを研究、開発する新しい技術科学である。現在、AI技術は、自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。
【0014】
深層学習(Deep Learning、DLと省略する)は、機械学習(Machine Learning、MLと省略する)分野における新しい研究方向であり、サンプルデータの内的法則と表現レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。具体的な研究内容にとっては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク、多層ニューロンベースの自己コーディングニューラルネットワーク、及び多層自己コーディングニューラルネットワーク方式で予めトレーニングし、さらに認証情報と組み合わせてニューラルネットワークの重み値をさらに最適化する深層信頼ネットワークを含む。深層学習は検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦と個性化技術、及びその他の関連分野で多くの成果を収めた。深層学習は機械に視聴や思考などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能の関連技術が大きく進歩させた。
【0015】
クラウドプラットフォームとは、ハードウェアリソースとソフトウェアリソースに基づくサービスであり、コンピューティング、ネットワーク、ストレージ能力を提供する。クラウドプラットフォームは、データストレージを中心としたストレージ型クラウドプラットフォーム、データ処理を中心としたコンピューティング型クラウドプラットフォーム、およびコンピューティングとデータストレージ処理を両立させた総合クラウドコンピューティングプラットフォームという3種類に分類できる。
【0016】
以下、図面を参照しながら、本開示の実施例に係るリマインドオーディオの生成方法、装置、電子機器および記憶媒体を説明する。
【0017】
図1は本開示の第1の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【0018】
図1に示すように、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップS101~S103を含むことができる。
【0019】
S101、オーディオデータを取得する。
【0020】
具体的には、本開示の実施例に係るリマインドオーディオの生成方法の実行主体は、本開示の実施例によって提供されるリマインドオーディオの生成装置であってもよく、当該リマインドオーディオの生成装置は、データ情報処理能力を有するハードウェア装置および/または当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、および他のデバイスを含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
【0021】
本開示の実施例では、オーディオデータは、マイクロフォンまたは他の録音装置によってリアルタイムで収集されたオーディオデータであってもよく、例えば、ユーザが車載端末で音声指示により日常的なリマインドを設定する場合、マイクロフォンによって録音された前記音声指示のリマインドコンテンツを含むオーディオデータである。なお、上記のオーディオデータには、有効な人声およびノイズが含まれる可能性があり、ここで、有効な人声はユーザの音声データであり、ノイズは、非音声データである。
【0022】
S102、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
【0023】
具体的には、ステップS101で取得されたオーディオデータを検出し、オーディオデータが音声データであると検出された場合、上記オーディオデータをキャッシュする。なお、本開示の実施例において、オーディオデータに対する検出とキャッシュは非同期で行うことができ、マイクロフォンによってユーザの音声データが録音された時、検出しながらキャッシュすることを実現する。
【0024】
S103、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
【0025】
具体的には、ステップS101で取得されたオーディオデータを検出し、オーディオデータが非音声データであると検出された場合、上記オーディオデータのキャッシュを停止し、これによってオーディオデータにおける音声データの抽出を実現する。意味解析により、キャッシュされたオーディオデータのコンテンツを検出し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶することにより、リマインドオーディオの正確な録音を実現し、端末にユーザによって設定された時間に完全で正確なリマインドオーディオを再生させ、音声リマインドサービスを実現する。ここで、ディスクは、車載端末又は他のクライアントにおける記憶装置であってもよく、本開示では限定されない。キャッシュされたオーディオデータのコンテンツがリマインドコンテンツでない場合、キャッシュされたオーディオデータを破棄する。
【0026】
以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
【0027】
図2は本開示の第2の実施例に係るリマインドオーディオの生成方法のフローチャートである。
【0028】
図2に示すように、
図1に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップS201~S204を含むことができる。
【0029】
S201、オーディオデータを取得する。
【0030】
具体的には、本実施例におけるステップS201は上記実施例のステップS101と同じであり、ここでは説明を省略する。
【0031】
S202、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。
【0032】
具体的には、音声区間検出(Voice Activity Detection、VADと省略する)は、一般的に、オーディオ信号における音声出現(speech presence)と音声消失(speech absence)を識別し、すなわち、所与のオーディオ信号から音声の開始点および終了点を見つけるために使用される。音声認識システムにおいて、区間検出を正確かつ効率的に行うことで、計算量の低減と処理時間の短縮が可能であるだけでなく、無音部分のノイズ干渉を排除し、音声認識の正解率を向上させることができる。
【0033】
音声区間検出アルゴリズムを用いて、ステップS201で取得されたオーディオデータが音声データであるか否かを検出する。本開示の実施例では、ウェブリアルタイム通信の音声区間検出アルゴリズム(Web Real-Time Communication Voice Activity Detection、Web RTC VADと省略する)を、オーディオデータを検出する区間検出アルゴリズムとして使用する。当該アルゴリズムはガウスモデルおよび人声の固定周波数帯域特性に基づいて、確率計算により人声とノイズを効率的に区別し、すなわちオーディオデータにおける音声データと非音声データを効率的に区別する。
【0034】
S203、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
【0035】
S204、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
【0036】
具体的には、本実施例のステップS203~S204は上記実施例のステップS102~S103と同じであり、ここでは説明を省略する。
【0037】
さらに、
図3に示すように、
図2に示す実施例を基に、上記ステップS203における「オーディオデータをキャッシュするステップ」は具体的に以下のステップS301~S303を含むことができる。
【0038】
S301、オーディオデータを共通データキューに書き込む。
【0039】
具体的には、ステップS203で検出された音声データであるオーディオデータを共通データキューに書き込む。
【0040】
S302、共通データキューにおけるオーディオデータを読み取る。
【0041】
具体的には、ステップS301で共通データキューに書き込まれたオーディオデータを読み取る。
【0042】
S303、読み取られたオーディオデータをキャッシュする。
【0043】
具体的には、ステップS302で読み取られたオーディオデータをキャッシュする。
【0044】
さらに、
図4に示すように、
図2に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、以下のステップS401~S403をさらに含むことができる。
【0045】
S401、キャッシュされたオーディオデータをクラウドに送信する。
【0046】
具体的には、オーディオデータのキャッシュを停止する時、キャッシュされたオーディオデータをクラウドに送信する。
【0047】
S402、クラウドから送信されたオーディオ保存命令を受信し、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される。
【0048】
具体的には、クラウドはオーディオデータを受信し、受信されたオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、オーディオ保存命令を生成してリマインドオーディオの生成装置に送信する。リマインドオーディオの生成装置がクラウドから送信されたオーディオ保存命令を受信する。ここで、意味解析は、自動音声認識(Automated Speech Recognition、ASRと省略する)技術、自然言語理解(Natural Language Understanding、NLUと省略する)技術によって実現することができる。
【0049】
S403、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定する。
【0050】
具体的には、リマインドオーディオの生成装置は、受信されたオーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。これによってリマインドコンテンツを含む正確なリマインドオーディオを生成し、リマインド時間にユーザにリマインドオーディオを再生し、音声リマインドサービスを実現する。
【0051】
以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
【0052】
本開示の実施例に係るリマインドオーディオの生成方法を明確に説明するために、以下、
図5~
図6と併せて詳細に説明する。
【0053】
図5は本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。
図5に示すように、マイクロフォンがオーディオデータを取得し、VAD検出モジュールによってオーディオデータにおける音声データを検出し、音声データであるオーディオデータを共通データキューに書き込んでからキャッシュし、VAD検出モジュールが非音声データを検出するとキャッシュを停止し、キャッシュされたオーディオデータをクラウドに送信して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、クラウドがオーディオ保存命令を生成して車載端末に送信し、車載端末がオーディオ保存命令を受信し、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。なお、
図5に示す概略図は、ユーザが1つの音声指示を開始する時、車載端末がリマインドオーディオを生成することを示し、ユーザが次の音声命令を継続すると、上記のプロセスを繰り返すことにより、完全な指示コンテンツを含むリマインドオーディオを生成することができる。
【0054】
図6は本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。
図6に示すように、本開示の実施例に係るリマインドオーディオの生成方法は具体的に以下のステップS601~S608を含む。
【0055】
S601、オーディオデータを取得する。
【0056】
S602、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。
【0057】
そうである場合、ステップS603を実行し、そうでない場合、ステップS605を実行する。
【0058】
S603、オーディオデータを共通データキューに書き込む。
【0059】
S604、共通データキューにおけるオーディオデータを読み取ってキャッシュする。
【0060】
S605、共通データキューへのオーディオデータの書き込みを停止する。
【0061】
S606、キャッシュされたオーディオデータをクラウドに送信する。
【0062】
S607、クラウドがオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された時にオーディオ保存命令を生成して車載端末に送信する。
【0063】
S608、オーディオ保存命令を受信し、対応するオーディオデータをリマインドオーディオとして決定してディスクに保存する。
【0064】
図7は本開示の第1の実施例に係るリマインドオーディオの生成装置のブロック図である。
【0065】
図7に示すように、本開示の実施例に係るリマインドオーディオの生成装置700は、取得モジュール701、キャッシュモジュール702および記憶モジュール703を含む。
【0066】
取得モジュール701は、オーディオデータを取得する。
【0067】
キャッシュモジュール702は、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
【0068】
記憶モジュール703は、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
【0069】
なお、上記のリマインドオーディオの生成方法の実施例に対する説明は、本開示の実施例に係るリマインドオーディオの生成装置にも適用され、具体的なプロセスはここでは説明を省略する。
【0070】
以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
【0071】
図8は本開示の第2の実施例に係るリマインドオーディオの生成装置のブロック図である。
【0072】
図8に示すように、本開示の実施例に係るリマインドオーディオの生成装置800は、取得モジュール801、キャッシュモジュール802および記憶モジュール803を含む。
【0073】
取得モジュール801は、上記実施例の取得モジュール701と同じ構造及び機能を有し、キャッシュモジュール802は、上記実施例のキャッシュモジュール702と同じ構造及び機能を有し、記憶モジュール803は、上記実施例の記憶モジュール703と同じ構造及び機能を有する。
【0074】
さらに、本開示の実施例に係るリマインドオーディオの生成装置800は、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出するための検出モジュール804をさらに含むことができる。
【0075】
さらに、音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである。
【0076】
さらに、キャッシュモジュール802は、具体的には、オーディオデータを共通データキューに書き込むための書き込みユニットと、共通データキューにおけるオーディオデータを読み取るための読み取りユニットと、読み取られたオーディオデータをキャッシュするためのキャッシュユニットと、を含むことができる。
【0077】
さらに、本開示の実施例に係るリマインドオーディオの生成装置800は、キャッシュされたオーディオデータをクラウドに送信するための送信モジュールと、クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであるときに生成される受信モジュールと、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定するための決定モジュールと、をさらに含むことができる。
【0078】
以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
【0079】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムをさらに提供する。
【0080】
図9は、本開示の実施例を実行するための例示的な電子機器900の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/又は求められる本開示の実現を制限することを意図したものではない。
【0081】
図9に示すように、電子機器900は、読み取り専用メモリ(ROM)902に記憶されているコンピュータプログラムまたは記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット901を含む。RAM903には、電子機器900の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット901、ROM902、およびRAM903は、バス904を介して互いに接続されている。パス904には、入力/出力(I/O)インターフェース905も接続されている。
【0082】
電子機器900の複数のコンポーネントはI/Oインタフェース905に接続され、キーボード、マウスなどの入力ユニット906、各タイプのディスプレイ、スピーカなどの出力ユニット907、磁気ディスク、光ディスクなどの記憶ユニット908、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909を含む。通信ユニット909は、電子機器900が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0083】
計算ユニット901は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット901のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、前文に記載の各方法および処理、例えば、
図1~
図6に示すリマインドオーディオの生成方法を実行する。例えば、いくつかの実施例では、リマインドオーディオの生成方法を、記憶ユニット908などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 902および/または通信ユニット909を介して電子機器900にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 903にロードされ、計算ユニット901によって実行される場合、前文に記載のリマインドオーディオの生成方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット901はリマインドオーディオの生成方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
【0084】
本明細書で上記記載されたシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0085】
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0086】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
【0087】
ユーザとのインタラクションを提供するために、ここで説明されるシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボードおよび当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0088】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
【0089】
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバーはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバーは分散システムのサーバであってもよく、またはブロックチェーンと組合わせたサーバであってもよい。
【0090】
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示されるリマインドオーディオの生成方法を実現する。
【0091】
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0092】
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、および代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、および改善などは、いずれも本開示の保護範囲内に含まれなければならない。