IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧 ▶ シャンハイ シャオドゥ テクノロジー カンパニー リミテッドの特許一覧

特許7051190コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム
<>
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図1
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図2
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図3
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図4
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図5
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図6
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図7
  • 特許-コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム
(51)【国際特許分類】
   G06Q 30/02 20120101AFI20220404BHJP
   G10L 15/00 20130101ALI20220404BHJP
   G06F 3/16 20060101ALI20220404BHJP
【FI】
G06Q30/02 398
G10L15/00 200Z
G06F3/16 650
G06F3/16 690
【請求項の数】 15
(21)【出願番号】P 2020025932
(22)【出願日】2020-02-19
(65)【公開番号】P2021039715
(43)【公開日】2021-03-11
【審査請求日】2020-02-19
(31)【優先権主張番号】201910825646.6
(32)【優先日】2019-08-30
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】カオ,ホンウェイ
(72)【発明者】
【氏名】チョン,レイ
【審査官】岡 裕之
(56)【参考文献】
【文献】特開2019-125357(JP,A)
【文献】特開2018-142357(JP,A)
【文献】国際公開第2016/135905(WO,A1)
【文献】特開2013-143066(JP,A)
【文献】特開2013-105309(JP,A)
【文献】国際公開第2010/027034(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G10L 15/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声情報を受信することと、
前記音声情報に対して第1応答データを生成することと、
前記第1応答データから特徴ベクトルを抽出することと、
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応するユーザイメージ像を得ることと、
埋め込むべき少なくとも1つの第2コンテンツを受信することと、
前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも1つの第2コンテンツから第1コンテンツを得ることと、
記第1コンテンツを前記第1応答データに埋め込んで、第2応答データを生成することと、
を含
前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも1つの第2コンテンツと前記第1応答データとのマッチング度合いを計算することと、前記少なくとも1つの第2コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することと、を含む、
ことを特徴とするコンテンツ埋込方法。
【請求項2】
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応する前記ユーザイメージ像を得ることは、
前記音声情報のコンテキストと、前記音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、前記音声情報に対応する前記ユーザイメージ像を得ること、を含む、
ことを特徴とする請求項に記載のコンテンツ埋込方法。
【請求項3】
音声情報を受信することと、
前記音声情報に対応する第1応答データと、前記音声情報と、前記第1応答データに関連した第1コンテンツとに基づいて生成される第2応答データを、前記音声情報に基づいてサーバにリクエストすることと、
前記第1応答データから特徴ベクトルを抽出することと、
埋め込むべき少なくとも1つの第2コンテンツを受信することと、
前記少なくとも1つの第2コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも1つの第2コンテンツから前記第1コンテンツを得ることと、
前記第1コンテンツを前記第1応答データに埋め込んで、前記第2応答データを生成することと、
前記第2応答データを受信することと、
前記第2応答データを前記音声情報の返信情報とすることと、を含
前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも1つの第2コンテンツと前記第1応答データとのマッチング度合いを計算することと、前記少なくとも1つの第2コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することと、を含む、
ことを特徴とするコンテンツ埋込方法。
【請求項4】
前記音声情報に対応する第1応答データを生成することをさらに含む、
ことを特徴とする請求項に記載のコンテンツ埋込方法。
【請求項5】
音声情報を受信する第1受信ユニットと、
前記音声情報に対して第1応答データを生成する第1生成ユニットと、
前記第1応答データから特徴ベクトルを抽出する第1抽出ユニットと、
埋め込むべき少なくとも1つの第2コンテンツを受信する第2受信ユニットと、
前記少なくとも1つの第2コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも1つの第2コンテンツから第1コンテンツを得、前記第1応答データに関連した前記第1コンテンツを前記第1応答データに埋め込んで、第2応答データを生成する第2生成ユニットと、を含
前記第2生成ユニットは、前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも1つの第2コンテンツと前記第1応答データとのマッチング度合いを計算することと、前記少なくとも1つの第2コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することとによって、前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することを行う、
ことを特徴とするコンテンツ埋込装置。
【請求項6】
前記第2生成ユニットは、
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応する前記ユーザイメージ像を得る解析サブユニットと、
前記音声情報に対応する前記ユーザイメージ像に基づいて、前記第1コンテンツを前記第1応答データに埋め込んで、前記第2応答データを生成する生成サブユニットと、を含む、
ことを特徴とする請求項に記載のコンテンツ埋込装置。
【請求項7】
前記解析サブユニットは、
前記音声情報のコンテキストと、前記音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、前記音声情報に対応する前記ユーザイメージ像を得る、
ことを特徴とする請求項に記載のコンテンツ埋込装置。
【請求項8】
前記第1応答データを受信した後、前記第1応答データから特徴ベクトルを抽出する第1抽出ユニット、をさらに含む、
ことを特徴とする請求項に記載のコンテンツ埋込装置。
【請求項9】
埋め込むべき前記少なくとも1つの第2コンテンツを受信する第2受信ユニット、をさらに含む、
ことを特徴とする請求項に記載のコンテンツ埋込装置。
【請求項10】
前記第2生成ユニットは、
前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも1つの第2コンテンツから前記第1コンテンツを得、
前記第1コンテンツを前記第1応答データに埋め込んで、前記第2応答データを生成する、
ことを特徴とする請求項に記載のコンテンツ埋込装置。
【請求項11】
音声情報を受信する第3受信ユニットと、
前記音声情報に対応する第1応答データと、前記音声情報と、前記第1応答データに関連した第1コンテンツとに基づいて生成される第2応答データを、前記音声情報に基づいてサーバにリクエストするリクエストユニットと、
前記第1応答データから特徴ベクトルを抽出する第2抽出ユニットと、
埋め込むべき少なくとも1つの第2コンテンツを受信する第5受信ユニットと、
前記少なくとも1つの第2コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも1つの第2コンテンツから前記第1コンテンツを得、前記第1コンテンツを前記第1応答データに埋め込んで、前記第2応答データを生成する第3生成ユニットと
前記第2応答データを受信する第4受信ユニットと、
前記第2応答データを前記音声情報の返信情報とする返信ユニットと、を含
前記第3生成ユニットは、前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも1つの第2コンテンツと前記第1応答データとのマッチング度合いを計算することと、前記少なくとも1つの第2コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することとによって、前記少なくとも1つの第2コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することを行う、
ことを特徴とするコンテンツ埋込装置。
【請求項12】
前記第1応答データは前記音声情報に対して生成される、
ことを特徴とする請求項11に記載のコンテンツ埋込装置。
【請求項13】
1つ又は複数のプロセッサと、
前記1つ又は複数のプロセッサに通信可能に接続する記憶装置と、を含み、
前記記憶装置は、前記1つ又は複数のプロセッサより実行可能コマンドを記憶しており、前記1つ又は複数のプロセッサは、前記1つ又は複数のコマンドを実行する場合、請求項1~のいずれか1項に記載のコンテンツ埋込方法を実行させる、
ことを特徴とする電子デバイス。
【請求項14】
コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体であって、
当該コンピュータコマンドが請求項1~のいずれか1項に記載のコンテンツ埋込方法を実行させるために用いられる、
ことを特徴とするコンピュータ可読記憶媒体。
【請求項15】
コンピュータにおいて、プロセッサにより実行される場合、請求項1~のいずれか1項に記載のコンテンツ埋込方法を実現することを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能の技術分野に関し、特に、コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラムに関する。
【背景技術】
【0002】
コンテンツ埋込は、広げようとするコンテンツを既存の表示情報に埋め込むものであり、プレゼンテンション情報をより多くの情報要素と融合させられることができる。「プロダクト・プレイスメント」(Product Placement)を例にすると、「プロダクト・プレイスメント」は、製品及びサービスの象徴となるオーディオ/ビデオロゴのシンボルを、映画又は舞台の作品に融合させる広告方式を意味する。一般に、プロダクト・プレイスメントは視聴者に印象を与えることをもってマーケティングの目的を果たす。しかしながら、従来の広告の埋め込み方法には、(1)通常、広告コンテンツの起動時の広告に埋め込まれるが、起動時の広告の利用頻度が低い、(2)広告が画面を介して表示されることが多く、ユーザにとってユーザエクスペリエンスが良くないという問題があった。
【発明の概要】
【0003】
本発明は、従来技術における上記の1つ又は複数の技術課題を解決するためのコンテンツ埋込方法、装置、電子デバイス及び記憶媒体を提供する。
【0004】
本発明の第1態様は、コンテンツ埋込方法を提供する。当該方法は、
音声情報を受信することと、
音声情報に対して第1応答データを生成することと、
音声情報に基づいて第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、を含む。
本実施形態によれば、音声情報に対応するアプリケーションサービスのコンテンツと、埋め込まれるコンテンツと、をシームレスにドッキングさせて、より高い埋込効果をなして、良いユーザエクスペリエンスを得られる。
【0005】
1つの実施形態において、音声情報に基づいて第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することは、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることと、
音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、を含む。
本実施形態によれば、ユーザ情報を解析することにより、ユーザイメージ像に基づきコンテンツが埋め込まれるため、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0006】
1つの実施形態において、音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得ること、を含む。
本実施形態によれば、ユーザ情報を解析してユーザイメージ像を得るため、ユーザに対応したサービスを提供することができる。
【0007】
1つの実施形態において、音声情報に対して第1応答データを生成した後、
第1応答データから特徴ベクトルを抽出すること、をさらに含む。
本実施形態によれば、第1応答データから抽出した特徴ベクトルを後続の関連付け分析に用いて、特徴ベクトルと関連付けて解析を行うことにより、分類の効率や精度を高めることができる。
【0008】
1つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する前に、
埋め込むべき少なくとも1つの第2コンテンツを受信すること、をさらに含む。
本実施形態によれば、コンテンツ提供者から提供された広めようとするコンテンツを受信して、その後に該コンテンツのうちの適切な部分を応答データに埋め込むようにすることで、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。
【0009】
1つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することは、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得ることと、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、を含む。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0010】
本発明の第2態様は、コンテンツ埋込方法を提供する。当該方法は、
音声情報を受信することと、
音声情報に対応する第1応答データと、音声情報と、第1コンテンツとに基づいて生成される第2応答データを、音声情報に基づいてサーバにリクエストすることと、
第2応答データを受信することと、
第2応答データを音声情報の返信情報とすることと、を含む。
本実施形態によれば、スキルアプリケーションサービスの応答データを取得した上で、ユーザイメージ像に基づいて生成される第2応答データをさらにリクエストすることで返信情報の内容がユーザのニーズに適合し、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0011】
1つの実施形態において、第1応答データは音声情報に対して生成され、当該方法は、
第1応答データから特徴ベクトルを抽出すること、をさらに含む。
本実施形態によれば、第1応答データから抽出した特徴ベクトルを後続の関連付け分析に用いて、特徴ベクトルと関連付けて解析を行うことにより、分類の効率や精度を高めることができる。
【0012】
1つの実施形態において、当該方法は、
埋め込むべき少なくとも1つの第2コンテンツを受信すること、をさらに含む。
本実施形態によれば、コンテンツ提供者から提供された、広めようとするコンテンツを受信して、その後に該コンテンツのうちの適切な部分を応答データに埋め込むようにすることで、コンテンツ提供者のコンテンツを埋め込む目的を実現するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。
【0013】
1つの実施形態において、当該方法は、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得ることと、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、をさらに含む。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0014】
本発明の第3態様は、コンテンツ埋込装置を提供する。当該コンテンツ埋込装置は、
音声情報を受信する第1受信ユニットと、
音声情報に対して第1応答データを生成する第1生成ユニットと、
音声情報に基づいて第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する第2生成ユニットと、を含む。
【0015】
1つの実施形態において、第2生成ユニットは、
音声情報に対応するユーザ情報を解析して記音声情報に対応するユーザイメージ像を得る解析サブユニットと、
音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する生成サブユニットと、を含む。
【0016】
1つの実施形態において、解析サブユニットは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得る。
【0017】
1つの実施形態において、当該装置は、
第1応答データを受信した後、第1応答データから特徴ベクトルを抽出する第1抽出ユニット、をさらに含む。
【0018】
1つの実施形態において、当該装置は、埋め込むべき少なくとも1つの第2コンテンツを受信する第2受信ユニット、をさらに含む。
【0019】
1つの実施形態において、第2生成ユニットは、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する。
【0020】
本発明の第4態様は、コンテンツ埋込装置を提供する。当該コンテンツ埋込装置は、
音声情報を受信する第3受信ユニットと、
音声情報に対応する第1応答データと、音声情報と、第1コンテンツとに基づいて生成される第2応答データを、音声情報に基づいてサーバにリクエストするリクエストユニットと、
第2応答データを受信する第4受信ユニットと、
第2応答データを音声情報の返信情報とする返信ユニットと、を含む。
【0021】
1つの実施形態において、第1応答データは前記音声情報に対して生成され、当該装置は、
第1応答データから特徴ベクトルを抽出する第2抽出ユニット、をさらに含む。
1つの実施形態において、当該装置は、埋め込むべき少なくとも1つの第2コンテンツを受信する第5受信ユニット、をさらに含む、
【0022】
1つの実施形態において、当該装置は、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する第3生成ユニット、をさらに含む
【0023】
本発明の第5態様は、電子デバイスを提供する。当該電子デバイスは、
1つ又は複数のプロセッサと、
1つ又は複数のプロセッサに通信可能に接続する記憶装置と、を含み、
記憶装置は、1つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、1つ又は複数のプロセッサが、1つ又は複数のコマンドを実行する場合、いずれか1つの実施形態に提供されたコンテンツ埋込方法を実行させる。
【0024】
本発明の第6態様は、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供する。当該コンピュータコマンドがいずれか1つの実施形態に提供されたコンテンツ埋込方法を実行させるために用いられる。
【0025】
上記の技術案のうちの少なくとも1つの技術案は、下記のメリット及び有益的な効果を有する。
本発明によれば、ユーザ情報を解析して、ユーザイメージ像に基づいてコンテンツを埋め込むことにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0026】
上記の選択可能な実施形態によるその他の効果は、具体的な実施形態とあわせて後述する。
【図面の簡単な説明】
【0027】
図1】本発明の一実施形態に係るコンテンツ埋込方法の模式図である。
図2】本発明のコンテンツ埋込方法を例示的に示すフローチャートである。
図3】本発明の一実施形態に係るコンテンツ埋込方法のフローチャートである。
図4】本発明の一実施形態に係るスマート音声埋込式システムの構成模式図である。
図5】本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。
図6】本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。
図7】本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。
図8】本発明の一実施形態のコンテンツ埋込方法に係る電子デバイスの構成図である。
【発明を実施するための形態】
【0028】
図面において特に規定されない限り、複数の図面において同様の図面符号は、同様又は類似的な部材又はエレメントを示す。これらの図面は必ずしも実際の比例に従って製図されたものではない。これらの図面は本発明に基づいて開示された幾つかの実施形態を描いたものに過ぎず、本発明の範囲に対する制限としてはならないことを理解すべきである。略述は、単に説明のために過ぎず、いかなる限定をも目的としない。上記に記載されている例示的な様態、実施形態、及び特徴以外に、図面及び下記の詳細説明を参照することによって、本発明のさらなる様態、実施形態、及び特徴の理解を促す。
【0029】
図1は本発明の一実施形態に係るコンテンツ埋込方法の模式図である。図1に示された実施形態は、対話型AI(Artificial Intelligence、人工知能)システムに応用できる。当該コンテンツ埋込方法では、以下のステップS110~S140を含む。
S110において、音声情報を受信する。
S120において、音声情報に対応する第1応答データと、音声情報と、第1コンテンツとに基づいて生成される第2応答データを、音声情報に基づいてサーバにリクエストする。
S130において、第2応答データを受信する。
S140において、第2応答データを音声情報の返信情報とする。
コンテンツ埋込は、表示情報をより多くの情報要素と融合させることができる。また、「プロダクト・プレイスメント」(Product Placement)を例にすると、「プロダクト・プレイスメント」は映画、テレビドラマ、ゲーム等の発展に伴って興った広告手法である。映画の劇中やゲームの中で企業等の製品あるいはサービスを挿入して、知らず知らずのうちに宣伝効果を浸透させる。プロダクト・プレイスメントの表現可能な空間は非常に広く、映画や娯楽番組の中で多くの適した埋め込み対象物や埋め込み手法を見つけることができる。一般的な広告埋め込む対象物には、商品、標識、VI(Visual Identity、すなわち、企業VI視覚化デザイン、一般的に「ビジュアル・アイデンティティ・システム」と訳される。)、CI(Corporate Identity、企業のシンボルやロゴ)、包装、ブランド名、企業キャラクター等がある。通常、視聴者は広告の挿入に対して抵抗感があるため、広告のコンテンツをこれらの娯楽項目に埋め込む手法はハードセールス手法より効果が大きく改善される。
本実施形態において、ユーザの音声情報は、スマート音声装置を介して受信することができる。例えば、ユーザはスマート音声装置に「今日の天気は如何ですか?」と話すと、スマート音声装置は音声情報を対話型AIシステムに送信する。ステップS110において、対話型AIシステムは、スマート音声装置から音声情報を受信する。
【0030】
ステップS120において、対話型AIシステムは、音声情報に基づいてサーバに応答データリクエストを送信する。一例として、サーバは、スマート音声埋込型システム及びスキルアプリケーションサービスを含むことができる。サーバ側で対応するスキルアプリケーションサービスを呼び出し、音声情報に対応する応答データ、すなわち、第1応答データを得る。上記の例では、サーバ端は、ユーザが天気の調べを意図していると認識し、対応するスキルアプリケーションサービス「気象サービス」を起動する。「気象サービス」は、ユーザの意図に応じて、「今日は雨が降ります」等の第1応答データを生成する。そして、第1応答データと音声情報をスマート音声埋込式システムに送信する。
【0031】
スマート音声埋込型システムは、第1応答データと、音声情報と、第1コンテンツとに基づき、第2応答データを生成する。そのうち、第1コンテンツは、スマート音声埋込式システムにより、関連分析を経って得られた、埋め込みに適したコンテンツである。スマート音声埋込式システムは音声情報に基づき、第1応答データに第1コンテンツを埋め込んで、第2応答データを生成する。例えば、生成された第2応答データは、「XXブランドの傘より、今日は雨が降るとお知らせいたします。」のようなデータである。
1つの実施形態において、スマート音声埋込型システムは、音声情報に対応するユーザイメージ像に基づき、第1応答データに第1コンテンツを埋め込んで、第2応答データを生成する。ユーザイメージ像を構築する際、ユーザの各具体的な情報をタグとして抽象化し、これらのタグを利用してユーザイメージを具体化し、ユーザそれぞれに対応したサービスを提供する。ユーザイメージ像として、1)性別、年齢、育てられた環境、2)生活の状況、生活のスタイル、生活の習慣、3)性格描写、及び内心の望み、4)消費に対する考え方、好み、嫌み等が挙げられる。
S140において、第2応答データに対して自然な音声を合成する処理を行い、自然な音声を合成する処理を行った結果を音声情報の返信情報としてスマート音声装置に返信する。例えば、返信情報は「XXブランドの傘より、今日は雨が降るとお知らせいたします。傘をお忘れなく!」という情報である。その後、スマート音声装置は返信情報をユーザにアナウンスする。
1つの実施形態において、第1応答データは音声情報に対して生成され、上述の方法は、
第1応答データから特徴ベクトルを抽出すること、をさらに含む
本実施形態では、対話型AIシステムは、対応するスキルアプリケーションサービスを呼び出し、音声情報に対応する応答データ、すなわち、第1応答データを得る。例えば、ユーザが天気の状況を問い合わせると、対応するスキルアプリケーションサービス「気象サービス」が呼び出される。「気象サービス」は、ユーザの意図に応じて第1応答データを生成し、例えば「今日は雨が降る」等の第1応答データを生成する。対話型AIシステムは、第1応答データから特徴ベクトルを抽出する。第1応答データの形式として、テキスト、写真、ビデオ等の形式を含み得る。例えば、「気象サービス」から返信されたコンテンツが「今日は雨が降りますxxx」及び雨天の写真等である。スキルアプリケーションサービスの返信コンテンツを解析して、主成分を抽出する、すなわち返信コンテンツから名詞、動詞等のエンティティを抽出することができる。抽出されたエンティティリストにより、第1応答データの特徴ベクトルが構成される。
本実施形態では、第1応答データから抽出された特徴ベクトルを後続の関連分析に用いてもよい。特徴ベクトルを用いることで、分類の効率や精度を高めることができる。
【0032】
1つの実施形態において、上述の方法は、埋め込むべき少なくとも1つの第2コンテンツを受信すること、をさらに含む。コンテンツの提供者はGUI(Graphical User Interface、グラフィカルユーザインターフェース)やAPI(Application Programming Interface、アプリケーションプログラミングインターフェース)を介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。
本実施形態では、コンテンツの提供者より、広めたいコンテンツを受信し、その後に当該コンテンツのうちの適切な部分を応答データに埋め込む。もって、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。
1つの実施形態において、上述の方法は、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得ることと、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、をさらに含む。
本実施形態では、対話型AIシステムより第2応答データを生成してもよい。例えば、第2コンテンツと第1応答データとのマッチング度合いを計算してもよく、第2コンテンツとユーザイメージ像とのマッチング度合いを計算してもよい。例えば、複数のコンテンツ提供者が第2コンテンツを提供しているとする。変わらずまた「プロダクト・プレイスメント」(Product Placement)を例にすると、広告主Aはスポーツ用品の広告コンテンツを、広告主Bは農産物の広告コンテンツを、広告主Cは化粧品の広告コンテンツをそれぞれ提供しているとする。ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と話したとする。このユーザに対応するユーザイメージ像は、その趣味がスポーツであることが記述されている。スキルアプリケーションサービスはユーザの意図に基づき、第1応答データとして、「今日は晴れていて、運動やレジャーに適しています。」及び晴天の写真を返信する。第2コンテンツと第1応答データとのマッチング度合いを計算し、広告主Aがスポーツ用品の広告コンテンツを提供しているのに対し、第1応答データには「運動に適しています」の内容があるため、広告主Aが提供する広告コンテンツと第1応答データとの間のマッチング度合いは高い。一方で、第2コンテンツとユーザイメージ像とのマッチング度合いを計算し、広告主Aがスポーツ用品の広告コンテンツを提供しているため、ユーザイメージ像が記述されている趣味がスポーツであるため、広告主Aが提供する広告コンテンツとユーザイメージ像とのマッチング度合いは高い。広告主Aが提供する広告コンテンツと第1応答データ及びユーザイメージ像との間に高いマッチング度合いがあるため、複数の広告主が提供する第2コンテンツから、広告主Aが提供するスポーツ用品の広告コンテンツを選択して、第1応答データに埋め込んで、第2応答データを生成する。例えば、「今日は晴れています。運動やレジャーレジャーに行くといいでしょう。運動服と運動靴に着替えて運動しましょう。XXブランドの運動靴がただいま値引きセール中です。一足如何ですか。」という応答データを生成する。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
本実施形態では、自然言語処理技術を用いて、コンテンツの相関性に応じて埋め込むタイプの音声アナウンス情報を生成し、コンテンツを埋め込む目的を実現する。図2に示すように、本実施形態に係るコンテンツ埋込方法を例示的に示すフローチャートは以下の通りである。
ステップ1)ユーザはスマート音声装置に「今日の天気は如何ですか。」と発話する。スマート音声装置はユーザの音声情報を持つデータストリームを対話型AIシステムに送信する。
ステップ2)対話型AIシステムは、データストリームを音声認識して、自然言語処理を行い、ユーザの意図を識別した後、ユーザの意図に応じて、スキルアプリケーションサービスに応答データリクエストを送信する。対話型AIシステムは、特定の話題に対して、スキルアプリケーションサービスを介して業務ロジックを実現することができる。例えば、具体的なスキルアプリケーションサービスは「気象サービス」である。
ステップ3)具体的なスキルアプリケーションサービス、例えば「気象サービス」は、ユーザの意図に応じて対応するコンテンツを見つけて、テキスト、写真等の形式のコンテンツを対話型AIシステムに返信する。例えば、「今日は雨が降りますxxx」及び雨天の写真等である。
ステップ4)対話型AIシステムはスマート音声埋込型システムを起動する。スマート音声埋込型システムは、ユーザ情報(例えば、問合せの履歴や内容等)、具体的なスキルアプリケーションサービスの応答データ(例えば、「今日は雨が降りますxxx」及び雨天の写真等)を、コンテンツ提供者が提供するコンテンツと関連付けて解析し、例えば広告主が提供する広告コンテンツに関連付けて解析して、具体的な技能応用サービスの応答データを修正する。例えば、修正の結果は「XXブランドの傘より、今日は雨が降るとお知らせいたしますxx」となる。スマート音声埋込型システムは修正した結果を対話型AIシステムに返信する。そして対話型AIシステムは上記修正の結果に対して自然な音声を合成する処理を行い、最終的な処理結果を得る。
ステップ5)対話型AIシステムは自然な音声が合成された最終的な処理結果をスマート音声装置に返信する。この実施形態では、スマート音声装置がユーザに対する最終的応答は「「XXブランドの傘より、今日は雨が降るとお知らせいたしますxxxx。傘をお忘れなきよう!xxx」との情報である。
もう1つの例では、対話プロセスは、対話型AIシステム及びスマート音声装置を、スキルアプリケーションサービスによって駆動させてもよい。例えば「気象サービス」は対話型AIシステムとスマート音声装置を駆動して、自発的に天気予報を放送する。「天気サービス」で提供される放送内容は「今日は雨が降りますxxx」及び雨天の写真等である。「気象サービス」は、放送コンテンツを対話型AIシステムに送信する。対話型AIシステムはスマート音声埋込型システムを呼び出して内容をインプットする。コンテンツインプリメントの方法は、上記のプロセスと同様であり、スマート音声装置のユーザ登録のユーザイメージ像に基づいて、「気象サービス」によって生成された放送内容にコンテンツを埋め込んで、最終的な放送内容を生成することができる。
本実施形態によれば、スキルアプリケーションサービスの応答データを取得した上で、さらにユーザイメージ像に基づき第2応答データを生成するようリクエストすることにより、ユーザのニーズに適合したコンテンツが返信情報に埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0033】
図3は本発明の一実施形態に係るコンテンツ埋込方法のフローチャートである。図3に示す実施形態はサーバに適用することができ、当該コンテンツ埋込方法では、以下のステップS310~S330を含む。
S310において、音声情報を受信する。
S320において、音声情報に対して第1応答データを生成する。
S330において、音声情報に基づき、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する。
【0034】
前述したように、対話型AIシステムは音声情報に基づき、第2応答データをサーバにリクエストする。サーバは音声情報及び埋め込みに適したコンテンツに基づき、第2応答データを生成する。
S310において、サーバは、対話型AIシステムからの音声情報を受信する。S320において、サーバは、対話型AIシステムからの音声情報に対して、第1応答データを生成する。1つの例では、サーバは、スマート音声埋込型システムやスキルアプリケーションサービスを含んでもよい。スキルアプリケーションサービスは、対話型AIシステムからの音声情報を受信し、音声情報に対応する第1応答データを対話型AIシステムに返信する。スキルアプリケーションサービスは、音声情報に対して、音声識別し、自然言語処理を行って、ユーザの意図を識別する。例えば、ユーザの音声情報である「今日の天気は如何ですか?」に基づき、ユーザが天気の調べを意図していると認識することができる。ユーザの意図に基づき、具体的なスキルアプリケーションサービスを起動して、音声情報に対応する応答データ、すなわち第1応答データを得ることができる。上述した例では、ユーザが天気の調べを意図していると認識したため、具体的にはスキルアプリケーションサービス「気象サービス」を起動する。「気象サービス」は、ユーザの意図に応じて、「今日は雨が降ります」等の第1応答データを返信する。そして、対話型AIシステムは、第2応答データをリクエストするよう、第1応答データと音声情報をスマート音声埋込式システムに送信する。S330において、スマート音声埋込型システムは、音声情報と第1応答データを受信し、埋め込みに適した第1コンテンツを特定するし、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する。
本実施形態によれば、音声情報に対応するアプリケーションサービスのコンテンツと、埋め込まれるコンテンツと、をシームレスにドッキングさせて、より高い埋込効果をなして、良いユーザエクスペリエンスを得られる。
【0035】
1つの実施形態では、1つの実施形態において、音声情報に基づいて第1応答データに第1コンテンツを埋め込んで、第2応答データを生成することは、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることと、
音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、を含む。
【0036】
前述したように、対話型AIシステムは、音声情報及びスキルアプリケーションサービスにより生成された第1応答データに基づき、スマート音声埋込型システムを起動し、第2応答データをリクエストする。スマート音声埋込型システムは、音声情報と、音声情報に対応するユーザイメージ像と、埋め込みに適したコンテントとに基づき、第2応答データを生成する。
この実施形態では、受信したユーザの音声情報に基づき、ユーザの身分標識を識別してもよく、例えばユーザの登録IDを識別する。ユーザの身分標識に基づき、対応するユーザイメージ像を取得する。そして、ユーザイメージ像に基づき、埋め込みに適した第1コンテンツを特定する。その後、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する。
本実施形態によれば、ユーザ情報を解析し、ユーザイメージ像に基づき広告にコンテンツを埋め込むため、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0037】
1つの実施形態において、音声情報に対応するユーザ情報に対して解析を行い、音声情報に対応するユーザイメージ像を得ることは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得ること、を含む。
この実施形態では、受信したユーザの音声情報に基づき、音声情報に対応するユーザイメージ像を得ることができる。例えば、ユーザ登録時にユーザの音声情報、年齢、性別、趣味等個性情報を得ることができる。ユーザの音声情報を受信する際、声紋識別技術を利用して、登録ユーザの音声情報に対応する登録IDを識別することができ、もってユーザの個性情報を得ることができる。ユーザの個性情報に基づき、ユーザイメージ像を構築し、構築されたユーザイメージ像には、年齢や性別、趣味等の個性情報を含んでもよい。
1つの例では、ユーザの登録IDを識別した後、ユーザの問合せ履歴を調べてもよい。例えば、該ユーザは毎日も天気の状況を調べる。また、音声情報におけるコンテキストを解析してもよい。例えば、ユーザが「今日の天気は如何ですか?」と問合せをしている。該音声情報に関連するコンテキストも含まれる。例えば、ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と言う。この音声情報におけるコンテキストに対して語義解析を行い、ユーザの趣味がスポーツであることが分かる。ユーザの問合せ履歴及び/又はユーザ問合せのコンテキストに対する解析に基づき、ユーザイメージ像を構築することができる。
後続する処理において、ユーザイメージ像に基づき、適したコンテンツを埋め込んでもよい。1つの実施形態では、ユーザイメージ像には、個体イメージ像及び/又は群イメージ像を含んでもよい。例えば、ユーザイメージ像において、該ユーザの趣味がスポーツであると記述されている場合、スポーツ用品類のコンテンツを埋め込んでもよく、ユーザのパーソナライズ化ニーズを合致することができる。
【0038】
1つの実施形態において、音声情報に対して第1応答データを生成した後に、
第1応答データから特徴ベクトルを抽出すること、をさらに含む。
前述したように、スキルアプリケーションサービスは、ユーザの意図標識に基づき、対応するコンテンツを見つけて、これらのコンテンツ、すなわち第1応答データを対話型AIシステムに返信する。第1応答データの形式として、テキスト、写真、ビデオ等の形式を含み得る。例えば、「気象サービス」から返信されたコンテンツが「今日は雨が降りますxxx」及び雨天の写真等である。スキルアプリケーションサービスの返信コンテンツを解析して、主成分を抽出する、すなわち返信コンテンツから名詞、動詞等のエンティティを抽出することができる。抽出されたエンティティリストにより、第1応答データの特徴ベクトルが構成される。
本実施形態では、第1応答データから抽出された特徴ベクトルを後続の関連分析に用いてもよい。特徴ベクトルに対して関連分析を行うことで、分類の効率や精度を高めることができる。
【0039】
1つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する前に、
埋め込むべき少なくとも1つの第2コンテンツを受信すること、をさらに含む。
コンテンツの提供者はGUI(Graphical User Interface、グラフィカルユーザインターフェース)やAPI(Application Programming Interface、アプリケーションプログラミングインターフェース)を介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。コンテンツの提供者より提供されたコンテンツは第2コンテンツと称する。スマート音声埋込型システムは第2コンテンツを受信した後、第2コンテンツと第1応答データとを関連付けて分析を行うことができる。関連度が高いとの関連分析の結果が得られた場合に、該コンテンツを埋め込んでもよい。
本実施形態では、コンテンツの提供者より、広めたいコンテンツを受信し、その後に当該コンテンツのうちの適切な部分を応答データに埋め込む。もって、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。
【0040】
1つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することは、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得ることと、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成することと、を含む。
この実施形態では、第2コンテンツと第1応答データとのマッチング度合いを計算してもよく、第2コンテンツとユーザイメージ像とのマッチング度合いを計算してもよい。例えば、複数のコンテンツ提供者が第2コンテンツを提供しているとする。変わらずまた「プロダクト・プレイスメント」(Product Placement)を例にすると、広告主Aはスポーツ用品の広告コンテンツを、広告主Bは農産物の広告コンテンツを、広告主Cは化粧品の広告コンテンツをそれぞれ提供しているとする。ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と話したとする。このユーザに対応するユーザイメージ像は、その趣味がスポーツであることが記述されている。スキルアプリケーションサービスはユーザの意図に基づき、第1応答データとして、「今日は晴れていて、運動やレジャーに適しています。」及び晴天の写真を返信する。第2コンテンツと第1応答データとのマッチング度合いを計算し、広告主Aがスポーツ用品の広告コンテンツを提供しているのに対し、第1応答データには「運動に適しています」の内容があるため、広告主Aが提供する広告コンテ BR>塔cと第1応答データとの間のマッチング度合いは高い。一方で、第2コンテンツとユーザイメージ像とのマッチング度合いを計算し、広告主Aがスポーツ用品の広告コンテンツを提供しているため、ユーザイメージ像が記述されている趣味がスポーツであるため、広告主Aが提供する広告コンテンツとユーザイメージ像とのマッチング度合いは高い。広告主Aが提供する広告コンテンツと第1応答データ及びユーザイメージ像との間に高いマッチング度合いがあるため、複数の広告主が提供する第2コンテンツから、広告主Aが提供するスポーツ用品の広告コンテンツを選択して、第1応答データに埋め込んで、第2応答データを生成する。例えば、「今日は晴れています。運動やレジャーレジャーに行くといいでしょう。運動服と運動靴に着替えて運動しましょう。XXブランドの運動靴がただいま値引きセール中です。一足如何ですか。」という応答データを生成する。
上述した例では、第2コンテンツからマッチング度合いの高い第1コンテンツを見つけた場合に、第1コンテンツを第1応答データに埋め込む。第2コンテンツからマッチング度合いの高い第1コンテンツを見つけることができなかった場合に、当面埋め込みに適したコンテンツがないとし、コンテンツを埋め込むステップを実行しなくてもよい。この場合、スマート音声埋込型システムは、対話型AIシステムに対して返信する第2応答データにおいて、第1応答データにコンテンツを埋め込んでいないことを注記してもよい。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、埋め込まれるコンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
【0041】
図4は、本発明の一実施形態に係るスマート音声埋込式システムの構成模式図である。図4に示されたように、1つの例では、スマート音声埋込型システムは、コンテンツ提供者導入サブシステムと、問合せ文書解析サブシステムと、コンテンツ解析サブシステムと、関連解析サブシステムと、コンテンツ再組み合わせサブシステムとを含んでもよい。
コンテンツ提供者導入サブシステムについては、コンテンツ提供者がGUIやAPIを介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。コンテンツ提供者の提供したコンテンツは即時に関連解析サブシステムに提供してもよく、リアルタイムに発効することができる。
問合せ文書解析サブシステムについては、コンテキスト、問合せ履歴、ユーザ自身の関連データ、例えばユーザの個性情報等を含む、ユーザの問合せ文書に対して解析を行い、具現化されたユーザイメージ像を構築する。
コンテンツ解析サブシステムについては、例えばテキスト、写真、ビデオ等、スキルアプリケーションサービスより返信されたコンテンツに対して解析を行い、主成分を抽出して、特徴ベクトルを見つける。
関連解析サブシステムについては、複数のコンテンツ提供者より提供されたコンテンツと、ユーザイメージ像と、スキルアプリケーションサービスより返信された第1応答データとを関連付けて解析を行い、埋め込みに最も適したコンテンツを計算する。そのうち、ユーザイメージ像には、個体イメージ像及び/又は群イメージ像を含んでもよく、例えば該ユーザ及び同型のその他のユーザの問合せコンテンツや履歴データ等を含んでもよい。
コンテンツ再組み合わせサブシステムについては、埋め込みに最も適したコンテンツをあるアリコリズム(例えば、自然言語生成技術)で、スキルアプリケーションサービスより返信された第1応答データに埋め込んで、ユーザに対して返信する第2応答データを生成してもよい。
【0042】
図5は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図5に示すように、当該コンテンツ埋込装置は、
音声情報を受信する第1受信ユニット100と、
音声情報に対して第1応答データを生成する第1生成ユニット200と、
音声情報に基づいて第1応答データに第1コンテンツを埋め込んで、第2応答データを生成する第2生成ユニット300と、を含む。
【0043】
1つの実施形態では、第2生成ユニット300は、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得る解析サブユニットと、
音声情報に対応するユーザイメージ像に基づいて、第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する生成サブユニットと、を含む。
【0044】
1つの実施形態では、解析サブユニットは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得る。
【0045】
図6は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図6に示すように、1つの実施形態において、この装置は、第1応答データを受信した後、第1応答データから特徴ベクトルを抽出する第1抽出ユニット120、をさらに含む。
【0046】
1つの実施形態において、この装置は、埋め込むべき少なくとも1つの第2コンテンツを受信する第2受信ユニット140、をさらに含む。
1つの実施形態において、第2生成ユニット300は、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する。
【0047】
図7は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図7に示された実施形態は、対話型AIシステムに適用されてもよい。図7に示すように、本実施形態に係るコンテンツ埋込装置は、
音声情報を受信する第3受信ユニット600と、
音声情報に対応する第1応答データと、音声情報と、第1コンテンツとに基づいて生成される第2応答データを、音声情報に基づいてサーバにリクエストするリクエストユニット700と、
第2応答データを受信する第4受信ユニット750と、
第2応答データを音声情報の返信情報とする返信ユニット800と、を含む。
【0048】
1つの実施形態では、第1応答データは音声情報に対して生成され、
この装置は、第1応答データから特徴ベクトルを抽出する第2抽出ユニット、をさらに含む。
【0049】
1つの実施形態では、この装置は、埋め込むべき少なくとも1つの第2コンテンツを受信する第5受信ユニット、をさらに含む。
【0050】
1つの実施形態では、この装置は、
少なくとも1つの第2コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも1つの第2コンテンツから第1コンテンツを得、
第1コンテンツを第1応答データに埋め込んで、第2応答データを生成する第3生成ユニット、をさらに含む。
【0051】
本願の実施形態に係るコンテンツ埋込装置の各ユニットの機能は、上述の方法に対応する説明を参照してもよく、ここでは説明を省略する。
【0052】
本願に係る実施形態では、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。
図8に示すように、本願の一実施形態のコンテンツ埋込方法に係る電子デバイスの構成図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本明細書で説明されたもの及び/又は要求される本明細書の実施を制限することは意図されない。
図8に示すように、当該電子デバイスは、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphica User Interface,GUI)を表示するための、メモリ又はメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステムとして)を提供する。図8においてプロセッサ801を例とする。
【0053】
メモリ802は、本明細書にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本明細書で提供されるコンテンツ埋込方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本明細書における非一過性のコンピュータ可読記憶媒体は、本明細書で提供されたコンテンツ埋込方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
【0054】
メモリ802は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びユニットを記憶するために使用されてもよく、本発明の実施形態におけるコンテンツ埋込方法に対応するプログラム命令/ユニット(例えば、図5に示される第1受信ユニット100、第1生成ユニット200、第2生成ユニット300、図6に示される抽出ユニット120、第2受信ユニット140、図7に示される第3受信ユニット600、リクエストユニット700、第4受信ユニット750、返信ユニット800)のようなものである。プロセッサ801は、メモリ702に記憶されている非一過性のソフトウェアプログラム、命令及びユニットを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係るコンテンツ埋込方法を実行する。
【0055】
メモリ802は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、コンテンツ埋込方法に係る電子デバイスの使用によって生成されたデータ等を記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ802は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ802はオプションとして、プロセッサ801に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介してコンテンツ埋込方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
【0056】
コンテンツ埋込方法に係る電子デバイスは、入力装置803と出力装置804とをさらに含むことができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方法で接続されてもよく、図8ではバスを介して接続されている。
【0057】
入力装置803は、入力された数字又は文字を受信し、コンテンツ埋込方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等を含むことができる。出力装置804は、表示装置、補助照明装置(例えばLED)、及び触覚フィードバック装置(例えば、振動モータ)等を含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
【0058】
本明細書におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Appplication Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実装されてもよく、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び/又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に、データと命令を送信する。
【0059】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードともいう)は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0060】
ユーザとのイントラクションを提供するために、本明細書で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、又は触覚入力を含む)で受信されてもよい。
【0061】
本明細書で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、又は中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、又は、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインターフェース又はネットワークブラウザを介して本明細書で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、又は、このようなバックグラウンド構成要素、中間部構成要素、又はフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network,LAN)、広域ネットワーク(Wide Area Network,WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本明細書の実施形態によれば、ユーザ情報に関わる行為の関連コンテンツから関心ポイントを直接識別することにより、ユーザにプッシュされる関心ポイントがユーザの意図に合致し、ユーザエクスペリエンスを良好にすることができる。ユーザ情報に関わる行為の関連内容から直接に関心点を識別するため、プッシュされる関心点がユーザのニーズを満たしていない問題を回避し、ユーザエクスペリエンスを良好にすることができる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本明細書で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本明細書で開示された技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8