IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ワイピー ラブス カンパニー,リミテッドの特許一覧

特表2023-503703ユーザ音声を基盤とするサービス提供方法及びシステム
<>
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図1
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図2
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図3
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図4
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図5
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図6
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図7
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図8
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図9
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図10
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図11
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図12
  • 特表-ユーザ音声を基盤とするサービス提供方法及びシステム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-01-31
(54)【発明の名称】ユーザ音声を基盤とするサービス提供方法及びシステム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20230124BHJP
【FI】
G06Q50/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022540719
(86)(22)【出願日】2020-05-04
(85)【翻訳文提出日】2022-07-20
(86)【国際出願番号】 KR2020005888
(87)【国際公開番号】W WO2021206208
(87)【国際公開日】2021-10-14
(31)【優先権主張番号】10-2020-0043150
(32)【優先日】2020-04-09
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
2.BLUETOOTH
3.ZIGBEE
(71)【出願人】
【識別番号】522261112
【氏名又は名称】ワイピー ラブス カンパニー,リミテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ヤン,ユーン ホ
(72)【発明者】
【氏名】ホン,ジュン スン
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC11
(57)【要約】
一実施形態による使用音声を基盤とするサービス提供方法は、第1ユーザの音声を抽出する段階、前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成する段階、前記生成された情報に基づいて前記第1ユーザの性向を分析した後、前記分析結果に基づいて前記第1ユーザの性向に対応する第2ユーザを選定する段階、及び前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する段階を含むことができる。
【選択図】図10
【特許請求の範囲】
【請求項1】
第1ユーザの音声を抽出する段階、
前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成する段階、
前記生成された情報に基づいて第1ユーザの性向を分析した後、前記分析結果に基づいて前記第1ユーザの性向に対応する第2ユーザを選定する段階、及び
前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する段階を含む、
ユーザ音声を基盤とするサービス提供方法。
【請求項2】
前記第1ユーザの性向を分析する段階は、
前記第1ユーザのテキスト情報における特定単語の出現頻度に基づいて前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項3】
前記第1ユーザと第2ユーザとの対話情報に基づいて取得した感情状態情報、通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度、及び有料決済可否情報のうち少なくとも1つに基づいて、前記第1ユーザの性向を分析する段階及び第2ユーザを選定する段階をフィードバックする段階をさらに含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項4】
前記第1ユーザの性向を分析する段階と前記第2ユーザを選定する段階は、
ユーザ音声情報およびユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報および性向情報を出力値として、CNN(Convolutional Neural Network)基盤の音声感情認識モデルに基づいてディープラーニングを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項5】
前記CNN基盤の音声感情認識モデルは、
ソフトマックス(softmax)層の代わりに各々の神経網の出力値をConcatenate層で連結した後、多項ロジスティック回帰(Multinomial logistic regression)を適用して具現された構造を適用した、
請求項4に記載のユーザ音声を基盤とするサービス提供方法。
【請求項6】
前記CNN基盤の音声感情認識モデルは、
メルスペクトログラム、MFCC、ロールオフ、セントロイドのうち少なくとも1つを特徴値として利用した、
請求項5に記載のユーザ音声を基盤とするサービス提供方法。
【請求項7】
前記第1ユーザの性向を分析する段階は、
性向分析アンケートに対する前記第1ユーザの応答情報に基づいて前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項8】
前記第1ユーザの性向を分析する段階は、
前記第1ユーザの性別、年齢、音声の音域帯および速度のうち少なくとも1つを利用して前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項9】
前記第2ユーザを選定する段階は、
前記第1ユーザが時間帯別に好む対話の種類に基づいて第2ユーザを選定する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項10】
第1ユーザ端末、及び
前記第1ユーザ端末から第1ユーザの音声情報を受信する通信部、
人工神経網モジュールを利用して、前記第1ユーザの音声情報に基づいて前記第1ユーザの性向を分析した後、分析された結果に基づいて前記第1ユーザの性向に対応する第2ユーザを選定した後、前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する人工神経網部を含むサービス提供装置を含む、
ユーザ音声を基盤とするサービス提供システム。
【請求項11】
前記人工神経網部は、
前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成した後、生成された情報に基づいて前記第1ユーザの性向を分析する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【請求項12】
前記人工神経網部は、
前記第1ユーザのテキスト情報における特定単語の出現頻度に基づいて前記第1ユーザの性向を分析する、
請求項11に記載のユーザ音声を基盤とするサービス提供システム。
【請求項13】
前記人工神経網部は、
前記第1ユーザと第2ユーザとの対話情報に基づいて取得した感情状態情報、通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度及び有料決済可否情報のうち少なくとも1つに基づいてフィードバックを行い、前記第1ユーザの性向を分析し前記第2ユーザを選定する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【請求項14】
前記人工神経網部は、
ユーザ音声情報およびユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報および性向情報を出力値として、CNN(Convolutional Neural Network)基盤の音声感情認識モデルに基づいてディープラーニングを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【請求項15】
前記人工神経網部は、
性向分析アンケートに対する前記第1ユーザの応答情報に基づいて前記第1ユーザの性向を分析する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザ音声を基盤とするサービス提供方法及びシステムに関する発明であり、より詳細には、ユーザ音声を分析してユーザの性向を分類した後、これに基づいてユーザと性向が合う対話相手を連結する技術に関する発明である。
【背景技術】
【0002】
現在、外国だけでなく国内の単独世帯の数が徐々に増加する傾向であり、韓国統計庁の発表によると、2018年を基準に韓国内の単独世帯が約500万を超え、一人暮らしをしている人の困難は心理的不安感と寂しさが最も多いと評価された。
【0003】
過去には、このような心理的不安感と寂しさを室内でパソコンでインターネットに接続し、オンライン上で匿名の相手とチャットしたり、様々なコミュニティサイトに加入してオンライン上で活動したりすることで解消したが、これも一人だけの空間で行う活動であるため、心理的不安感と寂しさを解決する根本的な解決策にはならなかった。
【0004】
近年、スマート端末技術の発展に伴い、スマート通信機器で利用できる多様なアプリを利用して他人との関係を形成しており、これらのアプリはオンライン上で多様なコミュニティ、出会い紹介サービス、マッチングサービスなどを提供している。
【0005】
しかし、このようなオンライン上での出会いシステムは、出会いを手配するために利用者が特定のサイトに加入して一定の手数料を支払い、意図的な出会いをしなければならず、このようなオンライン上の出会い運営システムは、オンラインサイトを運営する運営者が登録された会員の性向を反映せずにランダムにマッチングをするという問題があった。したがって、相手に対する客観的かつ合理的な情報の不足により、相手を完全に把握できない状態で実際に出会うことが多く、持続的な関係を維持することができない場合が多かった。
【0006】
したがって、最近では、このようなオフラインでの出会いに対する負担感を軽減すると同時に、簡単に自分の考えを共有しながら対話できる人と連結してくれる対話連結サービスが始まり、多くの人々の支持を得ている。
【0007】
しかし、従来技術によるこのようなサービスも、サービスを提供する運営者が登録されている会員の間でランダムにマッチングをして対話相手を連結してくれるため、相互の対話スタイルが合わない場合に継続的な対話につながらない問題点があった。
【0008】
また、直接会って話をする場合より電話で対話をする場合には、お互いの好みや性格などが合ってこそ対話を持続することができるが、従来技術によるサービスの場合、ユーザの好みや、性向及び性格などをしっかり反映しないまま対話相手を連結してくれるという問題があった。
【発明の概要】
【発明が解決しようとする課題】
【0009】
したがって、一実施形態によるユーザ音声を基盤とするサービス提供方法及びシステムは、前記説明した問題点を解決するために考案された発明であって、ユーザの音声と対話に基づいてユーザの性向を分析した後、それに基づいて性向がよく合う対話相手を互いに連結することで、対話の満足度をもっと高めることができるサービスを提供することにその目的がある。
【課題を解決するための手段】
【0010】
一実施形態による使用音声を基盤とするサービス提供方法は、第1ユーザの音声を抽出する段階、前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成する段階、前記生成された情報に基づいて前記第1ユーザの性向を分析した後、前記分析結果に基づいて前記第1ユーザの性向に対応する第2ユーザを選定する段階、及び前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する段階を含むことができる。
【0011】
前記第1ユーザの性向を分析する段階は、前記第1ユーザのテキスト情報における特定単語の出現頻度に基づいて前記第1ユーザの性向を分析する段階を含むことができる。
【0012】
前記第1ユーザと第2ユーザとの対話情報に基づいて取得した感情状態情報、通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度、及び有料決済可否情報のうち少なくとも1つに基づいて第1ユーザの性向を分析する段階及び第2ユーザを選定する段階をフィードバックする段階をさらに含むことができる。
【0013】
前記第1ユーザの性向を分析する段階と前記第2ユーザを選定する段階は、ユーザ音声情報及びユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報及び性向情報を出力値として、CNN(convolutional neural network)基盤の音声感情認識モデルに基づいてディープラーニングを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する段階を含むことができる。
【0014】
前記CNN基盤の音声感情認識モデルは、ソフトマックス(softmax)層の代わりに各々の神経網の出力値をConcatenate層で連結した後、多項ロジスティック回帰(Multinomial logistic regression)を適用して具現された構造を適用することができる。
【0015】
前記CNN基盤の音声感情認識モデルは、メルスペクトログラム、MFCC、ロールオフ、セントロイドのうち少なくとも1つを特徴値として利用することができる。
【0016】
前記第1ユーザの性向を分析する段階は、性向分析アンケートに対する前記第1ユーザの応答情報に基づいて前記第1ユーザの性向を分析する段階を含むことができる。
【0017】
前記第1ユーザの性向を分析する段階は、前記第1ユーザの性別、年齢、音声の音域帯および速度のうち少なくとも1つを使用して第1ユーザの性向を分析する段階を含むことができる。
【0018】
前記第2ユーザを選定する段階は、前記第1ユーザが時間帯別に希望する対話の種類に基づいて第2ユーザを選定する段階を含むことができる。
【0019】
他の実施形態によるユーザ音声を基盤とするサービス提供システムは、第1ユーザ端末及び前記第1ユーザ端末から第1ユーザの音声情報を受信する通信部、人工神経網モジュールを用いて前記第1ユーザの音声情報に基づいて前記第1ユーザの性向を分析した後、分析された結果に基づいて前記第1ユーザの性向に対応する第2ユーザを選定した後に前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する人工神経網部を含むことができる。
【0020】
前記人工神経網部は、前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成した後、生成された情報に基づいて前記第1ユーザの性向を分析することができる。
【0021】
前記人工神経網は、前記第1ユーザのテキスト情報における特定単語の出現頻度に基づいて前記第1ユーザの性向を分析することができる。
【0022】
前記人工神経網部は、前記第1ユーザと第2ユーザとの対話情報に基づいて取得した感情状態情報、通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度、及びユーロ決済可否情報のうち少なくとも1つに基づいてフィードバックを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定することができる。
【0023】
前記人工神経網部は、ユーザ音声情報及びユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報及び性向情報を出力値として、CNN(Convolutional Neural Network)基盤の音声感情認識モデルに基づいてディープラーニングを実行して前記第1ユーザの性向を分析し、前記第2ユーザを選定することができる。
【0024】
前記人工神経網部は、性向分析アンケートに対する前記第1ユーザの応答情報に基づいて前記第1ユーザの性向を分析することができる。
【発明の効果】
【0025】
一実施形態によるユーザ音声を基盤とするサービス提供方法及びシステムは、ユーザの音声および対話に基づいてユーザの性向を分析した後、分析された結果に基づいてユーザとの対話をうまく進めることができる相手を連結してくれるので、ユーザ同士での対話をより簡単に続けていくようにするメリットがある。
【0026】
また、対話相手を連結するにあたって、ユーザの好みと同様の好みを有する相手を連結してくれるので、対話を進めることがしやすく、相手と容易に共感を形成することができる。
【0027】
また、対話相手をつなぐにあたって、本人の情報が多く露出される場合、楽に対話を進めることができないが、本発明の場合、互いにプロフィールを交換するまでは相手の具体的な情報が分からず、本人が持っている秘密や本音を簡単に話して相手と感情を共有することができ、対話を通じて精神的安定感を得ることができる。
【図面の簡単な説明】
【0028】
図1図1は、一実施形態によるユーザ音声を基盤とするサービス提供システム(10)において、サービス提供装置(100)とユーザ端末(200)との関係を示す図である。
図2図2は、一実施形態によるユーザ端末(200)の一部の構成要素を示すブロック図である。
図3図3は、一実施形態によるユーザ音声を基盤とする対話連結サービス提供システム(10)の一部構成要素を示す図である。
図4図4は、心理学的にもっと客観性と信頼性が高い5つの性格特徴(Big Five personality traits)を示す分類モデルを示す図である。
図5図5は、一実施形態によるスペクトログラムの2つの例を示す図である。
図6図6は、一実施形態による様々な音声特徴値を用いたCNN基盤の感情認識モデルを示す図である。
図7図7は一実施形態に適用された畳み込みニューラルネットワーク構造を示す図である。
図8図8は畳み込みニューラルネットワーク構造に適用されたドロップアウトを説明するための図である。
図9図9は、図6図8で説明した人工神経網モジュールに対する総合的な関係を示す図である。
図10図10は、一実施形態によるユーザ音声を基盤とするサービス提供方法のフローチャートを示す図である。
図11図11は、ユーザがプロフィール情報を入力する方法を示す図である。
図12図12は、ユーザが対話相手を選択する際に選択できるタイプを示す図である。
図13図13は、ユーザに提供される対話相手のプロフィール情報の一例を示す図である。
【発明を実施するための形態】
【0029】
本明細書に記載された実施形態と図面に示した構成は、開示された発明の好ましい一例であり、本出願の出願時点において、本明細書の実施形態および図面を置き換えることができる様々な変形例がある。
【0030】
また、本明細書で使用される用語は、実施形態を説明するために使用されるものであり、開示された発明を制限および/または限定しようとする意図はない。単数の表現は、文脈上明らかに別段の意味を持たない限り、複数の表現を含む。
【0031】
本明細書において、「含む」、「備える」または「有する」などの用語は、明細書に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらを組み合わせたものが存在することを指定するものであり、1つ又はそれ以上の他の特徴や数字、段階、動作、構成要素、部品、またはそれらを組み合わせたものの存在または付加の可能性を予め排除しない。
【0032】
また、本明細書で使用する「第1」、「第2」などの序数を含む用語は、様々な構成要素を説明するために使用されることはあるが、前記構成要素は前記用語によって限定されない。
【0033】
以下では、添付の図面を参照して本発明の実施例について、本発明が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。なお、図面において本発明を明確に説明するために、説明に関係ない部分は省略する。
【0034】
図1は、一実施形態によるユーザ音声を基盤とするサービス提供システム(10)において、サービス提供装置(100)とユーザ端末(200)との関係を示す図である。
【0035】
図1を参照すると、対話連結サービスを提供するための全体システムは、対話連結サービスを提供するサービス提供装置(100)、少なくとも1つのユーザ端末(200)、およびネットワーク(400)を含むことができる。
【0036】
ユーザ端末(200)は、ユーザがサービス提供装置(100)と連結して対話連結サービスを提供することができる装置であり、1つまたは複数個存在することができる。したがって、互いに異なるユーザが互いに異なる端末(200)を用いてサービス提供装置(100)とネットワーク(400)を介して相互連結され、相互通信を行うことができる。
【0037】
したがって、ユーザ端末(200)は、固定型端末でも携帯可能な移動型端末でもよい。 1つ以上の端末(200)として、ナビゲーション(Navigation)、スマートフォン(smart phone)、携帯電話、コンピュータ、ラップトップパソコン(laptop computer)、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、MID (Mobile Internet Device)、タブレットPC(Tablet PC)などがこれに該当する。
【0038】
ネットワーク(400)が提供する通信は、ローカルエリアネットワーク(Local Area Network; LAN)、広域通信網(Wide Area Network;WAN)、付加価値通信網(Value Added Network; VAN)、パーソナルエリアネットワーク(Personal Area Network; PAN)、移動無線通信網(mobile radiocommunication network)、または衛星通信網などのあらゆる種類の有/無線ネットワークで具現することができ、例えば、移動無線通信網、UPnP(Universal Plug and Play)、Wi-Fiなどの通信方式により、相互通信可能なネットワーク網を提供することができる。
【0039】
ユーザ端末(200)は、サービス提供装置(100)を経て互いに異なる端末(200)とネットワーク(400)を介した通信を行うことができる。さらに、ネットワーク(400)に接続された端末(200)は、本発明の実施形態による対話連結サービスのためのプロフィール情報を含む様々なコンテンツを互いに共有することができる。
【0040】
このために、サービス提供装置(100)は、メッセンジャーアプリネットワークまたはソーシャルネットワーク(Social Network)を構成したり、外部のメッセンジャーアプリ装置またはソーシャルネットワークサービス提供装置間の通信を中継したりすることができる。また、サービス提供装置(100)は、各々のユーザ端末(200)を介して本発明の実施形態による対話連結サービスが提供されるようにユーザ端末(200)を間接または直接に制御することができる。
【0041】
これにより、各1つ以上のユーザ端末(200)は、ネットワーク(400)を介してサービス提供装置(100)に接続され、サービス提供装置(100)にユーザ音声情報を含むプロフィール情報を登録したりメッセージを送ったりすることができる。本文書の技術的思想は、メッセンジャーサービスまたはソーシャルネットワークサービスと類似して構成される全てのネットワークサービスに対して適用することができる。
【0042】
特に、ソーシャルネットワークは、ウェブ上で各ノード間の相互依存関係によって作られる社会的関係構造によって形成することができる。ソーシャルネットワーク内に含まれるノードは、ネットワーク内に存在する個々の主体を表すことができる。ネットワークを構成する各ノードは、前述した端末(200)であることができる。
【0043】
再び図1を参照すると、サービス提供装置(100)は、対話連結サービスに加入したユーザ(これを会員と呼ぶことができる)のプロフィール情報を検証し、検証された会員間に周期的に対話相手を連結してくれるオンライン対話連結サービスを提供することができる。
【0044】
ユーザは、本人のユーザ端末(200)を介して対話連結サービスを受けることができ、マッチングが決定されると、課金の有無に応じて対話連結サービスを介したユーザ間のメッセンジャーサービスなどの追加機能をさらに提供してもらうことができる。
【0045】
このようなサービス提供装置(100)は、例えば、アプリケーションサーバであってもよいし、アプリケーションサーバとは独立的にネットワーク上に位置する管理サーバ装置であることができ、ネットワーク(400)を介して連結された各ユーザの端末(200)で対話連結サービスに対応するアプリケーションインストールデータを提供したり、前記アプリケーションを介してユーザ登録処理及びユーザの音声情報を含むプロフィール情報を収集したりして、それに基づいて他のユーザに対話連結サービスを提供することができる。
【0046】
図2は、一実施形態によるユーザ端末(200)の一部の構成要素を示すブロック図である。
【0047】
図2を参照すると、ユーザ端末(200)は、ユーザのプロフィール情報を入力する入力部(210)、ユーザの音声を取得する音声取得部(220)、取得したユーザの音声情報、及びユーザのプロフィール情報をサービス提供装置(100)に送信する通信部(230)、ユーザの音声情報及びユーザのプロフィール情報が記憶される記憶部(240)、対話連結サービスに対する情報を含む各種情報が表示される表示部(250)などを含むことができる。
【0048】
入力部(210)は、ユーザのプロフィール情報を含む様々な情報を入力することができる。ユーザのプロフィール情報は、性別、年齢、居住地域、職業、身長、写真、趣味、特技、性向、スタイル、好きなタイプ情報など様々な情報を含むことができる。このように入力された情報は、記憶部(240)に記憶されたり、通信部(230)を介してサービス提供装置(100)に送信されたりすることができる。
【0049】
音声取得部(220)は、ユーザの性向を分析するユーザの音声情報(ファイル)を取得することができる。
【0050】
具体的には、音声情報は、ユーザがマイク(図示せず)を通じて直接音声を録音した情報であることができ、直接ユーザが音声を録音しなくても一定期間ユーザがユーザ端末(200)を介して数秒または数分間他人と通話をした声であることができる。
【0051】
このように取得された音声情報は、音声取得部(220)によってデジタル音声ファイル化させ、ユーザ音声であることを識別できる識別子を付与することができる。
【0052】
音声取得部(220)によって取得された音声ファイルは、ユーザ端末(200)の記憶部(240)またはサービス提供装置(100)の記憶部(130)に記憶することができる。
【0053】
ユーザが直接音声を入力する場合、音声取得部(220)は、特定のフレーズを含む音声サンプルを選択した後、ユーザに選択された音声サンプルで話す内容(または表示部に表示される内容)と同じ内容を話すようにし、ユーザが話すと、それをユーザの声として取得することができる。
【0054】
通信部(230)は、ユーザ端末(200)とサービス提供装置(100)とネットワーク(400)とを介して連結できるようにすることができる。
【0055】
したがって、通信部(230)は、ユーザ端末(200)とサービス提供装置(100)との間、またはユーザ端末(200)と他のユーザのユーザ端末(200)が位置するソーシャルネットワークとの間の無線通信を可能にする1つまたは1つ以上のモジュールを含むことができる。例えば、通信部(230)は、移動通信モジュール、有線インターネットモジュール、無線インターネットモジュール、近距離通信モジュールなどを含むことができる。
【0056】
移動通信モジュールは、移動通信網上で基地局、外部の端末、サーバのうち少なくとも1つと無線信号を送受信する。前記無線信号は、音声呼信号、ビデオ通話呼信号、またはテキスト/マルチメディアメッセージの送受信による様々な種類のデータを含むことができる。
【0057】
また、無線インターネットモジュールとは、無線インターネット接続のためのモジュールをいうものであり、ユーザ端末(200)に組み込まれていても外装されてもよい。無線インターネット技術としては、WLAN(Wireless LAN)(Wi-Fi)、Wibro(Wireless broadband)、Wimax(World Interoperability for Microwave Access)、HSDPA(High Speed Downlink Packet Access)などを用いることができる。
【0058】
近距離通信モジュールは、近距離通信のためのモジュールを意味することができ、近距離通信(short range communication)技術として、ブルートゥース(Bluetooth)、RFID(Radio Frequency Identification)、赤外線通信(IrDA、infrared Data Association)、UWB(Ultra Wideband)、ZigBeeなどを用いることができる。
【0059】
一方、通信部(230)が利用できる通信方式は、上述した通信方式に限定されるものではなく、上述した通信方式以外にも、他に広く知られているか、または今後開発される全ての形態の通信方式を含むことができる。
【0060】
記憶部(240)には、入力部(210)を介して入力されたユーザのプロフィール情報と、音声取得部(220)によって取得されたユーザの音声情報と、ユーザが本サービスを利用する間に他のユーザとの通話履歴情報などを記憶することができ、このような情報は、サービス提供装置(100)が要請した場合、通信部(230)を介してサービス提供装置(100)に送信することができる。
【0061】
したがって、記憶部(240)は、フラッシュメモリタイプ(Flash Memory Type)、ハードディスクタイプ(Hard Disk Type)、マルチメディアカードマイクロタイプ(Multimedia Card Micro Type)、カードタイプのメモリ(SD、XDメモリなど)、ラム(RAM; Random Access Memory)、SRAM(Static Random Access Memory)、ロム(ROM; Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも1つのタイプの記憶媒体を含むことができ、後述する制御部(260)と一体の構成要素から構成することができる。
【0062】
表示部(250)は、サービス提供装置(100)が送信した対話連結サービスに関する各種情報を表示することができる。
【0063】
したがって、表示部(250)は、一般表示パネル、例えば、LCD(Liquid Crystal Display)、LED(Light Emitting Diode)、PDP(Plasma Display Panel)、OLED(Organic Light Emitting Diode)、CRT(Cathode Ray Tube)などに具現することができ、さらに画像を立体的に表現することができる表示パネル、例えば、PDLC(polymer dispersed liquid crystal)またはSPD(suspended particle devices)などを含むことができる。
【0064】
また、図2では、入力部(210)と表示部(250)を別々の構成要素として示しているが、これに限定されず、入力部(210)がタッチスクリーン(Touch Screen)で構成される場合、入力部(210)と表示部(250)は1つの構成要素で構成されることがある。
【0065】
制御部(controller、260)は、対話連結サービスをユーザに提供するとともに、これに関連するユーザ端末(200)の全体的な動作を制御する。
【0066】
例えば、制御部(260)は、情報収集、ユーザ情報管理、スタイルタグ管理、プロフィール情報提供、データ通信、メッセージ伝送、SNS接続などの様々な情報処理のために、関連モジュール間の全体的な通信制御およびデータ処理を行うことができる。
【0067】
図2では、各々の構成要素間の制御のために、制御部(260)が別途存在するものと示されているが、制御部(260)が含まれていなくても、制御部(260)の全部または一部の機能が各構成要素に分散配置及び同期化されて動作することもできる。
【0068】
図3は、一実施形態によるユーザ音声を基盤とする対話連結サービス提供システム(10)の一部構成要素を示す図である。
【0069】
図3を参照すると、対話連結サービス提供システム(10)は、図2で説明したユーザ端末(200)とユーザ端末(200)から受信した情報に基づいて音声分析を行い、ユーザに最も適した対話相手になれる他のユーザを連結してくれるサービス提供装置(100)を含むことができる。
【0070】
このために、サービス提供装置(100)は、具体的には、図3に示すように、ユーザ端末(200)と通信を行う通信部(110)、通信部(110)を介して受信した情報に基づいてユーザの性向を分析する性向分析部(121)、分析された結果に基づいてユーザの性向をグループ化するグルーピング部(123)、グルーピング部(123)の結果に基づいて他のユーザをマッチングするマッチング部(125)、実際マッチングされたユーザ同士の対話結果に基づいてフィードバックを行うフィードバック部(127)、ユーザのプロフィール情報が記憶されるプロフィール情報部(131)、ユーザの音声情報が記憶される音声情報部(133)、音声情報が変化したテキスト情報が記憶されるテキスト情報部(135)などを含むことができる。
【0071】
図3では、人工神経網部(120)を性向分析部(121)、グルーピング部(123)、マッチング部(125)、フィードバック部(127)に分けて示しているが、これに限定されず、人工神経網部(120)性向分析部(121)、グルーピング部(123)、マッチング部(125)、フィードバック部(127)が行う役割を一度に行うことができる。以下、説明の便宜のために、人工神経網部(120)に統一して説明する。
【0072】
通信部(110)は、ユーザ端末(200)と通信を行うことができ、人工神経網部(120)によってユーザとマッチングされた他のユーザを互いに通信接続する役割を果たすことができる。
【0073】
人工神経網部(120)は、ユーザ端末(200)から受信したユーザの音声情報に基づいて分析を行い、ユーザの性向を分析することができる。音声情報は、ユーザが直接録音した音声情報であってもよく、他のユーザと通話した音声情報であってもよい。
【0074】
人工神経網部(120)は、ユーザの音声情報をテキスト情報に変換した後、変換されたテキスト情報に対して前処理作業を行った後、前処理した情報に基づいて分析モデルを介してユーザの性向を分析することができる。
【0075】
ユーザの音声情報をテキスト情報に変換する作業(STT、speech-to-text)は、ユーザの音声を録音した後、録音したファイルに対して変換作業を行ったり、ストリーミング方式でリアルタイム変換作業を行うことができる。音声データをテキストデータに変換する技術は既に知られている技術であるので、これに対する説明は省略する。
【0076】
人工神経網部(120)が行う変換されたテキスト情報に対する前処理作業は、大きくトークン化(tokenization)作業と品詞タグ付け作業で構成される。
【0077】
コンパイラは、ソースプログラムを翻訳する場合、まずワード解析と呼ばれる記号列として入力されたソースプログラムで、構文規則に基づいて名前表、演算子、デリミタなどの識別を行い、内部データの列に変換するが、このワード解釈をして識別される単位をシラブル(syllable)といい、その内部データ表現をトークンという。
【0078】
一実施形態に係る人工神経網部(120)が行うトークン化(tokenization)は、文章内の空白を区切りとして文章を分割する作業であって、基本的な単語トークン化作業から文章単位のトークン化まで、入力される文章によって様々な方法を適用することができる。
【0079】
トークン化作業が完了すると、人工神経網部(120)は、自体分析モデルを介してトークン化されたテキスト情報に基づいてユーザの性向を分類することができる。ユーザの性向は、すでに分類されているいくつかのモデルを使用して分類することができるが、図4に示すように、心理学的にもっと客観性と信頼性が高い5つの性格特徴(Big Five personality traits)分類モデルを使用することができる。
【0080】
図4に示すモデルは、性格と学業行動との間の関係を理解するためのモデルとして出発したが、現在はいくつかの実験結果を経て人間の性向を大きく5つの領域に分けたモデルとして開発されている。
【0081】
具体的には、人間の5つの性向特性は、図4に示すように、開放性(11、Openness)、神経性(12、Neuroticism)、友好性(13、Agreeableness)、外向性(14、Extraversion)、及び誠実性(15、Conscientiousness)に分けることができる。
【0082】
人工神経網部(120)によって、ユーザは5つの尺度に対して0~100%までの傾向性を与えられ、ユーザの性向はこのような傾向性に基づいて分類することができる。例えば、開放性が95%と出たユーザは、5%と出たユーザよりもさらに開放性を見せると見られる。
【0083】
具体的には、開放性(11)は、芸術、感情、冒険、想像力、好奇心、および多様な経験などに対する評価であり、開放性で高い点数を受けた人は知的好奇心が多く、感情に開放的で、美しさに敏感であり、新しいことを喜んで試みる性格を持っていると見られる。
【0084】
神経性(12)は、怒り、不安、またはうつ病などの否定的な感情を容易に感じる傾向を意味する。したがって、神経性で高い点数を受けた人々は感情的に反応し、ストレスに弱く、感情を表現する方法によって変化する傾向がある。
【0085】
友好性(13)は、社会的調和の個人の関心事を調整しようとする特性を持っていることを意味する。友好性で高い点数を取った人は、一般的に思慮深く親切かつ寛大で信頼できる性格を持っている。また、彼らは他人の関心と本人の関心を妥協しようとする性格を持っている。
【0086】
外向性(14)は、多様な活動または外部環境からエネルギーを生成することを特徴としており、外向性で高い点数を受けた人は人々と交流するのが好きで、情熱的で行動志向的であることを特徴としている。
【0087】
誠実性(15)は、自制力を意味することができるが、誠実性で高い点数を取った人は誠実に行動し、外部の期待に対して成就を追求することを特性としている。
【0088】
この過程を経てユーザの性向を分析すると、人工神経網部(120)は、分析された結果に基づいてユーザの性格をグルーピングすることができる。
【0089】
グルーピングとは、同様の性格を持つユーザを1つのグループにまとめる作業を意味するものであり、グルーピングする基準は、図4で説明した5つの性格を基準とすることができるが、これに限定されるものではなく公知の様々なモデルを基準に分類することもでき、通話回数が累積されてユーザの音声データが蓄積される場合、これによってユーザが属するグループも変化することができる。
【0090】
グルーピングの過程によってユーザの性格が分類化された情報が蓄積されると、人工神経網部(120)は、対話連結サービスを提供するユーザを互いにマッチングすることができる。
【0091】
マッチングする方法も様々な方法を利用してユーザをマッチングすることができるが、例えば、同じグループに属するユーザ同士をマッチングすることができ、同じグループではなっくても累積された情報によってAグループとBグループとの対話の持続性が高いと判断される場合、AグループのユーザとBグループのユーザを連結することができる。
【0092】
また、人工神経網部(120)は、マッチング結果に応じて対話を連結させたユーザ同士の対話結果に基づいて、ユーザの性向を分析する方法及びマッチング方法に対してフィードバック(Feedback)を行うことができる。
【0093】
具体的には、人工神経網部(120)は、ユーザ間の対話結果情報に基づいてマッチングが適合したか否かを判断することができる。
【0094】
例えば、対話音声データおよびテキストデータから取得したユーザの感情状態に対する情報、通話後に入力する相手ユーザに対する評点データ、ユーザ間の通話時間、通話延長可否、および通話が満足した場合ユーザが財貨を支払って送る「対話申請」可否のうち少なくとも1つを基準にフィードバックを実行することができる。ただし、このような基準は、マッチングが適合したか否かを判断する一基準になるだけであり、本発明の実施形態がこれに限定されるものではない。したがって、これと特徴が類似した基準も本発明の実施形態に含むことができる。
【0095】
すなわち、ユーザの感情状態に関する情報に肯定的な情報が多い場合、通話後、相手ユーザが入力した評点が高い場合、通話時間が以前のユーザとの平均通話時間より長い場合、基本的に与えられた時間よりもっと長く通話をした場合、通話後に財貨を支払った場合などは相手との対話に満足したと見ることができる。したがって、このような場合、ユーザ間のマッチングが適切であると判断することができ、マッチング結果に対して肯定的なフィードバックを行うことができる。
【0096】
しかし、ユーザの感情状態に対する情報に否定的な情報が多い場合、通話後相手ユーザが入力した評点が低い場合、通話時間が以前のユーザとの平均通話時間より短い場合、基本的に与えられた時間より早く通話を終了した場合、通話後に財貨を支払っていない場合などは、相手との対話に満足したと見ることができないため、ユーザ間のマッチングが不適切であったと見ることができる。したがって、このような場合には否定的なフィードバックを行うことができる。
【0097】
また、人工神経網部(120)は、人工神経網モジュールを用いてディープラーニングを行い、フィードバックを行うことができる。
【0098】
ディープラーニングとは、深層学習で表現されることもあるが、複数の非線形変換技法の組み合わせにより、高い水準の抽象化(abstractions、大量のデータや複雑な資料の中で核心的な内容または機能を要約する作業)を試みる機械学習(machine learning)に関するアルゴリズムの集合を意味する。
【0099】
具体的には、ディープラーニングは、どのような学習データをコンピュータが理解できる形態(例えば、画像の場合はピクセル(Pixel)情報を列ベクトルで表現するなど)で表現(Representation)し、これを学習に適用するために多くの研究(どのようにすればもっと良い表現技法を作り、またどのようにこれらを学習するモデルを作るかについて)に対する学習技法で構成される。
【0100】
本発明の場合、ユーザの音声情報からユーザの感情情報を取得するので、時間の流れに応じて変化する音声の周波数、波形の強度、強度の変化を視覚的に表現したスペクトログラム(spectrogram)を活用して感情情報を取得した。
【0101】
具体的には、一実施形態に係る対話連結サービス及び対話連結システムは、スペクトログラムで表現される画像を効率的に認識することができる、画像認識に特化したCNN(Convolutional Neutral Network、畳み込みニューラルネットワーク)を基盤とした音声感情認識モデルを適用した。以下、CNNを中心に説明するが、本発明に適用される人工神経網モデルは、CNNに限定されるものではなく、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)が適用されることかあり、CNNを中心にRNNが部分的に借用されたモデルが適用されることもある。
【0102】
従来のディープラーニングを用いた音声基盤の感情認識研究は、単一の音声特徴値でモデルを訓練し、感情を予測したが、音声は複合的な要素で構成されるため、様々な特徴値を用いたモデルを設計する必要がある。
【0103】
したがって、本実施例では特徴値としてメルスペクトログラム、MFCC、セントロイド(Centroid)、ロールオフ(Roll off)を用い、この特徴値を畳み込みニューラルネットワーク(Convolutional neural network, CNN)モデルに適用した。
【0104】
メルスペクトログラムは、時間に対する各周波数帯域での振幅変化を示したものであり、音声処理分野で広く使われている。MFCCは、倍音構造の違いを示す値で、音色に対する情報を得ることができる。セントロイドは、周波数帯域でエネルギー分布の平均地点を指す値で、どの周波数帯域の音が主に使用されているかを示す。ロールオフは、周波数帯域でエネルギーの85%がどの周波数帯域で発生するかを示す値で、音程の分布程度を知ることができる。以下、図面を参照して、本発明に適用される人工神経網モデルについて詳細に説明する。
【0105】
図5は、一実施形態によるスペクトログラムの2つの例を示す図であり、図6は、一実施形態による様々な音声特徴値を用いたCNN基盤の感情認識モデルを示す図である。図7は一実施形態に適用された畳み込みニューラルネットワーク構造を示す図であり、図8は畳み込みニューラルネットワーク構造に適用されたドロップアウトを説明するための図である。
【0106】
スペクトログラムは、時間が経つにつれて、音や他の信号の強度や強さが変化することをそれぞれ異なる周波数によって視覚で表現したものである。スペクトログラムの横軸は時間を表し、縦軸は周波数を表すため、音や信号の強度や強さが変化するにつれて、スペクトログラムで表示される色も異なる。
【0107】
スペクトログラムは、特定の感情を発話することによって表示される色が異なる。したがって、図5に示すように、怒った(anger)状態のスペクトログラムと悲しい(sadness)状態のスペクトログラムとは、表示される色が異なることがわかる。
【0108】
スペクトログラムは、図5に示すように、画像の形態で表示されるので、画像認識に特化したCNN(Convolutional Neutral Network)を用いて学習を進めるのが最も効率的である。学習時にデータ数の不均衡による偏りを防ぐために、loss値の計算時にweight functionを用いてこれを解決した。また、ファイル別に細分された画像のそれぞれが分類される情報を用いて、1つのファイルに分類される感情を決定した。
【0109】
一実施形態に従って適用される人工神経網の全体モデルの構成は、図6に示される通りである。ユーザの音源から各特徴値をグラフ画像に抽出し、これを畳み込みニューラルネットワークの入力値として用いた。各特徴値は互いに異なる情報を含んでいるため、畳み込みニューラルネットワークを特徴値別に別途に構成し、学習段階で1つの畳み込みニューラルネットワークが1つの特徴値を学習するようにした後、1つの神経網に統合される構造をとった。また、本発明の他の実施形態に適用される人工神経網モデルは、人工神経網モデルの最後層であるソフトマックス(Softmax)層を除去したモデルを利用した。
【0110】
一般に、畳み込みニューラルネットワークは、最後の層がソフトマックス(Softmax)層で構成されている。しかし、本発明の他の実施形態では、ソフトマックス層の代わりに各畳み込みニューラルネットワークの出力値をConcatenate層で連結した後、下記式(1)、(2)のように多項ロジスティック回帰(Multinomial logistic regression)を適用して一種のアンサンブル(Ensemble)学習が具現されるようにしたモデルを適用した。
【0111】
【数1】
【0112】
このような手法を適用すると、モデルに使用した音声特徴値全体を考慮しながらも、より高い正確度を得ることができるという利点がある。
【0113】
モデルに使用した畳み込みニューラルネットワークの構造は、図7に示す通りである。既存のモデルとは異なり、3つの層で構成されていた全結合(Fully conn ected)層を1つの層に変更し、出力が1x6ベクトルになるようにした。さらに、過適合(overfitting)を防ぐために、バッチ正規化(Batch normalization)及びドロップアウト(Drop out)を適用した。
【0114】
ドロップアウト方式は、図8に示すように、各学習時に隠れ層で全てのニューロンを使用するのではなく、50%程度のニューロンを使用する。 1つのディープラーニングで、いくつかの小さなニューラルネットワークがアンサンブルされた効果があり、アンサンブルは過適合が大幅に減少すると知られている。さらに、同様の重み(weight)を有するニューロンが減少することで重複した判断をするニューロンが減少し、ニューロンを効率的に使用できるという利点がある。
【0115】
図9は、図6図8で説明した人工神経網モジュールに対する総合的な関係を示す図である。
【0116】
図9を参照すると、ユーザ音声情報(20)とユーザプロフィール情報(30)を構成する各属性は、x1、x2、x3などの人工神経網モジュールの入力層(input layer)の各ノードに入力することができる。入力データとしては、図9に示すように、ユーザ音声情報(20)とユーザプロフィール情報(30)を一緒に入力されることがあるが、ユーザ音声情報(20)の1つだけ、またはユーザプロフィール情報(30)の1つだけが入力データとして入力できる。
【0117】
入力データが人工神経網モジュールの入力層の各ノードに入力されると、w1のような重み(weight)を基盤にh1、h2、h3のような隠れ層(hidden layer)を経てディープラーニングが行われ、それに応じてユーザの性向情報と感情情報(40)がy1である出力層(output layer)から出力することができ、このように出力された情報は実際のユーザの対話結果情報(50)に基づいてエラー(error、-Sigma(yi * log(pi))を減らす方向に隠れ層の重み(weight)を更新させるようにバックプロパゲーションすることができる。
【0118】
このような方法を通じて、人工神経網部(120)は、ユーザの音声情報において、ユーザの5つの感情(怒り、喜び、悲しみ、憤怒、中立)を分類することができる。例えば、喜ぶ感情に属する波形が80%以上検出されたときに正の重みを与え、怒りや憤怒に属する波形が80%以上検出された場合に負の重みを与える方式で適合度を計算することができる。
【0119】
また、人工神経網部(120)は、前述したように、音声情報からユーザの感情状態情報を抽出するだけでなく、STT処理されたテキスト情報でも肯定/否定に関連する形容詞/副詞を抽出し、これに基づいてユーザの感情状態を判断することもできる。
【0120】
具体的には、人工神経網部(120)は、予め分類された肯定を意味する文字/単語と否定を意味する文字/単語で構成された辞書及び語彙リストに基づいてユーザの感情情報を抽出することができる。単語リストは合計6つで、肯定形容詞、肯定副詞、否定形容詞、否定副詞、そして名詞と動詞リストが存在する。
【0121】
例えば、「良い」、「楽しい」、「面白い」などの肯定形容詞が検出された場合、肯定的な通話と判断して正の重みを与える方法でユーザの感情状態を判断することができ、逆にリストに登録された悪口、そして「面白くない」のような否定形容詞が検出される場合や発話と発話との間の空白が全体平均より長い場合、否定的な通話であると判断して負の重みを与える方法でユーザの感情状態を判断することができる。
【0122】
また、人工神経網部(120)は、ユーザの性向分析の正確度を高めるための補足的な方法で、ユーザが直接選定肢を選定して応答する形態の性向分析テスト結果を活用することができる。
【0123】
性向分析テストは、ユーザの性向を分析するために用意された質問項目であり、略式バージョンと深化バージョンがあり、ユーザは最小12項目、最大100項目に対して応答することができる。
【0124】
質問項目に対するユーザの応答結果は、人工神経網部(120)の分析によって、4つの尺度でユーザの性向を表記することができる。具体的には、各尺度は2つの極となる性向で構成されている。例えば、外向的なのか/内向的なのか、現実的なのか/直感的なのか、思考的なのか/感情的なのか、判断的なのか/認識的なのかなどに分けることができる。したがって、ユーザは合計16種類の性向に分類することができ、これらの結果は前述の基本グルーピングの補助的な手段として利用することができる。
【0125】
また、人工神経網部(120)は、ユーザが入力した情報のうち、趣味や関心事に対する情報に基づいて対話相手とのマッチングを行うことができる。一般的に、同じ趣味や関心事を持つユーザは、共感を容易に形成して対話をぎこちなく続けることができるため、これに基づいて対話相手を連結することができる。
【0126】
また、人工神経網部(120)は、取得したユーザの音声情報を介して対話内容に関係なく、性別に応じて普遍的な好みを示す音域帯、速さを抽出することができ、これを基盤にユーザの性向を分析することができる。さらに、これらの情報に基づいてユーザにガイドラインを提示することもできる。
【0127】
また、人工神経網部(120)は、ユーザの時間帯別の感情情報が蓄積された場合、ユーザが接続した時間帯別に適合した相手をマッチングさせることができる。
【0128】
例えば、第1ユーザが平均的に午後7時~9時の間では楽しくて面白い通話をしたい反面、深夜1時~3時の間では共感を得て真剣な通話をすることを望む場合、こうした時間帯別ユーザの感情情報に基づいて対話相手をマッチングさせることができる。
【0129】
図10は、一実施形態によるユーザ音声を基盤とするサービス提供方法のフローチャートを示す図であり、図11は、ユーザがプロフィール情報を入力する方法を示す図である。図12は、ユーザが対話相手を選択する際に選択できるタイプを示す図であり、図13は、ユーザに提供される対話相手のプロフィール情報の一例を示す図である。
【0130】
図10を参照すると、第1ユーザ端末(200)と第2ユーザ端末(300)は、それぞれ第1ユーザの情報と第2ユーザの情報を受信し、受信した情報をサービス提供装置(100)に送信することができる。
【0131】
ここで、ユーザ情報には、ユーザのプロフィール情報と音声情報の2つを含むことができるが、プロフィール情報は性別、年齢、居住地域、職業、身長、写真、趣味、特技、性向、スタイル、好きなタイプ情報など多様な情報を含むことができ、音声情報は通話情報を含むことができる。
【0132】
また、ユーザが本人の情報を入力する際に、図11に示すように、表示部(250)画面に表示されるインタフェース画面(251)を介して入力することができる。インタフェース画面(251)には、ユーザが選定可能な項目(252)を例示的に表示することができる。
【0133】
サービス提供装置(100)は、第1ユーザ端末(200)と第2ユーザ端末(300)から受信したユーザ情報に基づいて人工神経網部(120)を用いてディープラーニングを行い、ユーザの性向を分析することができる。(S30)
【0134】
図では、紙面の限界上、ユーザ数を第1ユーザと第2ユーザに限定して説明したが、これに限定されるものではなく、サービス提供装置(100)は、より多くの複数のユーザに対する情報を受信し、受信した全てのユーザに対してユーザの性向を分析することができ、それに基づいて多くのユーザに対話連結サービスを提供することができる。
【0135】
ユーザの性向分析が完了した後、ユーザはユーザ端末を介してサービス提供装置(100)に対話連結要請を送信することができる。(S40)
【0136】
ユーザが対話連結要請を送信するにあたって、ユーザは様々な種類のマッチングのうち1つのマッチングを選定して要請することができる。
【0137】
例えば、図12に示すように、インタフェース画面(251)でサービス提供装置(100)に接続されている一般会員ユーザと連結してくれる一般通話連結サービス(253a)、選択した地域圏に住むユーザと連結してくれる地域通話連結サービス(253b)、特定のパーセンテージに含まれている人気ユーザと連結してくれる魅力通話連結サービス(253c)のうち1つを選定して対話連結を要請することができる。
【0138】
対話連結要請が受信されれば、サービス提供装置(100)は、人工神経網部(120)を用いてディープラーニングを行った後、これに基づいて対話連結相手をマッチングすることができる。(S50)対話連結相手をマッチングする方法については、先に詳しく説明したので、省略する。
【0139】
対話連結相手がマッチングされると、サービス提供装置(100)は、マッチング結果およびユーザに対する情報をユーザ端末に送信することができる。
【0140】
例えば、第1ユーザと第2ユーザがマッチングされた場合、サービス提供装置(100)は、第1ユーザ端末(200)では第2ユーザに対する情報を、第2ユーザ端末(300)では第1ユーザに対する情報を送信することができ、これにより、第1ユーザと第2ユーザは対話を進めていくことができる。 (S60、S70)
【0141】
ユーザに伝達される対話相手の情報は、図13に示すように、ユーザが入力したプロフィールに対する情報を含むことができる。したがって、ユーザはこのような情報を活用して相手と簡単に対話を進めることができる。
【0142】
また、図には示していないが、サービス提供装置(100)は、ユーザが好む対話主題をキーワード化して、これを通話中にユーザ端末(200、300)の画面にインタフェースで提供することができる。これにより、ユーザは、対話相手が好む対話主題を事前に知ることができ、相互間持続的な通話を進めていく効果がある。
【0143】
例えば、相手がほとんどの通話を映画の話で時間を過ごすユーザであれば、映画というキーワードだけでなく、詳細に言及した映画名とジャンルを一緒に対話相手にインタフェースで提供することができる。
【0144】
また、通話中のユーザ端末の画面には、基本的に相手が入力した趣味、関心事情報が表示されている。したがって、ユーザはこれを基盤に対話を進めることができ、対話序盤のぎこちない雰囲気を容易に乗り越えることができる。
【0145】
また、通話中の画面には、趣味、関心事情報以外にも、ユーザが楽に対話を続けることができるように、「対話チップ」というサービスをインタフェースで提供することができる。
【0146】
対話チップは、「私は一般的に集まりに出れば先に対話を始める方です。」のように、互いの性向を類推できる状況文を意味する。したがって、ユーザはこれを通じて日常的な対話だけでなく、ユーザの個人の価値観を表わす対話文を収集し、それに基づいて対話を進めていくこともできる。
【0147】
また、ユーザは特定の話題や質問に対する回答を録音して自分のプロフィールに登録することができるので、対話相手はこのような音声情報を活用して対話を進めていくこともできる。音声情報は一般的な文よりも直接的に価値観を明らかにするため、ユーザの性格を判断するのに良い情報として活用することができる。
【0148】
対話が完了すると、対話結果はサービス提供装置(100)に送信され、サービス提供装置(100)は対話結果に基づいてユーザの性向を分析するフィードバック過程を進めることができる。 (S80、S100)
【0149】
フィードバックは、人工神経網部(120)を介して実行されることもあり、実行された結果はユーザ端末(200、300)に送信され、ユーザが自分の対話方法およびスキルを自らフィードバックすることができる。フィードバックする方法については、詳しく前述したので、省略する。
【0150】
また、対話終了後、互いの対話が気に入った場合、互いのプロフィール情報を交換することができる。(S120)
【0151】
これまで実施形態が限られた実施形態および図面によって説明されてきたが、当該技術分野において通常の知識を有する者であれば、前記の記載から様々な修正および変形が可能である。例えば、記載された技術は、記載された方法とは異なる順序で実行されたり、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合又は組み合わされたり、他の構成要素又は均等物によって対峙又は置換されても適切な結果を達成することができる。したがって、他の実施形態および特許請求の範囲と均等なものも後述する特許請求の範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【手続補正書】
【提出日】2022-07-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1ユーザの音声を抽出する段階、
前記第1ユーザの音声に基づいてテキスト情報または音声波形情報を生成する段階、
前記テキスト情報および前記音声波形情報に基づいて前記第1ユーザの性向を分析した後、前記分析結果に基づいて第1ユーザの性向に対応する第2ユーザを選定する段階、
前記第1ユーザに前記第2ユーザとの対話連結サービスを提供する段階、及び
前記第1ユーザと前記第2ユーザの対話情報に基づいて前記第1ユーザの感情状態の変化に対する情報を取得し、取得した前記第1ユーザの感情状態の変化に対する情報に基づいて前記第1ユーザの性向に対応する前記第2ユーザを再選定する段階を含む、
ユーザ音声を基盤にするサービスの提供方法。
【請求項2】
前記第1ユーザの性向を分析する段階は、
前記第1ユーザのテキスト情報における特定単語の出現頻度に基づいて前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項3】
前記第1ユーザと第2ユーザとの通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度、及び有料決済可否情報のうち少なくとも1つに基づいて前記第1ユーザの性向を分析する段階、及び第2ユーザを選定する段階をフィードバックする段階をさらに含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項4】
前記第1ユーザの性向を分析する段階と前記第2ユーザを選定する段階は、
ユーザ音声情報およびユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報および性向情報を出力値として、CNN(Convolutional Neural Network)基盤の音声感情認識モデルに基づいてディープラーニングを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項5】
前記CNN基盤の音声感情認識モデルは、
ソフトマックス(softmax)層の代わりに各々の神経網の出力値をConcatenate層で連結した後、多項ロジスティック回帰(Multinomial logistic regression)を適用して具現された構造を適用した、
請求項4に記載のユーザ音声を基盤とするサービス提供方法。
【請求項6】
前記CNN基盤の音声感情認識モデルは、
メルスペクトログラム、MFCC、ロールオフ、セントロイドのうち少なくとも1つを特徴値として利用した、
請求項5に記載のユーザ音声を基盤とするサービス提供方法。
【請求項7】
前記第1ユーザの性向を分析する段階は、
性向分析アンケートに対する前記第1ユーザの応答情報に基づいて前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項8】
前記第1ユーザの性向を分析する段階は、
前記第1ユーザの性別、年齢、音声の音域帯および速度のうち少なくとも1つを用いて前記第1ユーザの性向を分析する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項9】
前記第2ユーザを選定する段階は、
前記第1ユーザが時間帯別に好む対話の種類に基づいて第2ユーザを選定する段階を含む、
請求項1に記載のユーザ音声を基盤とするサービス提供方法。
【請求項10】
第1ユーザ端末、及び
前記第1ユーザ端末から第1ユーザの音声情報を受信する通信部、
前記音声情報に基づいて前記第1ユーザのテキスト情報および音声波形情報を生成した後、生成された情報に基づいて前記第1ユーザの性向を分析し、前記第1ユーザと他のユーザとの対話に基づいて前記第1ユーザの感情状態の変化に対する情報を取得した後、
前記第1ユーザの性向および前記第1ユーザの感情状態の変化に対する情報に基づいて、前記第1ユーザの性向に対応する第2ユーザを選定する人工神経網を含む、
ユーザ音声を基盤とするサービス提供システム。
【請求項11】
前記人工神経網部は、
前記第1ユーザと第2ユーザとの通話後に入力される評点情報、通話時間情報、通話延長可否情報、対話中特定単語の出現頻度及び有料決済可否情報のうち少なくとも1つに基づいてフィードバックを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【請求項12】
前記人工神経網部は、
ユーザ音声情報およびユーザプロフィール情報のうち少なくとも1つを入力値とし、ユーザの感情情報および性向情報を出力値として、CNN(Convolutional Neural Network)基盤の音声感情認識モデルに基づいてディープラーニングを行い、前記第1ユーザの性向を分析し、前記第2ユーザを選定する、
請求項10に記載のユーザ音声を基盤とするサービス提供システム。
【国際調査報告】