IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハイパーコネクト インコーポレイテッドの特許一覧

<>
  • 特開-端末機及びその動作方法 図1
  • 特開-端末機及びその動作方法 図2
  • 特開-端末機及びその動作方法 図3
  • 特開-端末機及びその動作方法 図4
  • 特開-端末機及びその動作方法 図5
  • 特開-端末機及びその動作方法 図6
  • 特開-端末機及びその動作方法 図7
  • 特開-端末機及びその動作方法 図8
  • 特開-端末機及びその動作方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022137114
(43)【公開日】2022-09-21
(54)【発明の名称】端末機及びその動作方法
(51)【国際特許分類】
   G10L 13/047 20130101AFI20220913BHJP
   G06F 3/16 20060101ALI20220913BHJP
   G10L 13/00 20060101ALI20220913BHJP
【FI】
G10L13/047 Z
G06F3/16 690
G06F3/16 650
G10L13/00 100Z
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022103809
(22)【出願日】2022-06-28
(62)【分割の表示】P 2020134046の分割
【原出願日】2020-08-06
(31)【優先権主張番号】10-2019-0097398
(32)【優先日】2019-08-09
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
(71)【出願人】
【識別番号】517425675
【氏名又は名称】ハイパーコネクト インコーポレイテッド
(74)【代理人】
【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【弁理士】
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【弁理士】
【氏名又は名称】永川 行光
(72)【発明者】
【氏名】アン, サン イル
(72)【発明者】
【氏名】ホン, ジュ ヨン
(72)【発明者】
【氏名】チョン, ヨン ウク
(57)【要約】      (修正有)
【課題】効果的にリアルタイム放送を行うことができる端末機及びその動作方法を提供する。
【解決手段】端末機100は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられるディスプレイ、ホストの音声を受信する入出力インターフェース、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェース及び特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成するプロセッサを含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供する端末機の動作方法において、
前記放送チャンネルを介して前記端末機の使用者がホストである前記リアルタイム放送が開始される段階と、
前記リアルタイム放送が開始されると、前記端末機のディスプレイが2つの領域に分割され、前記2つの領域のうち1つの領域が前記ホストに割り当てられる段階と、
前記リアルタイム放送中に前記ホストの音声を認識する段階と、
前記放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する段階と、
前記特定テキストを前記ホストの音声または前記特定ゲストの音声に変換した音声メッセージを生成する段階と、
前記音声メッセージを出力する段階と、
を含む端末機の動作方法。
【請求項2】
前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成するためのアルゴリズムを準備する段階をさらに含む
請求項1に記載の端末機の動作方法。
【請求項3】
前記特定テキストを前記ホストの音声に変換した音声メッセージを生成する段階は、
前記ホストの音声及び前記特定テキストを前記アルゴリズムに適用して前記音声メッセージを生成する
請求項2に記載の端末機の動作方法。
【請求項4】
前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成するための前記アルゴリズムを準備する段階は、
複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備する
請求項2に記載の端末機の動作方法。
【請求項5】
前記ホストの音声から音声特徴を抽出する段階と、
前記抽出された音声特徴に基づいて比較音声を生成する段階と、
前記ホストの音声及び前記比較音声を比較する段階と、
前記比較の結果に応じて前記音声特徴を保存する段階と、
をさらに含む請求項1に記載の端末機の動作方法。
【請求項6】
前記ホストの音声及び前記比較音声を比較する段階は、
前記ホストの音声及び前記比較音声の間のサンプリング値の誤差を計算し、
前記比較の結果に応じて前記音声特徴を保存する段階は、
前記誤差が基準値以下である場合、前記音声特徴を保存する
請求項5に記載の端末機の動作方法。
【請求項7】
前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成する段階は、
前記特定テキスト及び前記音声特徴に基づいて前記音声メッセージを生成する
請求項5に記載の端末機の動作方法。
【請求項8】
前記少なくとも1つ以上のアイテムは、前記サービス内で財貨的価値を有する
請求項1に記載の端末機の動作方法。
【請求項9】
前記放送チャンネルに入場した前記少なくとも1人以上のゲストのうち第1ゲストが前記リアルタイム放送に直接参加する段階と、
前記ディスプレイの前記2つの領域のうち前記ホストに割り当てられた領域を除いた他の領域が前記第1ゲストに割り当てられる段階と、
をさらに含む請求項1に記載の端末機の動作方法。
【請求項10】
請求項1から9のいずれか1項に記載の動作方法を行うためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
【請求項11】
放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、前記2つの領域のうち1つの領域が前記ホストに割り当てられるディスプレイと、
前記ホストの音声を受信する入出力インターフェースと、
前記放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェースと、
前記特定テキストを前記ホストの音声または前記特定ゲストの音声に変換した音声メッセージを生成するプロセッサと、
を含む端末機。
【請求項12】
前記プロセッサは、複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備し、前記ホストの音声及び前記特定テキストを前記学習モデルに適用して前記音声メッセージを生成する
請求項11に記載の端末機。
【請求項13】
前記学習モデルを保存するメモリーをさらに含む
請求項12に記載の端末機。
【請求項14】
前記プロセッサは、前記ホストの音声から音声特徴を抽出し、前記抽出された音声特徴に基づいて比較音声を生成し、前記ホストの音声及び前記比較音声を比較し、前記比較の結果に応じて、前記特定テキスト及び前記音声特徴に基づいて前記音声メッセージを生成する
請求項11に記載の端末機。
【請求項15】
前記ディスプレイは、前記放送チャンネルに入場した前記少なくとも1人以上のゲストのうち第1ゲストが前記リアルタイム放送に直接参加する場合、前記ディスプレイの前記2つの領域のうち前記ホストに割り当てられた領域を除いた他の領域が前記第1ゲストに割り当てられる
請求項12に記載の端末機。
【発明の詳細な説明】
【技術分野】
【0001】
記載された実施形態は、より効果的にテキストを音声に変換する端末機及びその動作方法に関する。
【背景技術】
【0002】
通信技術が発展し、電子装置が小型化するに伴い、個人用端末機が一般消費者に広く普及している。特に最近では、スマートフォンまたはスマートタブレットのような携帯用個人端末機が広く普及している。端末機のほとんどは、通信機能を含んでいる。使用者は、端末機を用いてインターネットで検索を行ったり、他の使用者とメッセージを送受信することができる。
【0003】
また、小型カメラ技術、小型マイク技術、小型ディスプレイ技術及び小型スピーカー技術の発展に伴い、スマートフォンのようなほとんどの端末機には、カメラ、マイク、ディスプレイ及びスピーカーが含まれている。使用者は、端末機を用いて音声を録音したり、音声が含まれた動画を撮影することができる。使用者は、端末機に含まれたスピーカーを介して録音された音声を確認したり、ディスプレイを介して前記撮影された動画を確認することができる。
【0004】
使用者は、端末によって現在録音されている音声または現在撮影されている動画をリアルタイムで少なくとも1人以上の他の使用者に送信することができる。少なくとも1人以上の他の使用者は、端末機を介して他の使用者の端末によって現在撮影されている動画または音声をリアルタイムで確認することができる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
記載された実施形態によれば、より効果的にリアルタイム放送を行うことができる端末機及びその動作方法が提供されることができる。
【0006】
また、実施形態によれば、リアルタイム放送サービスによって人間関係を拡張することができる端末機、及びその動作方法が提供されることができる。
【課題を解決するための手段】
【0007】
本発明の実施形態に係る放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供する端末機の動作方法は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始される段階、リアルタイム放送が開始されると、端末機のディスプレイが2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられる段階、リアルタイム放送中にホストの音声を認識する段階、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する段階、特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成する段階、及び音声メッセージを出力する段階を含むことができる。
【0008】
いくつかの実施形態として、端末機の動作方法は、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階をさらに含むことができる。
【0009】
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、ホストの音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。
【0010】
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階は、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備することができる。
【0011】
いくつかの実施形態として、端末機の動作方法は、ホストの音声から音声特徴を抽出する段階、抽出された音声特徴に基づいて比較音声を生成する段階、ホストの音声及び比較音声を比較する段階、及び比較結果に応じて音声特徴を保存する段階をさらに含むことができる。
【0012】
いくつかの実施形態として、ホストの音声及び比較音声を比較する段階は、ホストの音声及び比較音声の間のサンプリング値の誤差を計算し、比較結果に応じて音声特徴を保存する段階は、誤差が基準値以下である場合、音声特徴を保存することができる。
【0013】
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。
【0014】
いくつかの実施形態として、少なくとも1つ以上のアイテムは、サービス内で財貨的価値を有することができる。
【0015】
いくつかの実施形態として、端末機の動作方法は、放送チャンネルに入場した少なくとも1人以上のゲストのうち第1ゲストが放送に直接参加する段階、及びディスプレイの2つの領域のうちホストに割り当てられた領域を除いた他の領域が第1ゲストに割り当てられる段階をさらに含むことができる。
【0016】
本発明の実施形態に係る端末機は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられるディスプレイ、ホストの音声を受信する入出力インターフェース、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェース、及び特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成するプロセッサを含むことができる。
【0017】
いくつかの実施形態として、プロセッサは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備し、ホストの音声及び特定テキストを学習モデルに適用して音声メッセージを生成することができる。
【0018】
いくつかの実施形態として、端末機は、学習モデルを保存するメモリーをさらに含むことができる。
【0019】
いくつかの実施形態として、プロセッサは、ホストの音声から音声特徴を抽出し、抽出された音声特徴に基づいて比較音声を生成し、ホストの音声及び比較音声を比較し、比較結果に応じて、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。
【0020】
いくつかの実施形態として、ディスプレイは、放送チャンネルに入場した少なくとも1人以上のゲストのうち第1ゲストが放送に直接参加する場合、ディスプレイの2つの領域のうちホストに割り当てられた領域を除いた他の領域が第1ゲストに割り当てられることができる。
【発明の効果】
【0021】
記載された実施形態に係る端末機、及びその動作方法は、より効果的にリアルタイム放送を行うことができる。
【0022】
また、実施形態に係る端末機、及びその動作方法は、リアルタイム放送サービスによって人間関係を拡張することができる。
【図面の簡単な説明】
【0023】
図1】本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。
図2】本発明の実施形態に係る端末機の構成を示すブロック図である。
図3】本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図4】本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図5】本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図6】本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図7】本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図8】本発明の実施形態に係る端末機のプロセッサを示す図である。
図9】本発明の他の実施形態に係る端末機のプロセッサを示す図である。
【発明を実施するための形態】
【0024】
本発明の利点及び特徴、そしてそれを達成する方法は、添付した図面と共に詳細に後述されている実施形態を参照すると明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる様々な形態で具現されることができ、単に本実施形態は、本発明の開示が完全になるようにして、本発明が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は、同一の構成要素を指す。
【0025】
「第1」または「第2」などが、様々な構成要素を記述するために使用されるが、このような構成要素は、前記のような用語によって制限されるものではない。前記のような用語は、単に1つの構成要素を他の構成要素と区別するために使用されることができる。したがって、以下に言及される第1構成要素は、本発明の技術的思想内で第2構成要素であることもできる。
【0026】
本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数形は、文面で特に言及しない限り、複数形も含む。明細書で使用される「含む(comprises)」または「含んでいる(comprising)」は、言及された構成要素または段階が1つ以上の他の構成要素または段階の存在または追加を排除しないという意味を内包する。
【0027】
別途の定義がなければ、本明細書で使用されるすべての用語は、本発明が属する技術分野において、通常の知識を有する者に共通的に理解され得る意味で解釈されることができる。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的または過度に解釈されない。
【0028】
図1は、本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。
【0029】
図1を参照すると、複数の端末機100~300が動作するシステム環境は、サーバ400及び複数の端末機100~300を含むことができる。例えば、複数の端末機100~300が動作する環境は、少なくとも1つ以上のサーバを含むことができる。
【0030】
複数の端末機100~300のそれぞれは、サーバ400を媒介として連結されることができる。本発明の説明の便宜のために、図1で3つの端末機が示されている。しかし、端末機の数は、3つに限定されるものではない。複数の端末機100~300のそれぞれは、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、スマートタブレット、スマートウォッチ、移動端末機、デジタルカメラ、ウェアラブルデバイス(wearable device)、または携帯用電子機器のうちの1つとして具現されることができる。複数の端末機100~300のそれぞれは、プログラムまたはアプリケーションを実行することができる。
【0031】
複数の端末機100~300のそれぞれは、通信網に連結されることができる。複数の端末機100~300のそれぞれは、通信網を介して互いに連結されたり、サーバ400と連結されることができる。複数の端末機100~300のそれぞれは、互いに連結された他の装置にデータを出力したり、他の装置からデータを受信することができる。
【0032】
複数の端末機100~300のそれぞれに連結された通信網は、有線通信網、無線通信網、または複合通信網を含むことができる。通信網は、3G、LTE、またはLTE-Aなどのような移動通信網を含むことができる。通信網は、ワイファイ(Wi-Fi)、UMTS/GPRS、またはイーサネット(Ethernet)などのような有線または無線通信網を含むことができる。通信網は、マグネチック保安出力(MST,Magnetic Secure Transmission)、RFID(Radio Frequency Identification)、NFC(Near Field Communication)、ジグビー(ZigBee)、Z-Wave、ブルートゥース(登録商標)(Bluetooth)、低電力ブルートゥース(BLE,Bluetooth Low Energy)、または赤外線通信(IR,InfraRed communication)などのような近距離通信網を含むことができる。通信網は、近距離ネットワーク(LAN,Local Area Network)、メトロポリタン・エリア・ネットワーク(MAN,Metropolitan Area Network)、またはワイド・エリア・ネットワーク(WAN,Wide Area Network)などを含むことができる。
【0033】
複数の端末機100~300の間に様々な形態の通信セッションが確立されることができる。例えば、複数の端末機100~300は、互いにメッセージ、ファイル、音声データ、映像、または動画などを送受信することができる。例えば、複数の端末機100~300は、TCP(Transmission Control Protocol)、UDP(User Datagram Protocol)、またはWebRTC(Web Real-Time Communication)などを用いて、リアルタイム放送を行うことができる。
【0034】
いくつかの実施形態として、複数の端末機100~300には、リアルタイム放送を行うか、視聴することができるアプリケーションが設置されていることがあり得る。複数の端末機100~300のうち第1端末機100の使用者は、アプリケーションによってリアルタイム放送を行うための放送チャンネルを生成することができる。
【0035】
そして、複数の端末機100~300のうち第2及び第3端末機200、300のそれぞれの使用者は、アプリケーションによって第1端末機100の使用者が生成した放送チャンネルに入場することができる。第2及び第3端末機200、300のそれぞれの使用者は、第1端末機100の使用者が進行する放送をリアルタイムで視聴することができる。
【0036】
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、第1端末機100の使用者が生成した放送に参加して共にリアルタイム放送を進行することができる。複数の端末機100~300のディスプレイを介して表示される2つに分割された画面は、それぞれ第1端末機100の使用者及び2端末機200の使用者及び第3端末機300の使用者のうち放送に参加した使用者に割り当てられることができる。
【0037】
サーバ400は、複数の端末機100~300が互いに通信を行うことができるように連結させることができる。例えば、サーバ400は、複数の端末機100~300が、リアルタイム放送のチャンネルを形成及び参加することができるように、リアルタイム放送のサービスを提供することができる。
【0038】
1つ以上の例示的な実施例において、端末機は、モバイル端末機、電子装置、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットPC、電子ブック端末機、デジタル放送端末機、PDA(personal digital assistant)、携帯用マルチメディアプレーヤ(PMP)、ナビゲーション、MP3プレーヤ、デジタルカメラなどを含んでもよい。但し、端末機は、前記例示に限定されるものではない。
【0039】
図2は、本発明の実施形態に係る端末機の構成を示すブロック図である。図2を参照すると、第1端末機100は、入出力インターフェース110、ディスプレイ120、メモリー130、通信インターフェース140、及びプロセッサ150を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
【0040】
入出力インターフェース110は、外部から信号を受信することができる。入出力インターフェース110は、第1端末機100の使用者から信号を受信することができる。また、入出力インターフェース110は、外部装置から信号を受信することができる。入出力インターフェース110は、例えば、マイク、カメラ、キーボード、マウス、トラックボール、タッチスクリーン、ボタン、スイッチ、センサー、ネットワークインターフェース、またはその他の入力装置などを含むことができる。入出力インターフェース110は、入出力インターフェース110に含まれたマイクを介して外部から音声を受信することができる。
【0041】
また、入出力インターフェース110は、入出力インターフェース110に含まれたカメラ(図示せず)から撮影されたイメージまたは映像を受信したり、端末機100の使用者からジェスチャーを受信することができる。
【0042】
入出力インターフェース110は、ディスプレイ120を含むことができる。例えば、ディスプレイ120は、LCD(Liquid Crystal Display)、OLED(Organic Light Emitting Diode)、またはPDP(Plasma Display Panel)などの平板表示装置を含むことができる。ディスプレイ120は、曲面ディスプレイまたはフレキシブルディスプレイ(flexible display)を含むことができる。ディスプレイ120は、タッチスクリーンを含むことができる。ディスプレイ120がタッチスクリーンを含む場合、ディスプレイ120は、第1端末機100の使用者からタッチ入力を受信することができる。
【0043】
ディスプレイ120は、データを表示することができる。または、ディスプレイ120は、プロセッサ150によって行われた演算結果を表示することができる。または、ディスプレイ120は、メモリー130に保存されたデータを表示することができる。ディスプレイ120は、入出力インターフェース110を介して受信されるデータまたは通信インターフェース140によって受信されたデータを表示することができる。
【0044】
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、ディスプレイ120は、第1端末機100の使用者の映像を出力することができる。また、通信インターフェース140を介して第2端末機200の使用者の映像または第3端末機300の使用者の映像が受信される場合、ディスプレイ120は、第1端末機100の使用者の映像と共に第2端末機200の使用者の映像または第3端末機300の使用者の映像を出力することができる。
【0045】
いくつかの実施形態として、ディスプレイ120は、第1端末機100の使用者から特定入力を受信することができる。特定入力は、少なくとも1つ以上のアイテムのうちから1つのアイテムを選択する入力または特定テキストを記入する入力であり得る。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者は、アイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
【0046】
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、音を出力することができる。入出力インターフェース110は、入出力インターフェース110を介して受信された音、または通信インターフェース140を介して第2端末機200または第3端末機300から受信された音を出力することができる。例えば、入出力インターフェース110は、スピーカー(図示せず)を含むことができる。
【0047】
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、第1端末機100の使用者から受信されたプロフィール情報または使用者入力を受信することができる。例えば、使用者のプロフィール情報は、端末機100の使用者の写真、趣味情報、性別情報、国家情報または年齢情報のうちの少なくとも1つを含むことができる。また、使用者のプロフィール情報は、使用者によって撮影されたビデオをさらに含むことができる。そして、使用者入力は、端末機100の使用者から受信されるタッチ入力であり得る。
【0048】
メモリー130は、データを保存することができる。メモリー130は、入出力インターフェース110から受信された音声データ、イメージデータまたは使用者のプロフィール情報を保存することができる。そして、メモリー130は、プロセッサ150によって行われた演算結果を保存することができる。例えば、メモリー130は、プロセッサ150によってエンコードされた音声を保存することができる。メモリー130は、通信インターフェース140を介して外部に出力するデータを保存したり、通信インターフェース140を介して外部から受信されたデータを保存することができる。
【0049】
メモリー130は、ソフトウェアまたはプログラムを保存することができる。例えば、メモリー130は、アプリケーション、アプリケーションプログラミングインターフェース(API)などのようなプログラム及び様々な種類のデータを保存することができる。メモリー130は、プロセッサ150によって実行可能なコマンドを保存することができる。
【0050】
メモリー130は、揮発性メモリーまたは不揮発性メモリーのうちの少なくとも1つを含むことができる。メモリー130は、例えば、フラッシュ(flash)メモリー、ROM(Read Only Memory)、RAM(Random Access Memory)、EEROM(Electrically Erasable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、ハードディスクドライブ(HDD,Hard Disk Drive)、またはレジスター(register)のうちの少なくとも1つを含むことができる。メモリー130は、例えば、ファイルシステム、データベース、またはエンベッディドデータベースなどを含むことができる。
【0051】
通信インターフェース140は、端末機100の外部にデータを出力したり、外部からデータを受信することができる。通信インターフェース140は、サーバ400または外部装置にデータを出力することができる。通信インターフェース140は、サーバ400及び外部装置からデータを受信することができる。通信インターフェース140は、プロセッサ150によって行われた演算結果を外部に出力することができる。
【0052】
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、通信インターフェース140は、第2端末機200または第3端末機300から映像または音声を受信することができる。
【0053】
また、通信インターフェース140は、第1端末機100の使用者から選択されたアイテムまたは特定テキストを第2端末機200または第3端末機300に送信することができる。または、通信インターフェース140は、第2端末機200または第3端末機300からアイテムまたは特定テキストを受信することができる。
【0054】
通信インターフェース140は、例えば、3Gモジュール、LTEモジュール、LTE-Aモジュール、Wi-Fiモジュール、ワイギグ(WiGig)モジュール、UWB(Ultra Wide Band)モジュール、またはLANカードなどのような遠距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、マグネチック保安出力(MST)モジュール、ブルートゥースモジュール、NFCモジュール、RFIDモジュール、ジグビー(ZigBee)モジュール、Z-Waveモジュール、または赤外線モジュールなどのような近距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、その他のネットワークインターフェースを含むことができる。
【0055】
プロセッサ150またはプロセッサ150に含まれた構成要素のそれぞれは、ソフトウェア(software)またはハードウェア(hardware)形態で具現されることができる。例示的に、ソフトウェアは、機械コード、ファームウェアコード(firmware code)、エンベッディドコード(embedded code)、及びアプリケーション(application)などのようなプログラム実行コマンドとして具現されることができる。ハードウェアは、電気電子回路、プロセッサ、コンピュータ、圧力センサー、慣性センサー、MEMS(microelectromechanical system)、受身素子、またはそれらの組合であり得る。
【0056】
プロセッサ150は、端末機100の動作を制御することができる。プロセッサ150は、端末機100に含まれたそれぞれの構成要素と互いに連結されることができ、端末機100に含まれたそれぞれの構成要素の動作を制御することができる。プロセッサ150は、入出力インターフェース110によって受信された信号に対する応答として、端末機100の動作を制御することができる。
【0057】
いくつかの実施形態として、第1端末機100がホスト端末機としてリアルタイム放送のアプリケーションが実行する場合、プロセッサ150は、入出力インターフェース110を介して受信される第1端末機100の使用者の音声を認識することができる。そして、通信インターフェース140を介して特定テキストが受信される場合、プロセッサ150は、特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成するために準備することができる。
【0058】
いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。他の実施形態として、プロセッサ150は、第1端末機100の使用者の音声から特徴を抽出し、抽出された特徴を用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。
【0059】
複数の端末機100~300及びサーバ400の詳細な動作方法は、図3図9を参照して説明されることができる。
【0060】
図3は、本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
【0061】
図1図3を参照すると、第1端末機100の使用者は、リアルタイム放送のアプリケーションを実行することができる。第1端末機100の使用者は、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
【0062】
いくつかの実施形態として、第1端末機100の使用者が放送チャンネルを生成して入場すると、第1端末機100のディスプレイ120は、2つの領域121、122に分割されることができる。2つの領域121、122のうち第1領域121は、第1端末機100の使用者に割り当てられることができる。
【0063】
いくつかの実施形態として、第1端末機100の使用者が音声放送を行う場合、第1領域121には、第1端末機100の使用者が設定したプロフィール写真が表示されることができる。もし、第1端末機100の使用者が映像放送を行う場合、第1領域121には、第1端末機100の使用者が撮影している映像が表示されることができる。
【0064】
いくつかの実施形態として、第1端末機100の使用者が生成した放送チャンネルに第2端末機200の使用者及び第3端末機300の使用者が入場することができる。第2端末機200の使用者及び第3端末機300の使用者は、第1端末機100の使用者が進行する放送をゲストとして傍聴することができる。
【0065】
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、放送に直接参加することができる。もし、第2端末機200の使用者が放送に直接参加するなら、2つの領域121、122のうち第2領域122は、第2端末機200の使用者に割り当てられることができる。
【0066】
いくつかの実施形態として、第2端末機200の使用者が音声放送を行う場合、第2領域122には、第2端末機200の使用者が設定したプロフィール写真が表示されることができる。もし、第2端末機200の使用者が映像放送を行う場合、第2領域122には、第2端末機200の使用者が撮影している映像が表示されることができる。
【0067】
第2端末機200の使用者が放送に直接参加するなら、第1端末機100の使用者及び第2端末機200の使用者は、共に放送を進行することができる。そして、第3端末機300の使用者は、第1端末機100の使用者及び第2端末機200の使用者が進行する放送を傍聴することができる。
【0068】
図4は、本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
【0069】
図3及び図4を参照すると、第2端末機200の使用者または第3端末機300の使用者は、放送中に第1端末機100の使用者にアイテムをプレゼントしてあげることができる。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者はアイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
【0070】
いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、アイテムギフトアイコン10をタッチすることができる。アイテムギフトアイコン10は、ディスプレイの一部領域に表示されることができる。第2端末機200の使用者または第3端末機300の使用者がアイテムギフトアイコン10を選択すると、アイコンポップアップウィンドウ20が表示されることができる。
【0071】
いくつかの実施形態として、アイコンポップアップウィンドウ11には少なくとも1つ以上のアイテム21~23が表示され、第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。例えば、少なくとも1つ以上のアイテム21~23のそれぞれは、互いに異なる財貨的価値を有することができる。
【0072】
第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。例えば、第2端末機200の使用者または第3端末機300の使用者は、「こんにちは」というテキストを入力することができる。第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと共に「こんにちは」というメッセージを第1端末機100の使用者に送信することができる。
【0073】
他の実施形態として、第1端末機100の使用者または第3端末機300の使用者は、放送中に第2端末機200の使用者にアイテムをプレゼントしてあげることができる。第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができ、第1端末機100の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。
【0074】
図5は、本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
【0075】
図3図5を参照すると、第1端末機100の使用者または第2端末機の使用者に選択されたアイテムと共に送信された特定テキストは、音声メッセージに変換されて出力されることができる。
【0076】
いくつかの実施形態として、特定テキストは、特定使用者の声を用いて音声メッセージに変換されることができる。より具体的には、第2端末機200の使用者または第3端末機300のうちのいずれか1つの使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第1端末機100の使用者の声を用いて音声メッセージに変換されることができる。
【0077】
または、第1端末機100の使用者または第3端末機300のうちのいずれか1つの使用者が第2端末機200の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
【0078】
または、特定テキストは、特定テキストを送信した使用者の声を用いて音声メッセージに変換されることができる。すなわち、第2端末機200の使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
【0079】
図2を参照すると、特定テキスト及び特定使用者の音声を使用して音声メッセージを生成する動作は、第1端末機100または第2端末機200のプロセッサ150で行われることができる。いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて音声メッセージを生成することができる。プロセッサ150が準備された学習モデルを用いて音声メッセージを生成する方法は、図6を参照して説明することができる。
【0080】
他の実施形態として、プロセッサ150は、特定音声の特徴を抽出し、抽出された特徴を用いて音声メッセージを生成することができる。プロセッサ150が特定音声の特徴を用いて音声メッセージを生成する方法は、図7を参照して説明することができる。
【0081】
いくつかの実施形態として、第1端末機100の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第1端末機100のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第2端末機200及び第3端末機300に送信されることができる。
【0082】
他の実施形態として、第2端末機200の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第2端末機200のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第1端末機100及び第3端末機300に送信されることができる。
【0083】
図6は、本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
【0084】
図2図6を参照すると、S110段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
【0085】
S120段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。いくつかの実施形態として、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。より具体的には、プロセッサ150は、入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。
【0086】
S130段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲストからアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、そのうち、特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
【0087】
S140段階において、第1端末機100のプロセッサ150は、特定テキストを特定使用者の音声に変換した音声メッセージを生成するためのアルゴリズムを準備することができる。例えば、準備されたアルゴリズムは、特定テキストを特定使用者の音声を用いて音声メッセージに変換するために用いられるデータ認識モデルであり得る。データ認識モデルは、ニューラルネットワーク(Neural Network)を基盤とするモデルであり得る。例えば、学習モデルは、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、及びBRDNN(Bidirectional Recurrent Deep Neural Network)のようなモデルがデータ認識モデルとして使用されることができるが、これに限定されない。
【0088】
準備された学習モデルは、特定テキストを特定音声に変換した音声メッセージを生成するための学習モデルであり得る。音声メッセージを生成するための学習モデルは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
【0089】
例えば、第1端末機100のプロセッサ150は、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習することができる。端末機100は、学習結果に基づいて人工神経網を訓練して、学習モデルを生成することができる。
【0090】
他の例として、端末機100は、サーバ400から音声メッセージを生成するための学習モデルを受信することができる。このような場合、サーバ400が特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習した学習モデルを生成し、生成された学習モデルが含まれているアプリケーションを端末機100に提供することができる。
【0091】
S150段階において、第1端末機100のプロセッサ150は、アルゴリズムを用いて音声メッセージを生成することができる。より具体的には、第1端末機100のプロセッサ150は、特定使用者の音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。音声メッセージは、特定テキストが特定使用者の音声に変換された結果であり得る。
【0092】
S160段階において、第1端末機100は、生成された音声メッセージを出力することができる。より具体的には、第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
【0093】
図7は、本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
【0094】
図1図5及び図7を参照すると、S210段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
【0095】
S220段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。より具体的には、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。また、第1端末機100の使用者の音声は、メモリー130に保存されることができる。
【0096】
S230段階において、第1端末機100のプロセッサ150は、基準時間以上特定使用者の音声が認識されると、音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。
【0097】
S240段階において、第1端末機100のプロセッサ150は、抽出された音声特徴に基づいて比較音声を生成することができる。そして、S250段階において、第1端末機100のプロセッサ150は、特定使用者の音声と生成された比較音声を比較することができる。
【0098】
S260段階において、第1端末機100のプロセッサ150は、比較結果に応じて、音声特徴をメモリー130に保存することができる。いくつかの実施形態として、特定使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリーに保存することができる。例えば、誤差は、特定使用者の音声及び比較音声の間のサンプリング値の差によって計算されることができる。特定使用者の音声及び比較音声の間の誤差を計算する方法は、これに限定されず、様々な方法を用いて計算することができる。
【0099】
いくつかの実施形態として、音声認識中にノイズが第1端末機100の使用者の音声と認識された場合、抽出された音声特徴を用いて生成された比較音声は、第1端末機100の使用者の音声と誤差が大きくなり得る。したがって、音声特徴を用いて第1端末機100の使用者の音声と類似した音声を生成するために、プロセッサ150は、音声特徴を用いて比較音声を生成し、第1端末機100の使用者の音声と比較音声を比較する過程を行うことができる。
【0100】
S270段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲスト(使用者)からアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、その中で特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
【0101】
S280段階において、第1端末機100のプロセッサ150は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。いくつかの実施形態として、プロセッサ150により、音声特徴に基づいて生成された音声メッセージは、特定使用者の音声と類似または同一であり得る。第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
【0102】
図8は、本発明の実施形態に係る端末機のプロセッサを示す図である。
【0103】
図1図2図6及び図8を参照すると、第1端末機100のプロセッサ150は、音声認識部151、及びモデル適用部153を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
【0104】
音声認識部151は、放送中に第1端末機100の入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。いくつかの実施形態として、音声認識部151は、入力されたオーディオデータを分析して、音声区間と非音性区間を区分することができる。音声認識部151は、非音性区間に含まれたオーディオデータを除き、音声区間に含まれたオーディオデータの音声を認識し、モデル適用部153に送信することができる。
【0105】
モデル適用部153は、第1端末機100の使用者の音声及び外部から受信された特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。いくつかの実施形態として、音声メッセージを生成するための学習モデルは、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
【0106】
図9は、本発明の他の実施形態に係る端末機のプロセッサを示す図である。
【0107】
図1図2図7及び図9を参照すると、第1端末機100のプロセッサ150は、音声認識部152、特徴抽出部154、比較部156、及び音声メッセージ生成部158を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
【0108】
図9に示した音声認識部152は、図8に示した音声認識部151と類似または同一に動作することができる。音声認識部152は、音声区間に含まれたオーディオデータの音声を認識し、特徴抽出部154に送信することができる。
【0109】
特徴抽出部154は、第1端末機100の使用者の音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。特徴抽出部154は、抽出された音声特徴を用いて比較音声を生成することができる。そして、特徴抽出部154は、生成された比較音声を比較部156に送信することができる。
【0110】
比較部156は、第1端末機100の使用者の音声と比較音声を比較することができる。比較部156は、比較結果に応じて音声特徴をメモリー130に保存することができる。
【0111】
いくつかの実施形態として、第1端末機100の使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリー130に保存することができ、音声メッセージ生成部158に音声特徴を送信することができる。
【0112】
例えば、誤差は、第1端末機100の使用者の音声と比較音声との間のサンプリング値の差によって計算することができる。第1端末機100の使用者の音声と比較音声との間の誤差を計算する方法はこれに限定されず、様々な方法を用いて計算することができる。
【0113】
もし、第1端末機100の使用者の音声と比較音声との間の誤差が基準値を超過したら、比較部156は、特徴抽出部154にフィードバック信号を送信することができる。フィードバック信号が特徴抽出部154に受信されると、特徴抽出部154は、第1端末機100の使用者の音声から再び特徴を抽出することができる。
【0114】
音声メッセージ生成部158は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。
【0115】
図1図9を参照すると、本発明の実施形態に係る複数の端末機100~300のそれぞれは、より効果的にリアルタイム放送を行うことができる。
【0116】
また、複数の端末機100~300のそれぞれは、リアルタイム放送のサービスによって人間関係を拡張できるサービスを提供することができる。
【0117】
以上で説明された実施形態は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能なコマンドを含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる任意の可用な媒体であることができ、揮発性及び不揮発性媒体、分離型及び非分離型媒体をすべて含むことができる。
【0118】
また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体または通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能コマンド、データ構造、プログラムモジュールまたはその他のデータのような情報の保存のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体をすべて含むことができる。通信媒体は、典型的にコンピュータ判読可能コマンド、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他の出力メカニズムを含み、任意の情報伝達媒体を含むことができる。
【0119】
以上、添付された図面を参照して、本発明の実施形態を説明したが、本発明が属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施形態は、すべての面で例示的なものであり、限定的でないものとして理解しなければならない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2022-07-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供するホスト端末機の動作方法において、
前記放送チャンネルに入場した複数のゲストのゲスト端末機に、前記リアルタイム放送を送信する段階と、
ホストの音声を受信し、前記ホストの音声から、前記ホストの音声特徴を認識する段階と、
前記複数のゲストのうち第1ゲストの第1端末機から、前記ホストの音声に変換を要請する対象である第1テキストを受信する段階と、
前記ホストの音声特徴に基づき、前記第1テキストが前記ホストの音声で発話される第1音声メッセージを生成する段階と、
前記第1音声メッセージを前記複数のゲストのゲスト端末機に伝送する段階と、
を含む、ホスト端末機の動作方法。
【請求項2】
前記第1テキストを受信する段階は、前記第1端末機から、前記第1テキストと、前記第1ゲストによって選択されたアイテムとを共に受信する段階を含み、
前記第1音声メッセージを生成する段階は、前記第1端末機から、前記第1テキストと前記アイテムとが共に受信されれば、前記第1音声メッセージを生成する段階を含み、
前記アイテムは、前記サービス内において、財貨的価値を有する、
請求項1に記載のホスト端末機の動作方法。
【請求項3】
前記第1音声メッセージを出力する段階をさらに含む、
請求項1に記載のホスト端末機の動作方法。
【請求項4】
前記第1音声メッセージを生成する段階は、複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された学習モデルを利用し、前記第1テキストが前記ホストの音声で発話される前記第1音声メッセージを生成する段階を含む、
請求項1に記載のホスト端末機の動作方法。
【請求項5】
前記ホストの音声から前記音声特徴を抽出する段階と、
前記抽出された音声特徴に基づいて比較音声を生成する段階と、
前記ホストの音声及び前記比較音声を比較する段階と、
前記比較の結果に応じて前記音声特徴を保存する段階と、
をさらに含む、
請求項4に記載のホスト端末機の動作方法。
【請求項6】
前記ホストの音声及び前記比較音声を比較する段階は、前記ホストの音声及び前記比較音声の間のサンプリング値の誤差を計算し、
前記比較の結果に応じて前記音声特徴を保存する段階は、前記誤差が基準値以下である場合、前記音声特徴を保存する、
請求項5に記載のホスト端末機の動作方法。
【請求項7】
放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送を出力するディスプレイと、
前記ホストの音声を受信する入出力インターフェースと、
前記放送チャンネルに入場した複数のゲストのゲスト端末機と通信を行う通信インターフェースと、
プロセッサと、
前記プロセッサによって実行可能な命令語を保存するメモリと、
を含み、前記プロセッサは、前記命令語を実行することにより、
前記通信インターフェースを介し、前記複数のゲストのうち、第1ゲストの第1ゲスト端末機から、前記ホストの音声に変換を要請する対象である第1テキストを受信し、
前記ホストの音声特徴に基づき、前記第1テキストを前記ホストの音声に変換する第1音声メッセージを生成し、
前記通信インターフェースを介し、前記第1音声メッセージを前記複数のゲストのゲスト端末機に伝送し、
前記入出力インターフェースを介し、前記第1音声メッセージを出力する、
端末機。
【請求項8】
リアルタイム放送サービスにおいて、ホストの放送チャンネルを利用するゲストのゲスト端末機の動作方法において、
前記放送チャンネルを介し、ホスト端末機からリアルタイム放送を受信する段階と、
前記ホストの音声に変換を要請する対象である第1テキストを入力され、前記第1テキストを前記ホスト端末機に伝送する段階と、
前記ホスト端末機で認識された前記ホストの音声特徴に基づき、前記ホスト端末機で生成された、前記第1テキストが前記ホストの音声で発話されるところの第1音声メッセージを受信する段階と、
前記第1音声メッセージを出力する段階と、
を含む、ゲスト端末機の動作方法。
【請求項9】
前記ホストに伝送するアイテムと、前記第1テキストとを入力される段階と、
前記アイテムと前記第1テキストとを共に前記ホスト端末機に伝送する段階と、
をさらに含む、請求項8に記載のゲスト端末機の動作方法。
【請求項10】
放送チャンネルのホストのホスト端末機と通信を行う通信インターフェースと、
前記放送チャンネルのホストのリアルタイム放送を出力するディスプレイと、
前記放送チャンネルのゲストから、前記ホストの音声に変換を要請する対象である第1テキストを入力される入出力インターフェースと、
プロセッサと、
前記プロセッサによって実行可能な命令語を保存するメモリと、
を含み、前記プロセッサは、前記命令語を実行することにより、
前記通信インターフェースを介し、前記第1テキストを前記ホスト端末機に伝送し、
前記通信インターフェースを介し、前記ホスト端末機から、前記ホストの音声特徴に基づいて生成された、第1音声メッセージを受信し、前記第1音声メッセージは、前記第1テキストが前記ホストの音声で発話され、
前記入出力インターフェースを介し、前記第1音声メッセージを出力する
端末機。
【請求項11】
ホストの放送チャンネルを介し、複数のゲストが、前記ホストのリアルタイム放送を受信するサービスを提供する放送サービス提供システムにおいて、
前記複数のゲストのうち第1ゲストから、前記ホストの音声に変換を要請する対象である第1テキストを入力され、前記第1テキストを前記ホストのホスト端末機に伝送し、前記ホスト端末機から受信された第1音声メッセージを出力する第1ゲスト端末機と、
前記ホストの音声を受信し、前記ホストの音声から、前記ホストの音声特徴を認識し、前記第1ゲスト端末機から、前記第1テキストを受信し、前記ホストの音声特徴に基づき、前記第1テキストが、前記ホストの音声で発話する前記第1音声メッセージを生成し、前記第1音声メッセージを、前記複数のゲストのゲスト端末機に伝送する前記ホスト端末機と、
前記ホスト端末機から受信された前記第1音声メッセージを出力する第2ゲスト端末機と、
を含む、放送サービス提供システム。