IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧 ▶ ワークスモバイルジャパン株式会社の特許一覧

特許7562610映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
<>
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図1
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図2
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図3
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図4
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図5
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図6
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図7
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図8
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図9
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図10
  • 特許-映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-27
(45)【発行日】2024-10-07
(54)【発明の名称】映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
(51)【国際特許分類】
   G10L 13/00 20060101AFI20240930BHJP
   G10L 13/033 20130101ALI20240930BHJP
   G10L 13/10 20130101ALI20240930BHJP
【FI】
G10L13/00 100V
G10L13/033 102A
G10L13/10 112Z
【請求項の数】 11
(21)【出願番号】P 2022130579
(22)【出願日】2022-08-18
(62)【分割の表示】P 2020024004の分割
【原出願日】2020-02-17
(65)【公開番号】P2022163217
(43)【公開日】2022-10-25
【審査請求日】2023-02-13
(31)【優先権主張番号】10-2019-0134240
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2019-0164647
(32)【優先日】2019-12-11
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】523303688
【氏名又は名称】LINE WORKS株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】朴 ▲そ▼▲ひょん▼
(72)【発明者】
【氏名】李 珠賢
(72)【発明者】
【氏名】金 在▲みん▼
(72)【発明者】
【氏名】宋 根
(72)【発明者】
【氏名】黄 紹靖
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2011-059412(JP,A)
【文献】韓国公開特許第10-2005-0031525(KR,A)
【文献】韓国公開特許第10-2007-0098362(KR,A)
【文献】米国特許出願公開第2013/0085748(US,A1)
【文献】国際公開第2014/002716(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G06F 3/00- 3/0489、 3/16
H04N 5/262-5/28
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを含むコンピュータ装置によるコンテンツ編集支援方法であって、
前記少なくとも1つのプロセッサにより、映像コンテンツから複数のスナップショットを抽出する段階、
前記少なくとも1つのプロセッサにより、前記抽出された複数のスナップショットを前記映像コンテンツのタイムラインに従って表示する段階、
前記少なくとも1つのプロセッサにより、前記映像コンテンツから音声を抽出してテキストに変換する段階、
前記少なくとも1つのプロセッサにより、前記変換されたテキストを選択された音声タイプの音声に変換する段階、および
前記少なくとも1つのプロセッサにより、前記映像コンテンツから音声が抽出された区間において、既存の音声を前記変換された音声と代替する段階、
を含む、方法。
【請求項2】
前記抽出する段階は、
前記複数のスナップショットとして、映像コンテンツから一定の間隔のフレームを抽出する段階、
を含む、請求項1に記載の方法。
【請求項3】
前記抽出する段階は、
前記映像コンテンツを分析して、登場人物、特定のシーン、または、アクションが含まれたフレームを抽出する段階、
を含む、請求項1に記載の方法。
【請求項4】
前記方法は、さらに、
前記タイムラインの第1時点に対する選択を受信する段階、および
前記第1時点に対応する前記映像コンテンツのサムネイルおよび前記第1時点に対応する音声に対するテキストを表示する段階、
を含む、請求項1に記載の方法。
【請求項5】
前記方法は、さらに、
前記少なくとも1つのプロセッサにより、前記代替された音声に対するコピーまたは切り取り機能を提供する段階、および
前記少なくとも1つのプロセッサにより、前記タイムラインに対して選択された第2時点に、前記機能によってコピーまたは切り取られた音声を追加する段階、
を含む、請求項1に記載の方法。
【請求項6】
前記方法は、さらに、
前記少なくとも1つのプロセッサにより、ユーザの音声タイプを生成する機能を提供する段階、
を含み、
前記機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して、新たな音声タイプを生成する機能を含む、
請求項1に記載の方法。
【請求項7】
前記方法は、さらに、
前記代替された音声に対応するテキストの内容のうちの少なくとも一部を、前記タイムラインに対して選択された第3時点と連携して表示する段階、
を含む、請求項1に記載の方法。
【請求項8】
前記方法は、さらに、
ユーザの入力によって前記代替された音声に対応するテキストの内容、前記代替された音声に対応する音声タイプ、および、前記代替された音声の開始時間のうちの少なくとも1つを編集するための機能を提供する段階、
を含む、請求項7に記載の方法。
【請求項9】
前記方法は、さらに、
前記少なくとも1つのプロセッサにより、複数の効果音のうちの少なくとも1つの効果音に対する選択を受信する段階、および
前記少なくとも1つのプロセッサにより、前記タイムラインに対して選択された第4時点に、前記選択された効果音を追加する段階、
を含む、請求項1に記載の方法。
【請求項10】
記映像コンテンツから音声が抽出された区間において、既存の音声を前記変換された音声と代替する段階は、
前記映像コンテンツから前記タイムラインに対して選択された第5時点に対する話し手の音声を除去した後既存の音声を前記変換された音声と代替する段階、
を含む、請求項1に記載の方法。
【請求項11】
前記方法は、さらに、
前記テキストを校正する第1機能および前記テキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供する段階、
を含み、
前記音声に変換する段階は、
前記第1機能によって校正されるか前記第2機能によって翻訳されたテキストを、前記選択された音声タイプの音声に変換する段階、
を含む、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステムに関する。
【背景技術】
【0002】
映像コンテンツ編集に関する多様な技術が存在する。例えば、特許文献1は、動画字幕編集方法に関するものであって、DVDレコーダで光ディスクに記録された動画ファイルを再生しながら、この動画と関連する字幕ファイルの字幕部分をリアルタイムで編集できるようにする動画字幕編集方法を開示している。
【0003】
しかし、映像コンテンツが既に保有している映像や字幕、オーディオなどを編集することは相対的に容易であることに比べ、映像コンテンツに、ユーザが所望する内容、特に、特定の音声や効果音などの合成音を新たに追加することは、ユーザが合成音を取得することも容易でないことに加え、取得した合成音を映像コンテンツの所望する部分に追加することも容易ではないことが現状である。
【先行技術文献】
【特許文献】
【0004】
【文献】韓国公開特許第10-2007-0013122号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる、コンテンツ編集支援方法およびシステムを提供する。
【課題を解決するための手段】
【0006】
少なくとも1つのプロセッサを含むコンピュータ装置のコンテンツ編集支援方法であって、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出する段階、前記少なくとも1つのプロセッサにより、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示する段階、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づき、前記入力されたテキストを前記選択された音声タイプの音声に変換する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する段階を含む、コンテンツ編集支援方法を提供する。
【0007】
一側によると、前記変換された音声を追加する段階は、前記タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、前記変換された音声を追加してよい。
【0008】
他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記追加された音声のコピーまたは切り取り機能を提供する段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記機能によってコピーまたは切り取られた音声を追加する段階をさらに含んでよい。
【0009】
また他の側面によると、前記選択された音声タイプは、声および感情の調和によって予め定義され、前記コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。
【0010】
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供する段階をさらに含み、前記機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して新たな音声タイプを生成する機能を含んでよい。
【0011】
また他の側面によると、前記追加された音声に対応するテキストの内容のうちの少なくとも一部は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示されてよい。
【0012】
また他の側面によると、前記少なくとも一部の内容が表示された領域に対するユーザの入力によって前記追加された音声に対応するテキストの内容、前記追加された音声に対応する音声タイプ、および前記追加された音声の開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。
【0013】
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで提供される複数の効果音のうちの1つが選択される段階、および前記少なくとも1つのプロセッサにより、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記選択された効果音を追加する段階をさらに含んでよい。
【0014】
また他の側面によると、前記追加された効果音に関する情報は、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点と連携して表示され、前記情報が表示された領域に対するユーザの入力によって前記追加された効果音の種類および開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。
【0015】
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツを分析することで、前記変換された音声を追加する前記タイムライン上の時点を推薦する段階をさらに含んでよい。
【0016】
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツで前記タイムラインに対して選択された時点の映像を分析することで、前記選択された時点のための音声タイプおよび効果音のうちの少なくとも1つを推薦する段階をさらに含んでよい。
【0017】
また他の側面によると、前記変換する段階は、前記タイムラインに対して選択された時点を基準に、タイムラインで前記変換された音声を追加することのできる区間の長さを確認する段階、および前記確認された区間の長さに応じて前記入力されるテキストの長さを制限するか、前記変換される音声の発話速度を調節する段階を含んでよい。
【0018】
また他の側面によると、前記変換する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認する段階、および前記確認されたバックグラウンドサウンドのボリュームに応じて前記変換される音声の発話ボリュームを調節する段階を含んでよい。
【0019】
また他の側面によると、前記変換された音声を追加する段階は、前記映像コンテンツで前記タイムラインに対して選択された時点に対する話し手の音声を除去した後、前記変換された音声を追加してよい。
【0020】
また他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記映像コンテンツから音声を抽出してテキストに変換する段階、前記少なくとも1つのプロセッサにより、前記変換されたテキストを前記コンテンツ編集ツールで選択された音声タイプの音声に変換する段階、および前記少なくとも1つのプロセッサにより、前記変換された音声を前記映像コンテンツで音声が抽出された区間に追加する段階をさらに含んでよい。
【0021】
また他の側面によると、前記変換する段階は、前記入力されたテキストを校正する第1機能および前記入力されたテキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供する段階、および前記第1機能によって校正されるか前記第2機能によって翻訳されたテキストを前記選択された音声タイプの音声に変換する段階を含んでよい。
【0022】
さらに他の側面によると、前記コンテンツ編集支援方法は、前記少なくとも1つのプロセッサにより、前記タイムライン上でタイムインジケータが指示する時点に対応するサムネイルおよび前記タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報のうちの少なくとも1つを提供する段階をさらに含んでよい。
【0023】
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラムを提供する。
【0024】
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
【0025】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサにより、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出し、前記抽出された複数のスナップショットを前記コンテンツ編集ツールでタイムラインに従って表示し、前記コンテンツ編集ツールに入力されたテキストおよび前記コンテンツ編集ツールで選択された音声タイプに基づいて前記入力されたテキストを前記選択された音声タイプの音声に変換し、前記コンテンツ編集ツールで前記タイムラインに対して選択された時点に、前記変換された音声を追加する、コンピュータ装置を提供する。
【発明の効果】
【0026】
ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。
【図面の簡単な説明】
【0027】
図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。
図2】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。
図3】本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。
図4】本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。
図5】本発明の一実施形態における、効果音編集機能の例を示した図である。
図6】本発明の一実施形態における、音声編集機能の例を示した図である。
図7】本発明の一実施形態における、音声リストを編集する機能の例を示した図である。
図8】本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。
図9】本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。
図10】本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。
図11】本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。
【発明を実施するための形態】
【0028】
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
【0029】
本発明の実施形態に係るコンテンツ編集支援システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るコンテンツ編集支援方法は、コンテンツ編集支援システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールおよび実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御に従って本発明の実施形態に係るコンテンツ編集支援方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してコンテンツ編集支援方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
【0030】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境のうちの1つの例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
【0031】
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
【0032】
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0033】
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声カンファレンスサービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
【0034】
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示すコンピュータ装置200によって実現されてよい。
【0035】
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
【0036】
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。
【0037】
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードに従って生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御に従ってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ211に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0038】
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
【0039】
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
【0040】
図3は、本発明の一実施形態における、コンテンツ編集支援環境の例を示した図である。図3は、コンテンツ編集支援サーバ300、複数のユーザ310、およびコンテンツ編集ツール320を示している。
【0041】
コンテンツ編集支援サーバ300は、少なくとも1つのコンピュータ装置200によって実現されてよく、複数のユーザ310にコンテンツ編集ツール320を提供し、複数のユーザ310がコンテンツ編集ツール320を利用することで複数のユーザ310自身の映像コンテンツの編集を支援できるようにしてよい。
【0042】
複数のユーザ310は、コンテンツ編集支援サーバ300からコンテンツ編集ツール320の提供を受け、自身の映像コンテンツを編集してよい。このとき、複数のユーザ310それぞれは、実質的には、ネットワーク170を介してコンテンツ編集支援サーバ300にアクセスしてコンテンツ編集ツール320の提供を受ける物理的な電子機器であってよい。このような物理的な電子機器それぞれも、図2を参照しながら説明したコンピュータ装置200によって実現されてよい。
【0043】
コンテンツ編集ツール320は、ウェブ方式またはアプリ方式によって複数のユーザ310に提供されてよい。ウェブ方式とは、複数のユーザ310が、コンテンツ編集ツール320の機能が実現されていてコンテンツ編集支援サーバ300によって提供されるウェブページを訪問し、該当のウェブページを介してコンテンツ編集のための機能の提供を受ける方式を意味してよい。アプリ方式とは、複数のユーザ310に対応する物理的な電子機器それぞれにおいてインストールおよび実行されるアプリケーションを介してコンテンツ編集支援サーバ300に接続して、コンテンツ編集のための機能の提供を受ける方式を意味してよい。実施形態によっては、コンテンツ編集のための機能が含まれたアプリケーションを利用することにより、複数のユーザ310に対応する物理的な電子機器それぞれで自主的にコンテンツ編集を処理することも可能である。
【0044】
本実施形態に係るコンテンツ編集ツール320は、ユーザによって選択された映像コンテンツからスナップショットを抽出し、抽出されたスナップショットをタイムラインに従って表示する機能を含んでよい。このとき、コンテンツ編集ツール320は、ユーザが所望する時点や区間をタイムライン上で選択することのできる機能を提供してよく、選択された時点や区間に対してユーザが所望する任意のテキストを連携させることのできるユーザインタフェースを提供してよい。選択された時点や区間に対して任意のテキストが連携されると、コンテンツ編集ツール320は、連携されたテキストを自動で音声に変換し、選択された時点や区間に変換された音声を追加することにより、ユーザが所望する内容の音声を映像コンテンツに容易にダビングできるようにすることが可能となる。
【0045】
図4は、本発明の一実施形態における、コンテンツ編集ツールの画面例を示した図である。図4は、図3で説明したコンテンツ編集ツール320の画面例400を示している。本実施形態に係るコンテンツ編集ツール320の構成は一例に過ぎず、その構成は実施形態に応じて多様に異なってよい。
【0046】
ユーザは、自身の電子機器を利用してコンテンツ編集ツール320にアクセスしてよく、コンテンツ編集ツール320は、ユーザによって選択された映像コンテンツを再生するためのコンテンツ再生機能410、および選択された映像コンテンツを他の映像コンテンツに変更するためのコンテンツ変更機能411を含んでよい。このとき、ユーザによって選択された映像コンテンツは、ユーザがコンテンツ編集ツール320にアクセスするために利用した電子機器のローカル格納場所に格納されている映像コンテンツを含んでよい。実施形態によっては、ユーザによって選択された映像コンテンツは、電子機器のローカル格納場所ではなくウェブ上に位置する映像コンテンツであってもよい。
【0047】
また、コンテンツ編集ツール320は、テキストを音声(ボイス)に変換して映像コンテンツに対するタイムラインに追加するためのテキスト-音声変換機能420を含んでよい。テキスト-音声変換機能420は、ユーザからテキストの入力を受けるためのテキスト入力機能421、および入力されたテキストを変換する音声タイプを選択する音声タイプ選択機能422を含んでよい。音声タイプは、特定の声(一例として、予め定義されたキャラクタ「K1」の声)と感情(一例として、基本感情、悲しい、嬉しいなど)との組み合わせによって識別されてよい。図4では、感情の例として、「基本」、「悲しい」、「嬉しい」だけが示されているが、実施形態によっては、より多様な感情(一例として、「怒り」、「失望」など)が活用されてもよい。実施形態によっては、音声タイプは、発話の速度とボリュームによって異なるように識別されてもよい。言い換えれば、同じ声の同じ感情である音声タイプであったとしても、発話速度やボリュームが互いに異なる音声タイプは、互いに異なる音声タイプとして識別されてよい。実際に、テキスト-音声変換は、TTS(Text-To-Speech)のような文字-音声自動変換技術によって行われてよい。さらに、テキスト-音声変換機能420は、入力されたテキストを選択された音声タイプの音声に変換したものを予め聞くことのできる視聴機能423、および入力されたテキストを選択された音声タイプの音声に変換して映像コンテンツに対するタイムラインに追加するための音声追加機能424をさらに含んでよい。例えば、音声追加機能424がユーザによって選択(一例として、PC環境においてユーザが音声追加機能424に対応する領域をマウスでクリック、またはタッチスクリーン環境においてユーザが音声追加機能424に対応する領域を指でタッチ)した場合、コンテンツ編集ツール320は、ユーザがテキスト入力機能421によって入力したテキストを、音声タイプ選択機能422によって選択された音声タイプの音声に変換した後、映像コンテンツに対するタイムラインに追加してよい。該当の音声がタイムラインのどこに追加されるかについては、以下でさらに詳しく説明する。
【0048】
また、コンテンツ編集ツール320は、予め製作された効果音を映像コンテンツに対するタイムラインに追加するための効果音追加機能430を含んでよい。効果音追加機能430は、予め製作された多数の効果音のリストを表示し、効果音の視聴を実行するための機能や、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。必要によっては、ユーザが所望する効果音を外部ファイルから追加してもよいし、直接生成してもよい。
【0049】
また、コンテンツ編集ツール320は、映像コンテンツに対するタイムラインを可視的に表現するためのタイムライン表示機能440を含んでよい。タイムライン表示機能440は、ユーザによって選択された映像コンテンツから抽出されたサムネイルを時間に従って表示するための機能を含んでよい。タイムラインに適用される時間は、映像コンテンツの時間に対応してよく、実施形態によっては、予め定義された時間(一例として、5分)に制限されてもよい。例えば、コンテンツ編集ツール320は、映像コンテンツの5分間の分量のフレームのうちからサムネイルを抽出し、タイムライン表示機能440によって時間に従って表示してよい。このとき、ユーザは、タイムライン表示機能440のサムネイルを目で確認しながら、所望する時点や区間に音声や効果音のような合成音を追加してよい。例えば、ユーザが所望する時点は、タイムインジケータ450によって設定されてよい。ユーザは、タイムインジケータ450をドラッグするか、所望するタイムラインの位置をクリックする方式により、タイムラインで所望する時点を設定してよい。図4において、タイムインジケータ450と関連して表示された時刻「02:16.46」は、タイムラインでタイムインジケータ450が指示する時点を示してよい。
【0050】
ユーザがテキスト-音声変換機能420に含まれる音声追加機能424を選択すると、テキスト入力機能421によって入力されたテキストは、音声タイプ選択機能422によって選択された音声タイプの音声に変換されてよく、このとき、変換された音声は、タイムインジケータ450が指示する時点に追加されてよい。
【0051】
また他の実施形態として、ユーザが音声追加機能424を選択すると、テキスト入力機能421によって入力されたテストおよび音声タイプ選択機能422によって選択された音声タイプは、タイムインジケータ450が指示する時点に対応して保存されてよい。このような情報を利用しながら、必要な場合(例えば、視聴または動画生成の要求時など)に、入力されたテキストを選択された音声タイプの音声に変換して提供してよい。
【0052】
また、コンテンツ編集ツール320は、タイムラインで音声や効果音のような合成音が追加された区間を表示してよい。例えば、点線枠460にはタイムラインに追加された音声に対する区間を、点線枠470にはタイムラインに追加された効果音に対する区間をそれぞれ示してよい。例えば、点線枠460で「テキスト1」に対応する区間は、ユーザがテキスト入力機能421によって入力したテキスト1によって変換された音声が追加された区間を意味してよい。該当の区間の位置には、実際には「テキスト1」の内容のうちの少なくとも一部が表示されることにより、ユーザが追加された音声の内容を容易に確認することができるように支援する。
【0053】
このように、ユーザは、コンテンツ編集ツール320を利用して音声をリアルタイムで生成したり、予め生成された効果音などを活用したりすることで、自身が所望する合成音を映像コンテンツに容易に追加することができ、これにより、映像コンテンツが既に含んでいる情報を編集するのではなく、新たな合成音を追加するなどのコンテンツ編集を容易に処理することが可能となる。
【0054】
さらに、コンテンツ編集ツール320は、合成音が追加された映像コンテンツを保存するための保存機能480、および合成音が追加された映像コンテンツをユーザの電子機器にダウンロードするためのダウンロード機能490をさらに含んでよい。
【0055】
以下、コンテンツ編集ツール320が提供することのできる、より多様な機能について説明する。
【0056】
図5は、本発明の一実施形態における、効果音編集機能の例を示した図である。図5は、図4を参照しながら説明した画面例400の一部分500を示している。ユーザがコンテンツ編集ツール320でタイムラインと関連して表示された効果音を選択すると、選択された効果音に対する効果音編集機能が提供されてよい。図5の実施形態は、ユーザが効果音2(510)を選択することにより、点線枠520のように効果音編集機能が提供された例を示している。例えば、PC環境のユーザが、効果音2(510)が表示された領域をマウスオーバーした場合、点線枠520のように効果音編集機能が提供されてよい。効果音編集機能は、効果音2(510)のタイムライン上における開始時点を変更するための時点変更機能521、および効果音2(510)をコピー、切り取り、および/または削除するための編集機能522を含んでよい。コピーあるいは切り取られた効果音は、タイムラインの他の時点に貼り付けられてよい。例えば、コピーあるいは切り取られた効果音2(510)は、ユーザの入力により、図4で説明したタイムインジケータ450が指示する時点に貼り付けられてよい。
【0057】
図6は、本発明の一実施形態における、音声編集機能の例を示した図である。図6は、図4を参照しながら説明した画面例400の一部分600を示している。ユーザがコンテンツ編集ツール320でタイムラインと関連して表示された音声を選択すると、選択された音声に対する効果音編集機能が提供されてよい。図6の実施形態は、ユーザがテキスト3(610)を選択することにより、点線枠620のように音声編集機能が提供される例を示している。実質的に、ユーザは、テキスト3(610)の内容を編集することによって音声を編集してよい。例えば、ユーザがテキスト3(610)の内容を変更すると、コンテンツ編集ツール320は、変更されたテキストの内容を予め選択された音声タイプの音声に再変換することによって既存の音声と代替してよい。
【0058】
他の例として、テキストに対する音声への変換は、音声提供が必要な場合(例えば、視聴または動画生成の要求時など)まで遅延されてよい。この場合、特定の時点に対応するテキストおよび音声タイプをアップデートすることにより、ユーザは自由にテキストの内容を変更してよい。
【0059】
テキストの内容を編集する機能は、図4を参照しながら説明したテキスト-音声変換機能420のテキスト入力機能421によって行われてよく、または、以下で図7を参照しながら説明するように、個別の音声リストに基づいて行われてよい。
【0060】
また、ユーザは、テキストの内容だけではなく、音声タイプを変更してもよい。実施形態によっては、テキストの内容を変更された音声タイプの内容に再変換することによって既存の音声と代替してもよいし、特定の時点に対応するテキストおよび音声タイプをアップデートして保存してもよい。
【0061】
このような音声タイプの変更は、図4を参照しながら説明したテキスト-音声変換機能420の音声タイプ選択機能422によって行われてよく、または、図7を参照しながら説明するように、個別の音声リストに基づいて行われてよい。一例として、コンテンツ編集ツール320は、ユーザが音声タイプ選択機能422によって他の音声タイプを選択するか、図7で説明する音声リストから他の音声タイプを選択した場合、選択された他の音声タイプに従ってテキスト3(610)の内容を再変換してよく、再変換された音声を既存の音声と代替してよい。実施形態によっては、音声に対してコピー、切り取り、および/または削除するための機能が提供されてよい。
【0062】
図7は、本発明の一実施形態における、音声リストを編集する機能の例を示した図である。図7は、コンテンツ編集ツール320が提供することのできる音声リストの編集機能の画面例700を示している。第1点線枠710は、音声リストに含まれる個別の音声に対して設定された音声タイプ(一例として、図7のボイスフォント)を、第2点線枠720は、個別の音声のタイムラインにおける開始時間を、第3点線枠730は、個別の音声に対応するテキストの内容を、第4点線枠740は、個別の音声の長さをそれぞれ示している。このとき、コンテンツ編集ツール320は、第1点線枠710に示された個別の音声別の音声タイプを、他の音声タイプに変更するための機能を提供してよい。また、コンテンツ編集ツール320は、第3点線枠730に示されたテキストの内容を編集するための機能を提供してよい。また、第5点線枠750は、個別の音声に対する視聴のための機能を、第6点線枠760は、個別の音声を削除するための機能をそれぞれ示している。さらに、音声リストの編集機能は、新たな音声を生成するための機能を含んでもよい。第7点線枠770は、新たな音声の生成のために音声タイプ、開始時間、およびテキストの内容を設定するための機能を示している。
【0063】
図8は、本発明の一実施形態における、音声タイプを編集する機能の例を示した図である。図8は、コンテンツ編集ツール320が提供することのできる音声タイプの編集機能の画面例800を示している。音声タイプを編集する機能は、多様な音声タイプのうちから主に使用する音声タイプを選択するための機能、および特定の音声タイプの音声を聞くための機能を含んでよい。例えば、ユーザが音声タイプK1-嬉しい810を選択し、テキスト入力機能820によってテキストを入力した後に視聴ボタン830を押した場合、入力されたテキストを音声タイプK1-嬉しい810によって変換した音声を視聴することができる。
【0064】
図7および図8は、音声リストを編集する機能と音声タイプを編集する機能をそれぞれ示しており、実施形態によっては、図7の音声リストを編集する機能と図8の音声タイプを編集する機能を1つのウィンドウやページで実現することにより、ユーザが個別の音声に対するテキストの内容や音声タイプなどをより簡単に編集できるようにしてもよい。
【0065】
図9は、本発明の一実施形態における、ユーザ自身の音声タイプを生成する機能の例を示した図である。音声タイプを生成する機能は、生成しようとする音声タイプ名の入力を受ける機能910、予め定義された音声タイプのうちから所望の音声タイプを選択する機能920、発話の速度を調節する機能930、発話のボリュームを調節する機能940、および生成された音声タイプの音声を視聴するための機能950を含んでよい。生成された音声タイプは、該当のユーザと関連付けて保存されてよく、ユーザは、一例として、図8に示すような「マイボイスフォント」において自身が生成した音声タイプを確認および/または選択してよい。
【0066】
図10は、本発明の一実施形態における、コンテンツ編集支援方法の例を示したフローチャートである。本実施形態に係るコンテンツ編集支援方法は、コンテンツ編集ツール320を利用してコンテンツ編集支援のためのサービスを提供するコンピュータ装置200によって実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令に従ってコンピュータ装置200が図10の方法に含まれる段階1010~段階1060を実行するようにコンピュータ装置200を制御してよい。
【0067】
段階1010において、コンピュータ装置200は、コンテンツ編集ツールで選択された映像コンテンツから複数のスナップショットを抽出してよい。コンテンツ編集ツールは、図3を参照しながら説明したコンテンツ編集ツール320に対応してよい。ユーザがコンテンツ編集ツールで映像コンテンツを選択すると、コンピュータ装置200は、映像コンテンツから複数のスナップショットを抽出してよい。例えば、コンピュータ装置200は、複数のスナップショットとして、映像コンテンツから一定の間隔のフレームを抽出してもよいし、映像コンテンツを分析して登場人物が含まれているか特定のシーンやアクションが含まれているフレームを抽出してもよい。他の例として、コンピュータ装置200は、映像コンテンツから、音声が変化する区間のフレームをスナップショットとして抽出してもよい。
【0068】
段階1020において、コンピュータ装置200は、抽出された複数のスナップショットをコンテンツ編集ツールでタイムラインに従って表示してよい。例えば、図4では、タイムライン表示機能440によってタイムラインに従って複数のスナップショットが表示される例について説明した。
【0069】
段階1030において、コンピュータ装置200は、コンテンツ編集ツールに入力されたテキストおよびコンテンツ編集ツールで選択された音声タイプに基づき、入力されたテキストを選択された音声タイプの音声に変換してよい。音声タイプは、音と感情との調和に基づいて予め定義され、コンテンツ編集ツールで提供される多数の音声タイプのうちから選択されてよい。例えば、ユーザがコンテンツ編集ツールに表示された多数の音声タイプのうちから1つを選択した場合、コンピュータ装置200は、選択された音声タイプを確認してよい。テキストを音声に変換することは、上述したように、TTSのような文字音声自動変換技術によって行われてよい。
【0070】
実施形態によっては、コンピュータ装置200は、タイムラインに対して選択された時点を基準に、タイムラインで変換された音声を追加することのできる区間の長さを確認し、確認された区間の長さに応じて入力されるテキストの長さを制限するか、または変換される音声の発話速度を調節してよい。例えば、タイムラインに対して選択された時点に音声を追加するためにテキストを入力するとき、テキストが長すぎて、変換された音声の長さが追加可能な区間の長さを超えることがある。この場合、コンピュータ装置200は、入力するテキストの長さを制限するか、または変換された音声の発話速度を相対的に速く調節することにより、変換された音声の長さが追加可能な区間の長さを超過しないように制御してよい。また、該当の区間に入力可能なテキストの長さおよび予想合成音声時間を予めユーザに提供してもよい。
【0071】
他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点に対するバックグラウンドサウンドのボリュームを確認し、確認されたバックグラウンドサウンドのボリュームに応じて変換される音声の発話ボリュームを調節してよい。例えば、映像コンテンツでバックグラウンドサウンドのボリュームが極めて大きい場合、追加される音声の聞こえが悪くなるという事態が発生することがある。したがって、コンピュータ装置200は、バックグラウンドサウンドが大きいほど追加される音声の発話ボリュームも大きくなるようにしてテキストを音声に変換してよい。
【0072】
また他の実施形態において、コンピュータ装置200は、入力されたテキストを校正する第1機能および入力されたテキストを他の言語の文字に翻訳する第2機能のうちの少なくとも1つの機能を提供してよく、第1機能によって校正されるか第2機能によって翻訳されたテキストを、選択された音声タイプの音声に変換してよい。言い換えれば、コンピュータ装置200は、テキストを音声に変換する前に、コンテンツ編集ツールでテキストを校正するか、または他の言語に変換するための機能をユーザに提供してよい。入力されたテキストを校正する第1機能の場合、入力されたテキストの綴字または文法的な間違いの校正、音声合成により有利な形態の入力(例えば、必要な部分に分かち書きを追加、または合成が適切に行われない単語を発音記号そのままで表記する方法など)によって修正するか、悪口や卑属語などの禁則語が入力された場合には、これを認識して合成をできなくするように除去する機能などを含んでよい。
【0073】
段階1040において、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、変換された音声を追加してよい。例えば、コンピュータ装置200は、タイムライン上で特定の時点を示すタイムインジケータをドラッグすることによって選択された時点に、変換された音声を追加してよい。タイムインジケータは、図4を参照しながら説明したタイムインジケータ450に対応してよい。
【0074】
一方、追加された音声に対応するテキストの内容のうちの少なくとも一部が、コンテンツ編集ツールでタイムラインに対して選択された時点と連携して表示されてよい。例えば、図4では、点線枠460により、テキストの内容のうちの少なくとも一部が、タイムラインに対して該当のテキストに対して選択された時点と連携して表示される例を示している。このとき、少なくとも一部の内容が表示された領域に対するユーザの入力により、追加された音声に対応するテキストの内容、追加された音声に対応する音声タイプ、および追加された音声の開始時間のうちの少なくとも1つを編集するための機能が提供されてよい。一例として、図6では、少なくとも一部の内容が表示された領域に対するマウスオーバー入力によって音声編集機能が提供される例について説明した。
【0075】
また、他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点に対する話し手の音声を除去した後、変換された音声を追加してよい。言い換えれば、映像コンテンツでの話し手の音声を変換された音声と代替してよい。
【0076】
段階1050において、コンピュータ装置200は、コンテンツ編集ツールで提供される複数の効果音のうちの少なくとも1つの効果音の選択を受けてよい。例えば、図4では、効果音追加機能430によって予め制作された多数の効果音のリストを表示し、効果音に対する視聴を実行するか、効果音をタイムラインの特定の時間に追加するための機能を含んでよい。
【0077】
段階1060において、コンピュータ装置200は、コンテンツ編集ツールでタイムラインに対して選択された時点に、選択された効果音を追加してよい。実施形態によっては、このような段階1050および段階1060は、上述した段階1030および段階1040と並列的に実行されてもよいし、省略されてもよい。あるいは、段階1030および段階1040は省略されてもよい。
【0078】
また、実施形態によっては、コンピュータ装置200は、追加された音声に対するコピーまたは切り取り機能を提供してよく、コンテンツ編集ツールでタイムラインに対して選択された時点に、その機能を利用してコピーまたは切り取られた音声を追加してもよい。
【0079】
他の実施形態において、コンピュータ装置200は、コンテンツ編集ツールでユーザの音声タイプを生成する機能を提供してよい。このとき、その機能は、予め定義された音声タイプの発話速度および発話ボリュームのうちの少なくとも1つを調節して新たな音声タイプを生成する機能を含んでよい。
【0080】
また他の実施形態において、コンピュータ装置200は、映像コンテンツを分析することで、変換された音声を追加するタイムライン上の時点を推薦してよい。例えば、コンピュータ装置200は、映像コンテンツを分析することにより、登場人物が登場する時点や特定のシーン、またはアクションが登場する時点、または音声特徴が変わる区間などを探索してよい。このように分析された情報を利用することにより、音声や効果音を追加する時点としてユーザに推薦したり、特定のキーワード(例えば、登場人物名、検索しようとする場面の内容など)に対する検索結果として提供したり、コンテンツを挿入するインジケータの移動時に該当の時点を基準に容易に移動したりするようにできる。
【0081】
また他の実施形態において、コンピュータ装置200は、映像コンテンツでタイムラインに対して選択された時点の映像を分析することで、選択された時点のための音声タイプおよび効果音のうちの少なくとも1つを推薦してよい。例えば、ユーザがタイムインジケータによって特定の時点を選択すると、コンピュータ装置200は、選択された時点の映像を分析し、該当の時点に追加する音声に対する音声タイプまたは該当の時点に追加する効果音をユーザに推薦してよい。より具体的な例として、コンピュータ装置200は、映像から分析される登場人物の性別、年代、体形や容姿などに応じて音声タイプを推薦したり、映像から分析される特定のシーンや場所などに応じて適切な効果音を推薦したりしてよい。
【0082】
また他の実施形態において、コンピュータ装置200は、映像コンテンツから音声を抽出してテキストに変換し、変換されたテキストをコンテンツ編集ツールで選択された音声タイプの音声に変換してよい。この後、コンピュータ装置200は、変換された音声を、映像コンテンツから音声が抽出された区間に追加してよい。言い換えれば、コンピュータ装置200は、映像コンテンツに含まれる音声の声および/または感情を他の声および/または他の感情に代替することのできる機能を提供してよい。このとき、他の声および/または他の感情は、コンテンツ編集ツールで選択される音声タイプ、またはコンピュータ装置200が自主的に選択した音声タイプによって決定されてよい。
【0083】
さらに他の実施形態において、コンピュータ装置200は、タイムインジケータが指示する時点に対応する音節単位の音声に関するテキスト情報、およびその時点に対応するサムネイルのうちの少なくとも1つを提供してよい。
【0084】
図11は、本発明の一実施形態における、タイムインジケータが指示する時点に関する情報を提供する例を示した図である。図11は、図4を参照しながら説明した画面例400の一部分1100を示している。上述したように、ユーザは、タイムインジケータ450をドラッグするかタイムラインの特定の時点(位置)を選択することにより、タイムラインから特定の時点を選択してよい。
【0085】
一例として、PC環境では、ユーザがマウスでタイムインジケータ450をクリックした状態からドラッグすることによってタイムインジケータ450を移動させてよく、タッチスクリーン環境では、ユーザが指やペンなどでタイムインジケータ450をタッチした状態からドラッグすることによって、タイムインジケータ450を移動させてよい。このとき、タイムインジケータ450がクリックされた状態またはタッチされた状態の場合、コンテンツ編集ツール320は、タイムインジケータ450が指示する時点に対応するサムネイル1110および該当の時点に対応する音節単位の音声に関するテキスト情報1120を提供してよい。図4で説明する点線枠460でも対応するテキストの少なくとも一部が表示されてもよいが、これは、ユーザが該当の区間に追加された音声の内容を容易に確認できるようにするためのものである。
【0086】
一方、本実施形態において、タイムインジケータ450が指示する時点に対応して提供される音節単位の音声に関するテキスト情報1120は、実際にタイムインジケータ450が指示する時点に出力される音節単位の音声に対するテキスト内容を含んでよい。図11の実施形態では、ユーザによって選択(一例として、クリックまたはタッチ)されたタイムインジケータ450が指示している「01:17.12」の時点に該当するサムネイル1110と、該当の時点に実際に追加される音節単位の音声に対するテキスト「こんにちは」が表示される例を示している。タイムインジケータ450がユーザによって選択された状態で他の時点にドラッグされた場合、他の時点に該当するサムネイルと他の時点に実際に追加される音節単位の音声に対するテキストが表示されることは、上述した説明から容易に理解することができるであろう。この場合、ユーザは、タイムインジケータ450をドラッグしながら、多様な時点に対するサムネイルおよび/または該当の時点に追加される音節単位の音声に対するテキストを簡単に確認することができるようになる。
【0087】
このように、本発明の実施形態によると、ユーザが所望する合成音をリアルタイムで生成して映像コンテンツの所望する部分に追加することができる。
【0088】
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0089】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0090】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0091】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
【0092】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0093】
310:複数のユーザ
320:コンテンツ編集ツール
300:コンテンツ編集支援サーバ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11