IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京字跳▲網▼絡技▲術▼有限公司の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-28
(54)【発明の名称】字幕処理方法及び装置
(51)【国際特許分類】
   H04N 21/488 20110101AFI20241018BHJP
   H04N 21/431 20110101ALI20241018BHJP
   H04N 5/278 20060101ALI20241018BHJP
【FI】
H04N21/488
H04N21/431
H04N5/278
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577874
(86)(22)【出願日】2023-09-14
(85)【翻訳文提出日】2023-12-18
(86)【国際出願番号】 CN2023118772
(87)【国際公開番号】W WO2024056022
(87)【国際公開日】2024-03-21
(31)【優先権主張番号】202211117721.1
(32)【優先日】2022-09-14
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521431088
【氏名又は名称】北京字跳▲網▼絡技▲術▼有限公司
【氏名又は名称原語表記】Beijing Zitiao Network Technology Co., Ltd.
【住所又は居所原語表記】0207, 2/F, Building 4, Zijin Digital Park, Haidian District, Beijing,P. R. China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ホアン,シュエハン
(72)【発明者】
【氏名】ホアン,ジャンポン
(72)【発明者】
【氏名】ユイ,ジユン
【テーマコード(参考)】
5C023
5C164
【Fターム(参考)】
5C023AA18
5C023AA38
5C023BA01
5C023BA12
5C023BA16
5C023CA06
5C164FA29
5C164MA06S
5C164MC04S
5C164PA44
5C164UB08S
5C164UB88S
5C164UB94P
5C164UD12P
(57)【要約】
本開示は、字幕処理方法及び装置に関し、該方法は、マルチメディア素材クリップの編集中、マルチメディア素材に対応するオーディオに音声認識を行うことによって、オーディオに対応する字幕テキスト及び字幕テキスト中の各テキスト要素に対応するオーディオクリップのタイムスタンプ情報を得るステップと、各テキスト要素に対応するオーディオクリップのタイムスタンプ情報に基づいて、マルチメディア素材クリップのうちテキスト要素にマッチングする素材クリップを決定するステップと、各テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得るステップと、を含む。本開示の形態は、ある単語が発声されたときに、対応するテキスト字幕が出現する字幕アニメーション効果を実現することができ、さらに、ユーザーが指示を入力することで、動的な字幕の自動生成を実現でき、ユーザーの操作が簡単で、ユーザーエクスペリエンスの向上に有利である。
【特許請求の範囲】
【請求項1】
字幕処理方法であって、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得るステップと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、ステップと、
各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得るステップと、を含む字幕処理方法。
【請求項2】
前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の開始時刻と前記テキスト要素に対応するオーディオクリップの開始時刻とが一致しており、かつ、前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻と前記テキスト要素に対応するオーディオクリップの終了時刻とが一致しており、又は、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻が、前記テキスト要素に対応するオーディオクリップの終了時刻よりも遅れている、請求項1に記載の方法。
【請求項3】
各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る前記ステップは、
指定された第1字幕アニメーションスタイルを前記テキスト要素毎に一括して適用し、前記第1字幕アニメーションスタイルを有するテキスト要素をそれにマッチングする時間内の素材クリップと合成して、前記第1字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのある前記ターゲットマルチメディア素材を得るステップを含む、請求項1又は2に記載の方法。
【請求項4】
テキスト削除指令に応答して、前記字幕テキストから係るテキスト要素を削除し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成するステップと、をさらに含む、請求項1~3のいずれか1項に記載の方法。
【請求項5】
テキスト挿入指令に応答して、前記字幕テキストに新規テキスト要素を挿入し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、新規テキスト要素とそれに隣接するテキスト要素とは併せられて前記隣接するテキスト要素に対応するオーディオクリップのタイムスタンプ情報を共用する、ステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと結合するステップと、をさらに含む、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記新規テキスト要素の挿入位置が前記字幕テキストの先頭である場合、前記新規テキスト要素と前記字幕テキスト中の第1テキスト要素とを併せて、前記第1テキスト要素に対応するオーディオクリップのタイムスタンプを共用し、
前記新規テキスト要素の挿入位置が前記字幕テキストの途中又は終了位置である場合、前記新規テキスト要素とそれに隣接する前のテキスト要素とを併せて、前のテキスト要素に対応するオーディオクリップのタイムスタンプを共用する、請求項5に記載の方法。
【請求項7】
テキスト置換指令に応答して、前記字幕テキスト中の1つ又は複数のテキスト要素を置換テキストで置換し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、前記置換テキストは、置換対象テキスト要素に対応するオーディオクリップのタイムスタンプ情報に対応する、ステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成するステップと、をさらに含む、請求項1~6のいずれか1項に記載の方法。
【請求項8】
字幕アニメーションスタイル切り替え指令に応答して、第2字幕アニメーションスタイルを前記テキスト要素ごとに一括して適用し、前記第2字幕アニメーションスタイルを有するテキスト要素をそれにマッチングする時間範囲内の素材クリップと合成して、第2字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのあるターゲットマルチメディア素材を得るステップをさらに含む、請求項3に記載の方法。
【請求項9】
前記マルチメディア素材に対応するオーディオは、前記マルチメディア素材に含まれる元のオーディオ又は前記マルチメディア素材に付加される背景音楽である、請求項1~8のいずれか1項に記載の方法。
【請求項10】
字幕処理装置であって、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る音声認識モジュールと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するマッチングモジュールであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、マッチングモジュールと、
各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る字幕合成モジュールと、を含む、字幕処理装置。
【請求項11】
電子機器であって、
メモリと、プロセッサと、を含み、
前記メモリは、コンピュータプログラム指令を記憶するように構成されており、
前記プロセッサは、前記コンピュータプログラム指令を実行して、前記電子機器に請求項1~9のいずれか1項に記載の字幕処理方法を実現させる、電子機器。
【請求項12】
読み取り可能な記憶媒体であって、
コンピュータプログラム指令を含み、
電子機器の少なくとも1つのプロセッサは、前記コンピュータプログラム指令を実行して、前記電子機器に請求項1~9のいずれか1項に記載の字幕処理方法を実現させる、読み取り可能な記憶媒体。
【請求項13】
コンピュータプログラム製品であって、
電子機器は、前記コンピュータプログラム製品を実行して、前記電子機器に請求項1~9のいずれか1項に記載の字幕処理方法を実現させる、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は2022年9月14日に提出された中国特許出願第202211117721.1号の優先権を主張しており、上記の中国特許出願で開示されたコンテンツは全文として本願の一部としてここに引用されている。
【0002】
本開示の実施例は、字幕処理方法及び装置に関する。
【背景技術】
【0003】
ビデオ中の字幕は、ビデオのコンテンツを理解するための補助的な役割を果たすため、ビデオの編集時に字幕が付加されることがよくある。
【0004】
現在、字幕テキストを手動で入力するか、字幕認識ツールを用いて対応するオーディオを認識して字幕テキストを得、その後、オーディオを繰り返し試聴することで字幕テキストを調整分割して大量のテキストクリップを得、これらのテキストクリップをビデオと合成してビデオに字幕を付与することが一般的である。字幕のようなバッチテキストシーンに対して、ユーザーが意図した字幕効果を実現しようとすると、字幕テキストの分割結果の調整、合成及び字幕効果のプレビューを繰り返す必要があり、このような字幕編集は効率が悪い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の技術的課題を解决するために、本開示は、字幕処理方法及び装置を提供する。
【課題を解決するための手段】
【0006】
第1態様では、本開示の実施例は、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得るステップと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、ステップと、
各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得るステップと、を含む、字幕処理方法を提供する。
【0007】
第2態様では、本開示の実施例は、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る音声認識モジュールと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するマッチングモジュールであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、マッチングモジュールと、
各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る字幕合成モジュールと、を含む、字幕処理装置を提供する。
【0008】
第3態様では、本開示の実施例は、
メモリと、プロセッサと、を含み、前記メモリは、コンピュータプログラム指令を記憶するように構成されており、前記プロセッサは、前記コンピュータプログラム指令を実行して、前記電子機器に第1態様に記載の字幕処理方法を実現させるように構成されている、電子機器を提供する。
【0009】
第4態様では、本開示の実施例は、
コンピュータプログラム指令を含み、電子機器の少なくとも1つのプロセッサは前記コンピュータプログラム指令を実行して、前記電子機器に第1態様に記載の字幕処理方法を実現させる、読み取り可能な記憶媒体を提供する。
【0010】
第5態様では、本開示の実施例は、
電子機器は、前記コンピュータプログラム製品を実行して、前記電子機器に第1態様に記載の字幕処理方法を実現させる、コンピュータプログラム製品を提供する。
【図面の簡単な説明】
【0011】
本明細書に組み込まれ、本明細書の一部を構成する本明細書の図面は、本開示に適合する実施例を示し、本開示の原理を説明するために本明細書と共に使用される。
本開示の実施例の技術的解決手段をより明確に説明するために、実施例のために使用する必要がある図面を以下に簡単に説明するが、当業者にとって創造的な労力を払うことなく、これらの図面から他の図面を得ることができることは明白である。
図1図1は、本開示の一実施例による字幕処理方法のフローチャートである。
図2図2は、本開示の別の実施例による字幕処理方法のフローチャートである。
図3図3は、本開示の別の実施例による字幕処理方法のフローチャートである。
図4A図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4B図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4C図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4D図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4E図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4F図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4G図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4H図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図4I図4A図4Iは、本開示によるヒューマンコンピュータインタラクションインタフェースの概略図である。
図5図5は、本開示の一実施例による字幕処理装置の構造概略図である。
【発明を実施するための形態】
【0012】
本開示の上記の目的、特徴、及び利点をより明確に理解することを可能にするために、本開示の態様は以下でさらに説明される。なお、本開示の実施例及び実施例における特徴は、矛盾することなく互いに組み合わされてもよい。
【0013】
本開示の十分な理解を容易にするために、多くの具体的な詳細が以下の説明で説明されるが、本開示は、本明細書で説明されているものとは異なる他の方法で実施されてもよい。明らかに、明細書における実施例は、本開示の一部の実施例にすぎず、全ての実施例ではない。
【0014】
字幕はユーザーがビデオのコンテンツを理解するのを補助し、異なる字幕効果はより多次元のコンテンツを表現することができ、例えば、ビデオ中のオーディオにおいてある単語を発話したときに対応するテキストが出現するような字幕効果は、劇伴的な表現ではナレーションを、talking的な表現では話者の自信と高揚感を表現するのによく用いられる。このような特定の字幕効果を実現するためには、ユーザーが字幕を手動で入力することで字幕テキストを1文字ずつに分割し、その後、音声の試聴を繰り返して調整することが多い。さらに、完全な文をユーザーが入力することで、キーフレームマスクを使用してテキストが1つずつ表示されるような効果を得ることもできる。字幕編集は効率が悪いだけでなく、モバイル端末での操作が極めて不便である。
【0015】
以上に基づいて、本開示の実施例は、字幕処理方法及び装置を提供し、該方法は、マルチメディア素材の編集中、マルチメディア素材に対応するオーディオに音声認識を行って、オーディオに対応する字幕テキスト及び字幕テキスト中の各テキスト要素に対応するオーディオクリップのタイムスタンプ情報を得るステップと、各テキスト要素に対応するオーディオクリップのタイムスタンプ情報に基づいて、マルチメディア素材クリップのうちテキスト要素にマッチングする素材クリップを決定するステップと、各テキスト要素をそれぞれマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得るステップと、を含む。本開示では、テキスト要素にマッチングするビデオフレーム画像の時間範囲の開始時刻と該テキスト要素に対応するオーディオクリップの開始時刻とが一致しており、それによって、能ある単語が発声されたときに、対応するテキスト字幕が出現する字幕アニメーション効果を実現することができ、さらに、ユーザーが指示を入力することで、動的な字幕の自動生成を実現でき、ユーザーの操作が簡単で、ユーザーエクスペリエンスの向上に有利であり、しかも、本開示の方法は、様々なタイプの機器に適用することができ、適用範囲が広い。
【0016】
本開示による方法は、タブレット、携帯電話(例えば、折り畳み式携帯電話、大画面式携帯電話など)、ウェアラブルデバイス、車載デバイス、拡張現実(AR:augmented reality)/仮想現実(VR:virtual reality)デバイス、ラップトップ、ウルトラモバイルパーソナルコンピュータ(UMPC:ultra-mobile personal computer)、ネットブック、パーソナルデジタルアシスタント(PDA:personal digital assistant)などであってもよいが、これらに限定されるものではない電子機器によって実行することができ、本開示は、電子機器の具体的なタイプについていかなる制限も与えない。
【0017】
図1は、本開示の一実施例による字幕処理方法の流れ概略図である。電子機器が本実施例の方法を実行する場合を例にして説明し、電子機器には、編集用アプリケーションがインストールされており、ユーザーはアプリケーションを通じてマルチメディア素材を編集することができる。図1に示すように、本実施例の方法は、S101~S103を含む。
【0018】
S101:マルチメディア素材の編集中、マルチメディア素材に対応するオーディオに音声認識を行って、オーディオに対応する字幕テキスト及び字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る。
【0019】
マルチメディア素材は、ユーザーがリアルタイムで録画するビデオ素材であってもよく、以前に編集されたビデオ素材であってもよく、電子機器に記憶されたビデオ素材であってもよく、本開示はこれについて限定せず、オーディオ素材、画像素材などであってもよく、本開示は、マルチメディア素材のタイプについて限定しない。また、本開示は、マルチメディア素材の数についても限定せず、マルチメディア素材が複数存在する場合、複数のマルチメディア素材は、導入順番に従って配列されて、1つの全体とみなされ得る。
【0020】
マルチメディア素材に対する編集は、オーディオを持つマルチメディア素材又はオーディオ素材を予め録音したり導入したり、又は、マルチメディア素材(例えばビデオ素材や画像素材)に背景音楽を付加したりするものとして理解され得る。もちろん、編集方式はこれらに限定されない。
【0021】
字幕テキストは、現在編集中のマルチメディア素材に対応するオーディオに対してテキストを認識することにより得られ、ここで、マルチメディア素材に対応するオーディオは、マルチメディア素材に含まれる元のオーディオやユーザーがマルチメディア素材に付加する背景音楽であってもよく、背景音楽は、完全な歌曲、又は歌曲の一部のセグメント、又は切り取られたオーディオクリップなどのようなアプリケーション内のオーディオであってもよく、本開示はこれについて限定しない。マルチメディア素材がオーディオ素材である場合、マルチメディア素材自体を音声認識することができる。
【0022】
いくつかの実施例では、アプリケーションは、電子機器を介してオーディオをミドルオフィスサービスに送信することができ、ミドルオフィスサービスは、オーディオをテキスト認識するために字幕認識ツールを呼び出し、対応する字幕テキスト及び字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得、タイムスタンプ情報は、オーディオクリップの開始時刻及び終了時刻を含んでもよい。
【0023】
例えば、マルチメディア素材クリップに対応するオーディオの合計時間は7秒であり、オーディオを音声認識して得られた字幕テキストは、
【数1】
との合計7つのテキスト要素であり、各テキスト要素は1秒のオーディオクリップに対応するので、各テキスト要素と対応するオーディオクリップのタイムスタンプ情報との対応関係は、表1に示される。
【0024】
【表1】
【0025】
上記の例では、オーディオに使用されている言語の種類を中国語として例示すると、対応するテキスト要素は単語単位である。オーディオが他の言語である場合、テキスト要素は対応する単語単位になり、例えば、オーディオが英語である場合、テキスト要素は英語の単語単位になる。
【0026】
いくつかの実施例では、アプリケーションは、ユーザーによって入力された指令に応答して音声認識を実行してもよい。本開示は、音声認識をトリガーする指令の実装を限定しない。いくつかの実施例では、音声認識の指令は、クリック、ダブルクリック、長押し、スワイプなどのタイプの操作を含んでもよいが、これらに限定されない。例えば、マルチメディア素材に認識字幕を付加する対応する領域/コントロールがアプリケーションの1つのページ上に配置されている場合、音声認識の指令は、その領域/コントロール上で受け付けられた操作であってもよい。
【0027】
S102:各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、マルチメディア素材中の各素材単位とマッチングし、マルチメディア素材のうち各テキスト要素にそれぞれマッチングする素材クリップを決定し、テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間とテキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している。
【0028】
マルチメディア素材が画像素材/ビデオ素材である場合、マルチメディア素材のうちテキスト要素にマッチングする素材クリップを画像クリップ/ビデオクリップと捉えることができ、素材クリップにはテキスト要素と合成された画像フレーム/ビデオフレームが含まれる。マルチメディア素材がオーディオ素材である場合、マルチメディア素材のうちテキストにマッチングする素材クリップをオーディオクリップと捉えることができ、素材クリップにはテキスト要素と合成された1つ又は複数の音声発音単位が含まれる。
【0029】
本開示による字幕処理方法は、ある単語が発話されたときに対応するテキスト字幕が出現するような字幕効果を実現することを目的としているので、各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、マッチングする素材クリップを決定すると、テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間と素材クリップの編集タイムラインにおける時間とが一致している。
【0030】
ここで、編集タイムラインにおいて一致するとは、テキスト要素にマッチングする素材クリップの編集タイムラインにおける開始時刻と、テキスト要素に対応するオーディオクリップの編集タイムラインにおける開始時刻とが一致することを意味する。
【0031】
一方、字幕中のテキスト要素が消える時間は、柔軟なものであり、それに対応するオーディオクリップの終了時に消えてもよいし、それが属する文(又は指定された長さのテキストクリップ)が終了位置に達した時に消えてもよいし、又は、対応するオーディオクリップの終了後に予め設定された時間の経過後に消えてもよいが、本開示はこれを限定しない。
【0032】
したがって、編集タイムラインにおいては、テキスト要素にマッチングする素材クリップに対応する時間の終了時刻は、そのテキスト要素に対応するオーディオクリップの終了時刻と同じであってもよく、これにより、字幕テキストが1文字ごとに飛び出すアニメーション効果が得られ、対応するオーディオクリップが終了時刻に達すると、前に出現するテキスト要素が消える。
【0033】
テキスト要素にマッチングするビデオフレーム画像が属する時間範囲の終了時刻は、このテキスト要素に対応するオーディオクリップの終了時刻よりも遅れてもよく、それにより、テキスト要素は1つずつ表示され、前に表示されたテキスト要素は、対応するオーディオクリップが終了した後、所定時間保持されてから消える。
【0034】
ここで、テキスト要素が切り替わる速度は、オーディオ内の発音対象の話速に依存する。
【0035】
S103:各テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る。
【0036】
ここで、テキスト要素をそれにマッチングする素材クリップと合成する際に、テキスト要素に予め設定された第1字幕アニメーションスタイルを使用することができ、マルチメディア素材に自動的に付加される字幕は、生成時に第1字幕アニメーションスタイルに対応する字幕効果を自動的に保持し、ユーザーの字幕効果に対する要求を満たし、ユーザーの後の操作を減少させることができる。第1字幕アニメーションスタイルは、テキスト要素の開始スタイル、終了スタイル、及びループスタイルのうちの1つ又は複数を含んでもよい。
【0037】
ステップS102及びステップS103は、動的字幕リソースパッケージ(字幕アニメーションリソースパッケージとも呼ばれる)を呼び出すことによって自動的に行われてもよく、字幕テキスト及び字幕テキストに含まれる各テキスト要素のタイムスタンプ情報は動的字幕リソースパッケージに伝送され、動的字幕リソースパッケージは、予め設定された字幕アニメーションスタイルをテキスト要素毎に一括して適用し、マッチングする素材クリップに予め設定された字幕アニメーションスタイルを有するテキスト要素を重畳することにより、第1字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのある字幕をマルチメディア素材に付加する。
【0038】
本実施例の方法は、ある単語が発声されたときに、対応するテキスト字幕が出現する字幕アニメーション効果を実現することができ、さらに、ユーザーが指示を入力することで、動的字幕の自動生成を実現でき、ユーザーの操作が簡単で、ユーザーエクスペリエンスの向上に有利であり、また、実施例の方法は、様々なタイプの機器に適用することができ、適用範囲が広く、バッチテキストシーンにおいて、画面の小さいモバイル機器に対しても、マルチメディア素材クリップに指定された効果の字幕を迅速に付加することができる。
【0039】
図1に示す実施例の方法によってマルチメディア素材クリップに字幕を付加した後、ユーザーは、字幕テキストのコンテンツを再編集することもでき、再編集は、テキスト要素の削除、新規テキスト要素の挿入、テキスト要素の置換を行うことができるが、これらに限定されない。図2は、本開示の別の実施例による字幕処理方法のフローチャートである。図2に示すように、本実施例の方法は、図1に示す実施例に加えて、S104~S108をさらに含む。
【0040】
S104:テキスト削除指令に応答して、前記字幕テキストから係るテキスト要素を削除し、更新後の字幕テキストを得る。
【0041】
ここで、字幕テキスト中のテキスト要素を削除し、残りのテキスト要素及び残りのテキスト要素のタイムスタンプ情報を保持すれば、更新後の字幕テキスト及び更新後の字幕テキスト中の各テキスト要素のタイムスタンプ情報が得られる。
【0042】
【数2】
【0043】
【数3】
【0044】
他の位置にあるテキスト要素を削除する場合、同様の方法で処理すればよい。
【0045】
S105:テキスト挿入指令に応答して、前記字幕テキストに新規テキスト要素を挿入し、更新後の字幕テキストを得る。
【0046】
このステップで実行するテキスト挿入では、字幕テキスト内の既存のテキスト要素を削除せずに、新規テキスト要素を挿入する。いくつかの実施例では、新規テキスト要素の挿入位置に応じて、異なる処理が構成されてもよい。いくつかの実施例では、新規テキスト要素が挿入された位置が字幕テキストの途中又はテキストの終了位置である場合、新規テキスト要素は、それに隣接する前のテキスト要素と併せられて、隣接する前のテキスト要素に対応するオーディオクリップのタイムスタンプを共用する。新規テキスト要素が挿入された位置が字幕テキストの先頭である場合、新規テキスト要素は字幕テキストの第1テキスト要素と併せられて、第1テキスト要素に対応するオーディオクリップのタイムスタンプを共用する。
【0047】
【数4】
【0048】
【数5】
【0049】
【数6】
【0050】
【数7】
【0051】
【数8】
【0052】
S106:テキスト置換指令に応答して、前記字幕テキスト中の1つ又は複数のテキスト要素を置換テキストで置換し、更新後の字幕テキストを得る。
【0053】
置換時に、置換テキストに対応するタイムスタンプ情報は、置換対象テキスト要素に対応するオーディオクリップのタイムスタンプ情報と等価である。1回の置換において、置換テキストには1つ又は複数のテキスト要素が含まれてもよく、置換テキストは全体として理解されてもよく、置換対象テキスト要素の数は1つ又は複数の連続した位置のテキスト要素であってもよい。
【0054】
【数9】
【0055】
【数10】
【0056】
【数11】
【0057】
字幕テキストを編集するには、必要に応じて、上記の1つ又は複数の編集方法を選択する。
【0058】
S107:更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定する。
【0059】
S108:前記マルチメディア素材に字幕を再付加するように、各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成する。
【0060】
ステップS107~ステップS108は、それぞれ、上述した図1に示した実施例におけるステップS102及びステップS103と同様の実施の形態であり、上述した図1に示す実施例の詳細な説明を参照することができる。
【0061】
動的字幕リソースパッケージを呼び出すことによって自動的に実現される場合、更新後の字幕テキスト及び更新後の字幕テキストに含まれる各テキスト要素のタイムスタンプ情報は動的字幕リソースパッケージに再伝送され、動的字幕リソースパッケージは、予め設定された字幕アニメーションスタイルを更新後の字幕テキストに含まれるテキスト要素毎に一括して適用し、マッチングする素材クリップに予め設定された字幕アニメーションスタイルを有するテキスト要素を重畳することにより、字幕をマルチメディア素材に再付加する。
【0062】
本実施例の方法は、マルチメディア素材に字幕を付加する際に、字幕コンテンツを調整するというユーザーのニーズを満たすことができ、更新後の字幕テキストに対して、指定された字幕効果を有する字幕を自動的に生成することができ、ユーザーの使用を容易にし、ユーザーエクスペリエンスの向上に有利である。
【0063】
図1に示す実施例の方法によってマルチメディア素材に字幕を付加した後、ユーザーは、ユーザーの期待に沿った字幕効果を得るために、現在の字幕によって使用されている字幕アニメーションスタイルを調整することもできる。図3は、本開示の別の実施例による字幕処理方法のフローチャートである。図3に示すように、本実施例の方法は、S301~S304を含む。
【0064】
S301:マルチメディア素材の編集中、マルチメディア素材に対応するオーディオに音声認識を行って、オーディオに対応する字幕テキスト及び字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る。
【0065】
S302:各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、マルチメディア素材中の各素材単位とマッチングし、マルチメディア素材のうち各テキスト要素にそれぞれマッチングする素材クリップを決定し、テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間とテキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している。
【0066】
S303:指定された第1字幕アニメーションスタイルをテキスト要素毎に一括して適用し、第1字幕アニメーションスタイルを有するテキスト要素を、それにマッチングする時間内の素材クリップと合成して、前記第1字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのあるターゲットマルチメディア素材を得る。
【0067】
本実施例では、ステップS301~ステップS302は、それぞれ、図1に示す実施例におけるステップS101~ステップS103とそれぞれ同様であり、図1に示す実施例の詳細な説明を参照してもよく、ここでは詳しく説明しない。なお、第1字幕アニメーションスタイルは、アプリケーションのデフォルトの字幕アニメーションスタイルと理解することができる。
【0068】
S304:字幕アニメーションスタイル切り替え指令に応答して、前記第2字幕アニメーションスタイルをテキスト要素毎に一括して適用し、第2字幕アニメーションスタイルを有するテキスト要素を、それにマッチングする時間内の素材クリップと合成して、第2字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのあるターゲットマルチメディア素材を得る。
【0069】
ここで、アプリケーションは、電子機器によってユーザーに字幕アニメーションスタイル編集ページを提供してもよく、このページには、ユーザーが選択することができる1つ又は複数の字幕アニメーションスタイルに対応する領域又はコントロールが表示されてもよく、ユーザーは、字幕アニメーションスタイルに対応する領域又はコントロールを操作することによって字幕アニメーションスタイル切り替え指令を入力してもよい。
【0070】
動的字幕リソースパッケージを呼び出すことによって自動的に実現される場合、更新後の字幕テキスト及び更新後の字幕テキストに含まれる各テキスト要素のタイムスタンプ情報が動的字幕リソースパッケージに再伝送され、動的字幕リソースパッケージは、更新後の字幕テキストに含まれる各テキスト要素にユーザーが指定した第2字幕アニメーションスタイルを再度一括して適用し、第2字幕アニメーションスタイルを有するテキスト要素を、それにマッチングする素材クリップに重畳することにより、マルチメディア素材に字幕を再付加する。
【0071】
本実施例の方法は、後で字幕効果を調整するというユーザーのニーズを満たすことができ、字幕アニメーションスタイル一括編集をサポートすることができ、字幕処理の効率が高い。
【0072】
以上の説明に基づいて、本開示による字幕処理方法について、本開示の実施例として電子機器を例に挙げ、図面及び適用シナリオを参照して説明する。説明を容易にするため、図4A図4Kでは、電子機器を携帯電話とし、携帯電話にビデオ編集用アプリケーション(アプリケーション1と略す)がインストールされている場合を例に示している。さらに、ユーザーがアプリケーション1に導入するマルチメディア素材はビデオ素材である。
【0073】
図4A図4Iに示すように、図4A図4Iは、本開示の実施例によるヒューマンコンピュータインタラクションインタフェースの概略図である。
【0074】
アプリケーション1は、図4Aに示すようなマルチメディア素材編集ページ(以下、編集ページと略す)を表示するためのユーザインタフェース11を携帯電話に例示的に表示することができ、アプリケーション1は、マルチメディア素材のクリップ効果のプレビュー再生、マルチメディア素材への背景音楽の付加、マルチメディア素材へのフィルタ、ステッカー、テキストの付加などの機能セットを実行する編集ページを表示することができる。
【0075】
図4Aに示すように、ユーザインタフェース11は、マルチメディア素材のクリップ効果のプレビュー領域である領域a1を有し、また、ユーザインタフェース11は、マルチメディア素材及び編集中に付加された他のクリップ素材を時間軸に沿って表示することができる領域a2を含む。ユーザインタフェース11は、複数種類のクリップ機能エントリをユーザーに提供することができる領域a3をさらに含む。例えば、領域a3には、アプリケーション1のテキスト機能集合ページにアクセスするためのコントロール101が含まれており、このテキスト機能集合ページには、異なるテキスト機能にそれぞれ対応する複数のコントロールが含まれている。
【0076】
例示的には、アプリケーション1は、図4Aに示すユーザインタフェース11においてユーザーがコントロール101をクリックするような操作を実行することを受け付けると、アプリケーション1が提供するテキスト機能集合ページを示す図4Bに示すユーザインタフェース12を携帯電話に例示的に表示することができ、このテキスト機能集合ページには、様々な異なるテキスト機能のエントリがユーザーに提供され、ユーザーは、エントリを介して対応するテキスト機能操作ページにアクセスして、マルチメディア素材にテキストコンテンツを付加することができる。
【0077】
ユーザインタフェース12は、テキスト新規作成機能、テキストテンプレート機能、字幕認識機能、歌詞認識機能、ステッカー機能、及び落書きペン機能がそれぞれ対応するエントリを含む領域a4を含む。ここで、ユーザインタフェース12に示されるコントロール102は、字幕認識機能に対応するエントリである。
【0078】
アプリケーション1は、図4Bに示すユーザインタフェース12内でユーザーがクリックコントロール102のような操作を実行することを受け付けると、アプリケーション1が提供する字幕認識パネルを示す図4Cに示すユーザインタフェース13を携帯電話に例示的に表示することができ、字幕認識パネルでは、認識タイプのオプション、言語種別選択エントリ、無効セグメントをマークするスイッチ、動的字幕のスイッチ、及び既存の字幕を同時に空にするスイッチがユーザーに提供され得る。
【0079】
ここで、動的字幕は、字幕テキストが1文字ごとに飛び出すアニメーション効果を持つ字幕をマルチメディアマテリアルに付加する機能を意味する。具体的には、動的字幕のスイッチがオフ状態である場合、付加された字幕によって提示される字幕効果は、文セグメントが単一の字幕として現れ、動的字幕のスイッチがオン状態である場合、付加された字幕は、字幕テキストが1文字ごとに飛び出す効果、すなわち、字幕テキスト内のテキスト要素が1つずつ表示され、対応するオーディオクリップの開始時にテキスト要素が表示される効果を提供する。
【0080】
いくつかの実施例では、ユーザーの選択を記憶することができ、ユーザーが字幕認識を最後に終了したときの動的字幕のスイッチ状態を字幕認識パネルを開いたときに表示することができ、ユーザーの使用習慣により適合する。アプリケーション1が初めて動的字幕機能を更新したとき、動的字幕のスイッチは、ユーザインタフェース13に示されるように、オフ状態としてもよい。
【0081】
アプリケーション1は、図4Cに示すユーザインタフェース13においてユーザーが動的字幕のスイッチボタンをクリックするような操作を実行すると、図4Dに示すように、動的字幕のスイッチ状態がオン状態であるユーザインタフェース14を表示する。
【0082】
ユーザインタフェース14には、音声認識の開始を指示し、1文字ごとに飛び出すアニメーション効果を有する字幕を付加するためのコントロール103も含まれている。アプリケーション1は、ユーザーがユーザインタフェース14においてコントロール103をクリックするような操作を実行したことに応答して、図4Eに示すようなユーザインタフェース15を携帯電話に例示的に表示し、ユーザインタフェース15では、字幕認識パネルがオフにされ、アニメーション及びヒントテキストなどのヒントコンテンツが領域a4に表示されて、ユーザーが現在動的字幕アニメーションを作成していることを示す。領域a1に表示されるプレビュー画面に対するヒントアニメーション及びヒントテキストの遮蔽を低減するために、領域a4は領域a1の上方に位置してもよく、領域a4は他の位置に位置してもよく、本開示ではこれを限定しないことが理解されるべきである。
【0083】
ここで、前述したように、ユーザーによる動的字幕のスイッチ及びコントロール103の操作をトリガーとして、アプリケーション1は、マルチメディア素材に対応するオーディオに音声認識を行って、1文字ごとに飛び出すアニメーション効果を有する動的字幕を自動的に付加する。
【0084】
動的字幕アニメーションの作成が完了すると、アプリケーション1は、図4Fに示すユーザインタフェース16を携帯電話に例示的に表示することができ、ユーザインタフェース16では、領域a4に「認識に成功しました。字幕が自動的に生成されました」というメッセージなどのヒントコンテンツを表示することができる。
【0085】
その後、ユーザーはプレビュー再生ボタンをクリックして、領域a1で字幕効果をプレビューし、ユーザーの期待通りであれば、編集されたマルチメディア素材をターゲットビデオとしてエクスポートして配信したり、保存したりすることができる。
【0086】
図4A~4Fに示す対話プロセスに関連して、本開示は、字幕認識の前段階でユーザーに動的字幕スイッチを提供し、ユーザーによる使用をより容易にする。また、ユーザーが最後に字幕認識パネルを終了したときの動的字幕スイッチのスイッチ状態を記憶しておくことで、ユーザーが再利用する際に操作を行う必要がなくなるため、再利用上の効果が再利用され、ユーザーが余分な操作を行う必要もなくなる。
【0087】
ユーザーのニーズをよりよく満たすために、アプリケーション1は、ユーザーに後続の工程において動的字幕を付加したり、既存の字幕アニメーションスタイルを修正する機能を提供する。
【0088】
例示的には、図4Fに示すユーザインタフェース16に基づいて、領域a2には、マルチメディア素材及び字幕テキストのそれぞれに対応する認識子が時間軸に沿って表示され、領域a2に示された字幕テキストの認識子を操作(クリックなど)することによって、字幕の再編集をトリガーすることができる。アプリケーション1は、ユーザインタフェース16の領域a2内のいずれかの字幕に含まれるテキストクリップに対するユーザーのクリック操作を受け付けることにより、図4Gに示すユーザインタフェース17を携帯電話に例示的に表示することができる。
【0089】
ユーザインタフェース17において、領域a1には、字幕テキストに対応するテキストボックス104が表示され、テキストボックス104には、現在のプレビュー位置に対応する、1つ又は複数の文(すなわち、テキストクリップ)であり得るテキストコンテンツが含まれ、領域a1には、テキストボックスを操作するためのコントロールも表示されてもよく、例えば、回転、コピー、及びユーザーが2本指のトリガーを介してテキストボックスのサイズを拡大又は縮小することができ、テキストボックス内のテキスト要素のサイズも、テキストボックスのサイズの変化に応じて変化する。ユーザインタフェース17には、現在付加されている字幕を編集するための様々な編集機能のエントリを提供する字幕編集機能セットページの領域を表示する領域a5も含まれ、例えば、字幕の一括編集、字幕分割、字幕コピー、字幕編集、字幕削除、筆記体、字幕アニメーションスタイルなどの機能にそれぞれ対応するエントリを含んでもよい。ここで、ユーザインタフェース17には、字幕アニメーションパネルにアクセスして、現在の字幕のための字幕効果(動的字幕効果を含む)を付加したり、現在の字幕で使用されている字幕アニメーションスタイルを変更したりするためのコントロール105が含まれているように、。
【0090】
アプリケーション1は、ユーザーがユーザインタフェース17においてコントロール105をクリックするような操作を実行することを受け付けると、図4Hに示す領域a6を含むユーザインタフェース18を表示する。
【0091】
ここで、ユーザーは、アニメーションスタイルを設定するタグ106と、フォントタグ、スタイルタグ、筆記体タグ、テキストテンプレートタグ等とを含む字幕アニメーションパネルを領域a6に表示する。いくつかの実施例では、図4Hに示すように、字幕アニメーションスタイルパネルに入ると、デフォルトでタブ106にナビゲートされ、タブ106の関連コンテンツが表示され得る。別の実施例では、他のタグにナビゲートすることができ、アプリケーション1は、ユーザーによるタグ106のクリック操作を受け付けると、タグ106の関連コンテンツを表示する。
【0092】
図4Hに示すように、領域a6には、動的字幕スイッチ107がさらに含まれており、この動的字幕スイッチ107を操作することにより、テキスト要素が1つずつ表示される字幕効果を現在の字幕に付加することができる。
【0093】
いくつかの実施例では、前段階において、ユーザーが動的字幕を付加していた場合、ここではオン状態として表示されてもよく、前段階において、ユーザーが動的字幕を使用していない場合、ここではオフ状態として表示され、ユーザーは、ユーザインタフェース18に表示される動的字幕スイッチ107のスイッチ状態をオン状態に切り替えてもよい。ここで、図4Hに示す実施例では、動的字幕スイッチ107はオフ状態である。
【0094】
さらに、領域a6には、字幕開始スタイルを設定するタグ108、字幕終了スタイルを設定するタグ109、字幕ループスタイルを設定するタグ110、動画字幕アニメーションスタイルを設定するタグ111、及び、現在位置しているタグに応じて、対応するタグのコンテンツを表示する領域a7が含まれている。いくつかの場合、動的字幕スイッチ107がオフ状態であるとき、任意のタグ関連コンテンツがデフォルトで表示されてもよく、例えば、図4Hに示すユーザインタフェース17は、タグ108に対応する関連コンテンツをデフォルトで表示してもよい。
【0095】
アプリケーション1は、ユーザインタフェース18の動的字幕スイッチ107に対するユーザーの操作(クリック操作など)を受け付け、動的字幕スイッチ107がオフ状態からオン状態に切り替えられると、図4Iに示すようなユーザインタフェース19を携帯電話に例示的に表示することができる。図4Iに示すように、ユーザインタフェース19において、動的字幕スイッチ107はオン状態であり、タブ111は選択状態であり、領域a7には、動的字幕に関連するユーザーが選択可能な1つ又は複数の動的字幕アニメーションスタイルが表示され、複数の動的字幕アニメーションスタイルに対応する表示認識子は、左から右に順番に配置され、ユーザーは、画面を左右にスライドさせることによって往復してチェックすることができる。ここで、アプリケーション1のデフォルトの動的字幕アニメーションスタイルは、左から右に向かって最初の位置を表示することで、アプリケーション1がデフォルトで使用する動的字幕アニメーションスタイルがどのようなものであるかをユーザーが明確に理解することを可能にする。
【0096】
領域a7には、無効化ボタン112がさらに含まれていてもよく、無効化ボタン112は、領域a7の最も左側に設けられていてもよいし、もちろん、他の位置に設けられていてもよいが、本開示はこれを限定しない。ユーザーが無効化ボタン112をクリックして、対応する動的字幕効果をオフにすると、動的字幕スイッチ107はオフ状態に切り替わる。
【0097】
ユーザーが領域a7内の左からの2番目の動的字幕アニメーションスタイルをクリックしたとすると、アプリケーション1に字幕アニメーションスタイル切替指示を入力したことになり、アプリケーション1は、字幕アニメーションスタイル切替指示に応答して、字幕テキストに含まれる各テキスト要素に第2動的字幕スタイルを適用する。ユーザーは、ユーザーの期待通りの字幕効果が得られるまで、動的字幕アニメーションスタイルを何度も切り替えることができる。
【0098】
図4Hに示すユーザインタフェース18及び図4Iに示すユーザインタフェース19に加えて、領域a5には、ユーザーが字幕テキスト中のテキスト要素を削除したり、新規テキストを挿入したり、又は元のテキスト要素を置換したりすることができるテキスト編集ボックスを表示する領域a8が含まれており、テキスト編集ボックスに対するユーザーの操作は、アプリケーション1に対して削除指示、挿入指示及び置換指示を入力することに相当する。領域a8のテキスト編集ボックス内のテキストコンテンツを編集する際に、編集後のテキストコンテンツを領域a1に示すテキストボックス104に同期して表示することにより、編集後の字幕コンテンツ及びマルチメディア素材クリップのビデオフレーム画像内での字幕コンテンツの表示効果をユーザーがプレビューするのに有利である。
【0099】
上記の図4F図4Iに示す実施例では、字幕アニメーションスタイルパネルに動的字幕スイッチ及び動的字幕アニメーションスタイルタグを後段階において設定することによって、ユーザーの後段階での動的字幕の付加及び動的字幕に使用される字幕動的スタイルの調整のニーズが満たされる。
【0100】
なお、上記の図4A~4Iに示すインタラクティブインターフェースの概略図は、本開示による字幕処理方法を制限するものではなく、いくつかのコントロール、パネル、タグのスタイル、トリガー方式などは、必要に応じて、柔軟に調整され得ることが理解されるべきである。
【0101】
図5は、本開示の一実施例による字幕処理装置の構造概略図である。図5に示すように、本実施例による装置500は、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る音声認識モジュール501と、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するマッチングモジュール502であって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、マッチングモジュール502と、
各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る字幕合成モジュール503と、を含む。
【0102】
いくつかの実施例では、前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の開始時刻と前記テキスト要素に対応するオーディオクリップの開始時刻とが一致しており、かつ、前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻と前記テキスト要素に対応するオーディオクリップの終了時刻とが一致しており、又は、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻が、前記テキスト要素に対応するオーディオクリップの終了時刻よりも遅れている。
【0103】
いくつかの実施例では、字幕合成モジュール503は、具体的には、指定された第1字幕アニメーションスタイルを前記テキスト要素毎に一括して適用し、第1字幕アニメーションスタイルを有するテキスト要素を、それにマッチングする時間内の素材クリップと合成して、前記第1字幕アニメーションスタイル1を用いて文字ごとに飛び出すアニメーション効果を用いた字幕テキストのある前記ターゲットマルチメディア素材を得る。
【0104】
任意に、装置500は、字幕テキスト更新モジュール504をさらに含む。
【0105】
いくつかの実施例では、字幕テキスト更新モジュール504は、テキスト削除指令に応答して、前記字幕テキストから係るテキスト要素を削除し、更新後の字幕テキストを得る。
【0106】
そのような場合、マッチングモジュール502は、また、前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定する。
【0107】
字幕合成モジュール503は、また、字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成する。
【0108】
いくつかの実施例では、字幕テキスト更新モジュール504は、また、テキスト挿入指令に応答して、前記字幕テキストに新規テキスト要素を挿入し、更新後の字幕テキストを得る。
【0109】
そのような場合、マッチングモジュール502は、また、前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定し、新規テキスト要素とそれに隣接するテキスト要素とは併せられて前記隣接するテキスト要素に対応するオーディオクリップのタイムスタンプ情報を共用する。
【0110】
字幕合成モジュール503は、また、字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと結合する。
【0111】
いくつかの実施例では、前記新規テキスト要素の挿入位置が前記字幕テキストの先頭である場合、前記新規テキスト要素と前記字幕テキスト中の第1テキスト要素とを併せて、前記第1テキスト要素に対応するオーディオクリップのタイムスタンプを共用し、前記新規テキスト要素の挿入位置が前記字幕テキストの途中又は終了位置である場合、前記新規テキスト要素とそれに隣接する前のテキスト要素とを併せて、前のテキスト要素に対応するオーディオクリップのタイムスタンプを共用する。
【0112】
いくつかの実施例では、字幕テキスト更新モジュール504は、また、テキスト置換指令に応答して、前記字幕テキスト中の1つ又は複数のテキスト要素を置換テキストで置換し、更新後の字幕テキストを得る。
【0113】
そのような場合、マッチングモジュール502は、また、前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定し、前記置換テキストは、置換対象テキスト要素に対応するオーディオクリップのタイムスタンプ情報に対応する。
【0114】
字幕合成モジュール503は、また、字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成する。
【0115】
いくつかの実施例では、字幕合成モジュール503は、また、字幕アニメーションスタイル切り替え指令に応答して、第2字幕アニメーションスタイルを前記テキスト要素ごとに一括して適用し、前記第2字幕アニメーションスタイルを有するテキスト要素をそれにマッチングする時間範囲内の素材クリップと合成して、第2字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのあるターゲットマルチメディア素材を得る。
【0116】
いくつかの実施例では、前記マルチメディア素材に対応するオーディオは、前記マルチメディア素材に含まれる元のオーディオ又は前記マルチメディア素材に付加される背景音楽である。
【0117】
本実施例による字幕処理装置は、前述のいずれかの方法実施例の技術的解決手段を実行してもよく、それらの実現原理及び技術的効果は類似しているので、前述方法実施例の詳細な説明が参照になり得、簡潔さから、ここでは詳しく説明しない。
【0118】
例示的には、本開示は、1つ又は複数のプロセッサと、メモリと、1つ又は複数のコンピュータプログラムと、を含み、1つ又は複数のコンピュータプログラムは、メモリに記憶されており、1つ又は複数のプロセッサが1つ又は複数のコンピュータプログラムを実行すると、電子機器に前記の実施例の字幕処理方法を実現させる、電子機器を提供する。
【0119】
例示的には本開示は、メモリとセンサを含む電子機器に適用され、プロセッサを含み、プロセッサは前記の実施例の字幕処理方法を実行する、チップシステムを提供する。
【0120】
例示的には、本開示は、プロセッサによって実行されると、電子機器に前記の実施例の字幕処理方法を実現させるコンピュータプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体を提供する。
例示意的には、本開示は、コンピュータで実施されると、コンピュータに前記の実施例の字幕処理方法を実行させる、コンピュータプログラム製品を提供する。
【0121】
なお、本明細書では、「第1」及び「第2」などの関係用語は、1つのエンティティ又は操作を別のエンティティ又は操作から区別するためにのみ使用され、これらのエンティティ又は操作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「含む」、「含有する」、又はその他の任意の変形は、非排他的包含をカバーすることを意図しており、それにより、一連の要素を含むプロセス、方法、物品、又は機器は、それらの要素だけでなく、明示的にリストされていない他の要素も含むか、又はそのようなプロセス、方法、物品、又は機器に固有の要素も含む。これ以上の制限がない場合、「1つの・・・を含む」という文言によって限定される要素は、当該要素を含むプロセス、方法、物品又は機器にさらに同一の要素が存在することを排除するものではない。
【0122】
以上は、当業者が本開示を理解又は実施することを可能にする、本開示の具体的な実施形態にすぎない。これらの実施例に対する様々な修正は当業者には明白であり、本明細書で定義された一般的な原理は、本開示の精神又は範囲から逸脱することなく、他の実施例で実施することができる。したがって、本開示は、本明細書に記載されたこれらの実施例に限定されるものではなく、本明細書に開示された原理及び新規な特徴に一致する最も広い範囲に適合するものである。
図1
図2
図3
図4A
図4B
図4C
図4D
図4E
図4F
図4G
図4H
図4I
図5
【手続補正書】
【提出日】2023-12-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
字幕処理方法であって、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得るステップと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、ステップと、
各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得るステップと、を含む字幕処理方法。
【請求項2】
前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の開始時刻と前記テキスト要素に対応するオーディオクリップの開始時刻とが一致しており、かつ、前記編集タイムラインにおいて、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻と前記テキスト要素に対応するオーディオクリップの終了時刻とが一致しており、又は、前記テキスト要素にマッチングする素材クリップが属する時間の終了時刻が、前記テキスト要素に対応するオーディオクリップの終了時刻よりも遅れている、請求項1に記載の方法。
【請求項3】
各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る前記ステップは、
指定された第1字幕アニメーションスタイルを前記テキスト要素毎に一括して適用し、前記第1字幕アニメーションスタイルを有するテキスト要素をそれにマッチングする時間内の素材クリップと合成して、前記第1字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのある前記ターゲットマルチメディア素材を得るステップを含む、請求項1又は2に記載の方法。
【請求項4】
テキスト削除指令に応答して、前記字幕テキストから係るテキスト要素を削除し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成するステップと、をさらに含む、請求項1又は2に記載の方法。
【請求項5】
テキスト挿入指令に応答して、前記字幕テキストに新規テキスト要素を挿入し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、新規テキスト要素とそれに隣接するテキスト要素とは併せられて前記隣接するテキスト要素に対応するオーディオクリップのタイムスタンプ情報を共用する、ステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと結合するステップと、をさらに含む、請求項1又は2に記載の方法。
【請求項6】
前記新規テキスト要素の挿入位置が前記字幕テキストの先頭である場合、前記新規テキスト要素と前記字幕テキスト中の第1个テキスト要素とを併せて、前記第1个テキスト要素に対応するオーディオクリップのタイムスタンプを共用し、
前記新規テキスト要素の挿入位置が前記字幕テキストの途中又は終了位置である場合、前記新規テキスト要素とそれに隣接する前のテキスト要素とを併せて、前のテキスト要素に対応するオーディオクリップのタイムスタンプを共用する、請求項5に記載の方法。
【請求項7】
テキスト置換指令に応答して、前記字幕テキスト中の1つ又は複数のテキスト要素を置換テキストで置換し、更新後の字幕テキストを得るステップと、
前記更新後の字幕テキスト中の各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するステップであって、前記置換テキストは、置換対象テキスト要素に対応するオーディオクリップのタイムスタンプ情報に対応する、ステップと、
字幕テキストが1文字ごとに飛び出すアニメーション効果を前記マルチメディア素材に再付加するように、前記更新後の字幕テキストに含まれる各前記テキスト要素をそれぞれにマッチングする時間内の素材クリップと合成するステップと、をさらに含む、請求項1又は2に記載の方法。
【請求項8】
字幕アニメーションスタイル切り替え指令に応答して、第2字幕アニメーションスタイルを前記テキスト要素ごとに一括して適用し、前記第2字幕アニメーションスタイルを有するテキスト要素をそれにマッチングする時間範囲内の素材クリップと合成して、第2字幕アニメーションスタイルを用いて1文字ごとに飛び出すアニメーション効果を用いた字幕テキストのあるターゲットマルチメディア素材を得るステップをさらに含む、請求項3に記載の方法。
【請求項9】
前記マルチメディア素材に対応するオーディオは、前記マルチメディア素材に含まれる元のオーディオ又は前記マルチメディア素材に付加される背景音楽である、請求項1又は2に記載の方法。
【請求項10】
字幕処理装置であって、
マルチメディア素材の編集中、前記マルチメディア素材に対応するオーディオに音声認識を行って、前記オーディオに対応する字幕テキスト及び前記字幕テキストに含まれる各テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報を得る音声認識モジュールと、
各前記テキスト要素にそれぞれ対応するオーディオクリップのタイムスタンプ情報に基づいて、前記マルチメディア素材中の各素材単位とマッチングし、前記マルチメディア素材のうち各前記テキスト要素にそれぞれマッチングする素材クリップを決定するマッチングモジュールであって、前記テキスト要素にマッチングする素材クリップの編集タイムラインにおける時間と前記テキスト要素に対応するオーディオクリップの編集タイムラインにおける時間とが一致している、マッチングモジュールと、
各前記テキスト要素をそれぞれにマッチングする時間範囲内の素材クリップと合成して、字幕テキストが1文字ずつ飛び出すアニメーション効果を有するターゲットマルチメディア素材を得る字幕合成モジュールと、を含む、字幕処理装置。
【請求項11】
電子機器であって、
メモリと、プロセッサと、を含み、
前記メモリは、コンピュータプログラム指令を記憶するように構成されており、
前記プロセッサは、前記コンピュータプログラム指令を実行して、前記電子機器に請求項に記載の字幕処理方法を実現させる、電子機器。
【請求項12】
読み取り可能な記憶媒体であって、
コンピュータプログラム指令を含み、
電子機器の少なくとも1つのプロセッサは、前記コンピュータプログラム指令を実行して、前記電子機器に請求項に記載の字幕処理方法を実現させる、読み取り可能な記憶媒体。
【請求項13】
コンピュータプログラムであって、
電子機器は、前記コンピュータプログラムを実行して、前記電子機器に請求項に記載の字幕処理方法を実現させる、コンピュータプログラム。
【国際調査報告】