特開2022-65786 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2022-65786情報処理方法、情報処理システムおよびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022065786

(43)【公開日】2022-04-28

(54)【発明の名称】情報処理方法、情報処理システムおよびプログラム

(51)【国際特許分類】

H04N 5/262 20060101AFI20220421BHJP

H04N 5/93 20060101ALI20220421BHJP

G09G 5/36 20060101ALI20220421BHJP

G09G 5/00 20060101ALI20220421BHJP

G09G 5/22 20060101ALI20220421BHJP

【ＦＩ】

H04N5/262

H04N5/93

G09G5/36 510M

G09G5/00 510Q

G09G5/36 510A

G09G5/00 550H

G09G5/22 680L

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2020174484

(22)【出願日】2020-10-16

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110003177

【氏名又は名称】特許業務法人旺知国際特許事務所

(72)【発明者】

【氏名】安立直之

(72)【発明者】

【氏名】石川克己

(72)【発明者】

【氏名】井芹大智

(72)【発明者】

【氏名】小池祐二

(72)【発明者】

【氏名】齋藤謙一良

(72)【発明者】

【氏名】加藤康之介

【テーマコード（参考）】

5C023

5C053

5C182

【Ｆターム（参考）】

5C023AA11

5C023AA34

5C023AA38

5C023CA01

5C023CA04

5C053HA01

5C053LA01

5C053LA04

5C053LA14

5C182AA02

5C182AA03

5C182AB02

5C182AB08

5C182AB11

5C182AC02

5C182AC33

5C182AC43

5C182BA01

5C182BA06

5C182BA14

5C182BA75

5C182BC22

5C182BC25

5C182CA11

5C182CA33

5C182CA34

5C182CB42

5C182CB44

5C182CB47

5C182CB54

5C182DA64

(57)【要約】

【課題】時間軸上において動画が再生される期間と当該動画に付加される音声が再生される期間との関係を利用者が容易に把握できるようにする。
【解決手段】端末装置１０は、動画の再生とともに再生される音声を表す文字列Ｑを取得する文字列取得部３２と、時間軸上において動画が再生される動画再生期間を表す第１画像と、時間軸上において音声が再生される音声再生期間を表す第２画像と、文字列Ｑと、を表示装置１６に表示させる表示制御部３３とを具備する。
【選択図】図３

【特許請求の範囲】

【請求項1】

動画の再生とともに再生される音声を表す文字列を取得し、
時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる
コンピュータにより実現される情報処理方法。

【請求項2】

前記第２画像は、前記時間軸の方向における表示長が前記音声再生期間の時間長に対応する画像である
請求項１の情報処理方法。

【請求項3】

前記時間軸上における前記第２画像の位置を利用者からの指示に応じて変化させる
請求項２の情報処理方法。

【請求項4】

前記文字列は、前記第２画像の内側に表示される
請求項２または請求項３の情報処理方法。

【請求項5】

前記音声再生期間の一部が前記動画再生期間の外側に位置することを報知する
請求項２から請求項４の何れかの情報処理方法。

【請求項6】

前記第２画像のうち前記動画再生期間の外側に対応する部分と、前記動画再生期間の内側に対応する部分とを、相異なる態様で表示する
請求項２から請求項４の何れかの情報処理方法。

【請求項7】

前記文字列のうち、前記動画再生期間の外側に対応する部分と、前記動画再生期間の内側に対応する部分とを、相異なる態様で表示する
請求項２から請求項４の何れかの情報処理方法。

【請求項8】

前記文字列のうち前記動画再生期間の外側に対応する部分を表示しない
請求項１から請求項４の何れかの情報処理方法。

【請求項9】

前記音声再生期間の終点が前記動画再生期間の終点よりも後方に位置する場合に前記音声再生期間を短縮し、前記短縮後の音声再生期間の終点が前記動画再生期間の終点に一致するように前記第２画像を表示させる
請求項１から請求項５の何れかの情報処理方法。

【請求項10】

前記文字列の文字数が閾値を下回る場合に、前記第２画像の内側に前記文字列を表示させ、
前記文字数が前記閾値を上回る場合に、前記第２画像の外側に前記文字列を表示させる
請求項１から請求項９の何れかの情報処理方法。

【請求項11】

動画の再生とともに再生される音声を表す文字列を取得する文字列取得部と、
時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる表示制御部と
を具備する情報処理システム。

【請求項12】

動画の再生とともに再生される音声を表す文字列を取得する文字列取得部、および、
時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる表示制御部、
としてコンピュータを機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、動画に音声を付加する技術に関する。

【背景技術】

【0002】

動画と音声とを含むコンテンツを生成するための各種の技術が従来から提案されている。例えば特許文献１には、利用者が入力した文字列に対応する音声を、撮影済の動画に付加する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－５３８３２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

動画に音声を付加する場面では、時間軸上において動画が再生される期間と時間軸上において音声が再生される期間との関係を利用者が簡便に把握したいという要求がある。以上の事情を考慮して、本開示のひとつの態様は、時間軸上において動画が再生される期間と当該動画に付加される音声が再生される期間との関係を利用者が容易に把握できるようにすることを目的のひとつとする。

【課題を解決するための手段】

【0005】

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、動画の再生とともに再生される音声を表す文字列を取得し、時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる。

【0006】

本開示のひとつの態様に係る情報処理システムは、動画の再生とともに再生される音声を表す文字列を取得する文字列取得部と、時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる表示制御部とを具備する。

【0007】

本開示のひとつの態様に係るプログラムは、動画の再生とともに再生される音声を表す文字列を取得する文字列取得部、および、時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる表示制御部、としてコンピュータを機能させる。

【図面の簡単な説明】

【0008】

【図1】第１実施形態に係る情報システムの構成を例示するブロック図である。

【図2】端末装置の構成を例示するブロック図である。

【図3】端末装置の機能的な構成を例示するブロック図である。

【図4】制御データの模式図である。

【図5】通常状態における操作画面の模式図である。

【図6】超過状態における操作画面の模式図である。

【図7】制御装置の具体的な手順を例示するフローチャートである。

【図8】第２実施形態における表示領域の模式図である。

【図9】第３実施形態における表示領域の模式図である。

【図10】第３実施形態における制御処理の一部を例示するフローチャートである。

【図11】第３実施形態における制御データの模式図である。

【図12】第４実施形態における表示領域の模式図である。

【図13】第４実施形態における制御処理の一部を例示するフローチャートである。

【図14】変形例における表示領域の模式図である。

【図15】変形例において表示装置が表示する画像の模式図である。

【図16】変形例における操作画面の模式図である。

【発明を実施するための形態】

【0009】

Ａ：第１実施形態
図１は、第１実施形態における情報システム１００の構成を例示するブロック図である。第１実施形態の情報システム１００は、端末装置１０と編集システム２０とを具備する。端末装置１０と編集システム２０とは、例えばインターネット等の通信網３０を介して相互に通信する。

【0010】

端末装置１０は、例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末である。端末装置１０は、素材データＤを編集システム２０に送信する。素材データＤは、動画データＶaと制御データＸとを含む。動画データＶaは、動画を表すデータである。制御データＸは、複数の文字で構成される文字列Ｑを含むデータである。文字列Ｑは、端末装置１０の利用者により指示される。

【0011】

編集システム２０は、端末装置１０から受信した素材データＤを利用してコンテンツＣを生成するコンピュータシステムである。コンテンツＣは、動画を表す動画データＶbと、音声を表す音声データＹとを含む映像コンテンツである。音声データＹが表す音声は、動画データＶbの動画に対して並行に再生される。

【0012】

編集システム２０は、動画編集部２１と音声合成部２２とを具備する。動画編集部２１は、素材データＤの動画データＶaを編集することで動画データＶbを生成する。動画編集部２１による動画の編集は、例えば画質の調整等の各種の画像処理を含む。

【0013】

音声合成部２２は、制御データＸの文字列Ｑを適用した音声合成により、当該文字列Ｑに対応する音声（以下「発話音声」という）を表す音声データＹを生成する。発話音声は、文字列Ｑの読上げにより仮想的な発話者が発音する音声である。音声合成部２２による音声合成には、公知の技術が任意に採用される。以上の説明から理解される通り、制御データＸの文字列Ｑは、動画の再生とともに再生される音声（すなわち動画に付加される音声）を表す。すなわち、音声データＹが表す発話音声は、動画に対して並行に再生される音声である。

【0014】

動画データＶbと音声データＹとを含むコンテンツＣが編集システム２０から端末装置１０に送信される。端末装置１０は、編集システム２０から受信したコンテンツＣを再生する。すなわち、動画データＶbが表す動画と音声データＹが表す発話音声とが並列に再生される。なお、素材データＤを送信する端末装置１０とは別個の装置に対して編集システム２０がコンテンツＣを送信してもよい。

【0015】

第１実施形態におけるコンテンツＣは、例えば企業を紹介するコンテンツである。例えば企業自体を紹介するコンテンツ、または、企業が取扱う製品を紹介するコンテンツ等の各種のコンテンツＣが生成される。したがって、動画データＶaおよび動画データＶbが表す動画は、企業内の風景または商品等を撮像した動画である。また、音声データＹが表す発話音声は、企業または商品等を解説する音声であり、文字列Ｑは、企業または商品等を解説する語句または文章である。ただし、動画または音声（文字列Ｑ）の内容は任意であり、以上の例示には限定されない。

【0016】

図２は、端末装置１０の具体的な構成を例示するブロック図である。端末装置１０は、制御装置１１と記憶装置１２と通信装置１３と撮像装置１４と操作装置１５と表示装置１６と放音装置１７とを具備する。なお、端末装置１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。

【0017】

制御装置１１は、端末装置１０の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置１１が構成される。

【0018】

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、端末装置１０に対して着脱される可搬型の記録媒体、または制御装置１１が通信網３０を介して書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

【0019】

通信装置１３は、編集システム２０との間で通信網３０を介して通信する。具体的には、通信装置１３は、素材データＤを編集システム２０に送信する。また、通信装置１３は、編集システム２０から送信されたコンテンツＣを受信する。

【0020】

撮像装置１４は、被写体の撮像により動画データＶaを生成する画像入力機器である。例えば、撮像装置１４は、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた動画データＶaを生成する処理回路とを具備する。

【0021】

操作装置１５は、利用者からの指示を受付ける指示入力機器である。操作装置１５は、例えば利用者が操作する複数の操作子、または、利用者による接触を検知するタッチパネルである。利用者は、操作装置１５を操作することで任意の文字列Ｑを指示することが可能である。なお、利用者は、事前に用意された複数の候補から文字列Ｑを選択してもよい。

【0022】

表示装置１６は、制御装置１１から指示された画像を表示する。具体的には、表示装置１６は、コンテンツＣの動画データＶbが表す動画を表示する。表示装置１６は、例えば液晶パネルまたは有機ＥＬ（ElectroLuminescence）パネル等の表示パネルで構成される。なお、端末装置１０とは別体で構成された表示装置１６を、当該端末装置１０に有線または無線で接続してもよい。

【0023】

放音装置１７は、制御装置１１から指示された音響を放音する。具体的には、放音装置１７は、コンテンツＣの音声データＹが表す発話音声を放音する。放音装置１７は、例えばスピーカ装置、ヘッドホンまたはイヤホンである。なお、端末装置１０とは別体で構成された放音装置１７を、当該端末装置１０に有線または無線で接続してもよい。以上の説明から理解される通り、表示装置１６および放音装置１７は、コンテンツＣを再生する再生装置として機能する。

【0024】

図３は、端末装置１０の機能的な構成を例示するブロック図である。端末装置１０の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、複数の機能（動画データ取得部３１，文字列取得部３２，表示制御部３３，放音制御部３４および通信制御部３５）を実現する。

【0025】

動画データ取得部３１は、動画データＶaを取得する。具体的には、動画データ取得部３１は、撮像装置１４が生成した動画データＶaを取得する。ただし、動画データ取得部３１は、他の装置から通信網３０を介して動画データＶaを取得してもよい。また、動画データ取得部３１は、動画データＶaに対して各種の編集処理を実行してもよい。

【0026】

文字列取得部３２は、文字列Ｑを取得する。具体的には、文字列取得部３２は、操作装置１５に対する操作で利用者が指示した文字列Ｑを取得する。なお、文字列取得部３２は、例えば利用者が発音した音声に対する音声認識により、文字列Ｑを生成してもよい。また、文字列取得部３２は、事前に用意された複数の候補の何れかを利用者からの指示に応じて文字列Ｑとして取得してもよい。

【0027】

通信制御部３５は、通信装置１３による編集システム２０との通信を制御する。具体的には、通信制御部３５は、動画データＶaと制御データＸとを含む素材データＤを通信装置１３から編集システム２０に送信する。なお、動画データＶaと制御データＸとは、通信装置１３から個別に送信されてもよい。すなわち、動画データＶaと制御データＸとは、相互に独立した別個のデータでもよい。また、通信制御部３５は、編集システム２０から送信されたコンテンツＣを通信装置１３により受信する。なお、動画データＶbと音声データＹとは、編集システム２０から個別に送信されてもよい。すなわち、動画データＶbと音声データＹとは、相互に独立した別個のデータでもよい。

【0028】

図４は、制御データＸの模式図である。第１実施形態の制御データＸは、文字列Ｑに加えて発音開始点Ｐを含む。発音開始点Ｐは、文字列Ｑに対応する発話音声の再生が開始される時点である。例えば、動画データＶbが表す動画の始点を基準とした時刻により発音開始点Ｐが指定される。

【0029】

図３の表示制御部３３は、表示装置１６に画像を表示させる。例えば、表示制御部３３は、コンテンツＣの動画データＶbが表す動画を表示装置１６に表示させる。放音制御部３４は、放音装置１７に音声を放音させる。例えば、放音制御部３４は、コンテンツＣの音声データＹが表す発話音声を放音装置１７に放音させる。以上の説明から理解される通り、表示制御部３３および放音制御部３４は、コンテンツＣの再生を制御する要素に相当する。

【0030】

動画データＶbが表す動画のほか、表示制御部３３は、図５に例示される操作画面Ｇを表示装置１６に表示させる。操作画面Ｇは、利用者が文字列Ｑおよび発音開始点Ｐを指示するために参照する画像である。操作画面Ｇに対して指示された文字列Ｑおよび発音開始点Ｐを含む制御データＸが編集システム２０に送信される。すなわち、表示装置１６は、動画データＶbの動画の表示前に操作画面Ｇを表示する。

【0031】

操作画面Ｇは、入力領域４１と表示領域４２と操作画像４３と操作画像４４とを含む画像である。操作画像４３および操作画像４４は、操作装置１５を利用して利用者が操作可能なソフトウェアボタンである。

【0032】

入力領域４１は、利用者が文字列Ｑを入力するための入力欄である。利用者は、操作装置１５を操作することで所望の文字列Ｑを入力領域４１に入力する。入力領域４１に文字列Ｑが入力された状態で操作画像４３を操作することで、利用者は当該文字列Ｑを指示できる。また、利用者は、操作画像４３の操作後に、入力領域４１内の文字列Ｑを変更してから操作画像４３を再操作することで、変更後の文字列Ｑを指示することが可能である。以上の説明から理解される通り、文字列取得部３２は、操作画像４３の操作を契機として文字列Ｑを取得する。操作画像４４は、素材データＤの送信を利用者が指示するための画像である。

【0033】

表示領域４２は、時間軸τが設定された領域である。時間軸τは、横方向に延在する仮想的な軸線である。表示領域４２には、第１画像５０と第２画像６０と文字列Ｑとが表示される。

【0034】

第１画像５０は、動画データＶaが表す動画が時間軸τ上において再生される期間（以下「動画再生期間」という）を表す画像である。具体的には、第１画像５０は、端部５１と端部５２と軸線部５３とを含む画像である。端部５１は、時間軸τ上における動画再生期間の始点を意味する。端部５２は、時間軸τ上における動画再生期間の終点を意味する。軸線部５３は、端部５１と端部５２とにわたり時間軸τの方向に延在する直線状の画像である。時間軸τの方向における第１画像５０の表示長（すなわち表示上の全長）は、動画再生期間の時間長に対応する。すなわち、軸線部５３上の各地点は、動画再生期間内の各時点を意味する。

【0035】

第２画像６０は、音声データＹが表す発話音声が時間軸τ上において再生される期間（以下「音声再生期間」という）を表す画像である。具体的には、第２画像６０は、端部６１と端部６２とにわたる矩形状の画像である。端部６１は、時間軸τ上における音声再生期間の始点（すなわち発音開始点Ｐ）を意味する。端部６２は、時間軸τ上における音声再生期間の終点を意味する。したがって、時間軸τの方向における第２画像６０の表示長Ｌは、音声再生期間の時間長に対応する。第１画像５０と第２画像６０とは、共通の時間軸τのもとで表示される。

【0036】

表示制御部３３は、文字列取得部３２が取得した文字列Ｑの文字数Ｎに応じて第２画像６０の表示長Ｌを制御する。文字数Ｎは、文字列Ｑを構成する音節の総数である。文字列Ｑに含まれる読点も文字数Ｎの１個として計数される。なお、文字列Ｑを構成する文字の総数を文字数Ｎとして計数してもよい。

【0037】

具体的には、表示制御部３３は、文字数Ｎと発話速度Ｈとに応じて音声再生期間の時間長Ｔを算定する。発話速度Ｈは、発話音声における発話の速度である。具体的には、単位時間内に発話される文字の個数により発話速度Ｈは表現される。第１実施形態における発話速度Ｈは、所定の基準値ｈ0に設定される。基準値ｈ0は、例えば３００文字／分である。表示制御部３３は、以下の数式(1)により時間長Ｔ（秒）を算定し、時間長Ｔに比例する表示長Ｌの第２画像６０を表示する。
Ｔ＝（Ｎ／Ｈ）×６０ (1)

【0038】

例えば、図５の例示の通り「この商品は、従来品の半分の重さです。」という文字列Ｑが指示された場合を想定すると、文字数Ｎは「２５」であるから、時間長Ｔは５秒と算定される。したがって、時間軸τにおいて５秒間に相当する表示長Ｌの第２画像６０が表示領域４２に表示される。以上の通り、第１実施形態においては、時間軸τの方向における第２画像６０の表示長Ｌが音声再生期間の時間長Ｔに対応する。したがって、動画再生期間の時間長に対する音声再生期間の時間長の関係を、利用者が直観的に把握できる。

【0039】

表示制御部３３は、文字列取得部３２が取得した文字列Ｑを、第２画像６０の内側に表示する。具体的には、文字列Ｑを構成する複数の文字が第２画像６０の枠内において時間軸τの方向に配列される。第２画像６０は、文字列Ｑの全体を内包可能な表示長Ｌで表示される。以上の通り、第１実施形態においては、第２画像６０の内側に文字列Ｑが表示されるから、音声再生期間内における発話音声の内容を利用者が容易に把握できる。

【0040】

利用者は、操作装置１５を操作することで、第２画像６０を時間軸τの方向（正方向および負方向）に移動させることを指示できる。表示制御部３３は、時間軸τ上における第２画像６０および文字列Ｑの位置を、利用者からの指示に応じて変化させる。第２画像６０の内側に文字列Ｑが位置する状態と第２画像６０の表示長Ｌとは、第２画像６０の移動の前後にわたり維持される。第２画像６０の移動は、時間軸τ上における音声再生期間の移動に相当する。素材データＤの発音開始点Ｐは、時間軸τの方向における第２画像６０の端部６１の位置に応じて設定される。以上の説明から理解される通り、利用者は、第２画像６０の位置を変化させることで、時間軸τ上における音声再生期間の位置を簡便に調整できる。

【0041】

図５においては、第２画像６０の全体が時間軸τ上において第１画像５０に重複する状態（以下「通常状態」という）が例示されている。通常状態は、音声再生期間の全部が動画再生期間に内包される状態である。通常状態においては、動画データＶbが表す動画の再生に並行して文字列Ｑ（発話音声）の全体が発話音声として再生される。

【0042】

他方、第２画像６０が時間軸τの方向に移動した結果、図６に例示される通り、第２画像６０の端部６２が時間軸τ上において第１画像５０の端部５２の後方（すなわち右側）に位置する場合がある。以上の状態は、音声再生期間の終点が動画再生期間の終点よりも後方に位置する状態（以下「超過状態」という）である。超過状態は、第２画像６０のうち端部６２側の部分６０bが、時間軸τの方向において第１画像５０の端部５２の後方にはみ出した状態である。超過状態では、第２画像６０は、時間軸τ上において第１画像５０に重複する部分６０aと、第１画像５０に重複しない部分６０bとに区別される。

【0043】

第２画像６０の部分６０aは、第１画像５０が表す動画再生期間の内側に対応する部分であり、音声再生期間のうち動画再生期間に重複する期間を意味する。すなわち、部分６０aは、発話音声のうち動画データＶbの動画に対して並行に再生される部分に相当する。他方、第２画像６０の部分６０bは、第１画像５０が表す動画再生期間の外側に対応する部分であり、音声再生期間のうち動画再生期間に重複しない期間を意味する。すなわち、部分６０bは、発話音声のうち動画データＶbの動画に対して並行に再生されない部分に相当する。時間軸τの方向における部分６０bの表示長は、第１画像５０に対する第２画像６０の位置に応じて変化する。例えば、時間軸τ上で第２画像６０が後方に位置するほど、部分６０bの表示長は長くなる。部分６０bの表示長は、音声再生期間のうち動画再生期間に重複しない期間の時間長を意味する。音声再生期間のうち動画再生期間の終点以降の期間の発話音声は再生されない。

【0044】

超過状態において、表示制御部３３は、第２画像６０の部分６０aと部分６０bとを相異なる態様で表示する。なお、画像の表示について「態様」とは、利用者が視覚的に弁別可能な画像の性状を意味する。例えば、色の３属性である色相（色調），彩度および明度（階調）のほか、模様または形状も、「態様」の概念に包含される。例えば、部分６０aと部分６０bとは相異なる色相で表示される。したがって、利用者は、第２画像６０の部分６０aと部分６０bとを視覚的に区別することが可能である。すなわち、第１実施形態によれば、音声再生期間のうち動画再生期間に重複しない期間の有無または長短を、利用者が容易に把握できる。

【0045】

また、超過状態においては、文字列Ｑは、第２画像６０の部分６０a内に位置する部分Ｑaと、部分６０b内に位置する部分Ｑbとに区別される。文字列Ｑの部分Ｑaは、動画再生期間の内側に対応する部分であり、文字列Ｑのうち動画再生期間内に発音される部分を意味する。文字列Ｑの部分Ｑbは、動画再生期間の外側に対応する部分であり、文字列Ｑのうち動画再生期間内に発音されない部分を意味する。超過状態において、表示制御部３３は、文字列Ｑのうち部分Ｑaと部分Ｑbとを相異なる態様で表示する。例えば、部分Ｑaと部分Ｑbとは相異なる色相で表示される。したがって、利用者は、文字列Ｑの部分Ｑaと部分Ｑbとを視覚的に区別することが可能である。すなわち、第１実施形態によれば、文字列Ｑのうち動画再生期間内に発音されない部分の有無または長短を、利用者が容易に把握できる。

【0046】

なお、時間軸τ上で第２画像６０の全部が第１画像５０に重複する状態においては、第２画像６０の全体が、図６の部分６０aと同様の態様で表示される。すなわち、第２画像６０のうち動画再生期間の外側に対応する部分６０bが発生した場合に、表示制御部３３は、当該部分６０bの態様を変化させる。同様に、文字列Ｑのうち動画再生期間の外側に対応する部分Ｑbが発生した場合に、表示制御部３３は、当該部分Ｑbの態様を変化させる。部分６０bまたは部分Ｑbの態様を変化させる表示制御部３３の動作は、音声再生期間の一部が動画再生期間の外側に位置すること（すなわち通常状態から超過状態に遷移したこと）を利用者に報知する動作に相当する。以上の構成によれば、音声再生期間の一部が動画再生期間に重複しないことを利用者が容易に把握できる。

【0047】

図７は、端末装置１０の制御装置１１が実行する処理（以下「制御処理」という）Ｓの具体的な手順を例示するフローチャートである。操作装置１５に対する利用者からの指示を契機として制御処理Ｓが開始される。

【0048】

制御処理Ｓが開始されると、動画データ取得部３１は、撮像装置１４から動画データＶaを取得する（Ｓa1）。表示制御部３３は、動画データＶaが表す動画の動画再生期間を表す第１画像５０を操作画面Ｇの表示領域４２に表示させる（Ｓa2）。文字列取得部３２は、利用者による文字列Ｑの指示を待機する（Ｓa3：NO）。利用者による文字列Ｑが指示されると（Ｓa3：YES）、文字列取得部３２は、当該文字列Ｑを取得する（Ｓa4）。

【0049】

表示制御部３３は、文字列Ｑの文字数Ｎと発話速度Ｈとに応じて第２画像６０の表示長Ｌを設定する（Ｓa5）。具体的には、表示制御部３３は、文字数Ｎと発話速度Ｈとに応じて音声再生期間の時間長Ｔを算定し、当該時間長Ｔに対応する表示長Ｌを設定する。表示制御部３３は、表示長Ｌの第２画像６０を表示領域４２に表示させる（Ｓa6）。また、表示制御部３３は、第２画像６０の内側に文字列Ｑを表示させる（Ｓa7）。

【0050】

文字列取得部３２は、取得済の文字列Ｑの変更が利用者により指示されたか否かを判定する（Ｓa8）。変更が指示された場合（Ｓa8：YES）、文字列取得部３２は、変更後の文字列Ｑを取得する（Ｓa4）。表示制御部３３は、変更後の文字列Ｑについて、第２画像６０の表示長Ｌの設定（Ｓa5）と当該第２画像６０の表示（Ｓa6）と当該文字列Ｑの表示（Ｓa7）とを実行する。

【0051】

他方、文字列Ｑの変更が指示されない場合（Ｓa8：NO）、表示制御部３３は、第２画像６０の移動が利用者から指示されたか否かを判定する（Ｓa9）。変更が指示された場合（Ｓa9：YES）、表示制御部３３は、利用者からの指示に応じて第２画像６０を時間軸τの方向に移動させる（Ｓa10）。他方、第２画像６０の移動が指示されない場合（Ｓa9：NO）、表示制御部３３は、第２画像６０を移動させることなく処理をステップＳa13に移行する。

【0052】

第２画像６０を移動させると（Ｓa10）、表示制御部３３は、移動後の第２画像６０の端部６２が動画再生期間の外側に位置するか否かを判定する（Ｓa11）。すなわち、超過状態に該当するか否かが判定される。端部６２が動画再生期間の外側に位置する場合（Ｓa11：YES）、表示制御部３３は、第２画像６０のうち部分６０bの態様を変更する（Ｓa12）。すなわち、第２画像６０のうち動画再生期間の内側に対応する部分６０aと当該動画再生期間の外側に対応する部分６０bとが相異なる態様で表示される。他方、第２画像６０の全部が動画再生期間の内側に位置する場合（Ｓa11：NO）、表示制御部３３は、部分６０bの態様の変更（Ｓa12）を実行しない。

【0053】

通信制御部３５は、操作画像４４が利用者により操作されたか否かを判定する（Ｓa13）。すなわち、素材データＤの送信が利用者から指示されたか否かが判定される。操作画像４４が操作されない場合（Ｓa13：NO）、制御装置１１は、文字列Ｑの変更が指示されたか否かの判定（Ｓa8）に処理を移行する。

【0054】

他方、操作画像４４が操作された場合（Ｓa13：YES）、通信制御部３５は、動画データＶaと制御データＸとを含む素材データＤを通信装置１３から編集システム２０に送信する（Ｓa14）。制御データＸは、現時点の文字列Ｑと、第２画像６０の端部６１の位置に応じた発音開始点Ｐとを含む。

【0055】

以上の手順で端末装置１０から送信された素材データＤを受信すると、編集システム２０の音声合成部２２は、文字列Ｑを適用した音声合成により音声データＹを生成する。音声合成においては、発話速度Ｈの基準値ｈ0（３００文字／分）で文字列Ｑを発話した発話音声の音声データＹが生成される。動画データＶaに対する編集で動画編集部２１が生成した動画データＶbと、音声合成部２２が生成した音声データＹとを含むコンテンツＣが編集システム２０から端末装置１０に送信される。コンテンツＣにおいては、動画データＶbが表す動画の動画再生期間のうち発音開始点Ｐから発話音声が開始されるように、動画データＶbに音声データＹが付加される。

【0056】

通信制御部３５は、編集システム２０から送信されたコンテンツＣを通信装置１３により受信する（Ｓa15）。表示制御部３３は、コンテンツＣの動画データＶaが表す動画を表示装置１６に表示させ（Ｓa16）、放音制御部３４は、コンテンツＣの音声データＹが表す発話音声を放音装置１７に放音させる（Ｓa17）。すなわち、利用者が指示した文字列Ｑに対応する発話音声と撮像装置１４が撮像した動画とが並行に再生される。発話音声の発音は、動画再生期間のうち第２画像６０の位置に応じた発音開始点Ｐから開始される。

【0057】

以上の説明から理解される通り、第１実施形態においては、時間軸τ上の動画再生期間を表す第１画像５０と、当該時間軸τ上の音声再生期間を表す第２画像６０と、発話音声を表す文字列Ｑとが、表示装置１６に表示される。したがって、時間軸τ上における動画再生期間と音声再生期間との関係、および、音声再生期間内に発音される発話音声の文字列Ｑを、利用者が容易に把握できる。

【0058】

Ｂ：第２実施形態
第２実施形態について説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

【0059】

図８は、第２実施形態における操作画面Ｇのうち表示領域４２の模式図である。図８には、超過状態における表示領域４２が例示されている。通常状態における表示領域４２は第１実施形態（図５）と同様である。

【0060】

第２実施形態の表示制御部３３は、超過状態において、文字列Ｑのうち動画再生期間の外側に対応する部分Ｑbを表示しない。すなわち、文字列Ｑのうち第２画像６０の部分６０bに重複する部分Ｑbが消去される。第２画像６０の部分６０aと部分６０bとが相異なる態様で表示される点は第１実施形態と同様である。

【0061】

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、文字列Ｑのうち動画再生期間の外側に対応する部分が表示されないから、文字列Ｑのうち動画再生期間に重複しない部分Ｑbの有無または長短を利用者が容易に把握できる。

【0062】

なお、図８においては、文字列Ｑの部分Ｑbを表示しない構成を例示したが、以上の構成とともに、超過状態において、第２画像６０のうち動画再生期間の外側に対応する部分６０bを表示しない構成も採用される。また、超過状態において、文字列Ｑの部分Ｑbの表示を維持したまま、第２画像６０の部分６０bを消去する構成も想定される。

【0063】

Ｃ：第３実施形態
図９は、第３実施形態における操作画面Ｇのうち表示領域４２の模式図である。図９には、超過状態における表示領域４２が例示されている。通常状態における表示領域４２は第１実施形態（図５）と同様である。

【0064】

第３実施形態では、第２画像６０のうち端部６２側の一部が動画再生期間の外側に位置する超過状態において音声再生期間が短縮される。すなわち、音声再生期間の終点が動画再生期間の終点よりも後方に位置する場合に音声再生期間が短縮される。具体的には、表示制御部３３は、音声再生期間の始点を維持したまま、音声再生期間の終点が動画再生期間の終点に一致するように、音声再生期間を短縮する。

【0065】

表示制御部３３は、短縮後の音声再生期間の時間長Ｔに対応する表示長Ｌで第２画像６０を表示させる。具体的には、図９に例示される通り、時間軸τ上において第２画像６０の端部６２が第１画像５０の端部５２に一致するように、第２画像６０が時間軸τの方向に短縮される。第２画像６０の端部６１の位置は変更されない。また、表示制御部３３は、利用者が指示した文字列Ｑの文字数Ｎに応じた初期的な表示長Ｌで第２画像６０が表示される場合と、音声再生期間の超過により第２画像６０が短縮された場合とで、第２画像６０の態様を相違させる。すなわち、表示制御部３３は、第２画像６０のうち端部６２側の一部が動画再生期間の外側に位置する場合に、第２画像６０の態様を変化させる。第２画像６０の態様を変化させる以上の動作は、音声再生期間の一部が動画再生期間の外側に位置することを利用者に報知する動作に相当する。

【0066】

図１０は、第３実施形態における制御処理Ｓの一部を例示するフローチャートである。第３実施形態においては、図7に例示した制御処理ＳのうちステップＳa12が、図１０のステップＳb1－Ｓb3に置換される。

【0067】

利用者からの指示に応じた移動後の第２画像６０の端部６２が動画再生期間の外側に位置する場合（Ｓa11：YES）、表示制御部３３は、音声再生期間を短縮する（Ｓb1）。具体的には、表示制御部３３は、音声再生期間の始点を維持したまま、音声再生期間の終点が動画再生期間の終点に一致するように音声再生期間を短縮する。表示制御部３３は、第２画像６０を変更する（Ｓb2）。具体的には、表示制御部３３は、短縮後の音声再生期間の時間長Ｔに応じた表示長Ｌとなるように第２画像６０を時間軸τの方向に短縮する。また、表示制御部３３は、第２画像６０の全体の態様を変化させる。すなわち、通常状態と超過状態とでは第２画像６０が相異なる態様で表示される。

【0068】

また、表示制御部３３は、短縮後の音声再生期間内に文字列Ｑの全体が発音されるように発話速度Ｈを調整する（Ｓb3）。すなわち、表示制御部３３は、短縮後の音声再生期間の時間長Ｔと文字列Ｑの文字数Ｎとに応じて発話速度Ｈを設定する。具体的には、発話速度Ｈは、基準値ｈ0を上回る数値（以下「調整値」という）ｈ1に設定される。例えば、短縮後の音声再生期間が短いほど、調整値ｈ1は大きい数値に設定される。

【0069】

操作画面Ｇの操作画像４４が操作された場合（Ｓa13：YES）、通信制御部３５は、第１実施形態と同様に、動画データＶaと制御データＸとを含む素材データＤを通信装置１３から編集システム２０に送信する（Ｓa14）。第３実施形態の制御データＸは、図１１に例示される通り、文字列Ｑと発音開始点Ｐとに加えて発話速度Ｈを含む。音声再生期間が短縮されていない場合の発話速度Ｈは、第１実施形態と同様に基準値ｈ0に設定される。他方、音声再生期間が短縮された場合の発話速度Ｈは、基準値ｈ0を上回る調整値ｈ1に設定される。したがって、発話速度Ｈが調整値ｈ1である場合に音声合成部２２が生成する発話音声の時間長は、発話速度Ｈが基準値ｈ0である場合の発話音声の時間長よりも短い。すなわち、音声合成部２２は、短縮後の音声再生期間内に発話音声が発音されるように音声データＹを生成する。

【0070】

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、第２画像６０の端部６２が第１画像５０の端部５２よりも後方に位置する場合に音声再生期間が短縮される。したがって、動画再生期間内に文字列Ｑの全部を発音する発話音声を生成できる。第３実施形態においては特に、音声再生期間の終点が動画再生期間の終点に一致するように音声再生期間が短縮されるから、発話音声の全体を動画に対して重複させる作業が容易である。

【0071】

Ｄ：第４実施形態
図１２は、第４実施形態における操作画面Ｇのうち表示領域４２の模式図である。第１画像５０が表す動画再生期間が長い場合には特に、第２画像６０の表示長Ｌが第１画像５０に対して相対的に短くなる可能性が高い。第２画像６０の表示長Ｌが短い場合でも利用者が文字列Ｑを容易に確認できるように、第４実施形態においては、文字列Ｑの文字数Ｎが閾値Ｎthを上回る場合に、図１２に例示される通り、第２画像６０の外側に文字列Ｑを表示する。具体的には、第２画像６０の近傍に配置された補助画像７０の内側に文字列Ｑが表示される。

【0072】

図１３は、第４実施形態における制御処理Ｓの一部を例示するフローチャートである。第４実施形態においては、図7に例示した制御処理ＳのうちステップＳa7が、図１３のステップＳc1－Ｓc4に置換される。

【0073】

第１実施形態と同様の手順で第２画像６０を表示すると（Ｓa6）、表示制御部３３は、第２画像６０の表示長Ｌに応じて閾値Ｎthを設定する（Ｓc1）。具体的には、表示制御部３３は、表示長Ｌが大きいほど、閾値Ｎthを大きい数値に設定する。表示制御部３３は、文字列Ｑの文字数Ｎが閾値Ｎthを下回るか否かを判定する（Ｓc2）。文字数Ｎが閾値Ｎthを下回る場合（Ｓc2：YES）、表示制御部３３は、第１実施形態と同様に、第２画像６０の内側に文字列Ｑを表示させる（Ｓc3）。

【0074】

他方、文字数Ｎが閾値Ｎthを上回る場合（Ｓc2：NO）、表示制御部３３は、第２画像６０の外側に文字列Ｑを表示させる（Ｓc4）。具体的には、表示制御部３３は、第２画像６０の外側に矩形状の補助画像７０を配置し、当該補助画像７０の内側に文字列Ｑを配置する。文字列Ｑを構成する文字のサイズは、当該文字列Ｑが第２画像６０の内側に表示される場合と外側に表示される場合とで共通する。ただし、文字列Ｑを構成する文字のサイズは、例えば文字数Ｎに応じて変更されてもよい。また、文字数Ｎが閾値Ｎthに等しい場合には、第２画像６０の内側に文字列Ｑを表示してもよいし（Ｓc3）、第２画像６０の外側に文字列Ｑを表示してもよい（Ｓc4）。

【0075】

第２画像６０の内側に文字列Ｑが表示される場合、超過状態では、第１実施形態と同様に、第２画像６０のうち部分６０aと部分６０bとが相異なる態様で表示され、かつ、文字列Ｑのうち部分Ｑaと部分Ｑbとが相異なる態様で表示される。他方、第２画像６０の外側に文字列Ｑが表示される場合、超過状態では、第２画像６０のうち部分６０aと部分６０bとが相異なる態様で表示され、補助画像７０内の文字列Ｑは全体にわたり共通の態様で表示される。

【0076】

第４実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態においては、文字数Ｎが閾値Ｎthを上回る場合には第２画像６０の外側に文字列Ｑが表示される。したがって、音声再生期間（第２画像６０の表示長Ｌ）が比較的に短い場合でも、利用者が文字列Ｑの全体を容易に把握できる。

【0077】

Ｅ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

【0078】

（１）前述の各形態においては、音声再生期間の終点が動画再生期間の終点の後方に位置する場合に着目したが、音声再生期間の始点が動画再生期間の始点の前方に位置する場合にも、前述の各形態と同様の構成が採用される。

【0079】

例えば、第１実施形態と同様に、表示制御部３３は、第２画像６０のうち動画再生期間の始点の前方に位置する部分と、動画再生期間の内側に対応する部分とを、相異なる態様で表示してもよい。また、表示制御部３３は、文字列Ｑのうち動画再生期間の始点の前方に位置する部分と、動画再生期間の内側に位置する部分とを、相異なる態様で表示してもよい。

【0080】

また、第２実施形態と同様に、表示制御部３３は、文字列Ｑのうち動画再生期間の始点の前方に位置する部分を消去してもよい。また、表示制御部３３は、第２画像６０のうち動画再生期間の始点の前方に位置する部分を消去してもよい。

【0081】

第３実施形態と同様に、表示制御部３３は、第２画像６０の端部６１が第１画像５０の端部５１よりも前方に位置する場合に、音声再生期間を短縮してもよい。例えば、音声再生期間の始点が動画再生期間の始点の前方に位置する場合に、音声再生期間の始点が動画再生期間の始点に一致するように音声再生期間が短縮される。

【0082】

（２）前述の各形態においては、動画再生期間内に１個の音声再生期間が設定される場合を例示したが、図１４に例示される通り、動画再生期間内に複数の音声再生期間が設定されてもよい。表示制御部３３は、相異なる文字列Ｑの音声再生期間に対応する複数の第２画像６０を表示領域４２に表示させる。表示制御部３３は、操作装置１５に対する利用者からの指示に応じて、複数の第２画像６０の各々を時間軸τの方向に個別に移動させる。

【0083】

なお、２以上の音声再生期間が時間軸τ上において相互に重複しないように表示制御部３３が各音声再生期間を自動的に調整してもよい。例えば、表示制御部３３は、２以上の音声再生期間が重複するような第２画像６０の移動の指示を受付けない形態が想定される。また、表示制御部３３は、時間軸τ上で２個の第２画像６０が重複する場合に、当該２個の第２画像６０のうち一方を消去してもよい。また、表示制御部３３は、時間軸τ上で２個の第２画像６０が重複する場合に、当該２個の第２画像６０のうち一方を、他方に重複しない位置に自動的に移動させてもよい。

【0084】

（３）前述の各形態においては、第１画像５０と第２画像６０と文字列Ｑとを表示領域４２に表示したが、図１５に例示される通り、コンテンツＣの動画データＶbが表す動画７５を表示装置１６に表示させる期間内に、表示制御部３３が、当該動画７５とともに文字列Ｑを表示してもよい。

【0085】

表示制御部３３は、動画７５のうち特定の被写体（以下「目標物」という）７６とは重複しない位置に文字列Ｑを配置する。目標物７６は、例えば任意の人物または特定の物体等、動画７５内において相対的に面積が大きい被写体である。目標物７６の認識には、顔認識等の公知の画像認識が任意に採用される。例えば、顔認識により認識された人物を目標物７６として特定する構成、または、顔認識により認識された人物の近傍に位置する大面積の物体を目標物７６として特定する構成が想定される。

【0086】

（４）第１実施形態では、超過状態において、第２画像６０の部分６０aと部分６０bとが相異なる態様で表示される。第２実施形態では、超過状態において、文字列Ｑの部分Ｑb（または第２画像６０の部分６０b）が消去される。第３実施形態では、通常状態と超過状態とにおいて第２画像６０が相異なる態様で表示される。以上の構成は、音声再生期間の一部が動画再生期間の外側に位置すること（すなわち超過状態）を利用者に報知するための具体的な形態である。ただし、超過状態を利用者に報知するための形態は以上の例示に限定されない。

【0087】

例えば、図１６に例示される通り、超過状態を利用者に報知するための報知画像７８を、表示領域４２とは別個に操作画面Ｇに配置してもよい。表示制御部３３は、通常状態と超過状態とで報知画像７８の表示の態様を相違させる。例えば、表示制御部３３は、通常状態から超過状態に遷移すると、報知画像７８の表示の態様を変化させる。以上の構成によれば、利用者は、報知画像７８の態様の変化により、音声再生期間の一部が動画再生期間の外側に位置することを認識できる。なお、以上の説明においては画像の表示により利用者に超過状態を報知したが、例えば放音制御部３４が警報音を放音装置１７に放音させることで、超過状態を利用者に報知してもよい。

【0088】

（５）前述の各形態において例示した端末装置１０の機能は、編集システム２０に搭載されてもよい。動画データ取得部３１は、端末装置１０から送信された動画データＶaを取得し、文字列取得部３２は、端末装置１０から送信された文字列Ｑを取得する。表示制御部３３は、操作画面Ｇを表す画像データを端末装置１０に送信することで、端末装置１０の表示装置１６に操作画面Ｇを表示させる。以上の機能が搭載された編集システム２０には、前述の各形態で例示した任意の構成が採用される。表示装置１６に操作画面Ｇを表示させる機能を具備するコンピュータシステム（端末装置１０または編集システム２０）は、「情報処理システム」として包括的に表現される。また、前述の各形態において例示した編集システム２０の機能（動画編集部２１および音声合成部２２）は、端末装置１０に搭載されてもよい。

【0089】

（６）前述の各形態に例示した機能は、前述の通り、複数のプロセッサ（例えば制御装置１１）と記録媒体（例えば記憶装置１２）に記憶されたプログラムとの協働により実現される。以上の機能を実現するためのプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

【0090】

Ｆ：付記
以上に例示した形態から、例えば以下の構成が把握される。

【0091】

本開示のひとつの態様（態様１）に係る情報処理方法は、動画の再生とともに再生される音声を表す文字列を取得し、時間軸上において前記動画が再生される動画再生期間を表す第１画像と、前記時間軸上において前記音声が再生される音声再生期間を表す第２画像と、前記文字列と、を表示装置に表示させる。以上の態様においては、動画再生期間を表す第１画像と、当該動画の再生とともに再生される音声の音声再生期間を表す第２画像とが、共通の時間軸のもとで表示され、かつ、当該音声を表す文字列が表示される。したがって、時間軸上における動画再生期間と音声再生期間との関係、および、音声再生期間内に発音される音声の文字列を、利用者が容易に把握できる。

【0092】

態様１の具体例（態様２）において、前記第２画像は、前記時間軸の方向における表示長が前記音声再生期間の時間長に対応する画像である。以上の態様においては、時間軸の方向における第２画像の表示長が音声再生期間の時間長に対応する。したがって、動画再生期間の時間長に対する音声再生期間の時間長の関係を、利用者が直観的に把握できる。なお、「音声再生期間の時間長」は、文字列に対応する音声を実際に合成した場合における当該音声の時間長、または、文字列の文字数から推定される当該音声の時間長である。

【0093】

態様２の具体例（態様３）において、前記時間軸上における前記第２画像の位置を利用者からの指示に応じて変化させる。以上の態様においては、利用者は、第２画像の位置を変化させることで、時間軸上における音声再生期間の位置を簡便に調整できる。

【0094】

態様２または態様３の具体例（態様４）において、前記文字列は、前記第２画像の内側に表示される。以上の態様においては、第２画像の内側に文字列が表示されるから、音声再生期間内における音声の内容を利用者が容易に把握できる。

【0095】

態様２から態様４の何れかの具体例（態様５）において、前記音声再生期間の一部が前記動画再生期間の外側に位置することを報知する。以上の態様においては、音声再生期間の一部が動画再生期間の外側に位置することが利用者に報知される。したがって、音声再生期間の一部が動画再生期間に重複しないことを利用者が容易に把握できる。

【0096】

態様２から態様４の何れかの具体例（態様６）において、前記第２画像のうち前記動画再生期間の外側に対応する部分と、前記動画再生期間の内側に対応する部分とを、相異なる態様で表示する。以上の態様においては、第２画像のうち、動画再生期間の外側に対応する部分と当該動画再生期間の内側に対応する部分とが、相異なる態様で表示される。したがって、音声再生期間のうち動画再生期間に対して重複しない期間の有無または長短を、利用者が容易に把握できる。

【0097】

態様２から態様４の何れかかの具体例（態様７）において、前記文字列のうち、前記動画再生期間の外側に対応する部分と、前記動画再生期間の内側に対応する部分とを、相異なる態様で表示する。以上の態様においては、文字列のうち、動画再生期間の外側に対応する部分と当該動画再生期間の内側に対応する部分とが、相異なる態様で表示される。したがって、文字列のうち動画再生期間内に発音されない部分の有無または長短を、利用者が容易に把握できる。

【0098】

態様１から態様４の何れかの具体例（態様８）において、前記文字列のうち前記動画再生期間の外側に対応する部分を表示しない。以上の態様においては、文字列のうち、動画再生期間の外側に対応する部分が表示されない。したがって、音声を表す文字列のうち動画再生期間に対して重複しない部分の有無または長短を利用者が容易に把握できる。

【0099】

態様１から態様５の何れかの具体例（態様９）において、前記音声再生期間の終点が前記動画再生期間の終点よりも後方に位置する場合に前記音声再生期間を短縮し、前記短縮後の音声再生期間の終点が前記動画再生期間の終点に一致するように前記第２画像を表示させる。以上の態様においては、音声再生期間の終点が動画再生期間の終点よりも後方に位置する場合に、音声再生期間の終点が動画再生期間の終点に一致するように音声再生期間が短縮される。したがって、音声の全体を動画に対して重複させる作業が容易である。

【0100】

態様１から態様９の何れかの具体例（態様１０）において、前記文字列の文字数が閾値を下回る場合に、前記第２画像の内側に前記文字列を表示させ、前記文字数が前記閾値を上回る場合に、前記第２画像の外側に前記文字列を表示させる。以上の態様においては、文字列の文字数が閾値を下回る場合には、第２画像の内側に文字列が表示され、文字数が閾値を上回る場合には、第２画像の外側に文字列が表示される。したがって、音声が比較的に短い場合であっても、利用者が文字列の全体を容易に把握できる。

【0101】

【0102】

【符号の説明】

【0103】

１００…情報システム、１０…端末装置、１１…制御装置、１２…記憶装置、１３…通信装置、１４…撮像装置、１５…操作装置、１６…表示装置、１７…放音装置、２０…編集システム、２１…動画編集部、２２…音声合成部、３１…動画データ取得部、３２…文字列取得部、３３…表示制御部、３４…放音制御部、３５…通信制御部、４１…入力領域、４２…表示領域、４３，４４…操作画像、５０…第１画像、６０…第２画像、７０…補助画像、７５…動画、７６…目標物、７８…報知画像。

【図1】