特許第6648003号(P6648003)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ミクシィの特許一覧

特許6648003情報処理装置,情報処理装置の制御方法及び制御プログラム
<>
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000002
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000003
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000004
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000005
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000006
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000007
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000008
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000009
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000010
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000011
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000012
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000013
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000014
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000015
  • 特許6648003-情報処理装置,情報処理装置の制御方法及び制御プログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6648003
(24)【登録日】2020年1月17日
(45)【発行日】2020年2月14日
(54)【発明の名称】情報処理装置,情報処理装置の制御方法及び制御プログラム
(51)【国際特許分類】
   H04N 5/93 20060101AFI20200203BHJP
   H04N 5/278 20060101ALI20200203BHJP
   G06F 16/903 20190101ALI20200203BHJP
   G06F 16/907 20190101ALI20200203BHJP
   G06F 16/908 20190101ALI20200203BHJP
   G06F 16/909 20190101ALI20200203BHJP
   G10L 15/22 20060101ALI20200203BHJP
   G10L 15/00 20130101ALI20200203BHJP
   H04N 5/91 20060101ALI20200203BHJP
【FI】
   H04N5/93
   H04N5/278
   G06F16/903
   G06F16/907
   G06F16/908
   G06F16/909
   G10L15/22 460Z
   G10L15/00 200G
   H04N5/91
【請求項の数】12
【全頁数】19
(21)【出願番号】特願2016-257053(P2016-257053)
(22)【出願日】2016年12月28日
(65)【公開番号】特開2018-110312(P2018-110312A)
(43)【公開日】2018年7月12日
【審査請求日】2018年12月21日
(73)【特許権者】
【識別番号】500033117
【氏名又は名称】株式会社ミクシィ
(74)【代理人】
【識別番号】100134706
【弁理士】
【氏名又は名称】中山 俊彦
(72)【発明者】
【氏名】笠原 健治
(72)【発明者】
【氏名】西山 咲耶
【審査官】 川中 龍太
(56)【参考文献】
【文献】 特開2007−027990(JP,A)
【文献】 特開2006−166407(JP,A)
【文献】 米国特許第08259995(US,B1)
【文献】 特開2009−141555(JP,A)
【文献】 特開2006−333065(JP,A)
【文献】 特開2003−111009(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91 − 5/956
H04N 5/278
G10L 15/00
G10L 15/22
G06F 16/903
G06F 16/907
G06F 16/908
G06F 16/909
(57)【特許請求の範囲】
【請求項1】
ムービーにおいてユーザが指定する指定範囲に包含されるフレームとの関係で該指定範囲に包含される音声の音源の位置をユーザ操作に基づいて特定する特定手段と、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定手段により特定される音源の位置とユーザ操作により描いた軌跡とに基づいて設定する設定手段と、
を備える情報処理装置。
【請求項2】
前記ユーザ操作は閉図形を描く操作であり、
前記特定手段が、前記軌跡の端点の位置に応じて前記音源の位置を特定し、
前記設定手段が、前記閉図形が形成する閉領域の位置に応じて前記重畳テキストの配置領域を設定する、
請求項1に記載の情報処理装置。
【請求項3】
ムービーから抽出される音声にそれぞれ対応する当該ムービーの複数の候補範囲を少なくとも含む候補リストの中からユーザに選択される範囲を指定範囲として指定する指定手段と、
前記指定範囲に包含されるフレームとの関係で該指定範囲に包含される前記音声の音源の位置を特定する特定手段と、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定手段により特定される音源の位置に基づいて設定する設定手段と、
を備える情報処理装置。
【請求項4】
前記設定手段が、前記特定手段により特定される音源の位置と前記フレームの表示範囲との関係に応じて前記配置態様を設定する、
請求項3に記載の情報処理装置。
【請求項5】
前記設定手段が、前記音源の位置が前記表示範囲の内部である場合に前記重畳テキストが該音源に関連付けて配置されるように前記配置態様を設定し、前記音源の位置が前記表示範囲の外部である場合に前記重畳テキストが該音源に関連付けずに配置されるように前記配置態様を設定する、
請求項4に記載の情報処理装置。
【請求項6】
前記特定手段が、位置指定と領域指定とを兼ねるユーザ操作により指定される位置に応じて前記音源の位置を特定し、
前記設定手段が、ユーザ操作により指定される領域に応じて前記重畳テキストの配置領域を設定する、
請求項4または5に記載の情報処理装置。
【請求項7】
前記特定手段が、前記指定手段により指定される指定範囲ごとに、該指定範囲に包含される音声の音源の位置を特定し、
前記設定手段が、前記指定手段により指定される指定範囲ごとに、該指定範囲に包含されるフレームに重畳配置される前記重畳テキストの配置態様を前記特定手段により特定される該指定範囲に包含される音声の音源の位置に基づいて設定する、
請求項3ないし6のいずれかに記載の情報処理装置。
【請求項8】
前記指定手段が、前記ムービーに包含される音声のまとまりにそれぞれ対応する複数の候補テキストにそれぞれ関連付けられた複数の前記候補範囲を含む前記候補リストを前記ユーザに提示し指定数の範囲を該ユーザに選択させる、
請求項7に記載の情報処理装置。
【請求項9】
ムービーにおいてユーザが指定する指定範囲に包含されるフレームとの関係で該指定範囲に包含される音声の音源の位置をユーザ操作に基づいて特定する特定ステップと、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定ステップにおいて特定される音源の位置と前記ユーザ操作により描いた軌跡とに基づいて設定する設定ステップと、
を含む、情報処理方法。
【請求項10】
ムービーから抽出される音声にそれぞれ対応する当該ムービーの複数の候補範囲を少なくとも含む候補リストの中からユーザに選択される範囲を指定範囲として指定する指定ステップと、
前記指定範囲に包含されるフレームとの関係で該指定範囲に包含される前記音声の音源の位置を特定する特定ステップと、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定ステップにおいて特定される音源の位置を加味して設定する設定ステップと、
を含む、情報処理方法。
【請求項11】
ムービーにおいてユーザが指定する指定範囲に包含されるフレームとの関係で該指定範囲に包含される音声の音源の位置をユーザ操作に基づいて特定する特定機能と、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定機能により特定される音源の位置と前記ユーザ操作により描いた軌跡とに基づいて設定する設定機能と、
を情報処理装置のコンピュータに実現させる制御プログラム。
【請求項12】
ムービーから抽出される音声にそれぞれ対応する当該ムービーの複数の候補範囲を少なくとも含む候補リストの中からユーザに選択される範囲を指定範囲として指定する指定機能と、
前記指定範囲に包含されるフレームとの関係で該指定範囲に包含される前記音声の音源の位置を特定する特定機能と、
前記音声に対応し前記フレームに重畳配置される重畳テキストの配置態様を前記特定機能により特定される音源の位置を加味して設定する設定機能と、
を情報処理装置のコンピュータに実現させる制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ムービーからフレームを抽出して出力する情報処理システムに関する。
本発明は、特に、ムービーからフレームと音声を抽出し、当該音声に対応するテキストを当該フレームに重畳表示する情報処理システムに関する。
【背景技術】
【0002】
音声付き動画から注目静止画を自動的に抽出して写真アルバムを作成する方法が知られている(例えば、特許文献1参照)。
具体的には、音声付き動画データを構成する音声データの波形データ又はテキストデータの中から指定波形又は指定テキストに一致する注目部分を特定し、当該音声付き動画データを構成する動画データから当該注目部分に対応する静止画を注目静止画として抽出し、注目静止画に注目部分の音声のテキストが付加された写真アルバムを作成する(特許文献1の[請求項4][請求項6]等)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−333065号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
静止画像にオブジェクトを重畳配置する場合、オブジェクトの配置態様を静止画像の表示内容に応じて設定できれば都合がよい。特許文献1には、注目静止画に対してテキストをどのように付加するか具体的な配置態様が開示されていない。
【0005】
本発明が解決しようとする課題は、ムービーから抽出される音声に対応するテキストを当該ムービーから抽出されるフレームに訴求力の高い態様で重畳配置することである。
【課題を解決するための手段】
【0006】
〔A〕上記課題を解決するため、本発明の一態様である「情報処理装置」は、ムービーの指定範囲に包含される指定フレームとの関係で該指定範囲に包含される指定音声の音源の位置を特定する特定手段と、前記指定音声に対応し前記指定フレームに重畳配置される重畳テキストの配置態様を前記特定手段により特定される音源の位置を加味して設定する設定手段と、を備える。
〔B〕上記課題を解決するため、本発明の一態様である「情報処理装置の制御方法」は、ムービーの指定範囲に包含される指定フレームとの関係で該指定範囲に包含される指定音声の音源の位置を特定する特定ステップと、前記指定音声に対応し前記指定フレームに重畳配置される重畳テキストの配置態様を前記特定ステップにおいて特定される音源の位置を加味して設定する設定ステップと、を含む。
〔C〕上記課題を解決するため、本発明の一態様である「制御プログラム」は、ムービーの指定範囲に包含される指定フレームとの関係で該指定範囲に包含される指定音声の音源の位置を特定する特定機能と、前記指定音声に対応し前記指定フレームに重畳配置される重畳テキストの配置態様を前記特定機能により特定される音源の位置を加味して設定する設定機能と、を情報処理装置のコンピュータに実現させる。
〔D〕上記課題を解決するため、本発明の一態様である「コンピュータ読取り可能な記録媒体」に記録される制御プログラムは、ムービーの指定範囲に包含される指定フレームとの関係で該指定範囲に包含される指定音声の音源の位置を特定する特定機能と、前記指定音声に対応し前記指定フレームに重畳配置される重畳テキストの配置態様を前記特定機能により特定される音源の位置を加味して設定する設定機能と、を情報処理装置のコンピュータに実現させる。
【0007】
上記〔A〕の「情報処理装置」には、下記の技術的限定を加えてもよい。また、同様の技術的限定を、上記〔B〕の「制御方法」,上記〔C〕の「制御プログラム」及び上記〔D〕の「記録媒体」が記録する制御プログラムに加えてもよい。
・前記設定手段が、前記特定手段により特定される音源の位置と前記指定フレームの表示範囲との関係に応じて前記配置態様を設定する。
・前記設定手段が、前記音源の位置が前記表示範囲の内部である場合に前記重畳テキストが該音源に関連付けて配置されるように前記配置態様を設定し、前記音源の位置が前記表示範囲の外部である場合に前記重畳テキストが該音源に関連付けずに配置されるように前記配置態様を設定する。
・前記特定手段が、位置指定と領域指定とを兼ねるユーザ操作により指定される位置に応じて前記音源の位置を特定し、前記設定手段が、前記ユーザ操作により指定される領域に応じて前記重畳テキストの配置領域を設定する。
・前記ユーザ操作は閉図形を描く操作であり、前記特定手段が、前記ユーザ操作の端点の位置に応じて前記音源の位置を特定し、前記設定手段が、前記ユーザ操作が描く閉図形が形成する閉領域の位置に応じて前記重畳テキストの配置領域を設定する。
・複数の候補範囲をすくなくとも含む候補リストの中からユーザにより選択される指定数の範囲を前記指定範囲として指定する指定手段をさらに備え、前記特定手段が、前記指定手段により指定される指定範囲ごとに、該指定範囲に包含される指定音声の音源の位置を特定し、前記設定手段が、前記指定手段により指定される指定範囲ごとに、該指定範囲に包含される指定フレームに重畳配置される重畳テキストの配置態様を前記特定手段により特定される該指定範囲に包含される指定音声の音源の位置を加味して設定する。
・前記指定手段が、前記ムービーに包含される音声のまとまりにそれぞれ対応する複数の候補テキストにそれぞれ関連付けられた複数の前記候補範囲を含む前記候補リストをユーザに提示し前記指定数の範囲を該ユーザに選択させる。
【0008】
本明細書では、下記のように用語を用いる。
・「ムービー」は、複数のフレームと音声データとを少なくとも包含する。
・「指定範囲」とは、「ムービー」のタイムラインにおいて指定される時間的範囲をいう。
・「フレーム」とは、「ムービー」を構成する静止画像をいう。
・「指定音声」の音源の位置は、「指定フレーム」が表示する範囲の内側又は外側に存在する。
・「重畳テキスト」とは、例えば、「指定音声」から変換された変換テキスト,「指定音声」の検出位置に補充された補充テキスト,変換テキスト又は補充テキストに編集が加えられた編集テキストなど、「指定音声」に由来するテキストをいう。
・「配置態様」とは、「重畳テキスト」の配置の仕方をいう。
・「ユーザ操作」は、画面上の指示位置を連続的に入力する位置入力装置(例えば、タッチパネル,マウス,タッチパッド等)を用いて行われる。
【発明の効果】
【0009】
本発明は、指定フレームに重畳配置される重畳テキストの配置態様を当該指定フレームとの関係で特定される指定音声の音源の位置に応じて設定する。
よって、本発明によれば、ムービーから抽出される音声に対応するテキストを当該ムービーから抽出されるフレームに訴求力の高い態様で重畳配置することが可能になる。
【図面の簡単な説明】
【0010】
図1】重畳テキストの配置態様の説明図である。(実施例)
図2】重畳テキストの配置態様の説明図である。(実施例)
図3】ネットワーク構成例の説明図である。(実施例)
図4】ユーザ装置のハードウェア構成例の説明図である。(実施例)
図5】サーバ装置のハードウェア構成例の説明図である。(実施例)
図6】画像生成システムの機能構成例の説明図である。(実施例)
図7】画像生成手順の説明図である。(実施例)
図8】管理データの項目例の説明図である。(実施例)
図9】編集画面Aの表示例の説明図である。(実施例)
図10】編集データの項目例の説明図である。(実施例)
図11】編集画面Bの表示例の説明図である。(実施例)
図12】サムネイル画像の表示例の説明図である。(実施例)
図13】サムネイル画像の表示例の説明図である。(実施例)
図14】重畳テキストの配置態様の説明図である。(変形例)
図15】重畳テキストの配置態様の説明図である。(変形例)
【発明を実施するための形態】
【0011】
[1.実施形態]
[1−1.概要]
本実施形態は、ムービーからフレームと音声を抽出し当該音声に対応するテキストを当該フレームに重畳配置して出力する情報処理システムに関する。
本実施形態では、ムービーから抽出される音声に対応するテキストを当該ムービーから抽出されるフレームに訴求力の高い態様で重畳配置するため、フレームに重畳配置されるテキストの配置態様を指定音声の音源の位置に応じて設定する構成が採用されている。
【0012】
[1−2.情報処理装置]
本実施形態に係る情報処理システムを構成する情報処理装置は、ムービーの指定範囲に包含される指定フレームとの関係で該指定範囲に包含される指定音声の音源の位置を特定する特定手段と、前記指定音声に対応し前記指定フレームに重畳配置される重畳テキストの配置態様を前記特定手段により特定される音源の位置を加味して設定する設定手段と、を備える。
【実施例】
【0013】
[2.実施例]
[2−1.概要]
本実施例は、ムービーからフレームと音声を抽出し当該音声に対応するテキストを当該フレームに重畳配置した複数の画像をレイアウトして合成したサムネイル画像を生成する画像生成サービスを提供する画像生成システムに関する。
画像生成サービスでは、ムービーから抽出されるフレームや音声は、画像生成サービスを利用するユーザによりそれぞれ指定される。
【0014】
画像生成サービスでは、ムービーから抽出される音声に対応するテキストを当該ムービーから抽出されるフレームに訴求力の高い態様で重畳配置するため、フレームに重畳配置される重畳テキストの配置態様が指定音声の音源の位置とフレームの表示範囲との関係に応じて設定される。
また、画像生成システムでは、位置指定と領域指定とを兼ねるユーザ操作により指定される位置に応じて音源の位置が特定され、当該ユーザ操作により指定される領域に応じて重畳テキストの配置領域が設定される。
【0015】
図1を参照し、重畳テキストの配置態様の一例を説明する。図1では、指定音声の音源の位置がフレームの表示範囲の内部である場合が想定される。
フレーム110には被写体120が含まれる。フレーム110を包含する画面に閉図形を描くユーザ操作がなされると、軌跡130が形成される。このとき、軌跡130の始点131の位置に応じて音源の位置が特定され、軌跡130が形成する閉領域132の位置に応じてテキストの配置領域が設定される。
指定音声の音源の位置がフレームの表示範囲の内部である場合、重畳テキストは、閉領域132に応じた領域に始点131の位置に応じた音源の位置に関連付けて配置される吹き出し140の内部に配置される。
【0016】
図2を参照し、重畳テキストの配置態様の他の例を説明する。図2では、指定音声の音源の位置がフレームの表示範囲の外部である場合が想定される。
フレーム210には被写体220が含まれる。フレーム210を包含する画面に閉図形を描くユーザ操作がなされると、軌跡230が形成される。このとき、軌跡230の始点231の位置に応じて音源の位置が特定され、軌跡230が形成する閉領域232の位置に応じてテキストの配置領域が設定される。
指定音声の音源の位置がフレームの表示範囲の外部である場合、重畳テキストは、閉領域232に応じた領域に始点231の位置に応じた音源の位置に関連付けずに配置される領域240の内部に配置される。
【0017】
[2−2.ネットワーク構成]
図3は、実施例のシステムのネットワーク構成例を示す。
本実施例のシステムは、ユーザが使用するユーザ端末10と、画像生成サービスを提供する画像生成システム20と、を含む。
画像生成システム20は、ユーザ管理サーバ21とデータ処理サーバ22とデータ管理サーバ23とファイル管理サーバ24とストレージ25とを含む。
【0018】
ユーザ端末10とユーザ管理サーバ21とは、通信ネットワーク30を通じてそれぞれデータの授受が可能である。ユーザ管理サーバ21及びデータ処理サーバ22は、データ管理サーバ23を介して、ストレージ25に記憶されるデータにそれぞれアクセス可能である。また、ユーザ管理サーバ21及びデータ処理サーバ22は、ファイル管理サーバ24を介して、ストレージ25に記憶されるデータにそれぞれアクセス可能である。
通信ネットワーク30は、既存のネットワーク(例えば、インターネット(Internet),携帯電話網,無線WAN(Wireless Wide Area Network),無線LAN(Wireless Local Area Network),イーサネット(Ethernet)(登録商標)などのうち少なくともいずれか)を含んでいてよい。
【0019】
[2−2−1.ユーザ端末]
ユーザ端末10は、所定のWebブラウザプログラムがインストールされたユーザ装置(コンピュータ)である。
本実施例のシステムでは、ユーザ装置として、Webブラウザプログラムをインストール可能な汎用の携帯装置(例えば、携帯電話,スマートフォン(smartphone),タブレット(tablet)端末,タブレットPC(personal computer),ウェアラブルデバイス(wearable device)など)や汎用の処理装置(例えば、PC(personal computer)など)を用いることができる。
【0020】
[2−2−2.画像生成システム]
画像生成システム20は、ユーザ管理サーバ21とデータ処理サーバ22とデータ管理サーバ23とファイル管理サーバ24とストレージ25とを含む。
ユーザ管理サーバ21は、Webサーバプログラム(HTTPデーモン(HyperText Transfer Protocol Daemon)ともいう。)がインストールされたサーバ装置(コンピュータ)である。
ユーザ管理サーバ21は、ユーザ端末10からの要求(リクエスト)に応じて、データ管理サーバ23を介してストレージ25から必要なデータを読み出し、ユーザ端末10に提供(レスポンス)する。また、ユーザ管理サーバ21は、ユーザ端末10からの要求(リクエスト)に応じて、ユーザ端末10から取得したデータを、データ管理サーバ23を介してストレージ25に書き込み、処理結果をユーザ端末10に提供(レスポンス)する。
なお、複数のサーバ装置を連携させてサーバシステムを構成し、ユーザ管理サーバ21の機能を分担させ又はユーザ管理サーバ21にかかる負荷を分散させてもよい。
【0021】
データ処理サーバ22は、アプリケーションプログラムがインストールされたサーバ装置(コンピュータ)である。
データ処理サーバ22は、データ管理サーバ23を介してストレージ25から必要なデータを読み出し、これに演算・加工を施し、演算・加工済みのデータをデータ管理サーバ23を介してストレージ25に書き込む。また、データ処理サーバ22は、ファイル管理サーバ24を介してストレージ25から必要なデータを読み出し、これに演算・加工を施し、演算・加工済みのデータをファイル管理サーバ24を介してストレージ25に書き込む。
なお、複数のサーバ装置を連携させてサーバシステムを構成し、データ処理サーバ22の機能を分担させ又はデータ処理サーバ22にかかる負荷を分散させてもよい。
【0022】
データ管理サーバ23は、DB(Database)サーバプログラムがインストールされたサーバ装置(コンピュータ)である。データ管理サーバ23は、内蔵する又は外部の接続可能なストレージ25とともにDBMS(Database Management System)を構成する。
データ管理サーバ23は、例えば、データの格納要求に応じ要求元から取得されるデータをストレージ25に格納する機能と、データの抽出要求に応じストレージ25から抽出されるデータを要求元に応答する機能とを有する。
なお、複数のサーバ装置を連携させてサーバシステムを構成し、データ管理サーバ23の機能を分担させ又はデータ管理サーバ23にかかる負荷を分散させてもよい。
【0023】
ファイル管理サーバ24は、ファイルサーバプログラムがインストールされたサーバ装置(コンピュータ)である。
ファイル管理サーバ24は、例えば、データの格納要求に応じ要求元から取得されるデータをストレージ25に格納する機能と、データの抽出要求に応じストレージ25から抽出されるデータを要求元に応答する機能とを有する。
なお、複数のサーバ装置を連携させてサーバシステムを構成し、ファイル管理サーバ24の機能を分担させ又はファイル管理サーバ24にかかる負荷を分散させてもよい。
【0024】
ストレージ25は、管理データ及びファイルデータを記憶する記憶装置である。
なお、複数の記憶装置を用意し、ストレージ25が記憶するデータの種類ごとに別々に記憶させてもよい。またストレージ25が記憶するデータを複数の記憶装置に分散配置することも可能である。
【0025】
[2−3.ハードウェア構成]
[2−3−1.ユーザ装置のハードウェア構成]
図4は、ユーザ装置のハードウェア構成例を示す。
典型的なユーザ装置は、制御処理部を構成するMPU(Micro-Processing Unit)411と、主記憶部を構成するRAM(Random Access Memory)421と、補助記憶部を構成するROM(Read Only Memory)422及びEEPROM(Electrically Erasable Programmable Read-Only Memory)423と、入力部及び表示部を構成するタッチパネルディスプレイ431と、音声出力部を構成するスピーカ432と、通信制御部を構成するNIC(Network Interface Controller)441及び無線LAN(Local Area Network)チップ442と、を少なくとも有する。
【0026】
RAM421と、ROM422と、EEPROM423と、タッチパネルディスプレイ431と、スピーカ432と、NIC441と、無線LANチップ442とは、バスラインを介してMPU411と接続される。
MPU411は、(1)ROM422又はEEPROM423に記憶されたプログラムをRAM421上に読み込み、(2)プログラムの指示に従ってタッチパネルディスプレイ431とEEPROM423とNIC441と無線LANチップ442との少なくともいずれかからデータを取得し、(3)取得したデータをプログラムに規定される手順で演算・加工した上で、(4)演算済み・加工済みのデータをEEPROM423とタッチパネルディスプレイ431とスピーカ432とNIC441と無線LANチップ442との少なくともいずれかに提供する。
【0027】
[2−3−2.サーバ装置のハードウェア構成]
図5は、サーバ装置のハードウェア構成例を示す。
典型的なサーバ装置は、MPUやROMを含む制御処理装置510と、RAMを含む主記憶装置520と、HDD(Hard Disc Drive)を含む補助記憶装置530と、マウスやキーボードを含む入力装置540と、ディスプレイやスピーカを含む出力装置550と、ネットワークカード(Network Interface Card)を含む通信制御装置560と、を有する。
【0028】
主記憶装置520、補助記憶装置530、入力装置540、出力装置550及び通信制御装置560は、バスラインを介して制御処理装置510とそれぞれ接続される。
制御処理装置510は、(1)補助記憶装置530に記憶されたプログラムを主記憶装置520上に読み込み、(2)プログラムの指示に従って入力装置540と補助記憶装置530と通信制御装置560との少なくともいずれかからデータを取得し、(3)取得したデータをプログラムに規定される手順で演算・加工した上で、(4)演算済み・加工済みのデータを補助記憶装置530と出力装置550と通信制御装置560との少なくともいずれかに提供する。
【0029】
[2−4.機能構成]
図6は、画像生成システムの機能構成例を示す。
図6に例示されるように、ユーザ管理サーバ21は、受付部611と、作成部612と、提供部613と、を含む。また、データ処理サーバ22は、抽出部621と、変換部622と、指定部623と、特定部624と、設定部625と、生成部626と、を含む。
【0030】
ユーザ管理サーバ21が担う機能は、サーバ装置向けOS(Operating System)と当該OS上で動作するWebサーバプログラムとがサーバ装置にそれぞれインストールされることにより実現される。
データ処理サーバ22が担う機能は、サーバ装置向けOSと当該OS上で動作するアプリケーションプログラムとがサーバ装置にそれぞれインストールされることにより実現される。
サーバ装置にインストールされるべきプログラムは、各種の記録媒体(例えば、CD(Compact Disc),DVD(Digital Versatile Disk),MOディスク(Magneto-Optical disk),フラッシュメモリ(flash memory)など)に記録された状態で配布され当該記録媒体からサーバ装置に読み込まれてもよいし、通信ネットワークを介し搬送波に重畳させてサーバ装置に供給されてもよい。
【0031】
受付部611は、ユーザ端末10から要求(リクエスト)を受け付ける。
作成部612は、受付部611により受け付けられた要求(リクエスト)に応じたWebページを作成する。
提供部613は、作成部612により作成されたWebページをユーザ端末10に提供(レスポンス)する。
【0032】
抽出部621は、指定ムービーからフレームと音声を抽出する。抽出されたフレーム及び音声は、ファイル管理サーバ24に格納される。
変換部622は、抽出部621により抽出される音声に音声認識処理を施して変換テキストを生成する。なお、有効な音声認識が不可能である場合は、認識不可能な音声であることを示す補充テキストを生成する。生成されたテキストは、データ管理サーバ23に格納される。
【0033】
指定部623は、抽出部621により指定ムービーから抽出される音声のまとまりにそれぞれ対応する複数の候補テキスト(変換テキスト又は補充テキスト)にそれぞれ関連付けられた複数の候補範囲を含む候補リストをユーザに提示して単数又は複数の範囲を選択させ、選択された範囲を指定範囲としてそれぞれ指定する。
また、指定範囲に包含される音声を指定音声として指定するとともに、指定範囲に包含されるいずれかのフレームを指定フレームとして指定する。指定フレームの指定は自動的に行ってもよいし、ユーザの指定に応じて行ってもよい。
【0034】
特定部624は、位置指定と領域指定とを兼ねるユーザ操作の始点の位置に応じて、指定範囲に包含される指定フレームとの関係で当該指定範囲に包含される指定音声の音源の位置を特定する。本実施例では、音源の位置は指定範囲ごとに特定される。
設定部625は、特定部624により特定される音源の位置が指定フレームの表示範囲の内部である場合に重畳テキストが当該音源に関連付けて配置されるように配置態様を設定し、音源の位置が表示範囲の外部である場合に重畳テキストが当該音源に関連付けずに配置されるように配置態様を設定する。いずれの場合にも、位置指定と領域指定とを兼ねるユーザ操作が描く閉図形が形成する閉領域の位置に応じて重畳テキストの配置領域を設定する。
生成部626は、サムネイル画像を生成する。生成されたサムネイル画像は、ファイル管理サーバ24を介してストレージ25に格納され、Webサーバにて公開される。
【0035】
[2−5.画像生成手順]
図7は、画像生成手順を例示する。画像生成システム20は、下記の手順によりサムネイル画像を生成する。
〔S702〕
ユーザ管理サーバ21が、ユーザ端末10からムービー指定データを取得する。ムービー指定データは、指定ムービーファイルがユーザ端末10の補助記憶部に記憶されている場合は当該指定ムービーファイルを特定するファイルパス、指定ムービーファイルが他のサーバ装置にて管理されている場合は当該指定ムービーファイルを特定するURL(Uniform Resource Locator)である。
【0036】
〔S704〕
ユーザ管理サーバ21又はデータ処理サーバ22が、指定ムービーファイルを取得する。指定ムービーファイルは、ユーザ端末10又は他のサーバ装置から取得する。
取得された指定ムービーファイルは、ファイル管理サーバ24を介してストレージ25に格納される。また、取得された指定ムービーファイルを管理するムービー管理情報が、データ管理サーバ23を介してストレージ25に格納される。
【0037】
図8(a)は、ムービー管理情報の項目例を示す。
図8(a)に例示されるように、ムービー管理情報は、キー項目である「ムービーID」と、指定ムービーファイルのストレージ25における格納位置を示す「ファイルパス」,指定ムービーに基づくサムネイル画像の生成をリクエストしたユーザを特定する「ユーザID」,指定ムービーに基づくサムネイル画像の生成リクエストを受け付けた時期を特定可能な「受付時期」,指定ムービーの「再生時間」と、を含む。
【0038】
〔S706〕
データ処理サーバ22が、指定ムービーから抽出される音声データに音声認識処理を施して変換テキストを生成する。なお、有効な音声認識が不可能である場合は、認識不可能な音声であることを示す補充テキストを生成する。生成されたテキストを管理するテキスト管理情報が、データ管理サーバ23に格納される。
【0039】
図8(b)は、テキスト管理情報の項目例を示す。
図8(b)に例示されるように、テキスト管理情報は、キー項目である「ムービーID」と、範囲の先頭を特定可能な「先頭位置」,範囲の末尾を特定可能な「末尾位置」,当該範囲に包含される音声に対する音声認識結果である「変換テキスト又は補充テキスト」と、を含む。
【0040】
〔S708〕
データ処理サーバ22が、指定ムービーから仮フレームを抽出する。具体的には、指定ムービーから抽出される音声のまとまりにそれぞれ対応する複数の候補テキスト(変換テキスト又は補充テキスト)にそれぞれ関連付けられた複数の候補範囲ごとに、当該候補範囲に包含されるいずれかのフレームを仮フレームとして抽出する。
【0041】
〔S710〕
ユーザ管理サーバ21が、編集画面Aをユーザ端末10に提示する。
図9は、編集画面Aの表示例である。
図9に例示されるように、編集画面A900は、指定ムービーのタイムライン910に対応付けて複数の候補範囲920(920a〜920f)を配置したものである。複数の候補範囲920には、テキストボックス922(922a〜922f),再生ボタン924(924a〜924f),仮フレーム926(926a〜926f),チェックボックス928(928a〜928f)がそれぞれ対応付けて表示される。
編集画面A900において、タイムライン910は、ムービー管理情報(図8(a))の「再生時間」に対応する。
【0042】
候補範囲920は、テキスト管理情報(図8(b))の「先頭位置」から「末尾位置」までの範囲に対応する。テキストボックス922に表示されるテキストは、テキスト管理情報(図8(b))の「変換テキスト又は補充テキスト」に対応する。
再生ボタン924がタップされると、ユーザ端末10はテキスト管理情報(図8(b))の「先頭位置」から「末尾位置」までの候補範囲の音声の再生をユーザ管理サーバ21にリクエストする。
ユーザが必要に応じて音声を再生させつつ必要に応じてテキストボックス922のテキストを編集し、単数又は複数(図9の表示例では4つ)の候補範囲にそれぞれ対応するチェックボックス928にチェックを入れてボタン930をタップすると、ユーザ端末10は編集データAをユーザ管理サーバ21に送信する。
【0043】
〔S712〕
ユーザ管理サーバ21が、ユーザ端末10から編集データAを取得する。取得された編集データAは、データ管理サーバ23を介してストレージ25に蓄積される。
図10(a)は、編集データAの項目例を示す。
図10(a)に例示されるように、編集データAは、「ムービーID」と、候補範囲の先頭を特定可能な「先頭位置」と、候補範囲の末尾を特定可能な「末尾位置」と、当該候補範囲に対応する「編集テキスト」と、当該候補範囲が選択されている場合に有意とする「選択フラグ」と、を含む。
【0044】
〔S714〕
ユーザ管理サーバ21が、編集画面Bをユーザ端末10に提示する。
図11は、編集画面Bの表示例である。
図11に例示されるように、編集画面B1100は、領域1110,領域1120,領域1130,ボタン1140を含む。
【0045】
領域1110には、選択された範囲ごとに仮フレーム1112(1112a〜1112d)と編集テキスト1114(1114a〜1114d)と領域1116(1116a〜1116d)が表示される。
仮フレーム1112の上方に表示される矢印がタップされると、当該仮フレームの直前又はそれより前の他のフレームに更新される。同様に、仮フレーム1112の下方に表示される矢印がタップされると、当該仮フレームの直後又はそれより後の他のフレームに更新される。
仮フレーム1112を包含する領域1116において図1及び図2を参照して説明したように閉図形を描くユーザ操作がなされると、軌跡が形成される。
【0046】
領域1120では、サムネイル画像のレイアウトが選択される。図11の表示例では、2行2列とするか、4行1列とするかを選択させている。
領域1130では、サムネイル画像の出力形態が選択される。図11の表示例では、JPEG(Joint Photographic Experts Group)形式のWeb表示用データとするか、PDF(Portable Document Format)形式の印刷用データとするかを選択させている。
ユーザが必要に応じてフレームを選択し、選択されたフレームに対してユーザ操作を行い、レイアウト及び出力形態を選択し、ボタン1140をタップすると、ユーザ端末10は編集データB及び選択情報(レイアウト選択情報及び出力形態選択情報)をユーザ管理サーバ21に送信する。
【0047】
〔S716〕
ユーザ管理サーバ21が、ユーザ端末10から編集データBを取得する。取得された編集データBは、データ管理サーバ23を介してストレージ25に蓄積される。
図10(b)は、編集データBの項目例を示す。
図10(b)に例示されるように、編集データBは、「ムービーID」と、候補範囲の先頭を特定可能な「先頭位置」と、候補範囲の末尾を特定可能な「末尾位置」と、当該候補範囲に包含される「選択フレーム」と、当該候補範囲に対応する「軌跡情報」と、を含む。
【0048】
〔S718〕
データ処理サーバ22が、サムネイル画像を生成する。生成されたサムネイル画像は、ファイル管理サーバ24を介してストレージ25に格納され、Webサーバにて公開される。
具体的には、データ処理サーバ22は次の手順でサムネイル画像を生成する。
・編集データA(図10(a))において「選択フラグ」が有意の範囲を指定範囲としてそれぞれ指定する。
・指定範囲に対応する編集データA(図10(a))の「編集テキスト」を重畳テキストに指定する。
・指定範囲に対応する編集データB(図10(b))の「選択フレーム」を指定フレームに指定する。
【0049】
・指定範囲に対応する編集データB(図10(b))の「軌跡情報」から特定される軌跡の始点の位置に応じて、指定フレームとの関係で当該指定範囲に包含される指定音声の音源の位置を特定する。音源の位置が指定フレームの表示範囲の内部である場合に重畳テキストが当該音源に関連付けて配置されるように配置態様を設定し、音源の位置が表示範囲の外部である場合に重畳テキストが当該音源に関連付けずに配置されるように配置態様を設定する。
・指定範囲に対応する編集データB(図10(b))の「軌跡情報」から特定される軌跡が形成する閉領域の位置に応じて重畳テキストの配置領域を設定する。
・指定フレーム内の設定された配置領域に設定された配置態様で重畳テキストを重畳配置した画像を生成する。
・上記の手順で生成された指定範囲ごとの画像を、レイアウト選択情報により特定されるレイアウトで配置し、出力形態選択情報により特定される形式で出力する。
【0050】
〔S720〕
ユーザ管理サーバ21が、ユーザ端末10にサムネイル画像を提供する。
図12は、サムネイル画像の表示例である。サムネイル画像1200は、編集画面B1100において2行2列のレイアウト及びWeb表示用データがそれぞれ選択された場合に生成されるデータである。
サムネイル画像1200を構成する指定フレームには、重畳テキストがそれぞれ重畳配置されている。各指定フレームには、対応する指定範囲のムービーを再生させるハイパーリンクが設定されていてもよい。
【0051】
図13は、サムネイル画像の表示例である。サムネイル画像1300は、編集画面B1100において4行1列のレイアウト及び印刷用データがそれぞれ選択された場合に生成されるデータである。
サムネイル画像1300を構成する指定フレームには、重畳テキストがそれぞれ重畳配置されている。各指定フレームの隅には、対応する指定範囲のムービーを再生させるURLを変換した2次元コードを配置してもよい。
【0052】
[2−6.実施例のシステムが奏する効果]
何らかの情報を他のユーザに知らせる手段としてSNS(Social Networking Service)がしばしば用いられる。SNSは情報を拡散させる用途に利用される性質上、静的な情報(例えば、テキスト,静止画像等)との親和性が高い。
新たなムービー(動画像)がインターネット上で視聴可能になった場合にも、その事実を知らせる手段としてSNSを利用することは可能である。しかし、ムービー(動画像)の視聴にはまとまった時間がかかることから、SNSで紹介するには視聴した上でその内容を静的に示す投稿が必要であった。
【0053】
本実施例のシステムは、指定ムービーの指定範囲に包含される指定フレームに重畳表示させる重畳テキストを、指定音声の音源の位置が指定フレームの表示範囲の内部である場合に重畳テキストを該音源に関連付けて配置し、指定音声の音源の位置が指定フレームの表示範囲の外部である場合に重畳テキストを音源に関連付けずに配置する。音源の位置は、閉図形を描くユーザ操作の端点(始点)の位置に応じて特定される。また、重畳テキストの配置領域は、閉図形が形成する閉領域の位置に応じて設定される。
これらの処理が指定範囲ごとに行われ、テキストがそれぞれ重畳配置された複数の指定フレームをレイアウトしたサムネイル画像が最終的に出力される。
よって、実施例のシステムによれば、ムービーから抽出される指定音声に対応するテキストを当該ムービーから抽出される指定フレームに、より簡便な操作でより訴求力の高い態様で重畳配置することが可能になる。
【0054】
[3.変形例]
[3−1.データ連携の変形例]
上記実施例では、編集データA及び編集データBを同期通信でそれぞれ取得する構成が採用されている。データの伝送には、例えばHTTPプロトコルのPOSTメソッドが利用される。
これに対し、編集データAの項目及び編集データBの項目を非同期通信で順次取得する構成が採用されてもよい。データの伝送には、例えばXMLHttpRequestオブジェクトが利用されるとよい。
【0055】
[3−2.処理主体の変形例]
上記実施例では、サムネイル画像の生成に関するデータ処理を画像生成システム20(特にデータ処理サーバ22)が実行する構成が採用されている。ユーザ端末10は、画像生成システム20の入出力装置に相当する役割を担っている。
これに対し、サムネイル画像の生成に関するデータ処理の少なくとも一部をユーザ端末10が実行する構成が採用されてもよい。例えば音声認識処理をPC等のユーザ端末10に実行させれば画像生成システム20(データ処理サーバ22)の処理負荷を抑えることが可能になる。
【0056】
[3−3.判断主体の変形例]
上記実施例では、指定範囲の指定,指定フレームの指定,音源の位置の特定,重畳テキストの配置領域の指定等をユーザの操作に基づいて行う構成が採用されている。
これに対し、これらの処理の少なくとも一部を、画像生成システム20(例えば、データ処理サーバ22)がユーザの操作に基づかないで行う構成が採用されてもよい。例えば擬似乱数に基づいてランダムに指定・特定してもよいし、所定の条件に基づいて指定・特定してもよい。
【0057】
[3−4.ユーザ操作の変形例]
上記実施形態では、位置指定と領域指定とを兼ねるユーザ操作により指定される位置に応じて音源の位置が特定され、当該ユーザ操作により指定される領域に応じて重畳テキストの配置領域が設定される。上記実施例では、画面に閉図形を描くユーザ操作の軌跡の始点の位置に応じて音源の位置を特定し、軌跡が形成する閉領域の位置に応じてテキストの配置領域を設定する構成が採用されている。
これに対し、画面に線を描くユーザ操作の軌跡の始点の位置に応じて音源の位置を特定し、軌跡の終点の位置を包含する一定領域にテキストの配置領域を設定する構成が採用されてもよい。なお、テキストの配置領域は、テキストが他の被写体に重ならないように設定するのが好ましい。
【0058】
図14を参照し、重畳テキストの配置態様の一例を説明する。図14では、指定音声の音源の位置がフレームの表示範囲の内部である場合が想定される。
フレーム1410には被写体1420が含まれる。フレーム1410を包含する画面に線を描くユーザ操作がなされると、軌跡1430が形成される。このとき、軌跡1430の始点1431の位置に応じて音源の位置が特定され、軌跡1430の終点1432の位置に応じてテキストの配置領域が設定される。
指定音声の音源の位置がフレームの表示範囲の内部である場合、重畳テキストは、終点1432の位置に応じた領域に始点1431の位置に応じた音源の位置に関連付けて配置される吹き出し1440の内部に配置される。
【0059】
図15を参照し、重畳テキストの配置態様の他の例を説明する。図15では、指定音声の音源の位置がフレームの表示範囲の外部である場合が想定される。
フレーム1510には被写体1520が含まれる。フレーム1510を包含する画面に線を描くユーザ操作がなされると、軌跡1530が形成される。このとき、軌跡1530の始点1531の位置に応じて音源の位置が特定され、軌跡1530の終点1532の位置に応じてテキストの配置領域が設定される。
指定音声の音源の位置がフレームの表示範囲の外部である場合、重畳テキストは、終点1532の位置に応じた領域に始点1531の位置に応じた音源の位置に関連付けずに配置される領域1540の内部に配置される。
【符号の説明】
【0060】
10 ユーザ端末
20 画像生成システム
21 ユーザ管理サーバ
22 データ処理サーバ(情報処理装置の一例)
23 データ管理サーバ
24 ファイル管理サーバ
25 ストレージ
30 通信ネットワーク

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15