IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-173404動画像の編集方法、編集プログラム、および編集装置
<>
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図1
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図2
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図3
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図4
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図5
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図6
  • 特開-動画像の編集方法、編集プログラム、および編集装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173404
(43)【公開日】2024-12-12
(54)【発明の名称】動画像の編集方法、編集プログラム、および編集装置
(51)【国際特許分類】
   H04N 21/854 20110101AFI20241205BHJP
   G10L 15/10 20060101ALI20241205BHJP
   G10L 25/84 20130101ALI20241205BHJP
   G10L 17/00 20130101ALI20241205BHJP
   G06T 7/20 20170101ALI20241205BHJP
   G06V 40/16 20220101ALI20241205BHJP
   G06F 3/16 20060101ALI20241205BHJP
   G06F 3/0481 20220101ALI20241205BHJP
   H04N 21/233 20110101ALI20241205BHJP
   G10L 25/57 20130101ALI20241205BHJP
【FI】
H04N21/854
G10L15/10 500T
G10L25/84
G10L17/00 200C
G06T7/20 300B
G06V40/16 B
G06F3/16 600
G06F3/0481
H04N21/233
G10L25/57
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023091798
(22)【出願日】2023-06-02
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】山本 龍一
(72)【発明者】
【氏名】藤田 雄介
(72)【発明者】
【氏名】小松 達也
(72)【発明者】
【氏名】朴 炳宣
(72)【発明者】
【氏名】シャイブラー ロビン
【テーマコード(参考)】
5C164
5E555
5L096
【Fターム(参考)】
5C164FA29
5C164MA02S
5C164MA07S
5C164MB44S
5C164MC01P
5C164PA41
5C164SB04P
5C164SB41S
5C164YA21
5E555AA13
5E555BA02
5E555BA04
5E555BB02
5E555BB04
5E555CB47
5E555CC11
5E555EA22
5E555EA23
5E555FA00
5L096AA06
5L096CA02
5L096DA02
5L096HA11
(57)【要約】      (修正有)
【課題】動画像内の変化に応じて聴覚的な効果を付与することのできる動画像の編集方法、編集プログラムおよび編集装置を提供する。
【解決手段】編集システムにおいて、サーバ100による動画像の編集方法は、情報端末200が取得した動画像を解析することで動画像における特定のタイミングを抽出することと、当該特定のタイミングに対して少なくとも1つの効果音を付与することと、情報端末が取得した動画像を解析することで動画像を1または複数のシーンに区分することと、区分した1または複数のシーンごとに特徴を決定することと、決定した特徴に基づいて各々のシーンに付与する背景音を決定することと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータが、動画像を編集する編集方法であって、
取得した前記動画像を解析することで、前記動画像における特定のタイミングを抽出することと、
抽出した前記特定のタイミングに対して、少なくとも1つの効果音を付与することと、
を含む、編集方法。
【請求項2】
前記動画像に含まれる画像を解析した特徴量を算出すること、
を含み、
前記特定のタイミングの抽出は、算出した前記特徴量に基づいて行われる、
請求項1に記載の編集方法。
【請求項3】
前記動画像に含まれる音声を解析した特徴量を算出すること、
を含み、
前記特定のタイミングの抽出は、算出した前記特徴量に基づいて行われる、
請求項1に記載の編集方法。
【請求項4】
前記動画像に含まれる画像および音声の両方を解析した特徴量を算出すること、
を含み、
前記特定のタイミングの抽出は、算出した前記特徴量に基づいて行われる、
請求項1に記載の編集方法。
【請求項5】
前記動画像を解析した特徴量を算出することと、
算出した前記特徴量に基づいて前記動画像中の人物の感情を推定することと、
を含み、
前記特定のタイミングの抽出は、推定した前記人物の感情に基づいて行われる、
請求項1に記載の編集方法。
【請求項6】
前記動画像に含まれる画像を解析することで、予め設定された人または物を前記動画像中で検出すること、
を含み、
前記特定のタイミングの抽出は、当該人または物の検出結果に基づいて行われる、
請求項1に記載の編集方法。
【請求項7】
前記効果音の付与は、前記特定のタイミングの種類と効果音とを対応付けるように予め設定されたテーブルを参照することで行われる、
請求項1に記載の編集方法。
【請求項8】
前記効果音の付与は、前記特定のタイミングにおける前記動画像の解析結果に基づいて、前記効果音を動的に生成することで行われる、
請求項1に記載の編集方法。
【請求項9】
コンピュータが、動画像を編集する編集方法であって、
取得した前記動画像を解析することで、前記動画像を1または複数のシーンに区分することと、
区分した前記1または複数のシーンごとに特徴を決定することと、
前記1または複数のシーンの各々について決定した特徴に基づいて、前記1または複数のシーンの各々に付与する背景音を決定することと、
を含む、編集方法。
【請求項10】
前記動画像に含まれる言語を解析すること、
を含み、
前記1または複数のシーンの区分は、言語の解析結果に基づいて行われる、
請求項9に記載の編集方法。
【請求項11】
前記動画像に含まれる音声を解析した特徴量を算出すること、
を含み、
前記1または複数のシーンの区分は、算出した前記特徴量に基づいて行われる、
請求項9に記載の編集方法。
【請求項12】
算出した前記特徴量に基づいて前記動画像中の話者の発話区間を抽出すること、
を含み、
前記特徴量に基づく前記1または複数のシーンの区分は、抽出した前記発話区間に基づいて行われる、
請求項11に記載の編集方法。
【請求項13】
前記発話区間の抽出は、前記動画像中の話者を識別することを含み、
前記発話区間に基づく前記1または複数のシーンの区分は、前記話者の識別結果に基づいて行われる、
請求項12に記載の編集方法。
【請求項14】
前記動画像に含まれる画像を解析した特徴量を算出すること、
を含み、
前記1または複数のシーンの区分は、算出した前記特徴量に基づいて行われる、
請求項9に記載の編集方法。
【請求項15】
前記背景音の付与は、前記1または複数のシーンの各々の種類と背景音とを対応付けるように予め設定されたテーブルを参照することで行われる、
請求項9に記載の編集方法。
【請求項16】
前記背景音の付与は、前記1または複数のシーンの各々における前記動画像の解析結果に基づいて、前記背景音を動的に生成することで行われる、
請求項9に記載の編集方法。
【請求項17】
取得した前記動画像の他の動画像についての評価を収集すること、
を含み、
前記背景音の付与は、収集した前記評価および当該他の動画像に含まれる背景音に基づいて行われる、
請求項9に記載の編集方法。
【請求項18】
前記背景音の付与は、前記動画像を編集または視聴するユーザの属性に基づいて行われる、
請求項9に記載の編集方法。
【請求項19】
請求項1から請求項18のいずれか一項に記載の編集方法を、コンピュータに実行させる編集プログラム。
【請求項20】
請求項1から請求項18のいずれか一項に記載の編集方法を、取得した前記動画像に対して実行する編集装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、動画像の編集方法、編集プログラム、および編集装置に関する。
【背景技術】
【0002】
特許文献1は、画像から音楽データを生成する音楽データ生成装置の例を開示する。生成装置は、画像中に顔が含まれているか否かを解析する顔検出手段と、当該顔検出手段によって画像中に顔が含まれていることが判定された場合、当該顔の属性を解析する顔属性解析手段と、当該顔属性解析手段によって解析された顔の属性に基づいて音楽データを生成する音楽データ生成手段と、を備える。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007-219393号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の生成装置は、単一の静止画像に対して音楽の生成を行う。一方で動画像は単一の静止画像とは異なり、起承転結などの時間に応じた変化があるため、一つの動画像に適した、動画像内の各時間を象徴する音楽や聴覚的な効果が一つに特定されるとは限らない。すなわち、時間に対して変化のある動画像に対して、その変化に応じた音楽などの聴覚的な効果を付与することができない。
【0005】
本開示は、このような課題の解決に係るものである。本開示は、動画像内の変化に応じて聴覚的な効果を付与することのできる動画像の編集方法、編集プログラム、および編集装置を提供する。
【課題を解決するための手段】
【0006】
本開示に係る編集方法は、コンピュータが、動画像を編集する編集方法であって、取得した前記動画像を解析することで、前記動画像における特定のタイミングを抽出することと、抽出した前記特定のタイミングに対して、少なくとも1つの効果音を付与することと、を含む。
本開示に係る編集方法は、コンピュータが、動画像を編集する編集方法であって、取得した前記動画像を解析することで、前記動画像を1または複数のシーンに区分することと、区分した前記1または複数のシーンごとに特徴を決定することと、前記複数のシーンの各々について決定した特徴に基づいて、前記1または複数のシーンの各々に付与する背景音を決定することと、を含む。
【0007】
本開示に係る編集プログラムは、上記の編集方法を、コンピュータに実行させる。
【0008】
本開示に係る編集装置は、上記の編集方法を、取得した動画像に対して実行する。
【発明の効果】
【0009】
本開示に係る編集方法、編集プログラム、または編集装置によれば、変化のある動画像に対してその変化に応じた聴覚的な効果を付与することができる。
【図面の簡単な説明】
【0010】
図1】実施の形態1に係る編集システムの構成図である。
図2】実施の形態1に係る編集システムに含まれる各装置の構成の例を示す図である。
図3】実施の形態1に係る編集システムにおける効果音テーブルの例を示す表である。
図4】実施の形態1に係る編集システムの動作の例を示すフローチャートである。
図5】実施の形態2に係る編集システムに含まれる各装置の構成の例を示す図である。
図6】実施の形態2に係る編集システムにおける背景音テーブルの例を示す表である。
図7】実施の形態2に係る編集システムの動作の例を示すフローチャートである。
【発明を実施するための形態】
【0011】
本開示の対象を実施するための形態について添付の図面を参照しながら説明する。各図において、同一または相当する部分には同一の符号を付して、重複する説明は適宜に簡略化または省略する。なお、本開示の対象は以下の実施の形態に限定されることなく、本開示の趣旨を逸脱しない範囲において、任意の構成要素の追加、実施の形態の任意の構成要素の変形、または実施の形態の任意の構成要素の省略などが可能である。
【0012】
実施の形態1.
図1は、実施の形態1に係る編集システム1の構成図である。
【0013】
編集システム1は、動画像の編集を行うシステムである。この例において、編集システム1は、単一のファイルとして記録される動画像の編集を行う。動画像のデータは、例えば、各時刻に対応する複数のフレームまたはフレーム間の差分などの情報を含むことで、時間に対して変化する画像を表すデータである。この例において、動画像のデータは、時間に対して変化する画像の情報と、時間に対して変化する音声の情報と、を含む。ただし、本発明の対象となる動画像が特定の動画像に限定されるものではなく、あらゆる動画像が対象となり得る。
【0014】
この例において、編集システム1は、サーバ100と情報端末200Aとがネットワーク300を介して接続される通信システム上で動作する。通信システムでは、情報端末200Bおよび情報端末200Cなどがネットワーク300を介してサーバ100に接続される。ここで、情報端末200A、情報端末200B、および情報端末200Cなどを特に区別しない場合に、情報端末200と記載することがある。なお、ネットワーク300に接続される情報端末200の数は限定されない。編集システム1における動画像の編集は、例えば、編集システム1のユーザが利用する情報端末200を通じて行われる。サーバ100は、ネットワーク300を介して、編集システム1のユーザが利用する情報端末200との間で編集の対象となる動画像および編集後の動画像のデータなどを通信する。
【0015】
ネットワーク300は、1以上の情報端末200と、サーバ100とを接続する役割を担う。すなわち、ネットワーク300は、情報端末200がサーバ100に接続した後、データを送受信することができるように接続経路を提供する通信網を意味する。
【0016】
ネットワーク300のうちの1つまたは複数の部分は、有線ネットワークや無線ネットワークであってもよいし、そうでなくてもよい。ネットワーク300は、限定ではなく例として、アドホック・ネットワーク(Ad hoc Network)、イントラネット、エクストラネット、仮想プライベート・ネットワーク(Virtual Private Network:VPN)、ローカル・エリア・ネットワーク(Local Area Network:LAN)、ワイヤレスLAN(Wireless LAN:WLAN)、広域ネットワーク(Wide Area Network:WAN)、ワイヤレスWAN(Wireless WAN:WWAN)、大都市圏ネットワーク(Metropolitan Area Network:MAN)、インターネットの一部、公衆交換電話網(Public Switched Telephone Network:PSTN)の一部、携帯電話網、ISDN(Integrated Service Digital Networks)、LTE(Long Term Evolution)、CDMA(Code Division Multiple Access)、Bluetooth(登録商標)、衛星通信など、または、これらの2つ以上の組合せを含むことができる。ネットワーク300は、1つまたは複数のネットワークを含むことができる。
【0017】
情報端末200は、各実施形態において記載する機能を実現できる端末装置であれば、情報処理を行うどのような端末装置であってもよい。情報端末200は、限定ではなく例として、スマートフォン、携帯電話(フィーチャーフォン)、コンピュータ(限定ではなく例として、デスクトップ、ラップトップ、タブレットを含むPC(Personal Computer)など)、メディアコンピュータプラットホーム(限定ではなく例として、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(限定ではなく例として、PDA(Personal Digital Assistant)、電子メールクライアントなど)、ウェアラブル端末(メガネ型デバイス、時計型デバイスなど)、または他種のコンピュータ、またはコミュニケーションプラットホームを含む。
【0018】
サーバ100は、情報端末200に対して、所定のサービスを提供する機能を備える。サーバ100は、各実施形態において記載する機能を実現できる情報処理装置であればどのような装置であってもよい。サーバ100は、限定ではなく例として、サーバ装置、コンピュータ(限定ではなく例として、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(限定ではなく例として、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(限定ではなく例として、PDA、電子メールクライアントなど)、あるいは他種のコンピュータ、またはコミュニケーションプラットホームを含む。サーバ100は、単一のサーバ装置などの情報処理装置であってもよいし、互いに通信しうるように接続された複数の情報処理装置からなるコンピュータシステムであってもよい。サーバ100の各機能の一部または全部は、クラウドサービス上の仮想マシン上に実装されてもよいし、クラウドサービスによって提供される処理または記憶のリソースによって実装されてもよい。
【0019】
図2は、実施の形態1に係る編集システム1に含まれる各装置の構成の例を示す図である。
図2を用いて、編集システム1に含まれる各装置のハードウェア構成の例について説明する。
【0020】
情報端末200は、端末制御部210、端末記憶部280、端末通信I/F220(I/F:インタフェース)、端末入出力部230、端末表示部240、マイク250、スピーカ260、カメラ270を備える。情報端末200のハードウェアの各構成要素は、限定ではなく例として、バスを介して相互に接続される。なお、情報端末200は、ハードウェア構成として、上記のすべての構成要素を含むことを必須としない。限定ではなく例として、情報端末200は、マイク250またはカメラ270などの個々の構成要素、または複数の構成要素を取り外すような構成であってもよいし、そうでなくてもよい。
【0021】
端末通信I/F220は、ネットワーク300を介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。端末通信I/F220は、ネットワーク300を介して、サーバ100との通信を実行する機能を有する。端末通信I/F220は、各種データを端末制御部210からの指示に従って、サーバ100に送信する。また、端末通信I/F220は、サーバ100から送信された各種データを受信し、端末制御部210に伝達する。また、端末通信I/F220を単に通信部と表現する場合もある。また、端末通信I/F220が物理的に構造化された回路で構成される場合には、これを通信回路と表現する場合もある。
【0022】
端末入出力部230は、情報端末200に対する各種操作を入力する装置、および、情報端末200で処理された処理結果を出力する装置を含む。端末入出力部230は、入力部と出力部が一体化していてもよいし、入力部と出力部に分離していてもよいし、そうでなくてもよい。入力部は、ユーザからの入力を受け付けて、当該入力に係る情報を端末制御部210に伝達できる全ての種類の装置のいずれかまたはその組み合わせにより実現される。入力部は、限定ではなく例として、タッチパネル、タッチディスプレイ、キーボードなどのハードウェアキー、マウスなどのポインティングデバイス、カメラ(動画像を介した操作入力)、またはマイク(音声による操作入力)などを含む。出力部は、端末制御部210で処理された処理結果を出力することができる全ての種類の装置のいずれか、またはその組み合わせにより実現される。出力部は、限定ではなく例として、タッチパネル、タッチディスプレイ、スピーカ(音声出力)、レンズ(限定ではなく例として3D(three dimensions)出力、またはホログラム出力)、プリンターなどを含む。
【0023】
端末表示部240は、フレームバッファに書き込まれた表示データに従って、表示することができる全ての種類の装置のいずれか、またはその組み合わせにより実現される。端末表示部240は、限定ではなく例として、タッチパネル、タッチディスプレイ、モニタ(限定ではなく例として、液晶ディスプレイまたはOELD(Organic Electroluminescence Display))、HMD(Head Mounted Display)、プロジェクションマッピング、ホログラム、空気中など(真空であってもよいし、そうでなくてもよい)に画像またはテキスト情報などを表示可能な装置を含む。なお、これらの端末表示部240は、3Dで表示データを表示可能であってもよいし、そうでなくてもよい。
【0024】
端末入出力部230がタッチパネルの場合、端末入出力部230と端末表示部240とは、略同一の大きさおよび形状で対向して配置されていてもよいし、そうでなくてもよい。
【0025】
端末制御部210は、プログラム内に含まれたコードまたは命令によって実現する機能を実行するために物理的に構造化された回路を有し、限定ではなく例として、ハードウェアに内蔵されたデータ処理装置により実現される。そのため、端末制御部210は、制御回路と表現されてもよいし、されなくてもよい。端末制御部210は、限定ではなく例として、中央処理装置(CPU:Central Processing Unit)、マイクロプロセッサ(microprocessor)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、特定用途向けIC(Application-Specific Integrated Circuit:ASIC)、フィールド・プログラマブル・ゲート・アレイ(Field Programmable Gate Array:FPGA)などを含む。
【0026】
端末記憶部280は、情報端末200が動作するうえで必要とする各種プログラムや各種データなどを記憶する機能を有する。端末記憶部280は、限定ではなく例として、ハード・ディスク・ドライブ(Hard Disk Drive:HDD)、固体ドライブ(Solid State Drive:SSD)、フラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)など各種の記憶媒体を含む。また、端末記憶部280は、メモリ(memory)と表現されてもよいし、されなくてもよい。
【0027】
情報端末200は、プログラムを端末記憶部280に記憶し、このプログラムを実行することで、端末制御部210が、端末制御部210に含まれる各部としての処理を実行する。つまり、端末記憶部280に記憶されるプログラムは、情報端末200に、端末制御部210が実行する各機能を実現させる。また、このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。
【0028】
マイク250は、音声データの入力に利用される。スピーカ260は、音声データの出力に利用される。カメラ270は、静止画像または動画像データなどの取得に利用される。ここで、動画像のデータは、カメラ270が取得する画像の情報、およびマイク250が取得する音声の情報を含んでいてもよい。
【0029】
サーバ100は、サーバ制御部110、サーバ記憶部150、サーバ通信I/F140、サーバ入出力部120、サーバ表示部130を備える。サーバ100のハードウェアの各構成要素は、限定ではなく例として、バスを介して相互に接続される。なお、サーバ100は、ハードウェア構成として、上記のすべての構成要素を含むことを必須としない。限定ではなく例として、サーバ100は、サーバ表示部130を取り外すような構成であってもよいし、そうでなくてもよい。サーバ100が複数の情報処理装置からなるコンピュータシステムである場合に、上記のサーバ100の構成要素は、互いに異なる情報処理装置に搭載されていてもよいし、そうでなくてもよい。また、上記のサーバ100の構成要素の各々は、複数の情報処理装置にわたって搭載されていてもよい。
【0030】
サーバ制御部110は、プログラム内に含まれたコードまたは命令によって実現する機能を実行するために物理的に構造化された回路を有し、限定ではなく例として、ハードウェアに内蔵されたデータ処理装置により実現される。サーバ制御部110は、代表的には中央処理装置(CPU)であり、その他にマイクロプロセッサ、プロセッサコア、マルチプロセッサ、ASIC、FPGAであってもよいし、そうでなくてもよい。本開示において、サーバ制御部110は、これらに限定されない。
【0031】
サーバ記憶部150は、サーバ100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。サーバ記憶部150は、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。ただし、本開示において、サーバ記憶部150は、これらに限定されない。また、サーバ記憶部150は、メモリと表現されてもよいし、されなくてもよい。
【0032】
サーバ通信I/F140は、ネットワーク300を介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。サーバ通信I/F140は、ネットワーク300を介して、情報端末200との通信を実行する機能を有する。サーバ通信I/F140は、各種データをサーバ制御部110からの指示に従って、情報端末200に送信する。また、サーバ通信I/F140は、情報端末200から送信された各種データを受信し、サーバ制御部110に伝達する。また、サーバ通信I/F140を単に通信部と表現する場合もある。また、サーバ通信I/F140が物理的に構造化された回路で構成される場合には、これを通信回路と表現する場合もある。
【0033】
サーバ入出力部120は、サーバ100に対する各種操作を入力する装置により実現される。サーバ入出力部120は、サーバ100の操作者からの入力を受け付けて、当該入力に係る情報をサーバ制御部110に伝達できる全ての種類の装置のいずれかまたはその組み合わせにより実現される。サーバ入出力部120は、代表的にはキーボードなどに代表されるハードウェアキーや、マウスなどのポインティングデバイスで実現される。なお、サーバ入出力部120は、限定ではなく例として、タッチパネルまたはカメラ(動画像を介した操作入力)、マイク(音声による操作入力)を含んでいてもよいし、そうでなくてもよい。ただし、本開示において、サーバ入出力部120は、これらに限定されない。
【0034】
サーバ表示部130は、代表的にはモニタ(限定ではなく例として、液晶ディスプレイまたはOELD)で実現される。なお、サーバ表示部130は、HMDなどであってもよいし、そうでなくてもよい。なお、これらのサーバ表示部130は、3Dで表示データを表示可能であってもよいし、そうでなくてもよい。本開示において、サーバ表示部130は、これらに限定されない。
【0035】
サーバ100は、プログラムをサーバ記憶部150に記憶し、このプログラムを実行することで、サーバ制御部110が、サーバ制御部110に含まれる各部としての処理を実行する。つまり、サーバ記憶部150に記憶されるプログラムは、サーバ100に、サーバ制御部110が実行する各機能を実現させる。このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。
【0036】
なお、情報端末200の端末制御部210、および/または、サーバ100のサーバ制御部110は、制御回路を有するCPUだけではなく、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))などに形成された論理回路(ハードウェア)や専用回路によって各処理を実現してもよいし、そうでなくてもよい。また、これらの回路は、1または複数の集積回路により実現されてよく、各実施形態に示す複数の処理を1つの集積回路により実現されることとしてもよいし、そうでなくてもよい。また、LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSIなどと呼称されることもある。そのため、端末制御部210、および/または、サーバ制御部110は、制御回路と表現されてもよいし、されなくてもよい。
【0037】
また、本開示の各実施形態のプログラム(限定ではなく例として、ソフトウェアプログラム、コンピュータプログラム、プログラムプロダクト、またはプログラムモジュール)は、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよいし、されなくてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。また、プログラムは、本開示の各実施形態の機能の一部を実現するためのものであってもよいし、そうでなくてもよい。さらに、プログラムは、記憶媒体にすでに記録されているプログラムとの組み合わせで本開示の各実施形態の機能を実現できるもの、すなわち、いわゆる差分ファイル(差分プログラム)であってもよいし、そうでなくてもよい。
【0038】
記憶媒体は、1つまたは複数の半導体ベースの、または他のIC(限定ではなく例として、FPGAまたはASICなど)、HDD、ハイブリッド・ハード・ドライブ(HHD)、光ディスク、光ディスクドライブ(ODD)、光磁気ディスク、光磁気ドライブ、フロッピィ・ディスケット、フロッピィ・ディスク・ドライブ(FDD)、磁気テープ、SSD、RAMドライブ、セキュア・デジタル・カード、またはドライブ、任意の他の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、適切な場合、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。また、記憶媒体は、メモリと表現されてもよいし、されなくてもよい。
【0039】
本開示の各実施形態における各機能は、情報端末200の端末制御部210、および/または、サーバ100のサーバ制御部110がプログラムを実行することにより実現するものとして説明する。すなわち、サーバ100、および/または、情報端末200は、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。
【0040】
また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークまたは放送波など)を介して、サーバ100、および/または、情報端末200に提供されてもよいし、されなくてもよい。サーバ100、および/または、情報端末200は、限定ではなく例として、インターネットなどを介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
【0041】
また、本開示の各実施形態は、プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0042】
情報端末200における処理の一部または全部を、サーバ100により行う構成としてもよいし、そうでなくてもよい。この場合、情報端末200の端末制御部210の各機能部の処理の一部または全部の処理を、サーバ100で行う構成としてもよいし、そうでなくてもよい。また、サーバ100における処理の一部または全部を、情報端末200により行う構成としてもよいし、そうでなくてもよい。この場合、サーバ100のサーバ制御部110の各機能部の処理のうち一部または全部の処理を、情報端末200で行う構成としてもよいし、そうでなくてもよい。
【0043】
また、端末制御部210が処理するプログラムは、予め情報端末200にプリインストールされているものであってもよいし、CD(Conpact Disc)・SD(Secure Digital)カードやUSB(Universal Serial Bus)などの外部から情報端末200と接続し情報のやり取りが可能な記録媒体から、またはインターネットなどを介して外部サーバ(クラウドサーバなどを含む)から、ユーザがインストールするプログラムであってもよい。例えば、より具体的には情報端末200がスマートフォンである場合に当該プログラムは、ユーザによってスマートフォンにインターネットを介してインストールされるAPP(アプリケーション)に含まれるプログラムであってもよい。
【0044】
明示的な言及のない限り、本開示の実施形態における判定の構成は必須ではなく、判定条件を満たした場合に所定の処理が動作されたり、判定条件を満たさない場合に所定の処理がされたりしてもよいし、そうでなくてもよい。
【0045】
なお、本開示のプログラムは、限定ではなく例として、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装される。
【0046】
引き続き図2を用いて、編集システム1に含まれる各装置の機能の例について説明する。
【0047】
編集システム1のユーザは、編集の対象となる動画像を情報端末200からサーバ100に送信する操作を行う。編集の対象となる動画像は、例えば情報端末200のカメラ270などによって撮影された動画像であってもよいし、他の撮影装置などによって撮影されたものを情報端末200が読み込んだ動画像であってもよいし、情報端末200またはその他の情報処理装置によって生成された動画像であってもよい。端末通信I/F220は、ネットワーク300を通じて、動画像のデータをサーバ100に送信する。
【0048】
サーバ100において、サーバ通信I/F140は、情報端末200から動画像を受信する。サーバ制御部110は、サーバ記憶部150などに記憶された動画像の編集プログラムに基づいて、情報端末200から取得した動画像の編集処理を行う。サーバ100は、編集装置の例である。サーバ100における動画像の編集処理は、動画像への聴覚的な効果の付与などである。この例において、サーバ100は、動画像における特定のタイミングに対して、聴覚的な効果として効果音を付与する。ここで、動画像における特定のタイミングは、動画像において効果音の付与の対象となりうる動画像中の時点などである。サーバ通信I/F140は、ネットワーク300を通じて、サーバ制御部110が編集処理を行った動画像を情報端末200に返送する。
【0049】
サーバ記憶部150は、効果音テーブル151を記憶する。効果音テーブル151は、動画像における特定のタイミングの種類と効果音とを予め対応付けた情報を含むデータテーブルである。
【0050】
サーバ制御部110は、解析部111と、タイミング抽出部112と、効果付与部113と、を備える。
【0051】
解析部111は、動画像の解析を行う機能を搭載する部分である。解析部111は、例えば、動画像に含まれる視覚的な情報である画像または聴覚的な情報である音声の一方または両方の解析によって、動画像中の各時点における特徴量を算出する。解析部111は、例えば、動画像に含まれる各フレームを動画像中の各時点に対応するものとして、フレームごとに特徴量を算出する。解析部111は、動画像中の各時点に対して、複数の特徴量を算出してもよい。
【0052】
解析部111は、例えば、画像解析により、動画像中の人物の全体の動き、または当該人物の顔、目、眉、鼻、口、手、および足などのパーツ毎の動きを検出する。解析部111は、例えば、これらの検出した動きの量を特徴量としてもよい。解析部111は、動画像中の人物の顔画像のパーツの動きなどに基づいて、当該人物の感情を推定してもよい。解析部111は、画像により推定した感情の強さおよびその変化量を特徴量としてもよい。推定される感情の種類は、例えば、喜び、驚き、および怒りなどを含む。
【0053】
解析部111は、例えば、音声解析により、動画像中の人物が発する音声を、音源分離などによって人物ごとの音声として抽出する。解析部111は、抽出した人物ごとの音声から当該人物の感情を表す特徴量を算出する。音声の特徴量は、例えば、パワー、ピッチ、MFCC(Mel-Frequency Cepstral Coefficient)、およびその他の動的な特徴量などを含む。解析部111は、動画像中の人物ごとの音声の特徴量などに基づいて、当該人物の感情を推定してもよい。解析部111は、音声により推定した感情の強さおよびその変化量を特徴量としてもよい。
【0054】
解析部111は、例えば、画像解析および音声解析の両方を用いて、動画像中の人物の感情の強さなどの特徴量を算出してもよい。解析部111は、例えば、画像解析によって検出された動画像中の人物の笑っている顔と、音声解析によって検出された当該人物の笑っている声とが整合するときに、当該人物が笑っていると推定して対応する特徴量を算出する。
【0055】
解析部111は、画像に含まれる画像解析または音声解析の一方または両方によって、予め設定された人または物を動画像中で検出してもよい。解析部111は、例えば、動画像の解析によって算出した特徴量を用いて人または物の検出を行う。解析部111が検出する物は、無生物または生物のいずれであってもよい。解析部111は、例えば、画像解析によって犬の体の一部または全部の画像を検出するとき、または音声解析によって犬の鳴き声の音声を検出するときに、動画像中の犬を検出する。
【0056】
タイミング抽出部112は、動画像において効果音を付与する特定のタイミングを抽出する機能を搭載する部分である。タイミング抽出部112は、例えば、動画像における特定のタイミングとして、当該動画像に含まれるフレームのいずれかを抽出する。タイミング抽出部112は、単一のファイルとして記録される単一の動画像から、特定のタイミングを複数抽出してもよい。
【0057】
タイミング抽出部112は、例えば、解析部111が算出した特徴量に基づいて特定のタイミングを抽出する。タイミングの抽出に用いられる特徴量は、例えば、動画像中の人物の感情の強さを表す特徴量などである。タイミング抽出部112は、例えば、特徴量が予め設定された閾値を上回る時点または下回る時点を特定のタイミングとして抽出してもよいし、特徴量の変化量が予め設定された閾値を上回る時点または下回る時点を特定のタイミングとして抽出してもよいし、特徴量が極大値または極小値となる時点を特定のタイミングとして抽出してもよいし、特徴量に基づくその他の基準によって動画像中の時点を特定のタイミングとして抽出してもよい。タイミング抽出部112は、動画像に登場する人物の感情などが盛り上がるタイミングに、視覚的にまたは聴覚的にマッチする時点を特定のタイミングとして抽出する。
【0058】
タイミング抽出部112は、例えば、解析部111が推定した動画像中の人物の感情に基づいて特定のタイミングを抽出する。タイミング抽出部112は、例えば、動画像中の人物が予め設定された感情を表している区間を解析部111が検出するときに、当該区間の開始または終了の時点を特定のタイミングとして抽出する。動画像中の人物が予め設定された感情を表している区間は、例えば、当該人物が笑っている区間などを含む。
【0059】
タイミング抽出部112は、例えば、解析部111による人または物の検出結果に基づいて特定のタイミングを抽出する。タイミング抽出部112は、例えば、動画像中において予め設定された人または物が登場する区間を解析部111が検出するときに、当該区間の開始または終了の時点を特定のタイミングとして抽出する。
【0060】
効果付与部113は、タイミング抽出部112が動画像から抽出した特定のタイミングに対して効果の付与を行う機能を搭載する部分である。効果付与部113は、例えば、効果音などの聴覚的な効果を抽出された特定のタイミングに対して付与する。
【0061】
効果付与部113は、例えば、サーバ記憶部150に記憶された効果音テーブル151を参照することによって、特定のタイミングに対する効果の付与を行う。このとき、効果音テーブル151は、例えば、動画像を解析して得られる特徴量などによって表される動画像中の人物の感情の種類に対して、当該感情に相当する効果音を対応付ける。効果音テーブル151は、同種の感情に対して、感情の強さに応じて異なる効果音を対応付けてもよい。また、効果音テーブル151は、解析部111が検出する人または物に対して、当該人または物に相当する効果音を対応付ける。例えば、効果付与部113は、人が笑っている区間の開始を表す特定のタイミングに対して、効果音テーブル151を参照することで、当該特定のタイミングに対応する笑い声の効果音を付与する。例えば、効果付与部113は、驚きを表す特徴量に基づいて抽出された特定のタイミングに対して、効果音テーブル151を参照することで、当該特定のタイミングに対応する驚きを表す効果音を付与する。例えば、効果付与部113は、犬が登場する区間の開始を表す特定のタイミングに対して、効果音テーブル151を参照することで、犬の鳴き声の効果音を付与する。例えば、効果付与部113は、雨が降っている区間の開始を表す特定のタイミングに対して、効果音テーブル151を参照することで、雨音の効果音を付与する。
【0062】
効果付与部113は、例えば、特定のタイミングにおける動画像の解析結果に基づいて、動的に生成した効果音を付与する。効果付与部113は、例えば、機械学習の手法などによって事前に学習が行われた学習モデルを用いて、解析部111による解析結果を入力として動的に生成される効果音を付与する。効果付与部113は、例えばAI技術(AI:Artificial Intelligence)などによって効果音を動的に生成してもよいし、他の方法によって効果音を動的に生成してもよい。このとき生成される効果音は、新たに生成される効果音であってもよいし、既存の効果音の強度または長さなどのパラメータが動的に設定された効果音であってもよい。効果音の生成の入力に用いられる動画像の解析結果は、動画像から算出された特徴量などであってもよいし、動画像から推定された人物の感情の種類およびその強さなどであってもよいし、動画像において検出された人または物の種類などであってもよい。例えば、効果付与部113は、人が笑っている区間の開始を表す特定のタイミングに対して、当該区間における笑いの感情の強さにマッチするように動的に生成された笑い声の効果音を付与する。例えば、効果付与部113は、怒りの感情を表す特徴量に基づいて抽出された特定のタイミングに対して、当該特徴量の強さにマッチするように動的に生成された怒りを表す効果音を付与する。
【0063】
なお、効果付与部113は、単一の特定のタイミングに対して、複数の効果音を重複させて付与してもよい。また、例えばタイミング抽出部112が特定のタイミングを複数抽出している場合などに、効果付与部113は、一部の特定のタイミングに対して、効果の付与を行わなくてもよい。
【0064】
また、効果付与部113は、タイミング抽出部112が動画像から抽出した特定のタイミングに対して、聴覚的な効果にあわせて視覚的な効果を付与してもよい。
【0065】
図3は、実施の形態1に係る編集システム1における効果音テーブル151の例を示す表である。
【0066】
効果音テーブル151は、例えば、動きの速さなどの特徴量に対して、特徴量の大きさに応じた異なる効果音を対応付ける。効果音は、例えば、特徴量の大きさを表す数値の範囲などに応じて対応付けられる。効果音テーブル151は、例えば、怒りの感情に対して、感情の強さに応じた異なる効果音を対応付ける。効果音は、例えば、感情の強さを表す数値の範囲などに応じて対応付けられる。効果音テーブル151は、例えば、動画像中の犬の検出に対して、犬の鳴き声の効果音を対応付ける。
【0067】
図4は、実施の形態1に係る編集システム1の動作の例を示すフローチャートである。
図4において、情報端末200から動画像のデータを取得するときのサーバ100の動作の例が示される。
【0068】
ステップS11において、サーバ通信I/F140は、情報端末200から動画像のデータを取得する。その後のステップS12において、解析部111は、取得した動画像について、特徴量の算出および人または物の検出などの解析を行う。その後のステップS13において、タイミング抽出部112は、解析部111による動画像の解析結果に基づいて、動画像における特定のタイミングを抽出する。その後のステップS14において、効果付与部113は、タイミング抽出部112が抽出した特定のタイミングに対して、効果音などの効果の付与を行う。タイミング抽出部112が特定のタイミングを複数抽出している場合に、効果付与部113は、複数の特定のタイミングの各々に対して効果の付与を行う。その後のステップS15において、サーバ通信I/F140は、効果の付与が行われた動画像のデータを情報端末200に送信する。
【0069】
ユーザは、サーバ100から返送された動画像を例えば情報端末200上で確認する。ユーザは、サーバ100から返送された動画像を確認した後に、例えば、当該動画像の保存、配布、配信などを行う。なお、動画像の投稿者または配信者などであるユーザが情報端末200からサーバ100に動画像を送信するときに、サーバ100は、編集処理を行った動画像を、当該ユーザに返送せずに、他のユーザが動画像を視聴する際に使用する他の情報端末200に配信してもよい。サーバ100は、ライブ配信される動画像に対して編集処理を行ってもよいし、オンデマンド配信される動画像に対して編集処理を行ってもよい。
【0070】
なお、サーバ100などにおける動画像の編集処理において、動画像の解析、特定のタイミングの抽出、および効果音の付与などの各ステップの処理は、可能な範囲で、反復して行われてもよいし、並行して行われてもよいし、順序を入れ替えて行われてもよいし、省略されてもよい。例えばタイミング抽出部112がタイミングを特定した後、特定したタイミングに対して効果付与部113が効果を付与する例を説明したが、処理の順番はこれに限られない。予め決められた例えば笑いなどの特定の効果に対して、適したタイミングを決定するような処理順番でもよい。
また、動画像の解析結果および抽出された特定のタイミングなどは、サーバ100において内部的に処理されて外部から参照されない情報であってもよいし、外部から参照可能な情報であってもよい。サーバ100は、例えばニューラルネットワークまたはその他の機械学習の手法などを用いることで、取得した動画像を入力として、当該動画像の特定のタイミングに効果音が付与されたものを出力してもよい。
【0071】
以上に説明したように、実施の形態1に係る動画像の編集方法は、サーバ100などのコンピュータが、取得した動画像を解析することで動画像における特定のタイミングを抽出することと、当該特定のタイミングに対して少なくとも1つの効果音を付与することと、を含む。このような構成により、時間的に変化のある動画像を解析して抽出された特定のタイミングに対して効果音が付与されるので、動画像の変化に応じた聴覚的な効果が適切に付与されるようになる。
【0072】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像に含まれる画像および音声の一方または両方を解析した特徴量を算出すること、を含む。特定のタイミングの抽出は、算出した特徴量に基づいて行われる。これにより、動画像の変化と視覚的にまたは聴覚的にマッチする効果音が付与されるようになり、動画像の編集がより適切に行われるようになる。特に、画像および音声の両方を解析に用いることで、動画像の文脈とより整合する効果音が付与されるようになる。
【0073】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像を解析した特徴量を算出することと、算出した特徴量に基づいて動画像中の人物の感情を推定することと、を含む。特定のタイミングの抽出は、推定した人物の感情に基づいて行われる。これにより、動画像に登場する人物の感情の変化とマッチする効果音が付与されるようになり、動画像の文脈とより整合する効果音が付与されるようになる。
【0074】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像に含まれる画像を解析することで予め設定された人または物を動画像中で検出すること、を含む。特定のタイミングの抽出は、当該人または物の検出結果に基づいて行われる。これにより、動画像に登場する人または物とマッチする効果音が付与されるようになり、動画像の文脈とより整合する効果音が付与されるようになる。
【0075】
また、効果音の付与は、特定のタイミングの種類と効果音とを対応付けるように予め設定された効果音テーブル151を参照することで行われる。このように、効果音テーブル151によって動画像における特定のタイミングと効果音との適切な対応付けが事前に行われているので、動画像の文脈とより整合する効果音が付与されるようになる。また、既存の効果音を付与することができるようになるので、効果音の付与に係るサーバ100などの処理負荷が軽減される。
【0076】
また、効果音の付与は、特定のタイミングにおける動画像の解析結果に基づいて、効果音を動的に生成することで行われる。これにより、既存の効果音に適切なものが無い場合においても、付与される効果音が動的に生成されるので、動画像の文脈とより整合する効果音が付与されるようになる。また、動画像の多様な文脈ごとに付与される効果音をサーバ100などにおいて保持しておく必要がないので、サーバ100などの必要な記憶容量が軽減される。
【0077】
なお、編集システム1において、動画像の編集処理は、ネットワーク300およびサーバ100などを介さずに情報端末200上でスタンドアロンな処理として行われてもよい。このとき、端末制御部210は、端末記憶部280などに記憶された動画像の編集プログラムに基づいて、例えばカメラ270または情報端末200の外部装置などから取得した動画像の編集処理を行う。この場合の情報端末200は、編集装置の例である。
なお、サーバ制御部110の解析部111、タイミング抽出部112、効果付与部113および、サーバ記憶部150の効果音テーブル151のうち、一部または全部について、それらに替えて/または併用してAI技術を採用してもよい。ここで、AI技術は、例えば、機械学習やディープラーニング、またはそれに相当する技術などを含む。例えば、大量のデータが学習されているAIエンジンを構築し、当該エンジンを用いて動画像を解析し、適したタイミングを抽出し、解析した動画像・タイミングに基づいて最適な効果音を抽出・付与してもよい。
【0078】
実施の形態2.
実施の形態2において、実施の形態1で開示される例と相違する点について特に詳しく説明する。実施の形態2で説明しない特徴については、実施の形態1で開示される例のいずれの特徴が採用されてもよい。
【0079】
図5は、実施の形態2に係る編集システム1に含まれる各装置の構成の例を示す図である。
【0080】
この例において、サーバ制御部110は、取得した動画像を複数に区分した各々のシーンに対して、聴覚的な効果として背景音を付与する。背景音は、BGM(Back Ground Music)などの音楽または環境音などを含む。ここで、動画像を区分したシーンは、背景音の付与の対象となりうる動画像中のある時点から他の時点までの区間などである。
【0081】
サーバ記憶部150は、背景音テーブル152を記憶する。背景音テーブル152は、動画像におけるシーンの種類と背景音とを予め対応付けた情報を含むデータテーブルである。
【0082】
サーバ制御部110は、解析部111と、タイミング抽出部112と、効果付与部113と、シーン区分部114と、特徴決定部115と、を備える。
【0083】
解析部111は、例えば、動画像に含まれる画像または音声の一方または両方の解析などによって、動画像中の各時点における特徴量を算出する。解析部111は、例えば、画像または音声の特徴量などに基づいて、動画像中の発話区間を抽出する。発話区間は、動画像中において、人物が発話している区間を表す。解析部111は、画像または音声の特徴量などに基づいて、発話区間を抽出する際に、当該発話区間の話者を識別する。解析部111は、例えば、音源分離および音声内容によって、発話区間における発話内容の抽出を行う。解析部111は、例えば話者を識別した発話区間における発話内容などの、動画像に含まれる言語を解析する。
【0084】
解析部111は、例えば、画像解析により、動画像中の人物の全体の動き、または当該人物の顔、目、眉、鼻、口、手、および足などのパーツ毎の動きを検出する。解析部111は、例えば、これらの検出した動きの量を特徴量としてもよい。解析部111は、動画像中の人物の顔画像のパーツの動きなどに基づいて、当該人物の感情を推定してもよい。解析部111は、画像により推定した感情の強さおよびその変化量を特徴量としてもよい。推定される感情の種類は、例えば、喜び、驚き、および怒りなどを含む。
【0085】
解析部111は、例えば、音声解析により、動画像中の人物が発する音声を、音源分離などによって人物ごとの音声として抽出する。このとき、解析部111は、音声解析により話者の識別を行ってもよい。解析部111は、抽出した人物ごとの音声に基づいて、会話に参加する話者数の増減を検出してもよい。解析部111は、特徴量として会話に参加する話者数を算出してもよい。解析部111は、抽出した人物ごとの音声から当該人物の感情を表す特徴量を算出する。音声の特徴量は、例えば、パワー、ピッチ、MFCC、およびその他の動的な特徴量などを含む。解析部111は、動画像中の人物ごとの音声の特徴量などに基づいて、当該人物の感情を推定してもよい。解析部111は、音声により推定した感情の強さおよびその変化量を特徴量としてもよい。解析部111は、例えば、動画像中の人物が発する音声が歌である場合に、その歌のリズムおよび調などの情報を抽出してもよい。
【0086】
解析部111は、例えば、画像解析および音声解析の両方を用いて、動画像中の人物の感情の強さなどの特徴量を算出してもよい。解析部111は、例えば、画像解析によって検出された動画像中の人物の笑っている顔と、音声解析によって検出された当該人物の笑っている声とが整合するときに、当該人物が笑っていると推定して対応する特徴量を算出する。解析部111は、例えば、画像解析および音声解析の両方を用いて、動画像中の話者の識別を行ってもよい。解析部111は、画像解析および音声解析の一方または両方と、言語解析とを組み合わせて、動画像中の人物の感情の強さなどの特徴量を算出してもよい。解析部111は、例えば、動画像中にいる人物の数、および抽出した人物ごとの音声などに基づいて、会話に参加する話者数の増減を検出してもよい。解析部111は、例えば、動画像中の料理の画像と、動画像中の人物による「おいしい」という発話内容の言語的な特徴と、当該人物による「おいしい」という音声の特徴量と、に基づいて当該人物の感情の強さなどを算出してもよい。
【0087】
シーン区分部114は、編集の対象となる動画像を、背景音を付与しうる1または複数のシーンに区分する機能を搭載する部分である。シーン区分部114は、例えば、単一のファイルとして記録される単一の動画像を、1または複数のシーンに区分する。シーン区分部114は、解析部111による解析結果に基づいて、1または複数のシーンへの区分を行う。シーン区分部114は、例えば複数のシーンを含むような動画像などに対して、シーン区分の結果として、当該動画像を複数のシーンに区分する。シーン区分部114は、例えば単一のシーンのみを含むような動画像などに対して、シーン区分の結果として、当該動画像が単一のシーンのみからなるものとして処理を行う。
【0088】
シーン区分部114は、例えば、解析部111が算出した特徴量に基づいて、1または複数のシーンへの区分を行う。シーンの区分に用いられる特徴量は、例えば、動画像中の人物の動きの速さを表す特徴量、または動画像中の人物の感情の強さを表す特徴量などである。シーン区分部114は、例えば、特徴量が予め設定された閾値を上回る時点または下回る時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよいし、特徴量が予め設定された閾値を上回っている間または下回っている間を1つのシーンとしてシーンの区分を行ってもよいし、特徴量が極大値または極小値となる時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよいし、ある特徴量が極大値となる時点と他の特徴量が極大値となる時点との中間の時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよいし、特徴量に基づくその他の基準によって動画像中の時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよい。
【0089】
シーン区分部114は、例えば、解析部111による言語解析の結果に基づいてシーンの区分を行う。シーン区分部114は、例えば、解析部111が抽出した発話内容に対してパターンマッチングを適用することで、シーンの切替りのタイミングを検出してもよい。シーン区分部114は、例えば、「それでは」または「ところで」などの接続詞を発話内容から検出するときに、当該接続詞を含む発話区間の開始時点をシーンの切替りのタイミングとしてシーンの区分を行う。シーン区分部114は、例えば、解析部111が抽出した発話内容をクラスタリングすることによって、シーンの切替りのタイミングを検出してもよい。シーン区分部114は、例えば、クラスタリングによって各発話区間の話題を推定する。このとき、シーン区分部114は、ある話題から別の話題に切り替わる時点をシーンの切替りのタイミングとしてシーンの区分を行う。
【0090】
シーン区分部114は、例えば、解析部111による音声解析の結果に基づいてシーンの区分を行う。シーン区分部114は、例えば、発話区間の検出結果に基づいてシーンの区分を行う。シーン区分部114は、例えば、非音声区間の長さに基づいてシーンの区分を行ってもよい。非音声区間は、例えば5秒などの予め設定された時間より長い無音区間などである。シーン区分部114は、話者数の増減に基づいてシーンの区分を行ってもよい。シーン区分部114は、例えば、話者数が一定の期間を1つのシーンとしてシーンの区分を行ってもよいし、話者数が増減した時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよい。
【0091】
シーン区分部114は、例えば、解析部111による画像解析の結果に基づいてシーンの区分を行う。シーン区分部114は、例えば、動画像中の人または物の検出結果に基づいてシーンの区分を行う。シーン区分部114は、例えば、検出した人または物の増減に基づいてシーンの区分を行ってもよい。シーン区分部114は、例えば、検出した人または物が一定の期間を1つのシーンとしてシーンの区分を行ってもよいし、検出した人または物が増減した時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよい。シーン区分部114は、例えば、検出した人または物の種類に基づいてシーンの区分を行ってもよい。シーン区分部114は、例えば、特定の人または物が検出されている期間を1つのシーンとしてシーンの区分を行ってもよいし、特定の人もしくは物が検出された時点または検出されなくなった時点をシーンの切替りのタイミングとしてシーンの区分を行ってもよい。
【0092】
シーン区分部114は、例えば、解析部111による言語解析、音声解析、および画像解析の一部または全部の結果を組み合わせてシーンの区分を行ってもよい。シーン区分部114は、例えばシーンの切替りのタイミングを検出しないときなどに、シーン区分の結果として、動画像が単一のシーンのみからなるものとして処理を行ってもよい。
【0093】
特徴決定部115は、シーン区分部114が区分した1または複数のシーンごとに特徴を決定する機能を搭載する部分である。特徴決定部115は、例えば、シーン区分部114が区分したシーンの間において解析部111が算出する特徴量などの解析結果に基づいて、当該シーンの特徴を決定する。シーンの特徴の決定に用いられる特徴量は、例えば、動画像中の人物の動きの速さを表す特徴量、または動画像中の人物の感情の強さを表す特徴量などである。特徴決定部115は、例えば、当該シーンの間の特徴量の最大値、最小値、または平均値などの代表値に基づいて当該シーンの特徴を決定してもよいし、特徴量の代表値そのものを当該シーンの特徴として決定してもよい。
【0094】
特徴決定部115は、例えば、解析部111による言語解析の結果に基づいてシーンの特徴を決定する。特徴決定部115は、例えば、テキスト分類によって、説明、会話、ダンス、歌、食事、PC作業、またはリラックスなどの予め設定されたシーン特徴への分類を行う。特徴決定部115は、例えば、シーンにおける発話内容から抽出される重要単語などのキーワードに基づいてシーンの分類を行ってもよいし、クラスタリングなどによって推定された話題に基づいてシーンの分類を行ってもよい。特徴決定部115は、例えば、シーンについて分類を行った結果を当該シーンの特徴として決定する。
【0095】
特徴決定部115は、例えば、解析部111による音声解析の結果に基づいてシーンの特徴を決定する。特徴決定部115は、例えば、シーンの間に算出されたパワー、ピッチ、またはMFCCなどの音響特徴量に基づいて、当該シーンの特徴を決定する。特徴決定部115は、例えば、当該シーンの間の音響特徴量の最大値、最小値、または平均値などの代表値に基づいて当該シーンの特徴を決定してもよいし、音響特徴量の代表値そのものを当該シーンの特徴として決定してもよい。特徴決定部115は、例えば、シーンの間に算出された音響特徴量に基づいて当該シーンにおける動画像中の人物の怒り、驚き、喜びなどの感情を分類し、当該シーンの特徴として決定してもよい。特徴決定部115は、当該シーンにおける動画像中の人物の感情の強度を算出し、その強度に応じて分類した感情を当該シーンの特徴として決定してもよい。特徴決定部115は、例えば、シーンの間において動画像中の人物が歌を歌う場合などに、解析部111が抽出したリズムおよび調などの情報を当該シーンの特徴として決定してもよい。
【0096】
特徴決定部115は、例えば、解析部111による画像解析の結果に基づいてシーンの特徴を決定する。特徴決定部115は、例えば、シーンの間に検出された人または物などに基づいて、シーンの特徴を決定する。特徴決定部115は、例えば、シーンの間に検出された人または物自体を、当該シーンの特徴として決定してもよい。
【0097】
特徴決定部115は、例えば、対象のシーンにおける解析部111の言語解析、音声解析、および画像解析の一部または全部の結果を組み合わせて、当該シーンの特徴を決定してもよい。特徴決定部115は、シーンの区分に用いられなかった解析結果を用いて当該シーンの特徴を決定してもよい。特徴決定部115は、例えば、シーンにおけるラーメンの画像と、当該シーンにおける人物による「おいしい」または「おいしくない」という発話内容の言語的な特徴とに基づいて、「おいしいラーメン」または「おいしくないラーメン」という特徴を当該シーンについて決定してもよい。
【0098】
効果付与部113は、シーン区分部114が区分した1または複数のシーンごとに効果の付与を行う。効果付与部113は、例えば、背景音などの聴覚的な効果を各々のシーンに対して付与する。なお、効果付与部113は、1または複数のシーンの一部または全部に対して、背景音として無音を付与してもよい。すなわち、効果付与部113は、シーン区分部114が区分したシーンの全てに対して無音でない背景音を付与する必要はない。また、効果付与部113が動画像のシーンに対して付与する背景音の長さは、当該シーンの長さと必ずしも一致していなくてもよい。シーンに対して付与されるBGMなどの背景音は、当該シーンの開始時点の前から開始するように付与されていてもよいし、当該シーンの開始時点の後から開始するように付与されていてもよい。シーンに対して付与されるBGMなどの背景音は、当該シーンの終了時点の前に終了するように付与されていてもよいし、当該シーンの終了時点の後に終了するように付与されていてもよい。シーンに対して付与されるBGMなどの背景音は、フェードインまたはフェードアウトするように付与されていてもよい。シーンに対して付与されるBGMなどの背景音は、例えば当該シーンの前後のシーンに付与された他の背景音と重複するように付与されていてもよい。
【0099】
効果付与部113は、例えば、サーバ記憶部150に記憶された背景音テーブル152を参照することによって、各々のシーンに対する背景音の付与を行う。このとき、背景音テーブル152は、例えば、シーンに対して決定された特徴に応じて定まるシーンの種類に対して、当該種類に相当する背景音を対応付ける。背景音テーブル152は、例えば、「リラックス」という特徴を持つシーンの種類に対して、落ち着いたBGMなどの背景音を対応付ける。背景音テーブル152は、例えば、「ダンス」という特徴を持つシーンの種類に対して、陽気なBGMなどの背景音を対応付ける。例えば、効果付与部113は、「リラックス」という特徴が決定されたシーンに対して、背景音テーブル152を参照することで、当該シーンに対して落ち着いたBGMを背景音として付与する。効果付与部113は、例えば、怒りの感情が特徴として決定されたシーンに対して、背景音テーブル152を参照することで、当該シーンに対して激しいBGMを背景音として付与する。効果付与部113は、例えば、速い動きが特徴として決定されたシーンに対して、背景音テーブル152を参照することで、当該シーンに対して速いテンポのBGMを背景音として付与する。効果付与部113は、例えば、「海」が特徴として決定されたシーンに対して、背景音テーブル152を参照することで、当該シーンに対して波音などの背景音を付与する。
【0100】
効果付与部113は、例えば、区分されたシーンの特徴などに基づいて、動的に生成した背景音を付与する。効果付与部113は、例えば、機械学習の手法などによって事前に学習が行われた学習モデルを用いて、シーンの特徴などを入力として動的に生成される効果音を当該シーンに付与する。効果付与部113は、例えば、当該シーンの間に対して算出された特徴量を学習モデルの入力としてもよい。効果付与部113は、例えばAI技術などによって背景音を動的に生成してもよいし、他の方法によって背景音を動的に生成してもよい。このとき生成される背景音は、新たに生成される背景音であってもよいし、既存の背景音の強度、調、またはテンポなどのパラメータが動的に設定された背景音であってもよい。効果付与部113は、例えば、シーンの長さを学習モデルの入力として、当該長さに対応して生成された背景音を当該シーンに付与する。効果付与部113は、例えば、シーンにおける感情の変化を表す系列データを学習モデルの補助的な入力として、感情の変化に応じて生成された背景音を当該シーンに付与してもよい。効果付与部113は、例えば、驚きの感情が次第に強くなるシーンに対して、驚きの感情が弱から強に徐々に変化するように動的に生成されたBGMなどの背景音を当該シーンに付与する。効果付与部113は、例えば、喜びの感情が強、弱、強の順に変化するシーンに対して、喜びの感情が強、弱、強の順に変化するように動的に生成されたBGMなどの背景音を当該シーンに付与する。効果付与部113は、例えば、「おいしいラーメン」という特徴を持つシーンに対して料理の種類「ラーメン」に応じて動的に生成されたBGMなどの背景音を付与し、「おいしくないラーメン」という特徴を持つシーンに対して調子を外して動的に生成されたBGMなどの背景音を付与してもよい。
【0101】
効果付与部113は、例えば、人物などが歌を歌うシーンに対して、その歌に応じたBGMなどの背景音を当該シーンに付与する。効果付与部113は、例えば、シーンの間の歌から音声解析などによってリズムおよび調などが抽出されるときに、当該リズムおよび調に応じて動的に生成されたBGMなどの背景音を、当該シーンに付与してもよい。効果付与部113は、例えば、シーンの間の歌や会話から言語解析などによって重要単語などのキーワードが抽出されるときに、当該キーワードやその類語から楽曲の歌詞を検索してもよい。このとき、効果付与部113は、例えば、検索して得られた楽曲のうち当該キーワードを歌詞に含む楽曲区間を、当該シーンに背景音として付与してもよい。効果付与部113は、例えば、シーンの間の歌や会話から言語解析などによって重要単語などのキーワードが抽出されるときに、当該キーワードやその類語から楽曲のタイトルを検索してもよい。効果付与部113は、例えば、シーンの間の画像解析などによって人または物が検出されるときに、当該人または物から楽曲のタイトルを検索してもよい。このとき、効果付与部113は、例えば、検索して得られた楽曲の一部または全部を、当該シーンに背景音として付与してもよい。効果付与部113は、例えば、シーンの間の発話内容などから楽曲を特定できるときに、当該楽曲の一部または全部を、当該シーンに背景音として付与してもよい。このとき、シーンの間の発話内容は、楽曲名または関連するアーティスト名などを含むものであってもよし、その他のキーワードなどを含むものであってもよい。
【0102】
図6は、実施の形態2に係る編集システム1における背景音テーブル152の例を示す表である。
【0103】
背景音テーブル152は、例えば、シーンに関して決定される特徴に対して、その特徴に応じた背景音を対応付ける。背景音テーブル152は、例えば、シーンの特徴「ダンス」に対して、陽気なBGMを対応付ける。背景音テーブル152は、例えば、シーンにおいて検出される「海」に対して、波音を対応付ける。
【0104】
図7は、実施の形態2に係る編集システム1の動作の例を示すフローチャートである。
図7において、情報端末200から動画像のデータを取得するときのサーバ100の動作の例が示される。
【0105】
ステップS21において、サーバ通信I/F140は、情報端末200から動画像のデータを取得する。その後のステップS22において、解析部111は、取得した動画像について、特徴量の算出および人または物の検出などの解析を行う。その後のステップS23において、シーン区分部114は、解析部111による動画像の解析結果に基づいて、動画像を1または複数のシーンに区分する。その後のステップS24において、特徴決定部115は、シーン区分部114に区分されたシーンの各々について特徴を決定する。その後のステップS25において、効果付与部113は、特徴決定部115が決定した特徴に基づいて、シーン区分部114に区分されたシーンの各々に背景音などの効果の付与を行う。その後のステップS26において、サーバ通信I/F140は、効果の付与が行われた動画像のデータを情報端末200に送信する。
【0106】
なお、サーバ100などにおける動画像の編集処理において、動画像の解析、シーンの区分、シーンの特徴の決定、および背景音の付与などの各ステップの処理は、可能な範囲で、反復して行われてもよいし、並行して行われてもよいし、順序を入れ替えて行われてもよいし、省略されてもよい。動画像の解析結果、区分されたシーン、およびシーンに対して決定された特徴などは、サーバ100において内部的に処理されて外部から参照されない情報であってもよいし、外部から参照可能な情報であってもよい。サーバ100は、例えばニューラルネットワークまたはその他の機械学習の手法などを用いることで、取得した動画像を入力として、当該動画像の各シーンに背景音が付与されたものを出力してもよい。
【0107】
また、サーバ100は、取得した動画像について、効果音の付与および背景音の付与の両方を行ってもよいし、いずれか一方のみを行ってもよい。
【0108】
また、サーバ100は、ユーザの属性に基づいて、効果音の付与および背景音の付与などを行ってもよい。ユーザの属性は、例えば年齢、年代、性別、地域、関心のあるジャンルもしくはキーワード、動画像の視聴履歴、検索履歴、またはその他の情報などであってもよい。ユーザの属性は、当該ユーザに対して友だちとして登録されている他のユーザの属性の情報などを含んでもよい。サーバ制御部110は、例えば、動画像を編集するユーザの属性の情報を、例えば当該ユーザが操作する情報端末200などから取得する。サーバ制御部110は、例えば、当該ユーザの属性を補助的な入力として、効果音の付与および背景音の付与などを行う。あるいは、サーバ制御部110は、例えば、動画像を編集するユーザが操作する情報端末200などから、当該ユーザが視聴者として想定する他のユーザの属性の情報を取得する。また、サーバ100が動画像を編集するユーザの他の動画像を配信する場合に、当該他の動画像を視聴する他のユーザの属性の情報を、当該他のユーザが操作する情報端末200などから取得してもよい。サーバ制御部110は、例えば、当該他のユーザの属性を補助的な入力として、効果音の付与および背景音の付与などを行う。
【0109】
また、サーバ100は、動画像中の特定のシーンの特徴に基づいて、動画像全体のジャンルを設定してもよい。このとき、サーバ制御部110は、動画像の各々のシーンに対して、当該動画像全体に設定したジャンルに応じて効果音の付与および背景音の付与などを行う。サーバ制御部110は、例えば、動画像の冒頭のシーンの特徴に基づいて動画像全体のジャンルを設定してもよいし、いずれかの特徴量が最大または最小となるシーンの特徴などに基づいて動画像全体のジャンルを設定してもよい。
【0110】
また、サーバ100は、動画像に付与した効果音などの聴覚的な効果の選択の理由を、当該動画像を編集するユーザに提示してもよい。サーバ100は、同様に、動画像に付与した背景音などの聴覚的な効果の選択の理由を、当該動画像を編集するユーザに提示してもよい。聴覚的な効果の選択の理由は、例えば、当該聴覚的な効果の選択に用いられた解析部111の解析結果などを含んでもよいし、その他の情報を含んでもよい。
【0111】
また、サーバ100は、動画像の特定のタイミングに付与する効果音などの聴覚的な効果の複数の候補を、当該動画像を編集するユーザに提示してもよい。サーバ100は、同様に、動画像のシーンに付与する背景音などの聴覚的な効果の複数の候補を、当該動画像を編集するユーザに提示してもよい。サーバ100は、当該複数の候補について、特定のタイミングへの効果音の適合度、または区分されたシーンへの背景音の適合度をあわせて提示してもよい。サーバ100は、当該複数の候補について、これらの適合度の順位などをあわせて提示してもよい。効果音の適合度は、例えば、特定のタイミングに付与された効果音が対応する感情と、当該タイミングに対して推定された当該感情の強さなどに基づいて算出される。背景音の適合度も、効果音の適合度と同様に算出されてもよい。
【0112】
また、サーバ制御部110は、人物が歌を歌うシーンなどに対して、歌声をボイスチェンジャーなどによって変調する聴覚的な効果を付与してもよい。
【0113】
また、サーバ100は、編集の対象として取得された動画像の他の動画像についての評価を収集してもよい。動画像の評価は、例えば、当該動画像の再生数、および当該動画像に対する高評価の数などを含む。動画像の評価は、例えば、当該動画像を編集したユーザ自身が行ってもよい。例えばサーバ100が動画像を配信する場合に、サーバ100は、配信した動画像についての評価を、当該動画像を視聴するユーザの情報端末200から収集してもよい。サーバ100は、動画像を配信する他のサービスから、動画像およびその評価を収集してもよい。サーバ100は、例えば、編集の対象として取得された動画像への背景音の付与を、他の動画像について収集した評価および当該他の動画像に含まれる背景音に基づいて行う。サーバ100は、例えば、評価の高い動画像に含まれる背景音に類似する背景音を優先的に付与するように、編集の対象として取得された動画像への背景音の付与を行う。同様に、サーバ100は、例えば、編集の対象として取得された動画像への効果音の付与を、他の動画像について収集した評価および当該他の動画像に含まれる効果音に基づいて行ってもよい。
【0114】
以上に説明したように、実施の形態2に係る動画像の編集方法は、サーバ100などのコンピュータが、取得した動画像を解析することで動画像を1または複数のシーンに区分することと、区分した1または複数のシーンごとに特徴を決定することと、決定した特徴に基づいて各々のシーンに付与する背景音を決定することと、を含む。このような構成により、時間的に変化のある動画像を解析して区分されたシーンの各々に対して背景音が付与されるので、動画像の変化に応じた聴覚的な効果が適切に付与されるようになる。
【0115】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像に含まれる言語を解析すること、を含む。1または複数のシーンの区分は、この言語の解析結果に基づいて行われる。これにより、動画像中の発話内容などにマッチする背景音が付与されるようになり、動画像の編集がより適切に行われるようになる。
【0116】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像に含まれる音声を解析した特徴量を算出すること、を含む。1または複数のシーンの区分は、算出した特徴量に基づいて行われる。これにより、動画像の変化と聴覚的にマッチする背景音が付与されるようになり、動画像の編集がより適切に行われるようになる。
【0117】
また、動画像の編集方法は、サーバ100などのコンピュータが、算出した特徴量に基づいて動画像中の話者の発話区間を抽出すること、を含む。特徴量に基づく1または複数のシーンの区分は、抽出した発話区間に基づいて行われる。これにより、動画像中の会話などの場面とマッチする背景音が付与されるようになり、動画像の編集がより適切に行われるようになる。
【0118】
また、動画像の編集方法において、発話区間の抽出は、動画像中の話者を識別することを含む。発話区間に基づく1または複数のシーンの区分は、話者の識別結果に基づいて行われる。これにより、動画像に登場する話者とマッチする背景音が付与されるようになり、動画像の編集がより適切に行われるようになる。
【0119】
また、動画像の編集方法は、サーバ100などのコンピュータが、動画像に含まれる画像を解析した特徴量を算出すること、を含む。1または複数のシーンの区分は、算出した特徴量に基づいて行われる。これにより、動画像の変化と視覚的にマッチする効果音が付与されるようになり、動画像の編集がより適切に行われるようになる。
【0120】
また、動画像の編集方法において、背景音の付与は、各々のシーンの種類と背景音とを対応付けるように予め設定された背景音テーブル152を参照することで行われる。このように、背景音テーブル152によって動画像における各シーンと背景音との適切な対応付けが事前に行われているので、動画像の文脈とより整合する背景音が付与されるようになる。また、既存の背景音を付与することができるようになるので、背景音の付与に係るサーバ100などの処理負荷が軽減される。
【0121】
また、動画像の編集方法において、背景音の付与は、各々のシーンにおける動画像の解析結果に基づいて、背景音を動的に生成することで行われる。これにより、既存の背景音に適切なものが無い場合においても、付与される背景音が動的に生成されるので、動画像の文脈とより整合する背景音が付与されるようになる。また、動画像の多様な文脈ごとに付与される背景音をサーバ100などにおいて保持しておく必要がないので、サーバ100などの必要な記憶容量が軽減される。
【0122】
また、動画像の編集方法は、サーバ100などのコンピュータが、取得した動画像の他の動画像についての評価を収集すること、を含む。背景音の付与は、収集した当該他の動画像の評価および当該他の動画像に含まれる背景音に基づいて行われる。これにより、流行などを反映した、より高い評価を受けうるような動画像の編集が行われるようになる。
【0123】
また、動画像の編集方法において、背景音の付与は、動画像を編集または視聴するユーザの属性に基づいて行われる。これにより、動画像を編集または視聴するユーザの特性などにマッチする背景音が付与されるようになり、動画像の編集がより適切に行われるようになる。
なお、サーバ制御部110の解析部111、タイミング抽出部112、効果付与部113、シーン区分部114、特徴決定部115、および、サーバ記憶部150の効果音テーブル151、背景音テーブル152のうち、一部または全部について、それらに替えて/または併用してAI技術を採用してもよい。ここで、AI技術は、例えば、機械学習やディープラーニング、またはそれに相当する技術などを含む。例えば、大量のデータが学習されているAIエンジンを構築し、当該エンジンを用いて動画像を解析し、適したシーンへの区分・特徴の付与を行い、解析した動画像・シーン区分・シーン特徴に基づいて最適な背景音を抽出・付与してもよい。
また、図2で示した実施の形態1の構成または図5で示した実施の形態2の構成に関して、必ずしもすべての構成が必須の構成という訳ではなく、実際に搭載された機器に図2図5に記載された構成のうち一部の構成が欠けていても、後に説明する特許請求の範囲を満たすものであれば本発明の範囲内である。
【符号の説明】
【0124】
1 編集システム、 100 サーバ、 110 サーバ制御部、 111 解析部、 112 タイミング抽出部、 113 効果付与部、 114 シーン区分部、 115 特徴決定部、 120 サーバ入出力部、 130 サーバ表示部、 140 サーバ通信I/F、 150 サーバ記憶部、 151 効果音テーブル、 152 背景音テーブル、 200 情報端末、 210 端末制御部、 220 端末通信I/F、 230 端末入出力部、 240 端末表示部、 250 マイク、 260 スピーカ、 270 カメラ、 280 端末記憶部、 300 ネットワーク
図1
図2
図3
図4
図5
図6
図7