特許6554634 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社フランティックの特許一覧

特許6554634情報処理システム及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6554634

(24)【登録日】2019年7月19日

(45)【発行日】2019年8月7日

(54)【発明の名称】情報処理システム及び情報処理装置

(51)【国際特許分類】

H04N 5/92 20060101AFI20190729BHJP

H04N 21/854 20110101ALI20190729BHJP

【ＦＩ】

H04N5/92 020

H04N21/854

【請求項の数】2

【全頁数】23

(21)【出願番号】特願2018-214375(P2018-214375)

(22)【出願日】2018年11月15日

(62)【分割の表示】特願2018-97838(P2018-97838)の分割

【原出願日】2018年5月22日

【審査請求日】2018年12月2日

【早期審査対象出願】

(73)【特許権者】

【識別番号】518179896

【氏名又は名称】株式会社フランティック

(74)【代理人】

【識別番号】100150430

【弁理士】

【氏名又は名称】河野元

(72)【発明者】

【氏名】浅野誉彦

(72)【発明者】

【氏名】栗田晴太郎

(72)【発明者】

【氏名】宮尾敏光

【審査官】冨田高史

(56)【参考文献】

【文献】特開２０１２−１６５３１３（ＪＰ，Ａ）

【文献】特開平１０−２９０３９３（ＪＰ，Ａ）

【文献】特開２０１１−０２９７９５（ＪＰ，Ａ）

【文献】特開２００５−０２４７３６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ５／７６ − ５／７７５

Ｈ０４Ｎ５／８０ − ５／９５６

Ｈ０４Ｎ２１／００ − ２１／８５８

(57)【特許請求の範囲】

【請求項1】

画像情報を含む再生データを再生する再生手段と、
前記再生データの再生中にユーザーが発話した音声を認識する音声認識手段と、
前記再生データに関連付けることが可能な画像情報を、所定の認識ワードと対応付けて記憶する記憶手段と、
前記記憶手段に記憶されている画像情報のうち、前記再生データに関連付ける対象となる画像情報の分類を指定可能な指定手段と、
前記音声認識手段により認識された音声が認識ワードとして入力されたことに基づいて、該入力された認識ワードに対応する画像情報を、前記指定手段により指定された分類の画像情報の中から取得可能な取得手段と、
前記取得手段により取得された画像情報と前記再生データとを関連付ける関連手段と、
を備えることを特徴とする情報処理システム。

【請求項2】

画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中にユーザーが発話した音声を認識する音声認識手段と、
前記再生データに関連付けることが可能な画像情報を、所定の認識ワードと対応付けて記憶する記憶手段と、
前記記憶手段に記憶されている画像情報のうち、前記再生データに関連付ける対象となる画像情報の分類を指定可能な指定手段と、
前記音声認識手段により認識された音声が認識ワードとして入力されたことに基づいて、該入力された認識ワードに対応する画像情報を、前記指定手段により指定された分類の画像情報の中から取得可能な取得手段と、
前記取得手段により取得された画像情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
を備えることを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム及び情報処理装置に関し、特に、画像情報を含む再生データと音情報とを関連付けることが可能な情報処理システム及び情報処理装置に関する。

【背景技術】

【0002】

近年、パチンコ遊技機やスロットマシン等の遊技機、ビデオゲーム、ＷＥＢサイト等、画像を利用した娯楽やサービスの提供が広く普及している。こうした画像の制作には、画像を構成するキャラクタの作成やデザイン、動画編集、更には画像に付随する音声の編集など、幅広い作業が必要とされ、その作業には多くの者が関わるのが一般的である。こうした画像制作に係る作業を容易にするためのツールが提案されている（例えば特許文献１を参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００４−２６６７２１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１に開示されているような画像編集ツールでは、編集画面の構成を分かりやすくすることで視覚的な作業性の向上は図れるものの、例えば、画像素材と音声素材を合成する等の編集作業（編集処理）自体が効率化されるものではないため、画像制作に係る作業の更なる効率化が望まれる。

【0005】

本発明は、上記事情に鑑みてなされたものであり、その目的とするところは、画像制作に係る作業を効率的に行うことが可能なシステム及び装置を提供することにある。

【課題を解決するための手段】

【0006】

前述の課題を解決するために、本発明は以下の構成を採用した。
すなわち、手段１の情報処理システムは、
画像情報を含む再生データを再生する再生手段と、
前記再生データの再生中にユーザーが発話した音声を認識する音声認識手段と、
前記再生データに関連付けることが可能な画像情報を、所定の認識ワードと対応付けて記憶する記憶手段と、
前記記憶手段に記憶されている画像情報のうち、前記再生データに関連付ける対象となる画像情報の分類を指定可能な指定手段と、
前記音声認識手段により認識された音声が認識ワードとして入力されたことに基づいて、該入力された認識ワードに対応する画像情報を、前記指定手段により指定された分類の画像情報の中から取得可能な取得手段と、
前記取得手段により取得された画像情報と前記再生データとを関連付ける関連手段と、
を備えることを要旨とする。

【0007】

また、手段２の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中にユーザーが発話した音声を認識する音声認識手段と、
前記再生データに関連付けることが可能な画像情報を、所定の認識ワードと対応付けて記憶する記憶手段と、
前記記憶手段に記憶されている画像情報のうち、前記再生データに関連付ける対象となる画像情報の分類を指定可能な指定手段と、
前記音声認識手段により認識された音声が認識ワードとして入力されたことに基づいて、該入力された認識ワードに対応する画像情報を、前記指定手段により指定された分類の画像情報の中から取得可能な取得手段と、
前記取得手段により取得された画像情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
を備えることを要旨とする。

【0008】

また、本発明に関連する他の情報処理システムは、
画像情報を含む再生データを再生する再生手段と、
前記再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとを関連付ける関連手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。

【0009】

これによれば、再生データの再生中における入力に基づいて音情報が生成され、当該生成された音情報と再生データとの関連付けが行われるので、画像制作に係る作業の効率化を図ることが可能となる。また、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。さらに、関連付ける音情報の分類（種類）を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。

【0010】

また、本発明に関連する他の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
複数の音情報を記憶する記憶手段と、を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成するものであり、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段をさらに備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。

【0011】

これによれば、再生処理装置での再生データの再生中における入力に基づいて、音情報が生成されて再生データに関連付けられるので、画像制作に係る作業の効率化を図ることが可能となる。また、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。さらに、関連付ける音情報の分類（種類）を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。

【発明の効果】

【0012】

以上の本発明によれば、画像制作に係る作業を効率的に行うことが可能となる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施例に係る情報処理システムのハードウェア構成例を示す図である。

【図2】本発明の実施例に係る情報処理システムのシステム構成例を示す図である。

【図3】情報処理システムの起動により表示される編集画面の一例を示す図である。

【図4】ジャンル指定画面の一例を示す図である。

【図5】効果音データベースのテーブルの概略を示す図である。

【図6】編集処理のフローチャートである。

【図7】検索処理のフローチャートである。

【図8】音データ付加処理のフローチャートである。

【図9】編集作業の一例を示す図である。

【発明を実施するための形態】

【0014】

次に、本発明の実施の形態について実施例を用いて説明する。

【実施例】

【0015】

［システム全体構成］
図１は本発明の一実施例に係る情報処理システム１０のハードウェア構成例を示しており、図２は本実施例に係る情報処理システム１０のシステム構成例を示している。本実施例の情報処理システム１０は、市販のパーソナルコンピュータ（ＰＣ）に本システムのソフトウェア（プログラム）をインストールすることで、当該ＰＣを情報処理システム１０として機能させるものとして構成されている。このため、本実施例に係る情報処理システム１０のハードウェア構成は、一般的なパーソナルコンピュータと同様の構成を備えている。すなわち、システム（装置）全体の処理を制御するＣＰＵ１００と、ＰＣを起動させたり動作させたりするのに必要な基本プログラムやデータ等を記憶するＲＯＭ１０１と、ＣＰＵ１００による各種処理の実行に際してデータを一時的に記憶するワークメモリとして使用されるＲＡＭ１０２と、後述の表示部１０６に表示するための画像データを格納するフレームバッファメモリ１０３（ＶＲＡＭ）と、画像データを圧縮して圧縮画像データを生成したり圧縮画像データを伸張して再生したりする画像圧縮伸張部１０４と、ＨＤＤ等により構成され少なくとも本実施例に係る情報処理システム１０を構成するプログラム、画像データ及び音データ等を記憶する補助記憶部１０５と、液晶ディスプレイ等により構成され各種情報を表示する表示部１０６と、キーボードやマウス等により構成され操作入力を行うための操作入力部１０７と、１又は複数のマイク等（集音部）により構成され音声入力を行うための音声入力部１０８と、１又は複数のスピーカ等により構成され各種の音を出力する音出力部１０９と、を備えている。この他にも、一般的なパーソナルコンピュータが備える構成や機能を備えているが、これについては図示を省略している。

【0016】

こうしたハードウェア構成のもとで機能する本実施例の情報処理システム１０は、図２に示すように、大別すると、動画像の画像データ（画像情報）を含む再生データを再生することが可能な再生処理装置２０と、再生処理装置２０にて再生される再生データと関連付ける音データ（音情報）を生成することが可能な情報処理装置３０とにより構成される。再生処理装置２０は、動画像の画像データ（以下「動画像データ」ともいう。）を含む再生データの再生に係る処理を実行する再生部２１と、動画像データや音データの編集に係る処理を実行する編集部２２と、情報処理装置３０にて生成された音データの読み込みに係る処理を実行する読込部２３とにより構成される。編集部２２は、読込部２３が読み込んだ音データを動画像データに付加したり、動画像データに対する音データの再生位置を調整したりする等の各種編集に係る処理を実行可能に構成されている。また、再生部２１は、編集部２２により編集された音データと動画像データとを含む再生データの再生に係る処理を実行可能に構成されている。

【0017】

なお、再生処理装置２０にて再生される再生データには、１又は複数の動画像データ（画像情報）を含んで構成されるもの、１又は複数の音データ（音情報）を含んで構成されるもの、これらの動画像データ（画像情報）と音データ（音情報）の両方を含んで構成されるもの等が存在する。また、動画像（動画像データ）は、時系列的に並べられた複数のフレーム単位の画像（画像データ）からなるものである。以下では、動画像データを含む再生データのことを単に動画像データということがある。

【0018】

情報処理装置３０は、音声入力部１０８により入力された音声の認識に係る処理を実行する音声認識部３１と、補助記憶部１０５に記憶された複数の音データの中から音声認識部３１により認識した音声に対応する音データの検索に係る処理を実行する検索部３２と、検索部３２により検索された音データの取得および再生処理装置２０への供給に係る処理を実行する音データ取得部３３とにより構成される。ＣＰＵ１００は、操作入力部１０７により情報処理システム１０の起動指示が入力されると、これを受けて補助記憶部１０５に記憶されている本システムのプログラムをＲＡＭ１０２にロードし、当該プログラムを実行する。これにより、情報処理システム１０が起動して、図２に示す各部による処理が実行可能となる。

【0019】

［編集画面］
次に、情報処理システム１０が起動されることで表示部１０６に表示される編集画面について説明する。図３は本実施例の情報処理システム１０に係る編集画面の一例を示している。図３に示すように、編集画面２００は複数の表示領域（ウィンドウ）により構成されるもので、具体的に、動画像タイトル表示領域２０１と、再生表示領域２０２と、タイムライン表示領域２０３と、音編集表示領域２０４と、音声認識表示領域２０５とを含んで構成される。なお、本実施例で説明する編集画面２００の構成はあくまでも一例であり、編集画面を構成する表示領域（ウィンドウ）の種類や数、サイズ、配置、表示内容等については種々の態様を採ることが可能である。

【0020】

動画像タイトル表示領域２０１は、補助記憶部１０５の所定のデータフォルダ（記憶領域）に記憶されている動画像データ（動画ファイル）のタイトル（ファイル名）を表示する領域であり、複数のタイトルを一覧で表示することができるように構成されている。本情報処理システム１０を用いて画像編集（画像制作）に係る作業を行う者（以下「作業者」ともいう。）は、操作入力部１０７としてのマウス等を操作して、動画像タイトル表示領域２０１に表示されたタイトルの中から編集対象とする動画像データのタイトルをクリックすることで、編集対象の動画像データを選択することができる。編集対象の動画像データを選択すると、当該動画像データの１フレーム目の再生開始位置の画像が再生表示領域２０２に静止した状態で表示される。

【0021】

再生表示領域２０２は、動画像タイトル表示領域２０１にて選択した編集対象の動画像データに基づく動画像を再生表示する領域である。再生表示領域２０２の下部には、「再生」、「停止」、「一時停止」等のメディア操作アイコンが設けられており、作業者は、操作入力部１０７としてのマウス等を操作してメディア操作アイコンをクリックすることで、再生表示領域２０２に表示された動画像の再生や一時停止等の指示を入力することができる。前述のように動画像タイトル表示領域２０１にて編集対象の動画像データを選択した状態で「再生」のアイコンをクリックすると、選択した編集対象の動画像データ（再生データ）の再生が開始され、当該データに係る動画像が再生表示領域２０２に再生表示される。また、再生表示領域２０２におけるメディア操作アイコンの左側には、再生表示中の動画像の再生時間の経過をリアルタイムで表示する再生時間表示部が設けられている。さらに、メディア操作アイコンの右側には「プレビュー」ボタンが設けられており、当該「プレビュー」ボタンを押下（クリック）すると、編集中の再生データ（編集対象の動画像データと音データとを合成した再生データ）が最初から再生されるように構成されている。

【0022】

タイムライン表示領域２０３は、再生表示領域２０２にて再生表示される動画像、すなわち編集対象の動画像データの時間軸の再生位置情報（動画像タイムライン）を表示する領域である。このタイムライン表示領域２０３には、音編集表示領域２０４に跨って上下方向に延びる１本のタイムラインカーソルＴＣが表示される。タイムラインカーソルＴＣは現在の再生位置を示すものであり、再生時間の経過に伴って時間軸方向（図３では左側から右側）に移動していくものである。また、タイムライン表示領域２０３は、再生表示領域２０２にて再生表示される動画像の再生データがＢＧＭ（バックグラウンドミュージック）等の音データを含む場合、音データの波形ＨＫを併せて表示するように構成されている。つまり、タイムライン表示領域２０３は、音データの時間軸の再生位置情報（音タイムライン）も表示することが可能となっている。これにより、作業者はタイムライン表示領域２０３を見ることで、画像再生表示領域２０２にて再生表示される動画像の再生位置やこれに付随して再生される音との対応関係、再生位置に応じて出力される音の質、強弱など、編集作業に役立つ情報を容易に把握することができる。

【0023】

音編集表示領域２０４は、編集対象の動画像データ（再生データ、第１再生データ）に対して音データ（音情報）を付加（追加）する場合の音編集に関する情報を表示する領域である。本情報処理システム１０では、再生表示領域２０２にて動画像を再生表示しているときに、音声入力部１０８としてのマイク等を通じて作業者等が発話した音声を認識すると、その認識した音声に対応する効果音を、その音声認識タイミングに合わせて（略同期させて）、タイムライン上（時間軸上）の再生位置に付加することが可能となっている。なお、ここでいう音声認識タイミングは、当該音声認識の契機となった発話のタイミングと略同じである。このことに対応して、音編集表示領域２０４には、音声認識に基づいて付加される効果音に係る音データの情報（効果音の種類（タイトル）、再生タイミングを示す時間等）が、その再生位置に合わせて表示される。

【0024】

ここで、本実施例では効果音（音データ）の付加に際し、当該効果音が付加される位置を示すマークＭＫをタイムライン表示領域２０３の時間軸上（タイムライン上）に表示するものとしており、音編集表示領域２０４には、そのマークＭＫと対応付けて、付加した音データの情報を示す音アイコンＩＣを表示（配置）するものとしている。これにより、作業者はタイムライン表示領域２０３や音編集表示領域２０４を見ることで、再生表示領域２０２にて再生表示される動画像（編集対象の動画像データ）に効果音が付加されたことや当該付加された効果音の内容、再生表示中の動画像と効果音の再生位置との対応関係等を容易に把握することができる。本実施例では図３に示すように、マークＭＫと音アイコンＩＣとを破線で繋ぐことにより両者の対応付けを行うものとしている。なお、図３では、マークＭＫ及び音アイコンＩＣがそれぞれ３つ表示されている例を示している（マークＭＫ１〜ＭＫ３、音アイコンＩＣ１〜ＩＣ３）。

【0025】

また、本実施例では、作業者が操作入力部１０７としてのマウス等を操作して、音編集表示領域２０４に表示（配置）されている音アイコンＩＣを左右方向にドラッグすることで、当該音アイコンＩＣに対応する効果音（音データ）の再生位置を調整できるように構成されている。このとき、タイムライン表示領域２０３の時間軸上に表示されるマークＭＫ（及び破線）も連動して左右方向に移動するように構成されているので、効果音の再生位置の微調整を容易に行うことできる。さらに、音編集表示領域２０４に１又は複数の音アイコンＩＣが表示されている状態、すなわち、動画像データに１又は複数の効果音の音データを付加した状態（編集中）において、再生表示領域２０２の「プレビュー」ボタンを押下（クリック）すると、音編集表示領域２０４に表示されている音アイコンに対応する音データが付加された動画像データ、つまり当該音データと編集対象の動画像データとを合成した再生データ（第２再生データ）が、最初から再生されるように構成されている。これにより、再生表示領域２０２に動画像が１フレーム目の再生開始位置から再生表示されるとともに、付加した音データの再生位置（再生タイミング）になると効果音が音出力部１０９（スピーカ）から出力される。

【0026】

また、本実施例では、動画像データのタイムライン上（時間軸上）に効果音の音データが付加される際、すなわち、音編集表示領域２０４に音アイコンＩＣが表示（配置）される際、これに伴って当該音データに基づく効果音が音出力部１０９から出力されるように構成されている。これにより、作業者は効果音が付加された動画像の印象をリアルタイムで感じ取ることが可能となる。さらに、音編集表示領域２０４に表示されている音アイコンＩＣをクリックして削除の指示を入力することで、その音アイコンＩＣに対応する音データ（つまり、付加された効果音）を削除する（再生データとの関連付けを解く）ことができるように構成されている。

【0027】

音声認識表示領域２０５は、音声入力部１０８としてのマイク等を介して音声認識部３１により認識された音声の内容を表示する領域である。この音声認識表示領域２０５は、作業者等が発話した音声（認識された音声）をテキストで表示するように構成されている。本実施例では、動画像タイトル表示領域２０１にて選択した編集対象の動画像データの再生が開始されると、これに連動して、音声認識により効果音（音データ）を付加することが可能な状態（以下「音声認識モード」ともいう。）となるように構成されている。このため、本実施例では、音声認識モード中、音声認識表示領域２０５には、認識された音声の内容（テキスト）が上から下に向かって時系列で表示されるように構成されている。このように認識された音声の内容（テキスト）を表示することで、発話の内容（発話した音声）が正しく認識されているのかを確認することが可能となる。なお、音声認識モードは、動画像データの再生停止に伴って終了するように構成されている。

【0028】

さらに、音編集表示領域２０４の右下部には「ジャンル指定」ボタンが設けられており、当該「ジャンル指定」ボタンを押下（クリック）すると、図４に示すジャンル指定画面２１０が編集画面２００の手前側に重畳して表示されるように構成されている。本実施例では後述するように、動画像に付加することが可能な効果音（音データ）をジャンル別（分類別）に管理するものとしており、このことに対応して、付加する効果音（音データ）のジャンル（分類）を指定するためのジャンル指定画面２１０を表示可能に構成されている。本実施例のジャンル指定画面２１０は、ジャンル毎にチェックボックスを形成して構成されており、操作入力部１０７としてのマウス等を操作して、指定するジャンルのチェックボックスにチェックを入れることで、付加する効果音のジャンルを１又は複数選択して指定することが可能となっている。ジャンル指定画面２１０で指定可能（選択可能）なジャンルは、後述する効果音データベースに登録されているジャンルに対応している（図５を参照）。効果音のジャンルを指定した場合には、この指定したジャンルの効果音を対象にして、付加する効果音の検索が行われる（後述のS108）。また、ジャンル指定画面２１０は、操作入力部１０７により所定の表示終了の指示入力を行うことで、表示部１０６への表示を終えるように構成されている。

【0029】

［編集処理］
次に、本実施例の情報処理システム１０の動作処理について、図６に基づいて説明する。本システム１０の動作処理は、再生処理装置２０と情報処理装置３０との協働により実行されるものである。ＣＰＵ１００は本システム１０が起動されると、前述した編集画面２００（図３を参照）を表示部１０６に表示して、図６に示す編集処理を実行する。

【0030】

S100では、動画像データの再生が停止中（一時停止を含む）であるか否かを判定する。その結果、停止中でないと判定した場合（S100でNO）、すなわち、動画像データを再生中である場合、後述するS104の処理に移行し、停止中であると判定した場合（S100でYES）、動画像データの再生開始を指示する入力が行われたか否かを判定する（S101）。再生開始の指示入力は、編集画面２００の再生表示領域２０２に表示されるメディア操作アイコンのうち「再生」のアイコンをクリックすることにより行われる。再生開始の指示入力がないと判定した場合（S101でNO）、後述するS110の処理に移行し、再生開始の指示入力があると判定した場合（S101でYES）、再生部２１が動画像タイトル表示領域２０１にて選択された編集対象の動画像データの再生を開始して（S102）、音声認識部３１が音声認識モードを設定する（S103）。これにより、再生表示領域２０２において、編集対象の動画像データに基づく動画像が再生表示される。

【0031】

次いでS104では、音声入力部１０８による音声の入力が行われたか否かを判定し、音声入力がないと判定した場合（S104でNO）、後述するS110の処理に移行し、音声入力があると判定した場合（S104でYES）、音声認識部３１がその入力のあった音声を取得して音声認識を行う（S105）。音声認識部３１は、音声入力部１０８を介して入力された作業者等の音声を認識することが可能な音声認識機能であり、一般的な音声認識アルゴリズムによる音声認識を行うものである。この音声認識部３１としては、公知の音声認識機能を用いることが可能である。そして、入力のあった音声を適切に認識することができなかった場合には（S106でNO）、後述するS110の処理に移行し、認識することができた場合には（S106でYES）、その認識した音声をテキストデータに変換して、当該テキストデータに基づく音声の内容を編集画面２００の音声認識表示領域２０５に表示するとともに（S107）、当該テキストデータに基づいて検索部３２が検索処理を実行する（S108）。

【0032】

ここで、補助記憶部１０５には、動画像データ（再生データ、第１再生データ）に付加する（関連付ける）ことが可能な音データ（音情報）と、実際に音データを付加する（関連付ける）際に参照する効果音データベースが記憶されている。補助記憶部１０５に記憶される音データは、動画像に付加する効果音として用いられるであろう音をデータ化したものであり、本実施例では、自然現象、物の動き、物が出す音、動物の鳴き声など、様々なジャンルの音をベースとして作成された効果音のデータを音データとしている。そして、これらの音データに係る効果音の内容をそれぞれ言語化して表したもの（擬声語）を、音声認識による音データの付加にあたっての認識対象とする音声（以下「認識ワード」ともいう。）としており、この認識ワードと、音データ（効果音）との関係を規定した効果音データベースが補助記憶部１０５に記憶されている。

【0033】

図５は本実施例の効果音データベースのテーブル構造の概略を示している。図５に示すように、本実施例の効果音データベースのテーブルは、予め用意された効果音のジャンル毎に（「自然現象」等）、各効果音の内容を言語化して表した擬声語（「ごろごろ」等）と、これに対応する効果音の音データの情報（データ保存先、ファイル名等）とを一対一で対応付けた構造となっている。本実施例の情報処理システム１０は、補助記憶部１０５に記憶される音データ（効果音）の更新（追加、削除等）や、これに対応する効果音データベースの更新（追加、削除等）を事後的に行うこと（いわゆるバージョンアップ）が可能に構成されている。なお、図５では説明の便宜上、効果音のジャンルと、各ジャンルの認識ワード及び音データをそれぞれ３つ例示しているが、実際には、これより多くのジャンル、認識ワード及び音データを備えており、付加することが可能な音データ（効果音）の多様化が図られている。また、図５では、各ジャンルの音データが他のジャンルに含まれない（重複しない）態様を例示しているが、複数のジャンルに含まれる（重複する）音データが存在していてもよい。

【0034】

本実施例では、図５に示すようなテーブル構造を有する効果音データベースを用いて音データ（効果音）を管理しており、検索部３２は、効果音データベースを参照して音データの検索処理（S108）を実行するのである。この検索処理（S108）は、図７に示すフローチャートにしたがって実行される。すなわち、検索処理（S108）ではまず、S106で認識した音声（認識ワード）に対応する音データを検索して取得するための命令文を生成する（S201）。この生成した命令文にしたがって、効果音データベースにアクセスして（S202）、認識した音声（認識ワード）に対応する音データを検索し（S203）、検索の結果、音データが特定されると、その特定された音データを、補助記憶部１０５に記憶されている音データの中から取得する（S204）。これにより、現在再生中の動画像データ（再生データ、第１再生データ）に付加する効果音の音データが生成（抽出）される。

【0035】

例えば、本システム１０を利用している作業者の発話した音声が「どかーん」である場合、この音声を音声認識部３１が認識すると（S106でYES）、検索部３２が効果音データベースを参照して、その認識された音声「どかーん」（認識ワード）に対応する効果音の音データを検索する（S203）。図５に示すように「どかーん」の認識ワードに対応する効果音の音データは「音データＣ２（小爆発音）」であるため、補助記憶部１０５に記憶されている音データの中から「音データＣ２」を取得する（S204）。

【0036】

ここで、作業者の発話した音声（認識ワード）が複数のジャンルに重複する場合、例えば、認識ワードが図５に示す「ごろごろ」である場合、検索部３２は、「ごろごろ」に対応する音データＡ１（自然現象：雷の音）および音データＢ１（物の動き：転がる音）を検索結果として抽出するが、本実施例では、このように一の認識ワードに対応する音データが複数存在する場合、当該複数の音データの中から一の音データをランダムに特定（抽出）して取得するように構成されている。なお、一の認識ワードに対応する音データが複数存在する場合の一の音データの特定（抽出）方法はランダム抽出に限られず、一の音データを特定するための条件をプログラム上で予め定めておき、当該条件に基づいて特定することが可能である。例えば、認識ワードが共通する音データ毎に優先順位を定めておき当該優先順位にしたがって一の音データを特定したり、認識した音声の特徴によって認識ワードに対応する一の音データを特定したり、編集対象（再生中）の動画像データの種類（タイトル、ジャンル等）を識別してこれに適した一の音データを特定したりすること等が可能である。また、前述したジャンル指定画面２１０により事前に効果音のジャンルを指定しておくことで、認識ワード（音データ）の重複を回避することが可能であり、音データの検索（選択）の効率を向上させることが可能である。

【0037】

また、本実施例では、S203による検索の結果が０件となって音データの特定ができなかった場合（認識ワード未対応の場合）、その旨を示すメッセージ画像を編集画面２００に表示し、S109の処理を行うことなくS110の処理に移行する。この場合、効果音の音データは生成されず、これに伴い動画像データには音データ（効果音）が付加されないこととなる。

【0038】

図６に戻り、ＣＰＵ１００は検索処理（S108）を終えると、当該検索処理のS204で取得（生成）された音データを、現在再生中の動画像データ（再生データ、第１再生データ））に付加するための音データ付加処理（S109）を実行する。この音データ付加処理（S109）は、図８に示すフローチャートにしたがって実行される。すなわち、音データ付加処理（S109）ではまず、指示部３３が再生処理装置２０に対して、先のS204で取得（生成）された音データの読み込み及び当該音データと再生中の動画像データとの合成を指示する信号（以下「指示信号」ともいう。）を出力する（S301）。指示部３３（情報処理装置３０）からの指示信号を再生処理装置２０が受信すると、読込部２３が先のS204で取得（生成）された音データを読み込み（S302）、当該読み込んだ音データと、現在再生中の動画像データ（再生データ、第１再生データ）とを、編集部２２が合成する（S303）。S303では、S302で読み込んだ音データを、現在再生中の動画像データ（再生データ）における現在の再生位置情報（再生時間情報）と関連付けて当該再生データ（第１再生データ）に貼り付ける処理が実行される。これにより、現在再生中の動画像データ（再生データ、第１再生データ）に対して、作業者が発話した音声に対応する効果音の音データが、その発話タイミング（音声認識タイミング）と略同期して付加される（関連付けられる）こととなる。このとき、編集画面２００のタイムライン表示領域２０３と音編集表示領域２０４には、それぞれ今回の音データが付加されることとなる再生位置に、マークＭＫと、音アイコンＩＣが表示される（図３を参照）。また、本実施例では、S303にて音データと動画像データとを合成する際、その音データを再生部２１が再生して、当該音データに基づく効果音が音出力部１０９から出力される。

【0039】

図６に戻り、ＣＰＵ１００は音データ付加処理（S109）を終えると、本編集処理の終了指示の入力が行われたか否かを判定する（S110）。終了指示の入力は、例えば、操作入力部１０７としてのマウス等を操作して編集画面２００の右上の終了アイコン（×印）をクリックすることにより行われる。S110にて終了指示の入力があると判定した場合（S110でYES）、本編集処理を終了し、これにより本情報処理システム１０の動作が終了する。一方、終了指示の入力がないと判定した場合（S110でNO）、S100に戻り、上述したS100〜S110の処理が繰り返される。この間、一の編集対象の動画像データの再生が終了するまでは、音データの付加を続けて行うことが可能である。したがって、一の動画像データに対し１又は複数の音データ（効果音）を付加することが可能である。なお、S303により合成した動画像データと音データに関する情報、すなわち、再生中の動画像データの種類、当該動画像データと合成する音データの種類、合成位置（再生位置）等の情報は、編集処理の実行中（編集作業中）、ＲＡＭ１０２等の所定の記憶領域に記憶される。また、編集対象の動画像データについての編集作業を終える際、その作業の結果を確定させる指示入力を行うことで、編集済の動画像データ（音データが付加された動画像データ、第２再生データ）が補助記憶部１０５の所定の記憶領域（フォルダ等）に記憶される。

【0040】

以上の編集処理が、本実施例の情報処理システム１０の主要な動作処理であるが、この他にも、ＣＰＵ１００は、本システム１０による編集作業に係る処理を実行可能に構成されている。例えば、本システム１０を起動して編集作業を行うなか、編集対象の動画像データに１又は複数の音データを付加した状況、すなわち、図３に示すように音編集表示領域２０４に音アイコンＩＣ（図３では音アイコンＩＣ１〜ＩＣ３の３つ）が表示されている状況で、再生表示領域２０２に設けられた「プレビュー」ボタンが押下されると、編集部２２が、そのとき再生表示領域２０２に表示されている動画像に係る画像データ（編集対象の動画像データ）と、音編集表示領域２０４に表示されている音アイコンＩＣに係る音データ（付加した効果音の音データ）とを合成して編集後の再生データ（第２再生データ）を作成し、当該再生データを再生部２１が再生する。すると、当該再生データに基づく動画像が再生表示領域２０２に再生表示されるとともに、当該再生データに基づく効果音が音出力部１０９（スピーカ）から出力される。これにより、編集作業を行う作業者は、効果音が付加された動画像を最初から再生して、編集内容を確認することができる。

【0041】

また、例えば、本システム１０を起動して編集作業を行うなか、音編集表示領域２０４に表示されている音アイコンＩＣがマウス操作により左右方向（タイムラインの時間軸方向）に移動（ドラッグ）されると、編集部２２が、当該音アイコンＩＣに対応する音データの再生位置情報（再生時間情報）を、当該音データのタイムライン上（時間軸上）での移動に合わせて変更し、編集対象の動画像データとの関連付けを更新する。これにより、動画像データに付加した音データ（効果音）の再生位置が変更され、音データ（効果音）の再生位置の事後的な調整が可能となる。

【0042】

なお、「プレビュー」ボタンの押下に基づく再生データの作成・再生処理や、音アイコンＩＣの移動による音データの再生位置（再生タイミング）変更処理の実行に際しては、音声認識モードの設定が解除され、音声認識部３１（音声認識機能）が働かないように構成されている。

【0043】

［編集作業の例］
次に、本実施例に係る情報処理システム１０を利用した画像制作に係る作業（編集作業）の一例を説明する。ここでは、図９に示すように、本システム１０として機能するノート型のパーソナルコンピュータ（ノートＰＣ）に接続された大型の液晶モニタに編集画面２００（図３を参照）を表示するものとし、編集作業に関わる者として５人の作業者（作業者Ａ〜Ｅ）が居るものとして説明する。また、音声入力用のマイク（音声入力部１０８）として、１個の全指向性（無指向性）のマイクを使用するものとする。なお、音声入力部１０８としてのマイクは、単一指向性のマイクとすることも可能であり、この場合、作業者の人数分のマイクを用意したり、１個のマイクを作業者全員で使用したりする等の対応が可能である。また、音声入力部１０８としてのマイクは有線、無線を問わない。さらに、ノートＰＣに有線または無線で接続されたスピーカ（音出力部１０９）から各種音声が出力されるものとする。

【0044】

作業を開始するにあたっては、まず、本システム１０を起動して、モニタ（表示部）に編集画面２００を表示させる。そして、編集画面２００上の動画像タイトル表示領域２０１にて編集対象の動画像データ（再生データ）を選択して、当該データに基づく動画像を再生表示領域２０２にて再生表示させる。この再生表示が進行して行く中、各作業者はその再生表示中の動画像を見ながら、効果音を付加したいと思うタイミングで、その効果音の擬声語（認識ワード）を発話する。この発話した音声（認識ワード）がマイク（音声入力部１０８）を介して情報処理装置３０に入力され、音声認識部３１により認識されると、その認識した音声に対応する効果音の音データが生成されて編集対象の動画像データ（再生データ、第１再生データ）に付加される。このとき、編集画面２００の音編集表示領域２０４には、付加された効果音（音データ）に関する情報を示す音アイコンＩＣが表示され、また、スピーカ（音出力部１０９）から当該効果音が出力される

【0045】

本システム１０では、こうした発話による効果音（音データ）の付加を、５人の作業者Ａ〜Ｅの各人が自由に行うことが可能であり、各人の音声認識による音データ（効果音）の付加が可能となっている。そして、効果音を付加した動画像の内容（編集後の再生データ）を確認したい場合には、再生表示領域２０２の「プレビュー」ボタン（図３を参照）を押下（クリック）することで、効果音付きの動画像（音データと動画像データとを合成した再生データ、第２再生データ）が再生され、これをすぐに確認することができる。

【0046】

このように、音声認識による効果音（音データ）の付加を数名（ここでは５人）で行いながら作業を進めることで、編集作業を効率的に行うことが可能となる。具体的に、例えば、音声デザインの担当者が作成した効果音付きの動画像のサンプルデータを、別の作業担当者や作業リーダー、顧客等のもとへ持参し、そのサンプルデータに基づく効果音付きの動画像を確認する場合、本システム１０の動作環境さえ整っていれば、その場で効果音の修正や調整、変更等に対応することが可能となる。しかも、音声認識による効果音の付加にあたっての認識ワードを擬声語とし、これに対応する効果音を生成して付加することが可能に構成されているので、その場に居る者の個々の持つイメージにできる限り近似した効果音を付加することが可能となる。したがって、サンプルデータに基づく効果音付きの動画像を確認した結果、効果音の修正等が必要になったとしても、その場で、別の作業担当者等の意向を踏まえた形のデータを直ちに作成することができるので、サウンド担当者がサンプルデータを持ち帰って修正等を行う必要がなくなる。これにより、編集作業の効率が格段に向上することとなる。

【0047】

以上に説明した本実施例の情報処理システム１０では、動画像データを含む再生データ（第１再生データ）に対して効果音の音データを付加する（関連付ける）場合、その再生データの再生中（動画像の再生表示中）に作業者が発話した音声（認識ワード）を認識し、その認識した音声に対応する音データ（効果音）を付加する（関連付ける）ことが可能となっている。このように、動画像に対する効果音の付加（関連付け）を、動画像の再生表示中の音声認識により行えるように構成することで、再生表示される動画像を確認しながら発話するだけで効果音を任意のタイミングで付加することができるので、画像制作に係る作業の効率化を図ることが可能となる。

【0048】

特に、本実施例では、認識する音声（認識ワード）を擬声語とし、認識ワードに対応する効果音の音データを効果音データベースにより管理している。そして、作業者が発話した擬声語（認識ワード）に基づいて音データ（効果音）を動画像データ（再生データ、第１再生データ）に付加するように構成されているため、作業者の持つイメージにより感覚的に編集作業を進めることが可能となる。また、前述した編集作業の例のように、複数人が同じ編集対象の動画像データ（再生データ、第１再生データ）に対して音データ（効果音）を付加する作業に関与することが可能となる。これにより、画像制作に係る作業効率の向上を図ることが可能となる。

【0049】

なお、本発明は前述した実施例と異なる構成（以下「変形例」ともいう。）を採ることも可能である。以下、変形例について説明する。

【0050】

［変形例１］
前述した実施例の情報処理システム１０では、音声入力部１０８を介して音声認識部３１により認識可能な音声について特に制限を設けていなかったが、これについて制限を設けることも可能である。例えば、前述した実施例に対して音声認証機能を追加し、事前にシステム利用者として登録した者の音声だけを音声認識部３１が認識するように構成してもよい。音声認証機能としては公知のものを利用することが可能である。本変形例１に係るシステム構成としては、例えば、本システム１０により編集作業を行う者の音声に関する情報（音声情報）を登録しておく登録部と、音声入力部１０８を介して入力された音声が登録部に登録された者の音声であるか否かを識別する識別部を情報処理装置３０に設け、登録部に登録された情報に対応する者の音声のみを音声認識部３１が認識する構成を例示できる。このような構成では、まず、本システム１０を利用する者が、事前に音声入力部１０８を介して自己の音声を登録しておく。この登録は、入力された音声を登録部が分析して当該音声の特徴データ（周波数等）を抽出し、これを特定の個人の音声モデル（音声情報）として記録することにより行われる。そして、本システム１０を利用して実際に編集作業を行う場合には、作業者が、本システム１０の利用開始に際して自己の所定の音声を音声入力部１０８により入力する。この入力した音声と、登録部に登録（記録）されている音声モデル（音声情報）との比較・照合が識別部により行われ、両者が一致すれば、その音声を入力した作業者は、以後、前述した音声認識による音データの付加を行うことが可能となる。このような変形例１によれば、事前に登録した者のみが、音声認識による音データの付加を行うことができるので、編集作業を行わない者の音声を認識して音データが付加されることがない。また、一度にシステムを利用する作業者の人数を制限することも可能となるので、音声認識（音声認識機能）が適切に機能する環境を維持しやすくなる。

【0051】

［変形例２］
前述した実施例の情報処理システム１０では、音声入力部１０８を介して入力された音声を音声認識部が認識し、この認識した音声（認識ワード）に対応する音データを動画像データに付加するように構成していた。これに対し、音声入力以外の入力に基づいて音データを動画像データに付加するように構成してもよく、例えば、キーボードやマウス等のパーソナルコンピュータ（ＰＣ）が備える操作入力部１０７や、効果音データベースに登録された認識ワードを入力するための専用のコントローラ、入力画面等を用いた作業者による入力（操作入力）に基づいて、動画像データに付加する音データの選択（検索）や音データの付加を行うように構成してもよい。この場合、操作入力部１０７やコントローラ、入力画面等からの入力を認識可能な入力認識部を情報処理装置３０に設け、入力認識部が認識した入力に対応する音データ（効果音）を取得して動画像データに付加するように構成することが可能である。また、操作入力部１０７やコントローラ等による入力に基づいて電子音等の音データを生成可能な音生成部を情報処理装置３０に設け、音生成部が生成した音データを動画像データに付加するように構成してもよい。これらの構成においても、前述した実施例のように、編集画面２００の再生表示領域２０２に再生表示される動画像やタイムライン表示領域２０３に表示されるタイムラインカーソルＴＣ等を確認しながら、任意のタイミングで操作入力部１０７やコントローラ等を操作することで、任意の効果音（音データ）を付加することが可能である。このような変形例２によれば、編集作業を行わない者の音声やその他周囲の雑音等の認識による音データの付加がなされないので、音声認識の場合に懸念されるノイズを考慮する必要がなくなる。

【0052】

［変形例３］
前述した実施例の情報処理システム１０では、図５に示すようなテーブル構造を有する効果音データベースにより音データ（効果音）を管理しており、音声認識部により認識された音声（認識ワード）に対応する音データを取得して、動画像データに付加するように構成していた。そして、音声認識部により認識された音声が認識ワードとして効果音データベースに存在しない場合（認識ワード未対応の場合）には音データが生成されず、動画像データに音データが付加されないものとなっていた。これに対し、音声認識部により認識された音声に対応する認識ワードが存在しない場合、認識された音声に近似する一の音データを、補助記憶部１０５に記憶されている１又は２以上の音データを合成して生成し、これを動画像データに付加する（関連付ける）ように構成してもよい。例えば、図５に示すように「かーん」の認識ワードに対応する効果音の音データＣ１は存在するものの、音声認識部により認識された音声が「かーんかーん」であり、これに対応する認識ワード及び音データが存在しない場合、「かーん」の音データＣ１を２つ合成して（組み合わせて）一の音データ（「かーんかーん」）を生成することが可能である。また、実施例のような効果音データベースに対応する効果音の音データ（効果音データ）に加え、直音、拗音、清音、濁音、半濁音、鼻濁音等の単音に該当する音データ（単音データ）を補助記憶部１０５に記憶しておき、この単音データと効果音データを合成して一の音データを生成したり（例えば「ぱ」＋「かーん」＝「ぱかーん」）、単音データ同士を合成して一の音データを生成したりすること（例えば「きゅ」＋「い」＋「ん」＝「きゅいん」）も可能である。このような変形例３によれば、音声認識部により認識された音声によっては音データが生成されず動画像に効果音が付加されないといったことを極力排除することが可能となる。また、音声認識により付加することが可能な効果音の多様化を図ることが可能となる。

【0053】

［変形例４］
前述した実施例の情報処理システム１０では、音声認識により音データを再生中の動画像データに対して付加する際、当該音データを再生中の動画像データの現在の再生位置情報（再生時間情報）と関連付けて、発話者の発話タイミング（音声認識タイミング）に合わせて（略同期させて）音データを付加するように構成していた。これに対し、動画像データに対する音データを付加する位置（音の再生タイミング）を、実際の発話タイミング（音声認識タイミング）よりも僅かに早くする（前倒しとする）ことができるように構成してもよい。例えば、再生表示領域２０２に再生表示される編集対象の動画像が作業者にとって初見である場合、作業者の発話タイミングが遅れることが想定される。これに鑑み、前述した実施例のジャンル指定画面２１０と同様にして音設定画面（図示せず）を設け、当該画面を通じて効果音を付加する位置（音の再生タイミング）を若干早めにする設定を事前に行えるように構成する（付加位置設定機能）。このような変形例４によれば、使い勝手の良いシステムとすることが可能となる。

【0054】

［変形例５］
前述した実施例の情報処理システム１０では、検索処理（S108）により取得した音データを動画像データに付加する音データ付加処理（S109）において、音データと再生中の動画像データとを合成し（S303）、この合成した音データをすぐに再生部２１が再生することで、当該音データに基づく効果音が動画像への付加とともに音出力部１０９により出力されるように構成していた。これに対し、音データ付加処理（S109）では、音データと動画像データとを合成せずに、再生中の動画像データに対して関連付ける音データの再生位置情報（再生時間情報）を記憶するに止めておき、音データの再生も行わないように構成してもよい。つまり、音データ付加処理（S109）では、音データそのものの付加を行わず、音データに関する情報（音データの種類、タイトル等）を、現在再生中の動画像データの現在の再生位置情報（再生時間情報）と関連付けて記憶するように構成する。この場合、検索処理（S108）による音データの検索（S203）は行うが、その検索結果に基づく音データの取得（S204）については音データに関する情報（音データの種類、タイトル等）を取得することとし、この情報を音データ付加処理（S109）の中で読み込んで、動画像データの現在の再生位置情報（再生時間情報）と関連付けて記憶するように構成する（S302）。そして、その後に、例えば再生表示領域２０２の「プレビュー」ボタンが押下される等、音データと編集対象の動画像データとを合成したものの再生を指示する旨の入力に基づいて、編集部２２が、S302にて記憶した情報に対応する音データを補助記憶部１０５から読み込み、当該音データと編集対象の動画像データとを合成して、合成済の再生データを再生するように構成する。このような変形例５によれば、編集を施している動画像データの再生中におけるＣＰＵの処理負担が軽減されるので、編集作業をより円滑にすることが可能となる。なお、このような変形例５においても、編集作業中の画面表示に関しては、前述した実施例と同様、図３に示すような編集画面２００を表示することが可能である。こうすれば、音データ付加処理（S109）において、内部的には、音データと動画像データとを合成せず、動画像データ（再生データ）に対して関連付ける音データの再生位置情報（再生時間情報）を記憶するに止めたとしても、作業者にとっては、見かけ上、動画像データ（再生データ）に対する音データの付加状況が分かりやすいものとなる。

【0055】

［変形例６］
前述した実施例の情報処理システム１０では、音声認識部により認識する音声（認識ワード）を擬声語とし、その擬声語に基づいて音データ（効果音）を動画像データに付加するように構成しており、その音声認識の対象は日本語を前提としていた（図５を参照）。これに対し、音声認識の対象とする言語に関し、日本語以外の言語も対象とすることができるように構成してよい。例えば「犬の鳴き声」を表す擬声語に関し、日本語では「わんわん」、英語では「Ｂｏｗｗｏｗ」といったように、同じ内容の擬声語であっても言語によって表現（認識ワード）が異なるものが多く存在する。このことに対応して、効果音データベースにおける認識ワードを、日本語だけでなく英語等の他の言語についても予め設定し、言語に応じた検索が可能となるように構成する。そして、前述した実施例のジャンル指定画面２１０と同様にして言語指定画面（図示せず）を設け、当該画面を通じて何れの言語で音声認識を行うのかを事前に指定できるように構成する（言語指定機能）。このような変形例６によれば、日本語だけでなく他国の言語にも対応し得るので、利便性の高いシステムとすることが可能となる。

【0056】

［変形例７］
前述した実施例の情報処理システム１０では、当該システムを構成するパーソナルコンピュータ（ＰＣ）が備える補助記憶部１０５に効果音データベース及び音データを記憶し、この効果音データベースにアクセスして検索処理（S108）を行うように構成していた。これに対して、情報処理システム１０を構成するＰＣがインターネット等のネットワークを介して接続可能なサーバーに、効果音データベース及び音データを記憶する記憶部を設け、サーバー側で検索処理を行うように構成してよい。この場合、サーバー側での検索処理により抽出された音データを、ＰＣ側がネットワークを介して取得し、この取得した音データと動画像データとを合成するように構成する。このような変形例７によれば、ネットワーク環境さえ整っていれば、様々な場所で本システムを利用した編集作業が可能となる。また、効果音データベースや音データの更新やメンテナンス等の作業を、システム利用者に委ねることなく、本システムの提供者（販売者、製造者、管理者等）が行えるようになる。したがって、より使い勝手の良いシステムとすることが可能となる。

【0057】

以上、本発明の実施形態として実施例および変形例を説明したが、本発明はこれらに限定されるものではなく、各請求項に記載した範囲を逸脱しない限り、各請求項の記載文言に限定されず、当業者がそれらから容易に置き換えられる範囲にも及び、かつ、当業者が通常有する知識に基づく改良を適宜付加することが可能である。

【0058】

例えば、前述した実施例等では、音声認識により音データ（効果音）を動画像データに関連付ける構成としていたが、例えば、各種エフェクト画像の画像データを動画像データに関連付けるようにしてもよい。こうすれば、効果音及びエフェクト画像の何れか一方または両方と動画像データ（再生データ）との関連付けに係る作業を、音声認識より行うことが可能となる。

【0059】

また、前述した実施例等では、再生処理装置２０及び情報処理装置３０により構成される情報処理システム１０のソフトウェア（プログラム）をパーソナルコンピュータ（ＰＣ）することで、当該ＰＣを情報処理システム１０として機能させるものとしていたが、例えば、市販の再生処理装置のソフトウェア（プログラム）をインストール済のＰＣに対して、情報処理装置のソフトウェア（プログラム）をインストールした場合にも、前述した実施例等と同様の情報処理システムを構築することができるように構成してもよい。この場合、情報処理装置を、ＰＣが既に備えている再生処理装置と接続可能かつ通信可能に構成し、再生処理装置と情報処理装置をそれぞれ起動することで、両装置が接続されるように構成する。また、両装置を起動することで、ＰＣの表示部には、再生処理装置に対応する画面（以下「第１画面」ともいう。）と、情報処理装置に対応する画面（以下「第２画面」ともいう。）とが、それぞれ独立して（別々のウィンドウで）表示されるように構成する。ここで、第１画面は、例えば、前述した実施例等の編集画面２００（図３を参照）のうち音声認識表示領域２０５を除いた他の領域２０１〜２０４からなるものとすることができ、第２画面は、例えば、同編集画面２００のうち音声認識表示領域２０５からなるものとすることができる。

【0060】

このように、再生処理装置のソフトウェアと情報処理装置のソフトウェアとを別々にインストールする構成においても、前述した実施例等と同様にして、再生処理装置により再生する動画像データ（再生データ）に対して、情報処理装置により生成した音データを付加する（関連付ける）ことが可能である。また、このような構成によれば、情報処理システム全体（再生処理装置＋情報処理装置）のソフトウェアの他、情報処理装置用のソフトウェアだけを単独で提供することも可能なので、既に再生処理装置のソフトウェアをインストールしたＰＣを所有する利用者（ユーザー）にとっては、実施例等で説明したシステムによる画像制作に係る作業環境を手軽に導入することが可能となり、利用者（ユーザー）にとっての利便性が高まる。

【0061】

なお、前述の第２画面には、音声認識の開始（音声認識モードの設定）を指示する「開始」ボタン（図示せず）と、音声認識の終了（音声認識モードの設定解除）を指示する「終了」ボタン（図示せず）とを設けてもよい。これは、再生処理装置と情報処理装置は別々に起動するもの（別々のソフトウェア）であり、再生処理装置における動画像データ（再生データ）の再生開始・終了に係る指示と、情報処理装置における音声認識の開始・終了に係る指示とを別系統にすることも可能だからである。この場合、作業者は、例えば、第１画面にて「再生」のアイコン（図３を参照）をクリックして動画像データの再生開始の指示入力を行った後、第２画面にて「開始」ボタンをクリックして音声認識開始の指示入力を行うことで、前述の実施例等と同様にして編集作業を行うことが可能である。

【0062】

また、本発明に係る情報処理システム及び情報処理装置は、パチンコ遊技機やスロットマシン等の遊技機で使用される各種遊技演出画像の制作、家庭用ゲームや携帯ゲーム、ネットゲーム、アーケードゲーム等のゲーム機で使用される各種ゲーム画像の制作、ＷＥＢサイト上の宣伝広告等で使用される各種ＷＥＢサイト画像の制作、テレビや映画等で使用される各種アニメーション画像の制作等、あらゆる分野の画像の制作において利用することが可能である。特に、製品アイテム数が多かったり製品のライフサイクルが短かったりする遊技機分野やゲーム分野等において本発明は有用である。
［その他］
以下、本明細書で開示した実施形態（実施例）に関連する発明を参考発明として開示しておく。
（１）参考発明１の情報処理システムは、
画像情報を含む第１再生データを再生する第１再生手段と、
前記第１再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記第１再生データとを関連付ける関連手段と、
を備えることを要旨とする。
これによれば、第１再生データの再生中における入力に基づいて音情報が生成され、当該生成された音情報と第１再生データとの関連付けが行われるので、画像制作に係る作業の効率化を図ることが可能となる。
（２）参考発明２の情報処理システムは、前述の参考発明１の情報処理システムにおいて、
前記音情報と前記第１再生データとを関連付けた第２再生データを再生する第２再生手段を備えることを要旨とする。
これによれば、第２再生データの再生により、音情報を含めた第１再生データ（つまり、生成した音情報と画像情報とを含む再生データ）の確認作業が容易となる。
（３）参考発明３の情報処理システムは、前述の参考発明１または参考発明２の情報処理システムにおいて、
前記関連手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記第１再生データとを関連付けることを要旨とする。
これによれば、第１再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング（再生位置）の設定（決定）が容易となる。
（４）参考発明４の情報処理システムは、前述の参考発明１から参考発明３の何れか一つの情報処理システムにおいて、
前記第１再生データと関連付けた前記音情報の再生タイミングを調整可能な調整手段を備えることを要旨とする。
これによれば、関連付けた音情報の再生タイミング（再生位置）を調整することが可能となるので、音情報の再生タイミングの最適化を図ることが可能となる。
（５）参考発明５の情報処理システムは、前述の参考発明１から参考発明４の何れか一つの情報処理システムにおいて、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記第１再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
（６）参考発明６の情報処理システムは、前述の参考発明５の情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が第１再生データと関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
（７）参考発明７の情報処理システムは、前述の参考発明５または参考発明６の情報処理システムにおいて、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類（種類）を予め指定しておくことで、その指定された分類に即した音情報が、第１再生データの再生中における入力に基づいて生成されて該第１再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
（８）参考発明８の情報処理システムは、前述の参考発明５から参考発明７の何れか一つの情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、第１再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて第１再生データと関連付けられるので、入力の内容によっては音情報が生成されずに第１再生データとの関連付けが行われないといったことを極力排除することが可能となる。
（９）参考発明９の情報処理システムは、前述の参考発明１から参考発明８の何れか一つの情報処理システムにおいて、
前記認識手段は、前記第１再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、第１再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報と第１再生データとの関連付けが行われるので、音情報と第１再生データとの関連付けを音声入力（音声認識）によって簡便に行うことが可能となる。
（１０）参考発明１０の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
を備えることを要旨とする。
これによれば、再生処理装置での再生データの再生中における入力に基づいて、音情報が生成されて再生データに関連付けられるので、画像制作に係る作業の効率化を図ることが可能となる。
（１１）参考発明１１の情報処理装置は、前述の参考発明１０の情報処理装置において、
前記音情報を関連付けた再生データの再生を前記再生処理装置に対して指示する再生指示手段を備えることを要旨とする。
これによれば、音情報を含めた再生データ（つまり、生成した音情報と画像情報とを含む再生データ）を再生処理装置にて再生させることが可能となるので、音情報と画像情報とを含む再生データの確認作業が容易となる。
（１２）参考発明１２の情報処理装置は、前述の参考発明１０または参考発明１１の情報処理装置において、
前記関連指示手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記再生データとの関連付けを指示することを要旨とする。
これによれば、再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング（再生位置）の設定（決定）が容易となる。
（１３）参考発明１３の情報処理装置は、前述の参考発明１０から参考発明１２の何れか一つの情報処理装置において、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
（１４）参考発明１４の情報処理装置は、前述の参考発明１３の情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が再生データに関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
（１５）参考発明１５の情報処理装置は、前述の参考発明１３または参考発明１４の情報処理装置において、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類（種類）を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
（１６）参考発明１６の情報処理装置は、前述の参考発明１３から参考発明１５の何れか一つの情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて再生データに関連付けられるので、入力の内容によっては音情報が生成されずに再生データとの関連付けが行われないといったことを極力排除することが可能となる。
（１７）参考発明１７の情報処理装置は、前述の参考発明１０から参考発明１６の何れか一つの情報処理装置において、
前記認識手段は、前記再生処理装置による再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報が再生データに関連付けられるので、音情報と再生データとの関連付けを音声入力（音声認識）によって簡便に行うことが可能となる。

【符号の説明】

【0063】

１０情報処理システム、２０再生処理装置、２１再生部、２２編集部、２３読込部、３０情報処理装置、３１音声認識部、３２検索部、３３指示部、１００ＣＰＵ、１０１ＲＯＭ、１０２ＲＡＭ、１０３フレームバッファメモリ、１０４画像圧縮伸張部、１０５補助記憶部、１０６表示部、１０７操作入力部、１０８音声入力部、１０９音出力部、２００編集画面、２０１動画像タイトル表示領域、２０２再生表示領域、２０３タイムライン表示領域、２０４音編集表示領域、２０５音声認識表示領域、２１０ジャンル指定画面、ＴＣタイムラインカーソル、ＨＫ波形、ＭＫマーク、ＩＣ音アイコン。

【要約】

【課題】画像制作に係る作業を効率的に行うことが可能な情報処理システム及び情報処理装置の提供。
【解決手段】情報処理システムでは、動画像に効果音を付加する場合、その動画像データの再生中に作業者が発話した音声を音声認識部が認識し、その認識した音声に対応する音データ（効果音）を検索部が検索して、付加する音データを取得する。この取得した音データを、再生中の動画像データに付加することで、音データと動画像データとを関連付けた再生データが得られる。このように、動画像に対する効果音の付加（関連付け）を音声認識により行えるようにすることで、再生中の動画像を見ながら効果音を付加することができるので、画像制作に係る作業効率の向上を図ることが可能となる。
【選択図】図２

【図1】