【実施例】
【0015】
[システム全体構成]
図1は本発明の一実施例に係る情報処理システム10のハードウェア構成例を示しており、
図2は本実施例に係る情報処理システム10のシステム構成例を示している。本実施例の情報処理システム10は、市販のパーソナルコンピュータ(PC)に本システムのソフトウェア(プログラム)をインストールすることで、当該PCを情報処理システム10として機能させるものとして構成されている。このため、本実施例に係る情報処理システム10のハードウェア構成は、一般的なパーソナルコンピュータと同様の構成を備えている。すなわち、システム(装置)全体の処理を制御するCPU100と、PCを起動させたり動作させたりするのに必要な基本プログラムやデータ等を記憶するROM101と、CPU100による各種処理の実行に際してデータを一時的に記憶するワークメモリとして使用されるRAM102と、後述の表示部106に表示するための画像データを格納するフレームバッファメモリ103(VRAM)と、画像データを圧縮して圧縮画像データを生成したり圧縮画像データを伸張して再生したりする画像圧縮伸張部104と、HDD等により構成され少なくとも本実施例に係る情報処理システム10を構成するプログラム、画像データ及び音データ等を記憶する補助記憶部105と、液晶ディスプレイ等により構成され各種情報を表示する表示部106と、キーボードやマウス等により構成され操作入力を行うための操作入力部107と、1又は複数のマイク等(集音部)により構成され音声入力を行うための音声入力部108と、1又は複数のスピーカ等により構成され各種の音を出力する音出力部109と、を備えている。この他にも、一般的なパーソナルコンピュータが備える構成や機能を備えているが、これについては図示を省略している。
【0016】
こうしたハードウェア構成のもとで機能する本実施例の情報処理システム10は、
図2に示すように、大別すると、動画像の画像データ(画像情報)を含む再生データを再生することが可能な再生処理装置20と、再生処理装置20にて再生される再生データと関連付ける音データ(音情報)を生成することが可能な情報処理装置30とにより構成される。再生処理装置20は、動画像の画像データ(以下「動画像データ」ともいう。)を含む再生データの再生に係る処理を実行する再生部21と、動画像データや音データの編集に係る処理を実行する編集部22と、情報処理装置30にて生成された音データの読み込みに係る処理を実行する読込部23とにより構成される。編集部22は、読込部23が読み込んだ音データを動画像データに付加したり、動画像データに対する音データの再生位置を調整したりする等の各種編集に係る処理を実行可能に構成されている。また、再生部21は、編集部22により編集された音データと動画像データとを含む再生データの再生に係る処理を実行可能に構成されている。
【0017】
なお、再生処理装置20にて再生される再生データには、1又は複数の動画像データ(画像情報)を含んで構成されるもの、1又は複数の音データ(音情報)を含んで構成されるもの、これらの動画像データ(画像情報)と音データ(音情報)の両方を含んで構成されるもの等が存在する。また、動画像(動画像データ)は、時系列的に並べられた複数のフレーム単位の画像(画像データ)からなるものである。以下では、動画像データを含む再生データのことを単に動画像データということがある。
【0018】
情報処理装置30は、音声入力部108により入力された音声の認識に係る処理を実行する音声認識部31と、補助記憶部105に記憶された複数の音データの中から音声認識部31により認識した音声に対応する音データの検索に係る処理を実行する検索部32と、検索部32により検索された音データの取得および再生処理装置20への供給に係る処理を実行する音データ取得部33とにより構成される。CPU100は、操作入力部107により情報処理システム10の起動指示が入力されると、これを受けて補助記憶部105に記憶されている本システムのプログラムをRAM102にロードし、当該プログラムを実行する。これにより、情報処理システム10が起動して、
図2に示す各部による処理が実行可能となる。
【0019】
[編集画面]
次に、情報処理システム10が起動されることで表示部106に表示される編集画面について説明する。
図3は本実施例の情報処理システム10に係る編集画面の一例を示している。
図3に示すように、編集画面200は複数の表示領域(ウィンドウ)により構成されるもので、具体的に、動画像タイトル表示領域201と、再生表示領域202と、タイムライン表示領域203と、音編集表示領域204と、音声認識表示領域205とを含んで構成される。なお、本実施例で説明する編集画面200の構成はあくまでも一例であり、編集画面を構成する表示領域(ウィンドウ)の種類や数、サイズ、配置、表示内容等については種々の態様を採ることが可能である。
【0020】
動画像タイトル表示領域201は、補助記憶部105の所定のデータフォルダ(記憶領域)に記憶されている動画像データ(動画ファイル)のタイトル(ファイル名)を表示する領域であり、複数のタイトルを一覧で表示することができるように構成されている。本情報処理システム10を用いて画像編集(画像制作)に係る作業を行う者(以下「作業者」ともいう。)は、操作入力部107としてのマウス等を操作して、動画像タイトル表示領域201に表示されたタイトルの中から編集対象とする動画像データのタイトルをクリックすることで、編集対象の動画像データを選択することができる。編集対象の動画像データを選択すると、当該動画像データの1フレーム目の再生開始位置の画像が再生表示領域202に静止した状態で表示される。
【0021】
再生表示領域202は、動画像タイトル表示領域201にて選択した編集対象の動画像データに基づく動画像を再生表示する領域である。再生表示領域202の下部には、「再生」、「停止」、「一時停止」等のメディア操作アイコンが設けられており、作業者は、操作入力部107としてのマウス等を操作してメディア操作アイコンをクリックすることで、再生表示領域202に表示された動画像の再生や一時停止等の指示を入力することができる。前述のように動画像タイトル表示領域201にて編集対象の動画像データを選択した状態で「再生」のアイコンをクリックすると、選択した編集対象の動画像データ(再生データ)の再生が開始され、当該データに係る動画像が再生表示領域202に再生表示される。また、再生表示領域202におけるメディア操作アイコンの左側には、再生表示中の動画像の再生時間の経過をリアルタイムで表示する再生時間表示部が設けられている。さらに、メディア操作アイコンの右側には「プレビュー」ボタンが設けられており、当該「プレビュー」ボタンを押下(クリック)すると、編集中の再生データ(編集対象の動画像データと音データとを合成した再生データ)が最初から再生されるように構成されている。
【0022】
タイムライン表示領域203は、再生表示領域202にて再生表示される動画像、すなわち編集対象の動画像データの時間軸の再生位置情報(動画像タイムライン)を表示する領域である。このタイムライン表示領域203には、音編集表示領域204に跨って上下方向に延びる1本のタイムラインカーソルTCが表示される。タイムラインカーソルTCは現在の再生位置を示すものであり、再生時間の経過に伴って時間軸方向(
図3では左側から右側)に移動していくものである。また、タイムライン表示領域203は、再生表示領域202にて再生表示される動画像の再生データがBGM(バックグラウンドミュージック)等の音データを含む場合、音データの波形HKを併せて表示するように構成されている。つまり、タイムライン表示領域203は、音データの時間軸の再生位置情報(音タイムライン)も表示することが可能となっている。これにより、作業者はタイムライン表示領域203を見ることで、画像再生表示領域202にて再生表示される動画像の再生位置やこれに付随して再生される音との対応関係、再生位置に応じて出力される音の質、強弱など、編集作業に役立つ情報を容易に把握することができる。
【0023】
音編集表示領域204は、編集対象の動画像データ(再生データ、第1再生データ)に対して音データ(音情報)を付加(追加)する場合の音編集に関する情報を表示する領域である。本情報処理システム10では、再生表示領域202にて動画像を再生表示しているときに、音声入力部108としてのマイク等を通じて作業者等が発話した音声を認識すると、その認識した音声に対応する効果音を、その音声認識タイミングに合わせて(略同期させて)、タイムライン上(時間軸上)の再生位置に付加することが可能となっている。なお、ここでいう音声認識タイミングは、当該音声認識の契機となった発話のタイミングと略同じである。このことに対応して、音編集表示領域204には、音声認識に基づいて付加される効果音に係る音データの情報(効果音の種類(タイトル)、再生タイミングを示す時間等)が、その再生位置に合わせて表示される。
【0024】
ここで、本実施例では効果音(音データ)の付加に際し、当該効果音が付加される位置を示すマークMKをタイムライン表示領域203の時間軸上(タイムライン上)に表示するものとしており、音編集表示領域204には、そのマークMKと対応付けて、付加した音データの情報を示す音アイコンICを表示(配置)するものとしている。これにより、作業者はタイムライン表示領域203や音編集表示領域204を見ることで、再生表示領域202にて再生表示される動画像(編集対象の動画像データ)に効果音が付加されたことや当該付加された効果音の内容、再生表示中の動画像と効果音の再生位置との対応関係等を容易に把握することができる。本実施例では
図3に示すように、マークMKと音アイコンICとを破線で繋ぐことにより両者の対応付けを行うものとしている。なお、
図3では、マークMK及び音アイコンICがそれぞれ3つ表示されている例を示している(マークMK1〜MK3、音アイコンIC1〜IC3)。
【0025】
また、本実施例では、作業者が操作入力部107としてのマウス等を操作して、音編集表示領域204に表示(配置)されている音アイコンICを左右方向にドラッグすることで、当該音アイコンICに対応する効果音(音データ)の再生位置を調整できるように構成されている。このとき、タイムライン表示領域203の時間軸上に表示されるマークMK(及び破線)も連動して左右方向に移動するように構成されているので、効果音の再生位置の微調整を容易に行うことできる。さらに、音編集表示領域204に1又は複数の音アイコンICが表示されている状態、すなわち、動画像データに1又は複数の効果音の音データを付加した状態(編集中)において、再生表示領域202の「プレビュー」ボタンを押下(クリック)すると、音編集表示領域204に表示されている音アイコンに対応する音データが付加された動画像データ、つまり当該音データと編集対象の動画像データとを合成した再生データ(第2再生データ)が、最初から再生されるように構成されている。これにより、再生表示領域202に動画像が1フレーム目の再生開始位置から再生表示されるとともに、付加した音データの再生位置(再生タイミング)になると効果音が音出力部109(スピーカ)から出力される。
【0026】
また、本実施例では、動画像データのタイムライン上(時間軸上)に効果音の音データが付加される際、すなわち、音編集表示領域204に音アイコンICが表示(配置)される際、これに伴って当該音データに基づく効果音が音出力部109から出力されるように構成されている。これにより、作業者は効果音が付加された動画像の印象をリアルタイムで感じ取ることが可能となる。さらに、音編集表示領域204に表示されている音アイコンICをクリックして削除の指示を入力することで、その音アイコンICに対応する音データ(つまり、付加された効果音)を削除する(再生データとの関連付けを解く)ことができるように構成されている。
【0027】
音声認識表示領域205は、音声入力部108としてのマイク等を介して音声認識部31により認識された音声の内容を表示する領域である。この音声認識表示領域205は、作業者等が発話した音声(認識された音声)をテキストで表示するように構成されている。本実施例では、動画像タイトル表示領域201にて選択した編集対象の動画像データの再生が開始されると、これに連動して、音声認識により効果音(音データ)を付加することが可能な状態(以下「音声認識モード」ともいう。)となるように構成されている。このため、本実施例では、音声認識モード中、音声認識表示領域205には、認識された音声の内容(テキスト)が上から下に向かって時系列で表示されるように構成されている。このように認識された音声の内容(テキスト)を表示することで、発話の内容(発話した音声)が正しく認識されているのかを確認することが可能となる。なお、音声認識モードは、動画像データの再生停止に伴って終了するように構成されている。
【0028】
さらに、音編集表示領域204の右下部には「ジャンル指定」ボタンが設けられており、当該「ジャンル指定」ボタンを押下(クリック)すると、
図4に示すジャンル指定画面210が編集画面200の手前側に重畳して表示されるように構成されている。本実施例では後述するように、動画像に付加することが可能な効果音(音データ)をジャンル別(分類別)に管理するものとしており、このことに対応して、付加する効果音(音データ)のジャンル(分類)を指定するためのジャンル指定画面210を表示可能に構成されている。本実施例のジャンル指定画面210は、ジャンル毎にチェックボックスを形成して構成されており、操作入力部107としてのマウス等を操作して、指定するジャンルのチェックボックスにチェックを入れることで、付加する効果音のジャンルを1又は複数選択して指定することが可能となっている。ジャンル指定画面210で指定可能(選択可能)なジャンルは、後述する効果音データベースに登録されているジャンルに対応している(
図5を参照)。効果音のジャンルを指定した場合には、この指定したジャンルの効果音を対象にして、付加する効果音の検索が行われる(後述のS108)。また、ジャンル指定画面210は、操作入力部107により所定の表示終了の指示入力を行うことで、表示部106への表示を終えるように構成されている。
【0029】
[編集処理]
次に、本実施例の情報処理システム10の動作処理について、
図6に基づいて説明する。本システム10の動作処理は、再生処理装置20と情報処理装置30との協働により実行されるものである。CPU100は本システム10が起動されると、前述した編集画面200(
図3を参照)を表示部106に表示して、
図6に示す編集処理を実行する。
【0030】
S100では、動画像データの再生が停止中(一時停止を含む)であるか否かを判定する。その結果、停止中でないと判定した場合(S100でNO)、すなわち、動画像データを再生中である場合、後述するS104の処理に移行し、停止中であると判定した場合(S100でYES)、動画像データの再生開始を指示する入力が行われたか否かを判定する(S101)。再生開始の指示入力は、編集画面200の再生表示領域202に表示されるメディア操作アイコンのうち「再生」のアイコンをクリックすることにより行われる。再生開始の指示入力がないと判定した場合(S101でNO)、後述するS110の処理に移行し、再生開始の指示入力があると判定した場合(S101でYES)、再生部21が動画像タイトル表示領域201にて選択された編集対象の動画像データの再生を開始して(S102)、音声認識部31が音声認識モードを設定する(S103)。これにより、再生表示領域202において、編集対象の動画像データに基づく動画像が再生表示される。
【0031】
次いでS104では、音声入力部108による音声の入力が行われたか否かを判定し、音声入力がないと判定した場合(S104でNO)、後述するS110の処理に移行し、音声入力があると判定した場合(S104でYES)、音声認識部31がその入力のあった音声を取得して音声認識を行う(S105)。音声認識部31は、音声入力部108を介して入力された作業者等の音声を認識することが可能な音声認識機能であり、一般的な音声認識アルゴリズムによる音声認識を行うものである。この音声認識部31としては、公知の音声認識機能を用いることが可能である。そして、入力のあった音声を適切に認識することができなかった場合には(S106でNO)、後述するS110の処理に移行し、認識することができた場合には(S106でYES)、その認識した音声をテキストデータに変換して、当該テキストデータに基づく音声の内容を編集画面200の音声認識表示領域205に表示するとともに(S107)、当該テキストデータに基づいて検索部32が検索処理を実行する(S108)。
【0032】
ここで、補助記憶部105には、動画像データ(再生データ、第1再生データ)に付加する(関連付ける)ことが可能な音データ(音情報)と、実際に音データを付加する(関連付ける)際に参照する効果音データベースが記憶されている。補助記憶部105に記憶される音データは、動画像に付加する効果音として用いられるであろう音をデータ化したものであり、本実施例では、自然現象、物の動き、物が出す音、動物の鳴き声など、様々なジャンルの音をベースとして作成された効果音のデータを音データとしている。そして、これらの音データに係る効果音の内容をそれぞれ言語化して表したもの(擬声語)を、音声認識による音データの付加にあたっての認識対象とする音声(以下「認識ワード」ともいう。)としており、この認識ワードと、音データ(効果音)との関係を規定した効果音データベースが補助記憶部105に記憶されている。
【0033】
図5は本実施例の効果音データベースのテーブル構造の概略を示している。
図5に示すように、本実施例の効果音データベースのテーブルは、予め用意された効果音のジャンル毎に(「自然現象」等)、各効果音の内容を言語化して表した擬声語(「ごろごろ」等)と、これに対応する効果音の音データの情報(データ保存先、ファイル名等)とを一対一で対応付けた構造となっている。本実施例の情報処理システム10は、補助記憶部105に記憶される音データ(効果音)の更新(追加、削除等)や、これに対応する効果音データベースの更新(追加、削除等)を事後的に行うこと(いわゆるバージョンアップ)が可能に構成されている。なお、
図5では説明の便宜上、効果音のジャンルと、各ジャンルの認識ワード及び音データをそれぞれ3つ例示しているが、実際には、これより多くのジャンル、認識ワード及び音データを備えており、付加することが可能な音データ(効果音)の多様化が図られている。また、
図5では、各ジャンルの音データが他のジャンルに含まれない(重複しない)態様を例示しているが、複数のジャンルに含まれる(重複する)音データが存在していてもよい。
【0034】
本実施例では、
図5に示すようなテーブル構造を有する効果音データベースを用いて音データ(効果音)を管理しており、検索部32は、効果音データベースを参照して音データの検索処理(S108)を実行するのである。この検索処理(S108)は、
図7に示すフローチャートにしたがって実行される。すなわち、検索処理(S108)ではまず、S106で認識した音声(認識ワード)に対応する音データを検索して取得するための命令文を生成する(S201)。この生成した命令文にしたがって、効果音データベースにアクセスして(S202)、認識した音声(認識ワード)に対応する音データを検索し(S203)、検索の結果、音データが特定されると、その特定された音データを、補助記憶部105に記憶されている音データの中から取得する(S204)。これにより、現在再生中の動画像データ(再生データ、第1再生データ)に付加する効果音の音データが生成(抽出)される。
【0035】
例えば、本システム10を利用している作業者の発話した音声が「どかーん」である場合、この音声を音声認識部31が認識すると(S106でYES)、検索部32が効果音データベースを参照して、その認識された音声「どかーん」(認識ワード)に対応する効果音の音データを検索する(S203)。
図5に示すように「どかーん」の認識ワードに対応する効果音の音データは「音データC2(小爆発音)」であるため、補助記憶部105に記憶されている音データの中から「音データC2」を取得する(S204)。
【0036】
ここで、作業者の発話した音声(認識ワード)が複数のジャンルに重複する場合、例えば、認識ワードが
図5に示す「ごろごろ」である場合、検索部32は、「ごろごろ」に対応する音データA1(自然現象:雷の音)および音データB1(物の動き:転がる音)を検索結果として抽出するが、本実施例では、このように一の認識ワードに対応する音データが複数存在する場合、当該複数の音データの中から一の音データをランダムに特定(抽出)して取得するように構成されている。なお、一の認識ワードに対応する音データが複数存在する場合の一の音データの特定(抽出)方法はランダム抽出に限られず、一の音データを特定するための条件をプログラム上で予め定めておき、当該条件に基づいて特定することが可能である。例えば、認識ワードが共通する音データ毎に優先順位を定めておき当該優先順位にしたがって一の音データを特定したり、認識した音声の特徴によって認識ワードに対応する一の音データを特定したり、編集対象(再生中)の動画像データの種類(タイトル、ジャンル等)を識別してこれに適した一の音データを特定したりすること等が可能である。また、前述したジャンル指定画面210により事前に効果音のジャンルを指定しておくことで、認識ワード(音データ)の重複を回避することが可能であり、音データの検索(選択)の効率を向上させることが可能である。
【0037】
また、本実施例では、S203による検索の結果が0件となって音データの特定ができなかった場合(認識ワード未対応の場合)、その旨を示すメッセージ画像を編集画面200に表示し、S109の処理を行うことなくS110の処理に移行する。この場合、効果音の音データは生成されず、これに伴い動画像データには音データ(効果音)が付加されないこととなる。
【0038】
図6に戻り、CPU100は検索処理(S108)を終えると、当該検索処理のS204で取得(生成)された音データを、現在再生中の動画像データ(再生データ、第1再生データ))に付加するための音データ付加処理(S109)を実行する。この音データ付加処理(S109)は、
図8に示すフローチャートにしたがって実行される。すなわち、音データ付加処理(S109)ではまず、指示部33が再生処理装置20に対して、先のS204で取得(生成)された音データの読み込み及び当該音データと再生中の動画像データとの合成を指示する信号(以下「指示信号」ともいう。)を出力する(S301)。指示部33(情報処理装置30)からの指示信号を再生処理装置20が受信すると、読込部23が先のS204で取得(生成)された音データを読み込み(S302)、当該読み込んだ音データと、現在再生中の動画像データ(再生データ、第1再生データ)とを、編集部22が合成する(S303)。S303では、S302で読み込んだ音データを、現在再生中の動画像データ(再生データ)における現在の再生位置情報(再生時間情報)と関連付けて当該再生データ(第1再生データ)に貼り付ける処理が実行される。これにより、現在再生中の動画像データ(再生データ、第1再生データ)に対して、作業者が発話した音声に対応する効果音の音データが、その発話タイミング(音声認識タイミング)と略同期して付加される(関連付けられる)こととなる。このとき、編集画面200のタイムライン表示領域203と音編集表示領域204には、それぞれ今回の音データが付加されることとなる再生位置に、マークMKと、音アイコンICが表示される(
図3を参照)。また、本実施例では、S303にて音データと動画像データとを合成する際、その音データを再生部21が再生して、当該音データに基づく効果音が音出力部109から出力される。
【0039】
図6に戻り、CPU100は音データ付加処理(S109)を終えると、本編集処理の終了指示の入力が行われたか否かを判定する(S110)。終了指示の入力は、例えば、操作入力部107としてのマウス等を操作して編集画面200の右上の終了アイコン(×印)をクリックすることにより行われる。S110にて終了指示の入力があると判定した場合(S110でYES)、本編集処理を終了し、これにより本情報処理システム10の動作が終了する。一方、終了指示の入力がないと判定した場合(S110でNO)、S100に戻り、上述したS100〜S110の処理が繰り返される。この間、一の編集対象の動画像データの再生が終了するまでは、音データの付加を続けて行うことが可能である。したがって、一の動画像データに対し1又は複数の音データ(効果音)を付加することが可能である。なお、S303により合成した動画像データと音データに関する情報、すなわち、再生中の動画像データの種類、当該動画像データと合成する音データの種類、合成位置(再生位置)等の情報は、編集処理の実行中(編集作業中)、RAM102等の所定の記憶領域に記憶される。また、編集対象の動画像データについての編集作業を終える際、その作業の結果を確定させる指示入力を行うことで、編集済の動画像データ(音データが付加された動画像データ、第2再生データ)が補助記憶部105の所定の記憶領域(フォルダ等)に記憶される。
【0040】
以上の編集処理が、本実施例の情報処理システム10の主要な動作処理であるが、この他にも、CPU100は、本システム10による編集作業に係る処理を実行可能に構成されている。例えば、本システム10を起動して編集作業を行うなか、編集対象の動画像データに1又は複数の音データを付加した状況、すなわち、
図3に示すように音編集表示領域204に音アイコンIC(
図3では音アイコンIC1〜IC3の3つ)が表示されている状況で、再生表示領域202に設けられた「プレビュー」ボタンが押下されると、編集部22が、そのとき再生表示領域202に表示されている動画像に係る画像データ(編集対象の動画像データ)と、音編集表示領域204に表示されている音アイコンICに係る音データ(付加した効果音の音データ)とを合成して編集後の再生データ(第2再生データ)を作成し、当該再生データを再生部21が再生する。すると、当該再生データに基づく動画像が再生表示領域202に再生表示されるとともに、当該再生データに基づく効果音が音出力部109(スピーカ)から出力される。これにより、編集作業を行う作業者は、効果音が付加された動画像を最初から再生して、編集内容を確認することができる。
【0041】
また、例えば、本システム10を起動して編集作業を行うなか、音編集表示領域204に表示されている音アイコンICがマウス操作により左右方向(タイムラインの時間軸方向)に移動(ドラッグ)されると、編集部22が、当該音アイコンICに対応する音データの再生位置情報(再生時間情報)を、当該音データのタイムライン上(時間軸上)での移動に合わせて変更し、編集対象の動画像データとの関連付けを更新する。これにより、動画像データに付加した音データ(効果音)の再生位置が変更され、音データ(効果音)の再生位置の事後的な調整が可能となる。
【0042】
なお、「プレビュー」ボタンの押下に基づく再生データの作成・再生処理や、音アイコンICの移動による音データの再生位置(再生タイミング)変更処理の実行に際しては、音声認識モードの設定が解除され、音声認識部31(音声認識機能)が働かないように構成されている。
【0043】
[編集作業の例]
次に、本実施例に係る情報処理システム10を利用した画像制作に係る作業(編集作業)の一例を説明する。ここでは、
図9に示すように、本システム10として機能するノート型のパーソナルコンピュータ(ノートPC)に接続された大型の液晶モニタに編集画面200(
図3を参照)を表示するものとし、編集作業に関わる者として5人の作業者(作業者A〜E)が居るものとして説明する。また、音声入力用のマイク(音声入力部108)として、1個の全指向性(無指向性)のマイクを使用するものとする。なお、音声入力部108としてのマイクは、単一指向性のマイクとすることも可能であり、この場合、作業者の人数分のマイクを用意したり、1個のマイクを作業者全員で使用したりする等の対応が可能である。また、音声入力部108としてのマイクは有線、無線を問わない。さらに、ノートPCに有線または無線で接続されたスピーカ(音出力部109)から各種音声が出力されるものとする。
【0044】
作業を開始するにあたっては、まず、本システム10を起動して、モニタ(表示部)に編集画面200を表示させる。そして、編集画面200上の動画像タイトル表示領域201にて編集対象の動画像データ(再生データ)を選択して、当該データに基づく動画像を再生表示領域202にて再生表示させる。この再生表示が進行して行く中、各作業者はその再生表示中の動画像を見ながら、効果音を付加したいと思うタイミングで、その効果音の擬声語(認識ワード)を発話する。この発話した音声(認識ワード)がマイク(音声入力部108)を介して情報処理装置30に入力され、音声認識部31により認識されると、その認識した音声に対応する効果音の音データが生成されて編集対象の動画像データ(再生データ、第1再生データ)に付加される。このとき、編集画面200の音編集表示領域204には、付加された効果音(音データ)に関する情報を示す音アイコンICが表示され、また、スピーカ(音出力部109)から当該効果音が出力される
【0045】
本システム10では、こうした発話による効果音(音データ)の付加を、5人の作業者A〜Eの各人が自由に行うことが可能であり、各人の音声認識による音データ(効果音)の付加が可能となっている。そして、効果音を付加した動画像の内容(編集後の再生データ)を確認したい場合には、再生表示領域202の「プレビュー」ボタン(
図3を参照)を押下(クリック)することで、効果音付きの動画像(音データと動画像データとを合成した再生データ、第2再生データ)が再生され、これをすぐに確認することができる。
【0046】
このように、音声認識による効果音(音データ)の付加を数名(ここでは5人)で行いながら作業を進めることで、編集作業を効率的に行うことが可能となる。具体的に、例えば、音声デザインの担当者が作成した効果音付きの動画像のサンプルデータを、別の作業担当者や作業リーダー、顧客等のもとへ持参し、そのサンプルデータに基づく効果音付きの動画像を確認する場合、本システム10の動作環境さえ整っていれば、その場で効果音の修正や調整、変更等に対応することが可能となる。しかも、音声認識による効果音の付加にあたっての認識ワードを擬声語とし、これに対応する効果音を生成して付加することが可能に構成されているので、その場に居る者の個々の持つイメージにできる限り近似した効果音を付加することが可能となる。したがって、サンプルデータに基づく効果音付きの動画像を確認した結果、効果音の修正等が必要になったとしても、その場で、別の作業担当者等の意向を踏まえた形のデータを直ちに作成することができるので、サウンド担当者がサンプルデータを持ち帰って修正等を行う必要がなくなる。これにより、編集作業の効率が格段に向上することとなる。
【0047】
以上に説明した本実施例の情報処理システム10では、動画像データを含む再生データ(第1再生データ)に対して効果音の音データを付加する(関連付ける)場合、その再生データの再生中(動画像の再生表示中)に作業者が発話した音声(認識ワード)を認識し、その認識した音声に対応する音データ(効果音)を付加する(関連付ける)ことが可能となっている。このように、動画像に対する効果音の付加(関連付け)を、動画像の再生表示中の音声認識により行えるように構成することで、再生表示される動画像を確認しながら発話するだけで効果音を任意のタイミングで付加することができるので、画像制作に係る作業の効率化を図ることが可能となる。
【0048】
特に、本実施例では、認識する音声(認識ワード)を擬声語とし、認識ワードに対応する効果音の音データを効果音データベースにより管理している。そして、作業者が発話した擬声語(認識ワード)に基づいて音データ(効果音)を動画像データ(再生データ、第1再生データ)に付加するように構成されているため、作業者の持つイメージにより感覚的に編集作業を進めることが可能となる。また、前述した編集作業の例のように、複数人が同じ編集対象の動画像データ(再生データ、第1再生データ)に対して音データ(効果音)を付加する作業に関与することが可能となる。これにより、画像制作に係る作業効率の向上を図ることが可能となる。
【0049】
なお、本発明は前述した実施例と異なる構成(以下「変形例」ともいう。)を採ることも可能である。以下、変形例について説明する。
【0050】
[変形例1]
前述した実施例の情報処理システム10では、音声入力部108を介して音声認識部31により認識可能な音声について特に制限を設けていなかったが、これについて制限を設けることも可能である。例えば、前述した実施例に対して音声認証機能を追加し、事前にシステム利用者として登録した者の音声だけを音声認識部31が認識するように構成してもよい。音声認証機能としては公知のものを利用することが可能である。本変形例1に係るシステム構成としては、例えば、本システム10により編集作業を行う者の音声に関する情報(音声情報)を登録しておく登録部と、音声入力部108を介して入力された音声が登録部に登録された者の音声であるか否かを識別する識別部を情報処理装置30に設け、登録部に登録された情報に対応する者の音声のみを音声認識部31が認識する構成を例示できる。このような構成では、まず、本システム10を利用する者が、事前に音声入力部108を介して自己の音声を登録しておく。この登録は、入力された音声を登録部が分析して当該音声の特徴データ(周波数等)を抽出し、これを特定の個人の音声モデル(音声情報)として記録することにより行われる。そして、本システム10を利用して実際に編集作業を行う場合には、作業者が、本システム10の利用開始に際して自己の所定の音声を音声入力部108により入力する。この入力した音声と、登録部に登録(記録)されている音声モデル(音声情報)との比較・照合が識別部により行われ、両者が一致すれば、その音声を入力した作業者は、以後、前述した音声認識による音データの付加を行うことが可能となる。このような変形例1によれば、事前に登録した者のみが、音声認識による音データの付加を行うことができるので、編集作業を行わない者の音声を認識して音データが付加されることがない。また、一度にシステムを利用する作業者の人数を制限することも可能となるので、音声認識(音声認識機能)が適切に機能する環境を維持しやすくなる。
【0051】
[変形例2]
前述した実施例の情報処理システム10では、音声入力部108を介して入力された音声を音声認識部が認識し、この認識した音声(認識ワード)に対応する音データを動画像データに付加するように構成していた。これに対し、音声入力以外の入力に基づいて音データを動画像データに付加するように構成してもよく、例えば、キーボードやマウス等のパーソナルコンピュータ(PC)が備える操作入力部107や、効果音データベースに登録された認識ワードを入力するための専用のコントローラ、入力画面等を用いた作業者による入力(操作入力)に基づいて、動画像データに付加する音データの選択(検索)や音データの付加を行うように構成してもよい。この場合、操作入力部107やコントローラ、入力画面等からの入力を認識可能な入力認識部を情報処理装置30に設け、入力認識部が認識した入力に対応する音データ(効果音)を取得して動画像データに付加するように構成することが可能である。また、操作入力部107やコントローラ等による入力に基づいて電子音等の音データを生成可能な音生成部を情報処理装置30に設け、音生成部が生成した音データを動画像データに付加するように構成してもよい。これらの構成においても、前述した実施例のように、編集画面200の再生表示領域202に再生表示される動画像やタイムライン表示領域203に表示されるタイムラインカーソルTC等を確認しながら、任意のタイミングで操作入力部107やコントローラ等を操作することで、任意の効果音(音データ)を付加することが可能である。このような変形例2によれば、編集作業を行わない者の音声やその他周囲の雑音等の認識による音データの付加がなされないので、音声認識の場合に懸念されるノイズを考慮する必要がなくなる。
【0052】
[変形例3]
前述した実施例の情報処理システム10では、
図5に示すようなテーブル構造を有する効果音データベースにより音データ(効果音)を管理しており、音声認識部により認識された音声(認識ワード)に対応する音データを取得して、動画像データに付加するように構成していた。そして、音声認識部により認識された音声が認識ワードとして効果音データベースに存在しない場合(認識ワード未対応の場合)には音データが生成されず、動画像データに音データが付加されないものとなっていた。これに対し、音声認識部により認識された音声に対応する認識ワードが存在しない場合、認識された音声に近似する一の音データを、補助記憶部105に記憶されている1又は2以上の音データを合成して生成し、これを動画像データに付加する(関連付ける)ように構成してもよい。例えば、
図5に示すように「かーん」の認識ワードに対応する効果音の音データC1は存在するものの、音声認識部により認識された音声が「かーんかーん」であり、これに対応する認識ワード及び音データが存在しない場合、「かーん」の音データC1を2つ合成して(組み合わせて)一の音データ(「かーんかーん」)を生成することが可能である。また、実施例のような効果音データベースに対応する効果音の音データ(効果音データ)に加え、直音、拗音、清音、濁音、半濁音、鼻濁音等の単音に該当する音データ(単音データ)を補助記憶部105に記憶しておき、この単音データと効果音データを合成して一の音データを生成したり(例えば「ぱ」+「かーん」=「ぱかーん」)、単音データ同士を合成して一の音データを生成したりすること(例えば「きゅ」+「い」+「ん」=「きゅいん」)も可能である。このような変形例3によれば、音声認識部により認識された音声によっては音データが生成されず動画像に効果音が付加されないといったことを極力排除することが可能となる。また、音声認識により付加することが可能な効果音の多様化を図ることが可能となる。
【0053】
[変形例4]
前述した実施例の情報処理システム10では、音声認識により音データを再生中の動画像データに対して付加する際、当該音データを再生中の動画像データの現在の再生位置情報(再生時間情報)と関連付けて、発話者の発話タイミング(音声認識タイミング)に合わせて(略同期させて)音データを付加するように構成していた。これに対し、動画像データに対する音データを付加する位置(音の再生タイミング)を、実際の発話タイミング(音声認識タイミング)よりも僅かに早くする(前倒しとする)ことができるように構成してもよい。例えば、再生表示領域202に再生表示される編集対象の動画像が作業者にとって初見である場合、作業者の発話タイミングが遅れることが想定される。これに鑑み、前述した実施例のジャンル指定画面210と同様にして音設定画面(図示せず)を設け、当該画面を通じて効果音を付加する位置(音の再生タイミング)を若干早めにする設定を事前に行えるように構成する(付加位置設定機能)。このような変形例4によれば、使い勝手の良いシステムとすることが可能となる。
【0054】
[変形例5]
前述した実施例の情報処理システム10では、検索処理(S108)により取得した音データを動画像データに付加する音データ付加処理(S109)において、音データと再生中の動画像データとを合成し(S303)、この合成した音データをすぐに再生部21が再生することで、当該音データに基づく効果音が動画像への付加とともに音出力部109により出力されるように構成していた。これに対し、音データ付加処理(S109)では、音データと動画像データとを合成せずに、再生中の動画像データに対して関連付ける音データの再生位置情報(再生時間情報)を記憶するに止めておき、音データの再生も行わないように構成してもよい。つまり、音データ付加処理(S109)では、音データそのものの付加を行わず、音データに関する情報(音データの種類、タイトル等)を、現在再生中の動画像データの現在の再生位置情報(再生時間情報)と関連付けて記憶するように構成する。この場合、検索処理(S108)による音データの検索(S203)は行うが、その検索結果に基づく音データの取得(S204)については音データに関する情報(音データの種類、タイトル等)を取得することとし、この情報を音データ付加処理(S109)の中で読み込んで、動画像データの現在の再生位置情報(再生時間情報)と関連付けて記憶するように構成する(S302)。そして、その後に、例えば再生表示領域202の「プレビュー」ボタンが押下される等、音データと編集対象の動画像データとを合成したものの再生を指示する旨の入力に基づいて、編集部22が、S302にて記憶した情報に対応する音データを補助記憶部105から読み込み、当該音データと編集対象の動画像データとを合成して、合成済の再生データを再生するように構成する。このような変形例5によれば、編集を施している動画像データの再生中におけるCPUの処理負担が軽減されるので、編集作業をより円滑にすることが可能となる。なお、このような変形例5においても、編集作業中の画面表示に関しては、前述した実施例と同様、
図3に示すような編集画面200を表示することが可能である。こうすれば、音データ付加処理(S109)において、内部的には、音データと動画像データとを合成せず、動画像データ(再生データ)に対して関連付ける音データの再生位置情報(再生時間情報)を記憶するに止めたとしても、作業者にとっては、見かけ上、動画像データ(再生データ)に対する音データの付加状況が分かりやすいものとなる。
【0055】
[変形例6]
前述した実施例の情報処理システム10では、音声認識部により認識する音声(認識ワード)を擬声語とし、その擬声語に基づいて音データ(効果音)を動画像データに付加するように構成しており、その音声認識の対象は日本語を前提としていた(
図5を参照)。これに対し、音声認識の対象とする言語に関し、日本語以外の言語も対象とすることができるように構成してよい。例えば「犬の鳴き声」を表す擬声語に関し、日本語では「わんわん」、英語では「Bowwow」といったように、同じ内容の擬声語であっても言語によって表現(認識ワード)が異なるものが多く存在する。このことに対応して、効果音データベースにおける認識ワードを、日本語だけでなく英語等の他の言語についても予め設定し、言語に応じた検索が可能となるように構成する。そして、前述した実施例のジャンル指定画面210と同様にして言語指定画面(図示せず)を設け、当該画面を通じて何れの言語で音声認識を行うのかを事前に指定できるように構成する(言語指定機能)。このような変形例6によれば、日本語だけでなく他国の言語にも対応し得るので、利便性の高いシステムとすることが可能となる。
【0056】
[変形例7]
前述した実施例の情報処理システム10では、当該システムを構成するパーソナルコンピュータ(PC)が備える補助記憶部105に効果音データベース及び音データを記憶し、この効果音データベースにアクセスして検索処理(S108)を行うように構成していた。これに対して、情報処理システム10を構成するPCがインターネット等のネットワークを介して接続可能なサーバーに、効果音データベース及び音データを記憶する記憶部を設け、サーバー側で検索処理を行うように構成してよい。この場合、サーバー側での検索処理により抽出された音データを、PC側がネットワークを介して取得し、この取得した音データと動画像データとを合成するように構成する。このような変形例7によれば、ネットワーク環境さえ整っていれば、様々な場所で本システムを利用した編集作業が可能となる。また、効果音データベースや音データの更新やメンテナンス等の作業を、システム利用者に委ねることなく、本システムの提供者(販売者、製造者、管理者等)が行えるようになる。したがって、より使い勝手の良いシステムとすることが可能となる。
【0057】
以上、本発明の実施形態として実施例および変形例を説明したが、本発明はこれらに限定されるものではなく、各請求項に記載した範囲を逸脱しない限り、各請求項の記載文言に限定されず、当業者がそれらから容易に置き換えられる範囲にも及び、かつ、当業者が通常有する知識に基づく改良を適宜付加することが可能である。
【0058】
例えば、前述した実施例等では、音声認識により音データ(効果音)を動画像データに関連付ける構成としていたが、例えば、各種エフェクト画像の画像データを動画像データに関連付けるようにしてもよい。こうすれば、効果音及びエフェクト画像の何れか一方または両方と動画像データ(再生データ)との関連付けに係る作業を、音声認識より行うことが可能となる。
【0059】
また、前述した実施例等では、再生処理装置20及び情報処理装置30により構成される情報処理システム10のソフトウェア(プログラム)をパーソナルコンピュータ(PC)することで、当該PCを情報処理システム10として機能させるものとしていたが、例えば、市販の再生処理装置のソフトウェア(プログラム)をインストール済のPCに対して、情報処理装置のソフトウェア(プログラム)をインストールした場合にも、前述した実施例等と同様の情報処理システムを構築することができるように構成してもよい。この場合、情報処理装置を、PCが既に備えている再生処理装置と接続可能かつ通信可能に構成し、再生処理装置と情報処理装置をそれぞれ起動することで、両装置が接続されるように構成する。また、両装置を起動することで、PCの表示部には、再生処理装置に対応する画面(以下「第1画面」ともいう。)と、情報処理装置に対応する画面(以下「第2画面」ともいう。)とが、それぞれ独立して(別々のウィンドウで)表示されるように構成する。ここで、第1画面は、例えば、前述した実施例等の編集画面200(
図3を参照)のうち音声認識表示領域205を除いた他の領域201〜204からなるものとすることができ、第2画面は、例えば、同編集画面200のうち音声認識表示領域205からなるものとすることができる。
【0060】
このように、再生処理装置のソフトウェアと情報処理装置のソフトウェアとを別々にインストールする構成においても、前述した実施例等と同様にして、再生処理装置により再生する動画像データ(再生データ)に対して、情報処理装置により生成した音データを付加する(関連付ける)ことが可能である。また、このような構成によれば、情報処理システム全体(再生処理装置+情報処理装置)のソフトウェアの他、情報処理装置用のソフトウェアだけを単独で提供することも可能なので、既に再生処理装置のソフトウェアをインストールしたPCを所有する利用者(ユーザー)にとっては、実施例等で説明したシステムによる画像制作に係る作業環境を手軽に導入することが可能となり、利用者(ユーザー)にとっての利便性が高まる。
【0061】
なお、前述の第2画面には、音声認識の開始(音声認識モードの設定)を指示する「開始」ボタン(図示せず)と、音声認識の終了(音声認識モードの設定解除)を指示する「終了」ボタン(図示せず)とを設けてもよい。これは、再生処理装置と情報処理装置は別々に起動するもの(別々のソフトウェア)であり、再生処理装置における動画像データ(再生データ)の再生開始・終了に係る指示と、情報処理装置における音声認識の開始・終了に係る指示とを別系統にすることも可能だからである。この場合、作業者は、例えば、第1画面にて「再生」のアイコン(
図3を参照)をクリックして動画像データの再生開始の指示入力を行った後、第2画面にて「開始」ボタンをクリックして音声認識開始の指示入力を行うことで、前述の実施例等と同様にして編集作業を行うことが可能である。
【0062】
また、本発明に係る情報処理システム及び情報処理装置は、パチンコ遊技機やスロットマシン等の遊技機で使用される各種遊技演出画像の制作、家庭用ゲームや携帯ゲーム、ネットゲーム、アーケードゲーム等のゲーム機で使用される各種ゲーム画像の制作、WEBサイト上の宣伝広告等で使用される各種WEBサイト画像の制作、テレビや映画等で使用される各種アニメーション画像の制作等、あらゆる分野の画像の制作において利用することが可能である。特に、製品アイテム数が多かったり製品のライフサイクルが短かったりする遊技機分野やゲーム分野等において本発明は有用である。
[その他]
以下、本明細書で開示した実施形態(実施例)に関連する発明を参考発明として開示しておく。
(1)参考発明1の情報処理システムは、
画像情報を含む第1再生データを再生する第1再生手段と、
前記第1再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記第1再生データとを関連付ける関連手段と、
を備えることを要旨とする。
これによれば、第1再生データの再生中における入力に基づいて音情報が生成され、当該生成された音情報と第1再生データとの関連付けが行われるので、画像制作に係る作業の効率化を図ることが可能となる。
(2)参考発明2の情報処理システムは、前述の参考発明1の情報処理システムにおいて、
前記音情報と前記第1再生データとを関連付けた第2再生データを再生する第2再生手段を備えることを要旨とする。
これによれば、第2再生データの再生により、音情報を含めた第1再生データ(つまり、生成した音情報と画像情報とを含む再生データ)の確認作業が容易となる。
(3)参考発明3の情報処理システムは、前述の参考発明1または参考発明2の情報処理システムにおいて、
前記関連手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記第1再生データとを関連付けることを要旨とする。
これによれば、第1再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング(再生位置)の設定(決定)が容易となる。
(4)参考発明4の情報処理システムは、前述の参考発明1から参考発明3の何れか一つの情報処理システムにおいて、
前記第1再生データと関連付けた前記音情報の再生タイミングを調整可能な調整手段を備えることを要旨とする。
これによれば、関連付けた音情報の再生タイミング(再生位置)を調整することが可能となるので、音情報の再生タイミングの最適化を図ることが可能となる。
(5)参考発明5の情報処理システムは、前述の参考発明1から参考発明4の何れか一つの情報処理システムにおいて、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記第1再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
(6)参考発明6の情報処理システムは、前述の参考発明5の情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が第1再生データと関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(7)参考発明7の情報処理システムは、前述の参考発明5または参考発明6の情報処理システムにおいて、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、第1再生データの再生中における入力に基づいて生成されて該第1再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(8)参考発明8の情報処理システムは、前述の参考発明5から参考発明7の何れか一つの情報処理システムにおいて、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、第1再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて第1再生データと関連付けられるので、入力の内容によっては音情報が生成されずに第1再生データとの関連付けが行われないといったことを極力排除することが可能となる。
(9)参考発明9の情報処理システムは、前述の参考発明1から参考発明8の何れか一つの情報処理システムにおいて、
前記認識手段は、前記第1再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、第1再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報と第1再生データとの関連付けが行われるので、音情報と第1再生データとの関連付けを音声入力(音声認識)によって簡便に行うことが可能となる。
(10)参考発明10の情報処理装置は、
画像情報を含む再生データを再生可能な再生処理装置に接続可能な情報処理装置であって、
前記再生処理装置による再生データの再生中における入力を認識する認識手段と、
前記認識手段により認識された入力に基づいて音情報を生成する生成手段と、
前記生成手段により生成された音情報と前記再生データとの関連付けを前記再生処理装置に対して指示する関連指示手段と、
を備えることを要旨とする。
これによれば、再生処理装置での再生データの再生中における入力に基づいて、音情報が生成されて再生データに関連付けられるので、画像制作に係る作業の効率化を図ることが可能となる。
(11)参考発明11の情報処理装置は、前述の参考発明10の情報処理装置において、
前記音情報を関連付けた再生データの再生を前記再生処理装置に対して指示する再生指示手段を備えることを要旨とする。
これによれば、音情報を含めた再生データ(つまり、生成した音情報と画像情報とを含む再生データ)を再生処理装置にて再生させることが可能となるので、音情報と画像情報とを含む再生データの確認作業が容易となる。
(12)参考発明12の情報処理装置は、前述の参考発明10または参考発明11の情報処理装置において、
前記関連指示手段は、前記生成手段による音情報の生成の契機となった入力のタイミングに合わせて、該入力に基づいて生成された音情報と前記再生データとの関連付けを指示することを要旨とする。
これによれば、再生データの再生中における入力タイミングと、音情報の再生タイミングとを同期させることが可能となり、音情報の再生タイミング(再生位置)の設定(決定)が容易となる。
(13)参考発明13の情報処理装置は、前述の参考発明10から参考発明12の何れか一つの情報処理装置において、
複数の音情報を記憶する記憶手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報の中から、前記認識手段により認識された入力に対応する音情報を取得して、前記再生データと関連付ける音情報を生成することを要旨とする。
これによれば、予め記憶された複数の音情報の中から、入力に応じた音情報が取得されて生成されるので、関連付ける音情報の多様化を図ることが可能となる。
(14)参考発明14の情報処理装置は、前述の参考発明13の情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報の中に、前記認識手段により認識された入力に対応する音情報が複数存在する場合、該複数の音情報のうち何れかを所定条件に基づいて特定して取得することを要旨とする。
これによれば、入力に対応する音情報が複数存在する場合であっても、何れかの音情報が再生データに関連付けられることとなるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(15)参考発明15の情報処理装置は、前述の参考発明13または参考発明14の情報処理装置において、
前記記憶手段に記憶されている音情報は分類別に管理されており、
前記分類のうち前記生成手段による生成の対象とする音情報の分類を指定可能な指定手段を備え、
前記生成手段は、前記記憶手段に記憶されている音情報のうち、前記指定手段により指定された分類の音情報の中から、前記認識手段により認識された入力に対応する音情報を取得することを要旨とする。
これによれば、関連付ける音情報の分類(種類)を予め指定しておくことで、その指定された分類に即した音情報が、再生データの再生中における入力に基づいて生成されて該再生データと関連付けられるので、関連付ける音情報の選択の効率化を図ることが可能となる。
(16)参考発明16の情報処理装置は、前述の参考発明13から参考発明15の何れか一つの情報処理装置において、
前記生成手段は、前記記憶手段に記憶されている音情報を合成して、前記認識手段により認識された入力に対応する一の音情報を生成することが可能であることを要旨とする。
これによれば、再生データの再生中における入力が行われた際、当該入力に合致する音情報が記憶手段に記憶されていないとしても、記憶手段に記憶されている音情報の合成により、その入力に対応する一の音情報が生成されて再生データに関連付けられるので、入力の内容によっては音情報が生成されずに再生データとの関連付けが行われないといったことを極力排除することが可能となる。
(17)参考発明17の情報処理装置は、前述の参考発明10から参考発明16の何れか一つの情報処理装置において、
前記認識手段は、前記再生処理装置による再生データの再生中に発話された音声を認識する音声認識手段であることを要旨とする。
これによれば、再生データの再生中に発話された音声に基づいて音情報が生成され、当該生成された音情報が再生データに関連付けられるので、音情報と再生データとの関連付けを音声入力(音声認識)によって簡便に行うことが可能となる。