IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社AIROBOの特許一覧

特許7048141プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
<>
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図1
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図2
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図3
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図4
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図5
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図6
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図7
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図8
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図9
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図10
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図11
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図12
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図13
  • 特許-プログラム、ファイル生成方法、情報処理装置、及び情報処理システム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-03-28
(45)【発行日】2022-04-05
(54)【発明の名称】プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
(51)【国際特許分類】
   G10L 13/00 20060101AFI20220329BHJP
   G10L 13/10 20130101ALI20220329BHJP
【FI】
G10L13/00 100S
G10L13/00 100G
G10L13/10 112B
【請求項の数】 13
(21)【出願番号】P 2022000623
(22)【出願日】2022-01-05
【審査請求日】2022-01-05
【早期審査対象出願】
(73)【特許権者】
【識別番号】519000353
【氏名又は名称】株式会社AIROBO
(74)【代理人】
【識別番号】110000752
【氏名又は名称】特許業務法人朝日特許事務所
(72)【発明者】
【氏名】山村 将一
【審査官】大野 弘
(56)【参考文献】
【文献】韓国公開特許第10-2011-0055957(KR,A)
【文献】特開2013-174958(JP,A)
【文献】特開2015-045873(JP,A)
【文献】特開2008-083855(JP,A)
【文献】特開2020-046842(JP,A)
【文献】特開2020-027132(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00
G10L 13/10
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、
前記複数のスライドのうち1つのスライドのノートの文字列を抽出するステップと、
前記ノートの音声合成により得られる音声データを取得するステップと、
前記音声データを再生するステップと、
前記ノートの文字列の編集指示を受け付けるステップと、
前記編集されたノートの文字列をスライドに書き込むステップと、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換するステップと
を実行させるためのプログラム。
【請求項2】
前記コンピュータに、前記音声データを再生する際の音声の指定を受け付けるステップ
を実行させるための請求項1に記載のプログラム。
【請求項3】
前記コンピュータに、前記ノートを音声合成する音声合成エンジンの指定を受け付けるステップを実行させ、
前記音声データを取得するステップにおいて、前記指定された音声合成エンジンから前記音声データが取得される
請求項1又は2に記載のプログラム。
【請求項4】
前記コンピュータに、前記ノートを編集するためのUIオブジェクトを表示手段に表示させるステップ
を実行させるための請求項1乃至3のいずれか一項に記載のプログラム。
【請求項5】
前記UIオブジェクトが、SSML(Speech Synthesis Markup Language)のタグを挿入するためのボタンを含む
請求項4に記載のプログラム。
【請求項6】
前記UIオブジェクトが、前記音声データをテスト再生するためのボタンを含む
請求項4又は5に記載のプログラム。
【請求項7】
前記UIオブジェクトが、前記音声付きファイルをテスト再生するためのボタンを含む
請求項4乃至6のいずれか一項に記載のプログラム。
【請求項8】
前記コンピュータに、前記ノートの他言語への翻訳を取得するステップ
を実行させるための請求項1乃至7のいずれか一項に記載のプログラム。
【請求項9】
前記コンピュータに、前記翻訳における翻訳先の言語の指定を受け付けるステップを実行させ、
前記翻訳を取得するステップにおいて、前記ノートの前記指定された言語への翻訳が取得される
請求項8に記載のプログラム。
【請求項10】
前記音声付きファイルに変換するステップにおいて、前のスライドから次のスライドに切り替えるタイミングが、当該前のスライドのノートの音声データの時間長に応じて決められる
請求項1乃至9のいずれか一項に記載のプログラム。
【請求項11】
コンピュータが、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、
前記コンピュータが、前記複数のスライドのうち1つのスライドのノートの文字列を抽出するステップと、
前記コンピュータが、前記ノートの音声合成により得られる音声データを取得するステップと、
前記コンピュータが、前記音声データを再生するステップと、
前記コンピュータが、前記ノートの文字列の編集指示を受け付けるステップと、
前記コンピュータが、前記編集されたノートの文字列をスライドに書き込むステップと、
前記コンピュータが、前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換するステップと
を有するファイル生成方法。
【請求項12】
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるファイル受け付け手段と、
前記複数のスライドのうち1つのスライドのノートの文字列を抽出する抽出手段と、
前記ノートの音声合成により得られる音声データを取得する取得手段と、
前記音声データを再生する再生手段と、
前記ノートの文字列の編集指示を受け付ける指示受け付け手段と、
前記編集されたノートの文字列をスライドに書き込む書き込み手段と、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換する変換手段と
を有する情報処理装置。
【請求項13】
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるファイル受け付け手段と、
前記複数のスライドのうち1つのスライドのノートの文字列を抽出する抽出手段と、
前記ノートの音声合成により得られる音声データを取得する取得手段と、
前記音声データを再生する再生手段と、
前記ノートの文字列の編集指示を受け付ける指示受け付け手段と、
前記編集されたノートの文字列をスライドに書き込む書き込み手段と、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換する変換手段と
を有する情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プレゼンテーションファイルから音声付きファイルを生成する技術に関する。
【背景技術】
【0002】
静止画とテキストから動画を生成する技術が知られている。例えば特許文献1は、インターネット動画配信のため、静止画とテキストから自動的に音声付き動画を生成するシステムを開示している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2011-82789号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1において生成される動画における音声はテキストから自動的に合成されるものであるが、決められた音声合成しかできず例えば音声の抑揚が無く単調であったり、改善の余地があった。
【0005】
これに対し本発明は、より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成する技術を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様は、コンピュータに、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち1つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを実行させるためのプログラムを提供する。
【0007】
このプログラムは、前記コンピュータに、前記音声データを再生する際の音声の指定を受け付けるステップを実行させてもよい。
【0008】
このプログラムは、前記コンピュータに、前記ノートを音声合成する音声合成エンジンの指定を受け付けるステップを実行させ、前記音声データを取得するステップにおいて、前記指定された音声合成エンジンから前記音声データが取得されてもよい。
【0009】
このプログラムは、前記コンピュータに、前記ノートを編集するためのUIオブジェクトを表示手段に表示させるステップを実行させてもよい。
【0010】
前記UIオブジェクトが、SSMLのタグを挿入するためのボタンを含んでもよい。
【0011】
前記UIオブジェクトが、前記音声データをテスト再生するためのボタンを含んでもよい。
【0012】
前記UIオブジェクトが、前記音声付きファイルをテスト再生するためのボタンを含んでもよい。
【0013】
このプログラムは、前記コンピュータに、前記ノートの他言語への翻訳を取得するステップを実行させてもよい。
【0014】
このプログラムは、前記コンピュータに、前記翻訳における翻訳先の言語の指定を受け付けるステップを実行させ、前記翻訳を取得するステップにおいて、前記ノートの前記指定された言語への翻訳が取得されてもよい。
【0015】
本開示の別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち1つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを有する音声付きファイル生成方法を提供する。
【0016】
本開示のさらに別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける受け付け手段と、前記複数のスライドのうち1つのスライドのノートを抽出する抽出手段と、前記ノートの音声合成により得られる音声データを取得する取得手段と、前記音声データを再生する再生手段と、前記ノートの編集指示を受け付ける受け付け手段と、前記編集されたノートをスライドに書き込む書き込み手段と、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換する変換手段とを有する情報処理装置を提供する。
【0017】
本開示のさらに別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける受け付け手段と、前記複数のスライドのうち1つのスライドのノートを抽出する抽出手段と、前記ノートの音声合成により得られる音声データを取得する取得手段と、前記音声データを再生する再生手段と、前記ノートの編集指示を受け付ける受け付け手段と、前記編集されたノートをスライドに書き込む書き込み手段と、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換する変換手段とを有する情報処理システムを提供する。
【発明の効果】
【0018】
本発明によれば、より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成することができる。
【図面の簡単な説明】
【0019】
図1】一実施形態に係るファイル生成システム1の概要を示す図。
図2】ファイル生成システム1の機能構成を例示する図。
図3】ユーザ端末20のハードウェア構成を例示する図。
図4】ファイル生成システム1の動作を例示するフローチャート。
図5】設定画面を例示する図。
図6】設定処理を例示するフローチャート。
図7】発音辞書を例示する図。
図8】データベース113の構成を例示する図。
図9】テストの設定を行うUIオブジェクトを例示する図。
図10】休止時間を指定するためのダイアログボックスを例示する図。
図11】強調の度合いを指定するためのダイアログボックスを例示する図。
図12】スピードを指定するためのダイアログボックスを例示する図。
図13】声の高さを指定するためのダイアログボックスを例示する図。
図14】ボリュームを指定するためのダイアログボックスを例示する図。
【発明を実施するための形態】
【0020】
1.構成
図1は、一実施形態に係るファイル生成システム1の概要を示す図である。ファイル生成システム1は、プレゼンテーションファイルから音声付きファイルを生成するサービス(以下「音声付きファイル生成サービス」という)を提供する。音声付きファイルとは、ユーザ端末20において音声を出力させるためのデータと、ユーザ端末20において映像を表示させるためのデータとが一体となったファイルをいう。音声付きファイルは、例えば、MPEG4など所定の形式で記述された動画ファイルである。ファイル生成システム1は、例えば、企業における社員教育又は教育機関における教育などの教育分野において用いられる。ファイル生成システム1は、サーバ10、ユーザ端末20、サーバ30、及びサーバ40を有する。サーバ10は、音声付きファイル生成サービスにおけるサーバとして機能するコンピュータ装置である。ユーザ端末20は、ファイル生成サービスにおけるクライアントとして機能するコンピュータ装置である。サーバ30は、テキスト(又は文字列)から音声を合成する(すなわちテキストを音声に変換する)音声合成サービスを提供するサーバである。サーバ40は、テキストを第1言語から第2言語に翻訳する翻訳サービスを提供するサーバである。
【0021】
プレゼンテーションファイルは、プレゼンテーションアプリケーション(一例としてはMicrosoft社のPowerPoint(登録商標))においてプレゼンテーションを行うためのファイルであり、複数のスライドを含む。複数のスライドは、各々がスライド本体及びノートを含む。スライド本体は、プレゼンテーションを実行する際に聴衆向けに表示されるコンテンツであり、画像及び文字の少なくとも一方を含む。ノートは、プレゼンテーションを実行する際に聴衆向けには表示されない(話者向けには表示可能)コンテンツであり、文字列を含む。ファイル生成システム1は、プレゼンテーションファイルに含まれるスライドのうち、スライド本体を映像に、ノートを音声に、それぞれ変換した後に合成し、音声付きファイル(例えば動画ファイル)を生成する。
【0022】
図2は、ファイル生成システム1の機能構成を例示する図である。ファイル生成システム1は、記憶手段11、制御手段19、記憶手段21、受け付け手段22、抽出手段23、取得手段24、再生手段25、受け付け手段26、書き込み手段27、変換手段28、制御手段29、音声合成手段31、及び翻訳手段41を有する。このうち、記憶手段11及び制御手段19はサーバ10に実装される。記憶手段21、受け付け手段22、抽出手段23、取得手段24、再生手段25、受け付け手段26、書き込み手段27、変換手段28、及び制御手段29はユーザ端末20に実装される。音声合成手段31はサーバ30に実装される。翻訳手段41はサーバ40に実装される。
【0023】
サーバ10において、記憶手段11は、各種のデータ及びプログラムを記憶する。制御手段19は、各種の制御を行う。
【0024】
ユーザ端末20において、記憶手段21は、各種のデータ及びプログラムを記憶する。受け付け手段22は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける(ファイル受け付け手段の一例)。抽出手段23は、複数のスライドのうち1つのスライドのノートを抽出する。取得手段24は、抽出されたノートの音声合成により得られる音声データを取得する。再生手段25は、音声データを再生する。受け付け手段26は、ノートの編集指示を受け付ける(指示受け付け手段の一例)。書き込み手段27は、編集されたノートをスライドに書き込む。変換手段28は、編集されたスライドを含むプレゼンテーションファイルを動画に変換する。制御手段29は、各種の制御を行う。
【0025】
サーバ30において、音声合成手段31は、ユーザ端末20からの要求に従って、テキストデータを音声データに変換する。サーバ40において、翻訳手段41は、ユーザ端末20からの要求に従って、原文を指定された言語の翻訳文に翻訳する。
【0026】
図3は、ユーザ端末20のハードウェア構成を例示する図である。ユーザ端末20は、CPU(Central Processing Unit)210、メモリ220、ストレージ230、通信IF(Interface)240、入力装置250、及び出力装置260を有するコンピュータ装置又は情報処理装置である。CPU210は、プログラムに従って処理を実行する装置である。メモリ220は、CPU110が処理を実行する際にワークスペースとして機能する記憶装置であり、例えばRAM(Random Access Memory)及びROM(Read Only Memory)を含む。ストレージ230はデータ及びプログラムを記憶する記憶装置であり、例えばSSD(Solid State Drive)又はHDD(Hard Disk Drive)を含む。通信IF240は所定の通信規格(例えばLTE(登録商標)、WiFi(登録商標)、又はイーサネット(登録商標))に従って他のコンピュータ装置と通信を行う。入力装置250は、ユーザ端末20に指示又は情報を入力する装置であり、例えば、タッチスクリーン、キーパッド、キーボード、ポインティングデバイス、及びマイクロフォンのうち少なくとも一種を含む。出力装置260は、情報を出力する装置であり、例えば、ディスプレイ及びスピーカを含む。
【0027】
この例において、ストレージ230に記憶されるプログラムには、コンピュータ装置をファイル生成システム1のクライアントとして機能させるためのプログラム(以下「ファイル生成プログラム」という)が含まれる。CPU210がクライアントプログラムを実行することにより、図2に示す機能がコンピュータ装置に実装される。
【0028】
CPU210がサーバプログラムを実行している状態において、メモリ220及びストレージ230の少なくとも一方が記憶手段21の一例であり、CPU210が受け付け手段22、抽出手段23、取得手段24、受け付け手段26、書き込み手段27、変換手段28、制御手段29の一例であり、出力装置260が再生手段25の一例である。
【0029】
詳細な説明は省略するが、サーバ10、サーバ30、及びサーバ40は、CPU、メモリ、ストレージ、及び通信IFを有するコンピュータ装置である。このストレージには、コンピュータ装置をファイル生成システム1のサーバ10、サーバ30、又はサーバ40として機能させるためのプログラムが記憶される。CPUがこのプログラムを実行することにより、図2に示す機能がコンピュータ装置に実装される。
【0030】
2.動作
図4は、ファイル生成システム1の動作を例示するシーケンスチャートである。以下において、ファイル生成プログラム等のソフトウェアを処理の主体として記載することがあるが、これは、ファイル生成プログラムを実行しているCPU210等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。
【0031】
ユーザは、ユーザ端末20において、ファイル生成プログラムを起動する(ステップS10)。起動されると、ファイル生成プログラムは、プレゼンテーションファイルから音声付きファイル(この例では動画ファイル)を生成するための設定を行う画面(以下「設定画面」という)を表示する(図4:ステップS11)。ファイル生成プログラムは、設定画面を表示する前にID及びパスワードの入力など、周知のログイン処理を行ってもよい。
【0032】
図5は、設定画面を例示する図である。設定画面は、オブジェクト951~960を含む。ファイル生成プログラムは、この設定画面を介して、プレゼンテーションファイルから音声付きファイル(この例では動画ファイル)を生成するための設定処理を、ユーザの指示入力に応じて行う(ステップS12)。
【0033】
図6は、ステップS12における設定処理を例示するフローチャートである。以下、図5及び図6並びにファイル生成プログラムの画面例を参照しつつ、設定処理を説明する。なお、図6においては設定処理を便宜上フローチャートで記載しているが、各ステップの処理はフローチャートに記載した順序で行われる必要はなく、あるステップの順序が他のステップの順序と入れ替えられてもよいし、一部のステップが省略されてもよい。
【0034】
図5を参照する。オブジェクト951は、音声付きファイルに変換するプレゼンテーションファイルを指定するためのUIオブジェクトである。ユーザがオブジェクト951右側のボタンを押すと、ファイル生成プログラムは、ファイルを選択するためのダイアログを表示する。このダイアログでファイルを選択すると、オブジェクト951左側のテキストボックスにそのファイル名が表示される。ファイル生成プログラムは、オブジェクト951において、処理の対象となるプレゼンテーションファイルの指定を受け付ける(図6:ステップS120)。
【0035】
オブジェクト952は、出力ファイルすなわち変換後の音声付きファイルを指定するためのUIオブジェクトである。ユーザがオブジェクト952右側のボタンを押すと、ファイル生成プログラムは、フォルダを選択するためのダイアログを表示する。ユーザはこのダイアログでフォルダを選択する。ユーザはさらに、オブジェクト952左側のテキストボックスにおいてその音声付きファイルを保存するためのファイル名を入力する。既に保存済のファイルを上書き保存する場合は、既存のファイルが上書きされる。ユーザはテキストボックスにおいてファイル名を編集することができる。生成された動画はこのファイル名で保存される。ファイル生成プログラムは、オブジェクト952において、変換後の音声付きファイルの指定を受け付ける。
【0036】
オブジェクト953は、発音辞書の使用の有無を指定するUIオブジェクトである。オブジェクト953左のチェックボックスにチェックが入れられると、ファイル生成プログラムは、発音辞書を使用するよう設定する。チェックが外されると、ファイル生成プログラムは、発音辞書を使用しないよう設定する。オブジェクト953右のボタンが押されると、ファイル生成プログラムは発音辞書を表示する。この例において、発音辞書はサーバ10においてデータベース112に記憶されている。ファイル生成プログラムは、サーバ10にアクセスして発音辞書を読み出す。
【0037】
図7は、発音辞書を例示する図である。発音辞書は複数のレコードを含む。各レコードは、項目「語句・単語」及び「発音指定」を含む。項目「語句・単語」には、発音を指定したい語句又は単語が登録される。図の例では「ABC」という語句が登録されている。項目「発音指定」には、その語句又は単語の発音が登録されている。図は日本語における発音を指定する例を示しており、「アーベーツェー」という発音が指定されている。詳細な図示は省略したが、各レコードは言語を指定する項目を有し、言語毎に発音が指定されてもよい。
【0038】
再び図5を参照する。オブジェクト954は、音声合成する際の言語及び音声タイプを指定するためのUIオブジェクトである。この例において、ファイル生成プログラムは、複数の音声合成エンジンにアクセスすることができる。これら複数の音声合成エンジンはそれぞれ異なる事業者により提供され、それぞれ異なる特徴を有している。例えばある音声合成エンジンは対応する言語が多く、別の音声合成エンジンは多数の音声タイプが用意される。サーバ10の記憶手段11は、データベース113を記憶している。データベース113は、音声合成エンジンの属性を記録したデータベースである。ファイル生成プログラムは、データベース113を参照して、オブジェクト954のプルダウンメニューを表示する。
【0039】
図8は、データベース113の構成を例示する図である。データベース113は複数のレコードを含む。各レコードは、1つのエンジンID、1つの言語ID、及び少なくとも1つの音声タイプIDを含む。エンジンIDは、音声合成エンジンの識別情報である。言語IDは音声合成する言語を示す識別情報である。音声タイプIDは、音声合成に用いられる音声のタイプ(例えば、少女、少年、若い女性、若い男性、中年女性、又は中年男性など)を示す識別情報である。図8の例では、エンジンID「GGL」を有する音声合成エンジンが、言語ID「英語(イギリス)」に対応しており、音声タイプ「少女」、「少年」、「若い女性」、「若い男性」、「中年女性」、及び「中年男性」という6タイプの音声で音声合成が可能であることを示している。
【0040】
この例では、単一の音声付きファイルにおいて複数の音声タイプを併用することができる。オブジェクト954は、「複数音声の設定」というボタンを有する。ユーザがこのボタンを押すと、第2、第3の音声タイプを設定することができる。
【0041】
再び図5を参照する。オブジェクト955は、音声合成の際の読み上げ速度及びピッチを指定するためのUIオブジェクトであり、この例ではスライドバーを含む。ファイル生成プログラムは、このスライドバーの位置に応じて読み上げ速度及びピッチを設定する。
【0042】
オブジェクト956は、字幕の有無を指定するためのUIオブジェクトであり、この例ではラジオボタンを含む。この例において、字幕に関する設定は、「YES」、「NO」、「タグを指定して付ける」の3択である。「YES」が選択されると、ファイル生成プログラムは、動画において字幕を表示するように設定する。「NO」が選択されると、ファイル生成プログラムは、動画において字幕を表示しないように設定する。「タグを指定して付ける」が選択されると、ファイル生成プログラムは、ノートにおいて特定のタグが付与された文字列(この例では<subtitle>及び</subtitle>というタグで囲まれた文字列)のみ字幕として表示されるよう設定する。
【0043】
オブジェクト957は、スライドの間隔を指定するためのUIオブジェクトであり、この例では数値ボックスを含む。ファイル生成プログラムは、スライドとスライドとの間に、オブジェクト957において指定された時間のブランクを挿入するよう設定する。具体的には、前スライドの画像が表示され続けた状態で音声が一旦止まり、音のない時間が続き(ブランクの時間)、その後、次のスライドの画面と音声再生が始まる。
【0044】
オブジェクト958は、翻訳の有無を指定するためのUIオブジェクトである。この例において、オブジェクト958は、ラジオボタン9581、チェックボックス9582、プルダウンメニュー9583、チェックボックス9584、ボタン9585、テキストボックス9586、及びボタン9587を含む。
【0045】
ラジオボタン9581は、翻訳の有無を指定するためのUIオブジェクトである。「YES」が選択されると、ファイル生成プログラムは、ノートを翻訳するよう設定する。「NO」が選択されると、ファイル生成プログラムは、ノートを翻訳しないように設定し、オブジェクト958に含まれる他のUIオブジェクトをグレーアウトする。チェックボックス9582は、音声付きファイル生成の有無を指定するUIオブジェクトである。チェックボックス9582にチェックが入れられると、ファイル生成プログラムは、プレゼンテーションファイルを翻訳するだけで音声付きファイルの生成は行わない。チェックボックス9582のチェックが外されると、ファイル生成プログラムは、プレゼンテーションファイルに含まれるノートの翻訳に加え、翻訳されたプレゼンテーションファイルを音声付きファイルに変換する。プルダウンメニュー9583は、翻訳エンジンを選択するためのUIオブジェクトである。サーバ10の記憶手段11は、データベース114を記憶している。データベース114は、翻訳エンジンの属性を記録したデータベースである。ファイル生成プログラムは、データベース114を参照してプルダウンメニュー9583を表示する。
【0046】
チェックボックス9584は、用語集の使用の有無を指定するUIオブジェクトである。「YES」が選択されると、ファイル生成プログラムは、翻訳の際に用語集を使用するように設定する。「NO」が選択されると、ファイル生成プログラムは、翻訳の際に用語集を使用しないように設定する。ボタン9585が押されると、ファイル生成プログラムは用語集を表示する。この例において、用語集はサーバ10においてデータベース112に記憶されている。ファイル生成プログラムは、サーバ10にアクセスして用語集を読み出す。
【0047】
テキストボックス9586は、ノートの翻訳をしたプレゼンテーションファイルの出力ファイル名を入力又は編集するためのUIオブジェクトである。ボタン9587は、ノートの翻訳をしたプレゼンテーションファイルの出力ファイルを指定するUIオブジェクト(例えばダイアログボックス)を呼び出すためのUIオブジェクトである。ファイル生成プログラムは、テキストボックス9586において指定されたファイル名を与えて、ノートの翻訳をしたプレゼンテーションファイルを保存する。
【0048】
オブジェクト959は、音声合成のテストの設定を行うUIオブジェクト(例えばダイアログボックス)を呼び出すためのUIオブジェクトである。オブジェクト959を介して音声合成のテストの設定が指示されると、ファイル生成プログラムは、テストの設定を行うUIオブジェクトを呼び出す。
【0049】
図9は、テストの設定を行うUIオブジェクトを例示する図である。このUIオブジェクトは、オブジェクト801~810を含む。オブジェクト801は、読み上げタイプを指定するためのUIオブジェクトである。読み上げタイプとは、言語と音声タイプとの組み合わせをいう。この例において、ノートの合成音声は、所定のマークアップ言語、例えばSSML(Speech Synthesis Markup Language)又はSSMLに準拠若しくは類似した言語により指定される属性又はパラメータを用いて行われる。この例においては、所定のタグ(<vn>)により読み上げタイプの切り替えを指定することができる。具体的には、3つの読み上げタイプを指定することができる(n=1~3の整数)。読み上げタイプ1、2、及び3については、オブジェクト954において指定された言語及び音声タイプの組み合わせが初期値としてファイル生成プログラムにより自動的に設定される。読み上げタイプ1についても、ユーザは初期値から変更することができる。すなわちファイル生成プログラムはオブジェクト801において、音声の指定を受け付ける(図6:ステップS122)。この例において、音声の指定を受け付けるということは、音声合成エンジン及び言語の指定を受け付ける(図6:ステップS123及びステップS124)ことに相当する。
【0050】
オブジェクト802は、読み上げ速度及びピッチを指定するためのUIオブジェクトである。この例において、オブジェクト802はスライドバーを含む。読み上げ速度及びピッチの初期値としては、オブジェクト955において指定された読み上げ速度及び音声タイプがファイル生成プログラムにより自動的に設定される。ユーザは、オブジェクト802を操作することにより、読み上げ速度及びピッチを初期値から変更することができる。
【0051】
オブジェクト803は、翻訳エンジン、用語集の利用の有無、発音辞書の反映の有無を指定するためのUIオブジェクトである。プルダウンメニュー9583において指定された翻訳エンジンが、翻訳エンジンの初期値としてファイル生成プログラムにより自動的に設定される。チェックボックス9584において指定された用語集の利用の有無が、用語集の利用の有無の初期値としてファイル生成プログラムにより自動的に設定される。オブジェクト953において指定された発音辞書の利用の有無が、発音辞書の利用の有無の初期値としてファイル生成プログラムにより自動的に設定される。ユーザは、オブジェクト803を操作することにより、翻訳エンジン、用語集の利用の有無、発音辞書の反映の有無を初期値から変更することができる。すなわちファイル生成プログラムはオブジェクト803において、翻訳エンジンの指定を受け付ける(図6:ステップS125)。
【0052】
オブジェクト804は、編集対象となるノートを含むスライドを指定するためのUIオブジェクトである。オブジェクト804は、スピンボックスを含む。ファイル生成プログラムは、このスピンボックス内に表示されている番号のスライドのノートを編集対象として特定する。この例においてオブジェクト804はさらに、プレゼンテーションファイルを指定するダイアログボックスを呼び出すためのボタンを含む。このダイアログボックスを介して、ファイル生成プログラムは、プレゼンテーションファイルの指定を受け付ける。
【0053】
オブジェクト805は、ノートの編集を行うためのUIオブジェクトである。オブジェクト805は、テキストボックス8051及びボタン群8052を含む。オブジェクト804において指定されるスライドが変更されると、ファイル生成プログラムは、プレゼンテーションファイルから、指定されたスライドのノートを抽出する(すなわち読み出す)(図6:ステップS121)。ファイル生成プログラムは、読み出したノートのテキストをテキストボックス8051に表示する。ユーザはテキストボックス8051において、ノートに文字列の追加、置き換え、及び削除をすることができる。すなわち、ファイル生成プログラムは、ノートの編集指示を受け付ける(図6:ステップS126)。
【0054】
ボタン群8052は、編集対象のノートに所定のマークアップ言語により記述された、音声合成の属性を指定するタグを挿入するためのボタン群である。この例において、ボタン群8052は、「休止を入れる」、「段落を指定する」、「文を指定する」、「強調する」、「スピードを指定する」、「声を高くする」、「声を低くする」、「ボリュームを指定する」、「読み上げタイプ2」、及び「読み上げタイプ3」という10個のボタンを含む。これらのボタンを押すことにより、ファイル生成プログラムは、ノートの編集指示を受け付ける(図6:ステップS126)と言える。
【0055】
ボタン「休止を入れる」は、休止を指定するタグ(この例では<break time></break>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、休止時間を指定するためのダイアログボックスを表示する。
【0056】
図10は、休止時間を指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいて休止時間を指定することができる。OKボタンが押されると、ファイル生成プログラムは、テキストボックス8051(図9)においてカーソルが存在する位置に、指定された休止時間を示すタグを挿入する。この例では、タグ<break time="500ms"></break>が挿入される。
【0057】
再び図9を参照する。ボタン「段落を指定する」は、段落を指定するタグ(この例では<p></p>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス8051においてカーソルが存在する位置に、段落を指定するタグを挿入する。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<p>を、末尾にタグ</p>を、それぞれ挿入する。
【0058】
ボタン「文を指定する」は、文を指定するタグ(この例では<s></s>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス8051においてカーソルが存在する位置に、文を指定するタグを挿入する。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<s>を、末尾にタグ</s>を、それぞれ挿入する。
【0059】
ボタン「強調する」は、強調を指定するタグ(この例では<emphasis></emphasis>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、強調の度合いを指定するためのダイアログボックスを表示する。
【0060】
図11は、強調の度合いを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいて強調の度合いを指定することができる。OKボタンが押されると、ファイル生成プログラムは、テキストボックス8051(図9)においてカーソルが存在する位置に、指定された強調度合いを示すタグを挿入する。この例では、タグ<emphasis level="moderate"></emphasis>が挿入される。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<emphasis level="moderate">を、末尾にタグ</emphasis>を、それぞれ挿入する。
【0061】
再び図9を参照する。ボタン「スピードを指定する」は、強調を指定するタグ(この例では<prosody rate ></prosody>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、スピードを指定するためのダイアログボックスを表示する。
【0062】
図12は、スピードを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいてスピードを指定することができる。OKボタンが押されると、ファイル生成プログラムは、テキストボックス8051(図9)においてカーソルが存在する位置に、指定されたスピードを示すタグを挿入する。この例では、タグ<prosody rate="fast"></prosody>が挿入される。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody rate="fast">を、末尾にタグ</prosody>を、それぞれ挿入する。
【0063】
再び図9を参照する。ボタン「声を高くする」及びボタン「声を低くする」は、声の高さ(すなわち音高又はピッチ)を指定するタグ(この例では<prosody pitch></prosody>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、声を高くする又は低くする程度を指定するためのダイアログボックスを表示する。
【0064】
図13は、声の高さを指定するためのダイアログボックス(ボタン「声を高くする」が押された例)を例示する図である。ユーザはこのダイアログボックスにおいて声の高さを指定することができる。OKボタンが押されると、ファイル生成プログラムは、テキストボックス8051(図9)においてカーソルが存在する位置に、指定された声の高さを示すタグを挿入する。この例では、タグ<prosody pitch="+1st"></prosody>が挿入される。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody pitch="+1st">を、末尾にタグ</prosody>を、それぞれ挿入する。
【0065】
再び図9を参照する。ボタン「ボリュームを指定する」は、ボリューム(すなわち音量)を指定するタグ(この例では<prosody volume></prosody>)を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、ボリュームを指定するためのダイアログボックスを表示する。
【0066】
図14は、ボリュームを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいてボリュームを指定することができる。OKボタンが押されると、ファイル生成プログラムは、テキストボックス8051(図9)においてカーソルが存在する位置に、指定されたボリュームを示すタグを挿入する。この例では、タグ<prosody volume="x-loud">タグ</prosody>が挿入される。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody volume="x-loud">を、末尾にタグ</prosody>を、それぞれ挿入する。
【0067】
再び図9を参照する。ボタン「読み上げタイプ2」及びボタン「読み上げタイプ3」は、読み上げタイプを、それぞれ「読み上げタイプ2」及び「読み上げタイプ3」に変更するタグ(この例では<v2></v2>及び<v3></v3>)ためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス8051においてカーソルが存在する位置に、読み上げタイプを指定するタグを挿入する。テキストボックス8051において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<v2>又は<v3>を、末尾にタグ</v2>又は</v3>を、それぞれ挿入する
【0068】
オブジェクト806は、ノートを翻訳するためのUIオブジェクトであり、この例ではボタンである。この例において、翻訳先の言語は、オブジェクト801により指定される読み上げタイプに含まれる言語である。このボタンが押されると、ファイル生成プログラムは、ノートのテキストを原文とする翻訳要求を、オブジェクト803により指定される翻訳エンジンに要求する。この例において、ノートのテキストがSSMLに準拠するタグを含む場合、ファイル生成プログラムは、このタグを削除したテキストを原文として翻訳エンジンに翻訳を要求する。音声合成エンジンは、ファイル生成プログラムからの要求に従って原文を翻訳先言語に翻訳した翻訳文を生成する。音声合成エンジンは、生成した翻訳文をファイル生成プログラム(すなわちユーザ端末20)に送信する。ファイル生成プログラムは、翻訳エンジンから取得した翻訳文をテキストボックス8051に表示する。
【0069】
オブジェクト807は、音声合成のテストを行うためのUIオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、ノートのテキストを対象文とする音声合成要求を、オブジェクト801において指定される言語及び音声タイプに対応する音声合成エンジンに送信する。ファイル生成プログラムは、データベース113を参照して、音声合成要求の送信先となる音声合成エンジンを特定する。音声合成エンジンは、ファイル生成プログラムからの要求に従って対象文を音声合成する。音声合成エンジンは、生成した音声データをファイル生成プログラム(すなわちユーザ端末20)に送信する。ファイル生成プログラムは、音声合成エンジンから音声データを取得する(図6:ステップS127)。ファイル生成プログラムは、取得した音声データを再生、すなわちテスト再生する(図6:ステップS128)。
【0070】
オブジェクト808は、編集されたノートをプレゼンテーションファイルに書き込むためのUIオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、プレゼンテーションファイルのうち編集対象のスライド(この例ではオブジェクト804において指定されるスライド)のノートを、テキストボックス8051に表示されているテキストで置換する。すなわちファイル生成プログラムは、編集されたノートをプレゼンテーションファイルに書き込む(図6:ステップS129)。
【0071】
オブジェクト809は、図9の画面で行った設定を反映するためのUIオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、図9の画面において編集された設定(例えば、読み上げタイプ、翻訳エンジン、用語集使用、及び発音辞書使用など)を保存する。この例において、図9のテスト設定の画面を閉じると図5の設定画面に戻るが、設定を保存しない場合は図9の画面で行った設定はキャンセルされる。設定を保存すると、図5の設定画面に戻ったときに図9の画面で行った設定が反映される。オブジェクト810は、図9の画面で行った設定をキャンセルするためのUIオブジェクトであり、この例ではボタンである。
【0072】
再び図5を参照する。オブジェクト960は、音声付きファイルの生成を指示するUIオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、プレゼンテーションファイルを音声付きファイルに変換する(図4:ステップS13)。具体的にはスライドの画像と、ノートの音声合成により得られた音声データを合わせて所定のフォーマット(例えばmp4形式)の音声付きファイルを生成する。ファイル生成プログラムは、音声付きファイルを生成する際、スライドを切り替えるタイミングを、そのスライドのノートの音声データの時間長に応じて決める。例えば、第1ページのスライドに含まれるノートの音声データが30秒であった場合、ファイル生成プログラムは、これに所定のブランク(オブジェクト957において指定された時間。例えば6秒)を加えた36秒間、第1ページのスライドを映し、36秒が経過した後、第2ページのスライドに切り換わる動画ファイルを生成する。
【0073】
3.変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例に記載した事項の少なくとも一部が、他の一部と組み合わせて適用されてもよい。
【0074】
ファイル生成プログラムの機能は実施形態において例示したものに限定されない。実施形態において説明した機能の一部が省略されてもよい。例えば、ファイル生成プログラムは翻訳機能を有していなくてもよい。ファイル管理プログラムは、他のプログラムと協働して動作し、他のプログラムから呼び出されて起動するものでもよい。
【0075】
処理の対象となるスライドを指定する方法は実施形態において例示したものに限定されない。処理の対象となるスライドは、例えば、キーワード検索により指定されてもよい。
【0076】
実施形態においては、音声合成エンジン及び翻訳エンジンについて複数の選択肢があり、どの音声合成エンジン又は翻訳エンジンを使用するのか、ユーザが選択することができる例を説明した。しかし、音声合成エンジン及び翻訳エンジンの少なくとも一方は選択肢が無く、ファイル生成システム1により固定されていてもよい。
【0077】
ファイル生成プログラムは、生成した動画をテスト再生するためのUIオブジェクトを有してもよい。この例によれば、修正した設定の効果を確認することができる。
【0078】
ファイル生成プログラムにおけるUIは実施形態において例示したものに限定されない。実施形態において例えばボタンとして説明されたUIオブジェクトが、チェックボックス、スライドバー、ラジオボタン、又はスピンボックスなど、他のUIオブジェクトとして実装されてもよい。また、実施形態においてファイル生成プログラムが有するものとして説明した機能の一部が省略されてもよい。
【0079】
ファイル生成プログラムが出力する音声付きファイルの形式は実施形態において例示したものに限定されない。ファイル生成プログラムが出力する音声付きファイルは、例えば、動画ファイル(mpeg4など)、プレゼンテーションファイル(Power Point(登録商標)ファイルなど)、eラーニングの教材ファイル(SCORMなど)、音声付きのhtmlファイルなど、どのような形式のものであってもよい。
【0080】
機能要素とハードウェアとの対応関係は実施形態において例示したものに限定されない。実施形態においてユーザ端末20に実装されるものとして説明した機能の少なくとも一部がサーバ10等のサーバに実装されてもよい。例えば、受け付け手段22、抽出手段23、取得手段24、再生手段25、受け付け手段26、書き込み手段27、及び変換手段28のうち少なくとも一部が、サーバ10に実装されてもよい。一例において、ファイル生成プログラムは、ユーザ端末20にインストールされるアプリケーションプログラムではなく、サーバ10上で動作するいわゆるウェブアプリケーションであってもよい。
【0081】
ファイル生成システム1におけるハードウェア構成は実施形態において例示したものに限定されない。物理的に複数のコンピュータ装置が協働して、サーバ10としての機能を有してもよい。あるいは、物理的に単一の装置が、サーバ10、サーバ30、及びサーバ40の機能を有してもよい。サーバ10、サーバ30、及びサーバ40はいずれも物理サーバであってもよいし、仮想サーバ(例えばいわゆるクラウド)であってもよい。また、サーバ10、サーバ30、及びサーバ40の少なくとも一部は省略されてもよい。
【0082】
CPU210等により実行されるプログラムは、DVD-ROM等の非一時的な記憶媒体に記憶された状態で提供されてもよいし、インターネット等のネットワークを介して提供されてもよい。
【符号の説明】
【0083】
1…ファイル生成システム10…サーバ、20…ユーザ端末、30…サーバ、40…サーバ、11…記憶手段、19…制御手段、21…記憶手段、22…受け付け手段、23…抽出手段、24…取得手段、25…再生手段、26…受け付け手段、27…書き込み手段、28…変換手段、29…制御手段、31…音声合成手段、41…翻訳手段、210…CPU、220…メモリ、230…ストレージ、240…通信IF、250…入力装置、260…出力装置、801~801…オブジェクト、951~960…オブジェクト
【要約】
【課題】より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成する。
【解決手段】一実施形態に係るプログラムは、コンピュータに、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち1つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを実行させる。
【選択図】図6
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14