特許7194559 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社コーエーテクモゲームスの特許一覧

特許7194559プログラム、情報処理方法、及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-14

(45)【発行日】2022-12-22

(54)【発明の名称】プログラム、情報処理方法、及び情報処理装置

(51)【国際特許分類】

G10L 21/034 20130101AFI20221215BHJP

【ＦＩ】

G10L21/034

【請求項の数】 7

(21)【出願番号】P 2018199457

(22)【出願日】2018-10-23

(65)【公開番号】P2020067531

(43)【公開日】2020-04-30

【審査請求日】2021-08-03

(73)【特許権者】

【識別番号】595000427

【氏名又は名称】株式会社コーエーテクモゲームス

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】小池雅人

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２００８－０６５９０４（ＪＰ，Ａ）

【文献】特開２００４－０２９３７７（ＪＰ，Ａ）

【文献】特開２０１２－１０４９９２（ＪＰ，Ａ）

【文献】特開平１１－１２６４２４（ＪＰ，Ａ）

【文献】特開平１０－２５４４９３（ＪＰ，Ａ）

【文献】特開平０５－２０４３９５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０，２１／０３１６－２１／０３６４

Ｇ１１Ｂ２０／１０，２７／００－２７／３６

Ａ６３Ｆ１３／００－１３／９８

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

第１のセリフの音声データの音量と、第２のセリフの音声データの音量との平均値が所定の値になるように、前記第１のセリフの音声データの音量と前記第２のセリフの音声データの音量とをそれぞれ同一の倍率で増加または減少させる第１調整部と、
前記第１のセリフの音声データの音量の平均値と前記所定の値との差が小さくなるように、前記第１のセリフの音声データの音量を、前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して所定の割合、増加または減少させる第２調整部と、を有する情報処理装置。

【請求項2】

前記第２調整部は、
前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値が前記所定の値よりも大きい場合、前記第１のセリフの音声データの音量を、前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して前記所定の割合減少させ、
前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値が前記所定の値よりも小さい場合、前記第１のセリフの音声データの音量を、前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して前記所定の割合増加させる、
請求項１に記載の情報処理装置。

【請求項3】

前記所定の割合は、０．４から０．６までの範囲内の値である、
請求項１または２に記載の情報処理装置。

【請求項4】

前記第２調整部により調整された前記第２のセリフの音声データに、音量が所定の閾値以上となる時間帯がある場合、前記第２調整部により調整された前記第２のセリフの音声データの音量を、当該時間帯よりも前の時間から、時間の経過に従って小さくなる倍率で減少させる第３調整部を有する、
請求項１から３のいずれか一項に記載の情報処理装置。

【請求項5】

前記第３調整部は、
前記第２調整部により調整された前記第２のセリフの音声データの音量を、当該時間帯よりも後の時間から、時間の経過に従って大きくなる倍率で増加させる、
請求項４に記載の情報処理装置。

【請求項6】

情報処理装置が、
第１のセリフの音声データの音量と、第２のセリフの音声データの音量との平均値が所定の値になるように、前記第１のセリフの音声データの音量と前記第２のセリフの音声データの音量とをそれぞれ同一の倍率で増加または減少させる第１調整処理と、
前記第１のセリフの音声データの音量の平均値と前記所定の値との差が小さくなるように、前記第１のセリフの音声データの音量を、前記第１調整処理により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して所定の割合、増加または減少させる第２調整処理と、を実行する情報処理方法。

【請求項7】

情報処理装置に、
第１のセリフの音声データの音量と、第２のセリフの音声データの音量との平均値が所定の値になるように、前記第１のセリフの音声データの音量と前記第２のセリフの音声データの音量とをそれぞれ同一の倍率で増加または減少させる第１調整処理と、
前記第１のセリフの音声データの音量の平均値と前記所定の値との差が小さくなるように、前記第１のセリフの音声データの音量を、前記第１調整処理により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して所定の割合、増加または減少させる第２調整処理と、を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プログラム、情報処理方法、及び情報処理装置に関する。

【背景技術】

【0002】

従来、コンピュータゲーム等において、ゲームの状況に応じて、ゲームのキャラクタのセリフを、予め録音されている音声（ボイス）により出力する技術が知られている（例えば、特許文献１を参照）。このセリフの音声は、例えば、スタジオで収録された後、職人の手作業により音量を手動でそれぞれ調整されていた。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－１８４８４２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、職人の経験と勘に基づいて手作業により音量を調整するため、作業に手間がかかると共に、調整の品質にばらつきがあるという問題がある。

【0005】

そこで、一側面では、自動でより適切に音声を調整することができる技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

一つの案では、情報処理装置が、第１のセリフの音声データの音量と、第２のセリフの音声データの音量との平均値が所定の値になるように、前記第１のセリフの音声データの音量と前記第２のセリフの音声データの音量とをそれぞれ同一の倍率で増加または減少させる第１調整部と、前記第１のセリフの音声データの音量の平均値と前記所定の値との差が小さくなるように、前記第１のセリフの音声データの音量を、前記第１調整部により調整された前記第１のセリフの音声データの音量の平均値と前記所定の値との差に対して所定の割合、増加または減少させる第２調整部と、を有する。

【発明の効果】

【0007】

一側面によれば、自動でより適切に音声を調整することができる。

【図面の簡単な説明】

【0008】

【図1】実施形態に係る情報処理装置のハードウェア構成例を示す図である。

【図2】実施形態に係る情報処理装置の機能ブロック図である。

【図3】実施形態に係るセリフデータの一例を示す図である。

【図4】実施形態に係る情報処理装置の処理の一例を示すフローチャートである。

【図5】実施形態に係る各セリフの音量を調整する処理について説明する図である。

【図6】実施形態に係る大音量低減処理の一例を示すフローチャートである。

【図7A】実施形態に係る大音量低減処理の一例について説明する図である。

【図7B】実施形態に係る大音量を低減するための倍率の一例について説明する図である。

【発明を実施するための形態】

【0009】

以下、図面に基づいて本発明の実施形態を説明する。

【0010】

＜ハードウェア構成＞
図１は、実施形態に係る情報処理装置１０のハードウェア構成例を示す図である。図１に示す情報処理装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

【0011】

情報処理装置１０での処理を実現するゲームプログラムは、記録媒体１０１によって提供される。ゲームプログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、ゲームプログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、ゲームプログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたゲームプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0012】

メモリ装置１０３は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）、またはＳＲＡＭ（Static Random Access Memory）等のメモリであり、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って情報処理装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７は、コントローラ等、キーボード及びマウス等、またはタッチパネル及びボタン等で構成され、様々な操作指示を入力させるために用いられる。

【0013】

なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、ブルーレイディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

【0014】

＜機能構成＞
次に、図２を参照し、情報処理装置１０の機能構成について説明する。図２は、実施形態に係る情報処理装置１０の機能ブロック図である。

【0015】

情報処理装置１０は、記憶部１１を有する。記憶部１１は、例えば、補助記憶装置１０２等を用いて実現される。記憶部１１は、セリフデータ１１１等を記憶する。

【0016】

図３は、実施形態に係るセリフデータ１１１の一例を示す図である。図３の例では、セリフデータ１１１には、ゲームＩＤ、キャラクタＩＤ、及びセリフＩＤ（音声ファイルＩＤ）に対応付けて、収録環境、音声ファイル、及び調整後の音声ファイルが記録されている。

【0017】

ゲームＩＤは、ゲームの識別情報である。なお、例えば、ゲーム専用機、パーソナルコンピュータ、スマートフォン、及びタブレット端末等の機器で当該ゲームがプレイヤーにより実行されると、ゲームの状況に応じて、声優等により発話された各セリフＩＤに係るセリフの音声が出力される。

【0018】

キャラクタＩＤは、当該ゲームにおいてセリフＩＤに係るセリフを話すキャラクタの識別情報である。セリフＩＤは、セリフの識別情報である。収録環境は、セリフＩＤに係るセリフを収録した環境に関する情報であり、例えば、声優等により発話された各セリフの音声を収録したスタジオ等の情報である。音声ファイルは、セリフＩＤに係るセリフの音声データである。調整後の音声ファイルは、当該音声データが情報処理装置１０により調整された後のセリフＩＤに係るセリフの音声データである。

【0019】

また、情報処理装置１０は、取得部１２、第１調整部１３、第２調整部１４、及び第３調整部１５を有する。これら各部は、情報処理装置１０にインストールされた１以上のプログラムが、情報処理装置１０のＣＰＵ１０４に実行させる処理により実現される。

【0020】

取得部１２は、セリフデータ１１１に記憶されている、各セリフに対して録音された音声データを記憶部１１から取得する。

【0021】

第１調整部１３は、取得部１２により取得された複数のセリフの音声データの音量の平均値が所定の値になるように、各セリフの音声データの音の強さ（音響インテンシティ）を、所定の倍率でそれぞれ増加または減少させる。なお、「音の強さ」とは、例えば、単位面積を通して伝わる音響パワーであり、単位はＷ／ｍ^２等で表すことができる。また、「音量（音響インテンシティレベル）」とは、音の強さの値を、基準値との比の対数によって表現した量であり、単位はｄＢ（デシベル）等で表すことができる。

【0022】

第２調整部１４は、第１調整部１３により調整された各セリフの音声データの音量を、各セリフの音声データの平均音量が当該所定の値に近づくように増加または減少させる。

【0023】

第３調整部１５は、第２調整部１４により調整された各セリフの音声データの音量を、最大音量が所定の閾値未満となるように調整する。

【0024】

＜処理＞
次に、図４及び図５を参照して、情報処理装置１０の処理について説明する。図４は、実施形態に係る情報処理装置１０の処理の一例を示すフローチャートである。図５は、実施形態に係る各セリフの音量を調整する処理について説明する図である。

【0025】

情報処理装置１０は、セリフデータ１１１に記憶されている一のゲームに対するキャラクタ毎、及び収録環境毎の音声ファイル（音声データ）に対し、以下の処理をそれぞれ行う。キャラクタ毎に以下の処理を行うことにより、各キャラクタのセリフの音量が略均等化される。また、収録環境毎に以下の処理を行うことにより、収録環境の違いによるセリフの音量の違いを低減することができる。以下の説明で、セリフデータ１１１において、一のキャラクタ、及び一の収録環境に対応付けられた各セリフを、処理対象の各セリフと称する。

【0026】

ステップＳ１において、第１調整部１３は、取得部１２により取得された処理対象の全てのセリフの音声データの音量（ｄＢ）の平均値（平均音量）を算出する。これにより、例えば、一のキャラクタ等の全セリフの平均音量が算出される。ここで、セリフの音声データは、複数の周波数の波形が、時間的に変化するデータである。第１調整部１３は、例えば、二乗平均平方根（Root Mean Square,ＲＭＳ）により、平均音量を算出してもよい。または、第１調整部１３は、例えば、ラウドネスに基づいて、平均音量を算出してもよい。なお、第１調整部１３は、各セリフの音声データのうち、無音の区間を除去して、有音の区間での平均音量を算出してもよい。

【0027】

続いて、第１調整部１３は、処理対象の全てのセリフの音声データの平均音量が所定の目標値（ｄＢ）となるように、処理対象の各セリフの音声データの音量を調整する（ステップＳ２）。これにより、各セリフの音量がより均等化されるため、プレイヤー（ゲームを行うユーザ）に、各セリフをより聞き取り易くすることができる。

【0028】

ここで、第１調整部１３は、処理対象の各セリフの音声データの音の強さをそれぞれ同一の倍率で増加または減少させることにより、処理対象の各セリフの音声データの音量を調整してもよい。この場合、例えば、処理対象の全てのセリフの音声データの平均音量が５８ｄＢであり、平均音量の目標値が６０ｄＢであれば、第１調整部１３は、処理対象の各セリフの音声データの音の強さをそれぞれ１．２６倍に増加させることにより、処理対象の全てのセリフの音声データの平均音量を６０ｄＢにする。

【0029】

続いて、第２調整部１４は、処理対象の各セリフの音声データ毎の平均音量をそれぞれ算出する（ステップＳ３）。続いて、第２調整部１４は、所定の目標値と、処理対象の各セリフの音声データの平均音量との差の値を算出する（ステップＳ４）。

【0030】

続いて、第２調整部１４は、算出した差の値に基づいて、当該差が小さくなるように、処理対象の各セリフの音声データの音量を調整する（ステップＳ５）。ここで、第２調整部１４は、算出した差に対して所定の割合（例えば、半分。）だけ、処理対象の各セリフの音声データの音量を増加または減少させてもよい。なお、当該所定の割合は、例えば、０．４程度から０．６程度までの範囲内の値でもよい。

【0031】

例えば、当該所定の割合が０．５と設定されている場合、所定の目標値が６０ｄＢであり、処理対象のセリフの音声データの平均音量が５４ｄＢであれば、差が６ｄＢであるから、第２調整部１４は、当該セリフの音声データの平均音量を３ｄＢ増加させる。すなわち、この場合、第２調整部１４は、当該セリフの音声データの音の強さを１．４１倍に増加させる。この場合、図５に示すように、処理対象のセリフの音声の波形５０１を、所定の目標値５０２と、波形５０１の平均音量５０３との差の値の半分の値だけ平均音量５０４が増加した波形５０５に変更する。

【0032】

また、例えば、所定の目標値が６０ｄＢであり、処理対象のセリフの音声データの平均音量が６２ｄＢであれば、差が－２ｄＢであるから、第２調整部１４は、処理対象のセリフの音声データの平均音量を－１ｄＢ増加（１ｄＢ減少）させる。

【0033】

小さい声で発話されたセリフの音量と、大きい声で発話されたセリフの音量とが略同一になるように調整した場合、ぼそぼそしゃべっているような小さい声で発話されたセリフがすごく大きな声で発話されたような印象をユーザに与えてしまう場合がある。また、叫んでいるような大きい声で発話されたセリフがすごく小さな声で発話されたような印象をユーザに与えてしまう場合がある。ステップＳ５の処理により、小さい声で発話されたセリフの音量と、大きい声で発話されたセリフの音量との印象を逆転させずに、かつ、各セリフをより聞き取り易くすることができる。

【0034】

続いて、第３調整部１５は、処理対象の各セリフの音声データに対して、所定の閾値以上となる音量を小さくするように調整（大音量低減処理）し（ステップＳ６）、処理を終了する。なお、第３調整部１５は、調整した後の各セリフの音声データを、セリフデータ１１１の調整後の音声ファイルとして記録する。これにより、調整後の各セリフの音声データをゲーム等で利用できる。

【0035】

≪大音量低減処理≫
次に、図６、図７Ａ、及び図７Ｂを参照して、図４のステップＳ６の大音量低減処理について説明する。図６は、実施形態に係る大音量低減処理の一例を示すフローチャートである。図７Ａは、実施形態に係る大音量低減処理の一例について説明する図である。図７Ｂは、実施形態に係る大音量を低減するための倍率の一例について説明する図である。以下の処理は、各セリフに対してそれぞれ実行される。

【0036】

ステップＳ１０１において、第３調整部１５は、セリフの音声の時間経過に対する音量のうち、音量が所定の閾値以上となる時間帯が存在するか否かを判定する。なお、第３調整部１５は、セリフの開始時点から終了時点までの間の音声データに対して、以下の処理を実行してもよい。または、第３調整部１５は、セリフの開始時点から終了時点までの各時点において、各時点から所定時間（例えば、５秒）先の時点までの間の音声データに対して、ステップＳ１０１の処理をそれぞれ実行してもよい。

【0037】

音量が所定の閾値以上となる時間帯が存在しない場合（ステップＳ１０１でＮＯ）、処理を終了する。

【0038】

音量が所定の閾値以上となる時間帯が存在する場合（ステップＳ１０１でＹＥＳ）、第３調整部１５は、当該時間帯の開始よりも前の時間から、徐々に小さくなる音の強さに対する倍率で音量を調整する（ステップＳ１０２）。続いて、第３調整部１５は、当該時間帯が終了した時間から、徐々に大きくなる音の強さに対する倍率で音量を調整して元の音量まで戻し（ステップＳ１０３）、処理を終了する。

【0039】

第３調整部１５は、図７Ａの例では、ステップＳ１０２、及びステップＳ１０３の処理で、セリフの音声の波形７０１を解析し、セリフの音声の音量が閾値７０２以上となる時間７０３から時間７０４までの時間帯を判定する。

【0040】

そして、第３調整部１５は、図７Ｂの音の強さに対する倍率の推移７１３ように、時間７０３よりも所定時間（例えば、２秒間）前の時間７１１から時間７０３まで、１からＸまで徐々に小さくなる倍率を設定する。また、時間７０４から、時間７０４よりも所定時間（例えば、２秒間）後の時間７１２まで、Ｘから１まで徐々に大きくなる倍率を設定する。なお、第３調整部１５は、当該時間帯における最少の倍率の値Ｘを、当該時間帯における波形７０１の最大値と閾値７０２との差に基づいて決定してもよい。この場合、例えば、第３調整部１５は、当該時間帯における波形７０１の最大値が、閾値７０２以下となるように倍率の値Ｘを決定してもよい。具体的には、例えば、当該時間帯における波形７０１の最大値が７０ｄＢであり、閾値７０２が６５ｄＢの場合、差が５ｄＢであるから、第３調整部１５は、倍率の値Ｘを０．５６１（＝１／１．７８）と決定してもよい。図７Ｂの例では、第３調整部１５は、音量が閾値７０２以上となる時間帯である時間７０３から時間７０４までの間、倍率の推移７１３において倍率の値をＸで一定としている。これにより、音量を一定以下に保ちながら、音量が大きい時間帯のセリフの抑揚をより自然な感覚でユーザに認識させることができる。

【0041】

そして、第３調整部１５は、図７Ａのように、波形７０１の音量に、音の強さに対する倍率の推移７１３で設定された倍率を乗算することにより、音量の波形７０１を波形７１４のように調整する。これにより、音質への影響を低減しながら、音量を徐々に調整することができる。

【0042】

＜変形例＞
情報処理装置１０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。

【0043】

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0044】

１０情報処理装置
１１記憶部
１１１セリフデータ
１２取得部
１３第１調整部
１４第２調整部
１５第３調整部

【図1】