IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社コーエーテクモゲームスの特許一覧

特許7345288情報処理装置、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4A
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-07
(45)【発行日】2023-09-15
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G10L 21/01 20130101AFI20230908BHJP
   G10L 13/00 20060101ALI20230908BHJP
【FI】
G10L21/01
G10L13/00 100A
【請求項の数】 7
(21)【出願番号】P 2019111200
(22)【出願日】2019-06-14
(65)【公開番号】P2020204661
(43)【公開日】2020-12-24
【審査請求日】2022-04-05
(73)【特許権者】
【識別番号】595000427
【氏名又は名称】株式会社コーエーテクモゲームス
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】小池 雅人
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2013-33103(JP,A)
【文献】特開2003-24627(JP,A)
【文献】特開2017-131409(JP,A)
【文献】特開2014-232245(JP,A)
【文献】特開平8-194495(JP,A)
【文献】特開2011-206220(JP,A)
【文献】山口優他,ロボット・ボイス研究所,サウンド&レコーディング・マガジン,株式会社リットーミュージック,1999年12月,第18巻,第12号,pp.110-121
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,21/003-21/013
A63F 13/00
(57)【特許請求の範囲】
【請求項1】
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する判定部と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する生成部と、
を有し、
前記生成部は、
前記第2区間の少なくとも一部の音声信号を時間方向に反転させた前記第2音声データであって、前記第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第2音声データを生成する、情報処理装置。
【請求項2】
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する判定部と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第2区間の音声の変換度を決定し、
前記第2区間で発話された母音が前記ゲームの状況に応じた所定の母音である場合、前記第2区間の音声を変換し、
前記第2区間で発話された母音が前記所定の母音でない場合、前記第2区間の音声を変換しない、情報処理装置。
【請求項3】
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する判定部と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第2区間の音声の変換度を決定し、
前記第2区間の直前の前記第1区間で発話された子音が前記ゲームの状況に応じた所定の子音である場合、前記第2区間の音声を変換し、
前記第2区間の直前の前記第1区間で発話された子音が前記所定の子音でない場合、前記第2区間の音声を変換しない、情報処理装置。
【請求項4】
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する判定部と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する生成部と、
を有し、
前記生成部は、
ゲームの状況に基づいて、前記第2区間の音声の変換度を決定し、
前記ゲームの状況に応じて、前記第2区間の音声を変換する頻度を決定する、情報処理装置。
【請求項5】
前記生成部は、
ゲームの状況に基づいて、前記第2区間の音声の変換度を決定する、
請求項1に記載の情報処理装置。
【請求項6】
情報処理装置が、
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する処理と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する処理と、
を実行し、
前記第2音声データを生成する処理は、
前記第2区間の少なくとも一部の音声信号を時間方向に反転させた前記第2音声データであって、前記第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第2音声データを生成する、情報処理方法。
【請求項7】
情報処理装置に、
所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する処理と、
前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する処理と、
を実行させ、
前記第2音声データを生成する処理は、
前記第2区間の少なくとも一部の音声信号を時間方向に反転させた前記第2音声データであって、前記第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第2音声データを生成する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、コンピュータゲーム等において、例えば、録音された音声を変換し、ユーザ(プレイヤ)とは異なる言語を話す人間や、人間以外のキャラクタが発話したような音声を生成する技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-231999号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、例えば、変換された音声が言語らしくない、当該音声の意味が全く推測できない等により、ゲーム等のコンテンツの趣向性が低下する場合がある。一側面では、コンテンツの趣向性を高めることができる技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
一つの案では、情報処理装置は、所定の台詞が発話されて録音された第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する判定部と、前記第1音声データに含まれる前記第2区間の音声を、前記第2区間の音声に基づいて変換した第2音声データであって、コンテンツにおいてキャラクタに発話させる前記第2音声データを生成する生成部と、を有し、前記生成部は、前記第2区間の少なくとも一部の音声信号を時間方向に反転させた前記第2音声データであって、前記第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた前記第2音声データを生成する
【発明の効果】
【0006】
一側面によれば、コンテンツの趣向性を高めることができる。
【図面の簡単な説明】
【0007】
図1】実施形態に係る情報処理装置のハードウェア構成例を示す図である。
図2】実施形態に係る情報処理装置の機能ブロック図である。
図3】実施形態に係る情報処理装置の処理の一例を示すフローチャートである。
図4A】実施形態に係る第1音声データの波形の一例について説明する図である。
図4B】実施形態に係る第2音声データの波形の一例について説明する図である。
【発明を実施するための形態】
【0008】
以下、図面に基づいて本発明の実施形態を説明する。
【0009】
<ハードウェア構成>
図1は、実施形態に係る情報処理装置10のハードウェア構成例を示す図である。図1に示す情報処理装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
【0010】
情報処理装置10での処理を実現するゲームプログラムは、記録媒体101によって提供される。ゲームプログラムを記録した記録媒体101がドライブ装置100にセットされると、ゲームプログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、ゲームプログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたゲームプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0011】
メモリ装置103は、例えば、DRAM(Dynamic Random Access Memory)、またはSRAM(Static Random Access Memory)等のメモリであり、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って情報処理装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107は、コントローラ等、キーボード及びマウス等、またはタッチパネル及びボタン等で構成され、様々な操作指示を入力させるために用いられる。
【0012】
なお、記録媒体101の一例としては、CD-ROM、DVDディスク、ブルーレイディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
【0013】
<機能構成>
次に、図2を参照し、情報処理装置10の機能構成について説明する。図2は、実施形態に係る情報処理装置10の機能ブロック図である。
【0014】
情報処理装置10は、記憶部11を有する。記憶部11は、例えば、補助記憶装置102等を用いて実現される。記憶部11は、ゲームにおいて第1キャラクタが発話する台詞が声優等により発話され、発話された音声が録音されている第1音データ等を予め記憶しているものとする。
【0015】
また、情報処理装置10は、取得部12、受付部13、決定部14、判定部15、生成部16、及び再生部17を有する。これら各部は、情報処理装置10にインストールされた1以上のプログラムが、情報処理装置10のCPU104に実行させる処理により実現される。
【0016】
取得部12は、記憶部11に記憶されている第1音データ等を取得する。受付部13は、ユーザから各種の操作等による入力を受け付ける。決定部14は、ゲームの状況に基づいて、第1音声データの変換度(変換の度合い)等を決定する。判定部15は、第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する。
生成部16は、決定した変換度に応じて、第1音声データに含まれる第2区間の音声を、第2区間の音声に基づいて変換し、第2音声データを生成する。再生部17は、第2音声データを、ゲーム等のコンテンツにおいて第1キャラクタに発話された音声としてスピーカに出力させる。
【0017】
<処理>
次に、図3から図4Bを参照して、情報処理装置10の処理について説明する。図3は、実施形態に係る情報処理装置10の処理の一例を示すフローチャートである。図4Aは、実施形態に係る第1音声データの波形の一例について説明する図である。図4Bは、実施形態に係る第2音声データの波形の一例について説明する図である。
【0018】
以下では、予め録音されている第1音声データが日本語で発話された音声データである例について説明するが、開示の技術を、英語等の日本語以外の言語にも適用することができる。開示の技術は、子音の後に母音が続く日本語や英語等の場合に、より好適である。
【0019】
ステップS1において、取得部12は、ゲームの状況に基づいて、ゲームにおいて第1キャラクタが発話する台詞が発話されて録音されている第1音声データを取得する。ここで、取得部12は、記憶部11に記憶されている音声データのうち、ゲームの状況に応じた第1音声データを取得する。なお、第1音声データは、例えば、プレイヤキャラクタが話す言語以外の言語を話す第1キャラクタの台詞(セリフ)を、声優等が発話し、発話された音声が録音された音声データでもよい。なお、第1キャラクタは、例えば、ゲームにおける異世界人、異星人、妖精、小人、モンスター、動物、地底人、外国人、擬人化された各種のキャラクタ等のキャラクタでもよい。
【0020】
続いて、決定部14は、ゲームの状況に基づいて、当該第1音声データの変換度(変換の度合い、変換の割合)を決定する(ステップS2)。ここで、決定部14は、例えば、ゲームにおける所定のアイテムをプレイヤキャラクタが使用した場合、ゲームにおいて所定のステージまたは所定のレベルに到達した場合、及びゲームにおいてプレイヤキャラクタと第1キャラクタとが一緒にいる時間が一定時間に達した等の場合、変換度を低減してもよい。これにより、ゲームの状況に応じて、第1キャラクタが発話した内容の意味を、ユーザがより理解できるようにすることができる。これにより、ゲーム等のコンテンツの趣向性を向上させることができる。
【0021】
決定部14は、例えば、当初の変換度を5とし、所定のステージまたは所定のレベルに到達した等により第1段階に到達した場合、変換度を4に低減し、さらに次の第2段階に到達した場合、変換度を3に低減してもよい。
【0022】
続いて、決定部14は、決定した変換度に応じて、第1音声データに含まれる第2区間の音声の変換方法を決定する(ステップS3)。
【0023】
決定部14は、例えば、ゲームの状況に応じた変換度に基づいて、変換対象とする母音を決定してもよい。この場合、決定部14は、例えば、第2区間で発話された母音がゲームの状況に応じた所定の母音である場合、当該第2区間の音声を変換し、当該第2区間で発話された母音が当該所定の母音でない場合、当該第2区間の音声を変換しないようにしてもよい。この場合、決定部14は、第1音声データが日本語であれば、例えば、変換度5の場合、「あ」、「い」、「う」、「え」、「お」(音素表記ではそれぞれ/a/, /i/, /u/, /e/, /o/)の5つの母音を変換対象とし、変換度4の場合所定の4つの母音のみを変換対象とし、変換度3の場合所定の3つの母音のみを変換対象としてもよい。
【0024】
また、決定部14は、ゲームの状況に応じた変換度に基づいて、五十音のうち変換対象とする音を決定してもよい。この場合、決定部14は、第2区間の直前の第1区間で発話された子音がゲームの状況に応じた所定の子音である場合、当該第2区間の音声を変換し、当該第1区間で発話された子音が当該所定の子音でない場合、当該第2区間の音声を変換しないようにしてもよい。この場合、決定部14は、第1音声データが日本語であれば、例えば、変換度5の場合、五十音の全ての母音部分を変換対象とし、変換度4の場合、五十音のうちカ行である「か」、「き」、「く」、「け」、「こ」(音素表記ではそれぞれ/ka/, /ki/, /ku/, /ke/, /ko/)以外の音の母音部分のみを変換対象とし、変換度3の場合、五十音のうちカ行とサ行の音以外の母音部分のみを変換対象としてもよい。
【0025】
また、決定部14は、ゲームの状況に応じた変換度に基づいて、第2区間の音声を変換する頻度を決定してもよい。この場合、決定部14は、例えば、変換度5の場合、第1音声データに含まれる複数の第2区間を全て変換対象とし、変換度4の場合、各第2区間を第1頻度(例えば、80%の確率)で変換対象とし、変換度4の場合、各第2区間を第2頻度(例えば、60%の確率)で変換対象としてもよい。
【0026】
続いて、判定部15は、第1音声データにおける子音が発話された第1区間と、母音が発話された第2区間とを判定する(ステップS4)。ここで、判定部15は、例えば、第1音声データの振幅の絶対値の平均値が所定の閾値以上の区間を検出し、当該区間のうち、所定時間内で第1音声データの振幅の符号が入れ替わった回数(ゼロクロス回数)が閾値以上である区間を、子音が発話された第1区間と判定してもよい。そして、判定部15は、例えば、第1音声データの振幅の絶対値の平均値が所定の閾値以上の区間のうち、第1区間以外の区間を、母音が発話された第2区間と判定してもよい。
【0027】
また、判定部15は、例えば、ディープラーニング等の機械学習を用いて第1音声データを音声認識し、第1音声データに含まれる第1区間及び第2区間を検出してもよい。
【0028】
続いて、生成部16は、第1音声データに含まれる第2区間の音声を、決定された変換方法で、第2区間の音声に基づいて変換し、第2音声データを生成する(ステップS5)。ここで、生成部16は、例えば、第1音声データに含まれる複数の第2区間のうち、ステップS3の処理で決定部14により変換対象として決定された第2区間の音声を変換する。
【0029】
図4Aには、実施形態に係る第1音声データの波形の一例が示されている。図4Aの第1区間401と第2区間402、第1区間403と第2区間404、及び第1区間405と第2区間406は、それぞれ、声優等により、五十音中の「あいうえお」以外であり、子音と母音からなる一の音(例えば、「か」/ka/等)が発話された区間である。
【0030】
第1区間401、第1区間403、及び第1区間405は各子音が発話された区間であり、第2区間402、第2区間404、及び第2区間406は当該各子音に続く各母音が発話された区間である。
【0031】
≪変換処理≫
以下では、第2区間の音声を変換する方法の例について説明する。
【0032】
(時間反転)
生成部16は、変換対象の第2区間の少なくとも一部(全部または一部)の音声信号を時間方向に反転(時間反転、逆再生、時間が進む方向を逆にして再生)させた第2音声データを生成してもよい。この場合、生成部16は、変換対象の第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた第2音声データを生成してもよい。
【0033】
この場合、生成部16は、図4Aに示すように、変換対象の第2区間402のうち、第2区間402における音声の振幅が所定の閾値411以上となった時点421から、当該所定の閾値411未満の状態が継続するよりも前の時点422までの区間402Aを判定する。また、生成部16は、同様に、変換対象の第2区間404のうち区間404A、変換対象の第2区間406のうち区間406Aを判定する。
【0034】
そして、生成部16は、図4Bに示すように、区間402A、区間404A、及び区間406Aの各音声を時間方向に反転させることにより、第2音声データを生成してもよい。これにより、例えば、/ka/という音の場合、/k/は概ねそのまま聞こえ、/a/は時間反転して聞こえるようにすることができる。
【0035】
(位相反転)
生成部16は、変換対象の第2区間の少なくとも一部の音声信号をフーリエ変換等により周波数解析し、所定の各周波数に対する振幅を位相方向に反転させた第2音声データを生成してもよい。この場合、生成部16は、変換対象の第2区間のうち、音声の振幅が所定の閾値以上の区間の音声信号を時間方向に反転させた第2音声データを生成してもよい。
【0036】
上述したように、子音の区間の音は変換せず、母音の区間の音を当該音に基づいて変換することにより、例えば、第1キャラクタが話している言葉をユーザは分からないはずであるものの、何故か何となく推察できなくもない、ユーザに対し不思議な感覚を起こさせる音声を生成することができる。これにより、ゲーム等のコンテンツの趣向性を向上させることができる。
【0037】
続いて、再生部17は、生成された第2音声データを、ゲーム等のコンテンツにおいて第1キャラクタに発話された音声として再生させる(ステップS6)。ここで、例えば、第1キャラクタが発話しているCG映像を画面に表示させるとともに、第2音声データをスピーカから出力させる。
【0038】
<変形例>
情報処理装置10の各機能部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、第2音データと、再生部17の機能を実現するプログラムを記録媒体に記録し、ゲーム装置等において、再生部17の処理を実行させてもよい。
【0039】
また、オンラインゲーム等を提供するサーバ装置に再生部17の処理を実行させ、ユーザのスマートフォン、タブレット、及びパーソナルコンピュータ等の情報処理端末に、所定のBGM等が繰り返し再生される音をスピーカから出力させるようにしてもよい。
【0040】
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0041】
10 情報処理装置
11 記憶部
12 取得部
13 受付部
14 決定部
15 判定部
16 生成部
17 再生部
図1
図2
図3
図4A
図4B