IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社電通の特許一覧

<>
  • 特開-擬音表示システム 図1
  • 特開-擬音表示システム 図2
  • 特開-擬音表示システム 図3
  • 特開-擬音表示システム 図4
  • 特開-擬音表示システム 図5
  • 特開-擬音表示システム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023135608
(43)【公開日】2023-09-28
(54)【発明の名称】擬音表示システム
(51)【国際特許分類】
   G09B 21/00 20060101AFI20230921BHJP
   G10L 15/22 20060101ALI20230921BHJP
   G10L 15/10 20060101ALI20230921BHJP
   G10L 25/48 20130101ALI20230921BHJP
   H04N 5/278 20060101ALI20230921BHJP
   G10L 15/16 20060101ALN20230921BHJP
   G10L 25/30 20130101ALN20230921BHJP
【FI】
G09B21/00 F
G10L15/22 460Z
G10L15/10 500Z
G10L25/48 100
H04N5/278
G10L15/16
G10L25/30
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023002610
(22)【出願日】2023-01-11
(31)【優先権主張番号】P 2022040640
(32)【優先日】2022-03-15
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】320005501
【氏名又は名称】株式会社電通
(74)【代理人】
【識別番号】230104019
【弁護士】
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100106840
【弁理士】
【氏名又は名称】森田 耕司
(74)【代理人】
【識別番号】100131451
【弁理士】
【氏名又は名称】津田 理
(74)【代理人】
【識別番号】100167933
【弁理士】
【氏名又は名称】松野 知紘
(74)【代理人】
【識別番号】100174137
【弁理士】
【氏名又は名称】酒谷 誠一
(74)【代理人】
【識別番号】100184181
【弁理士】
【氏名又は名称】野本 裕史
(72)【発明者】
【氏名】中川 諒
(72)【発明者】
【氏名】遠藤 生萌
(72)【発明者】
【氏名】村上 晋太郎
【テーマコード(参考)】
5C023
【Fターム(参考)】
5C023AA18
5C023BA11
5C023CA01
5C023CA06
5C023DA01
5C023DA08
(57)【要約】
【課題】 聴覚障害者の擬音の学習効果を向上することのできる擬音表示システムを提供する。
【解決手段】 擬音表示システム1は、動画データが入力されると、動画データから判定対象の音声データを抽出し、機械学習部20で分析した関係に基づいて、動画データから抽出された判定対象の音声データを入力として、その判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する。そして、記憶部23を参照して、推定して出力された擬音データに対応付けられているオノマトペの文字データを取得し、入力された動画データにオノマトペの文字データが重畳された合成動画データを生成する。記憶部23には、オノマトペの文字データが、擬音データに応じたフォント形式で記憶されており、擬音データに応じたフォント形式のオノマトペの文字データが、入力された動画データに重畳される。
【選択図】 図1
【特許請求の範囲】
【請求項1】
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
動画データが入力される動画データ入力部と、
前記動画データから判定対象の音声データを抽出する音声データ抽出部と、
前記機械学習部で分析した関係に基づいて、前記動画データから抽出された前記判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、
を備え、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、擬音表示システム。
【請求項2】
前記判定対象の音声データの音量レベルを算出する音量レベル算出部を備え、
前記合成動画データ生成部では、前記音量レベルに応じて、前記入力された動画データに重畳する前記オノマトペの文字データのサイズが変更される、請求項1に記載の擬音表示システム。
【請求項3】
前記判定対象の音声データに基いて、当該判定対象の音声データの音量レベルを表す波形データを生成する波形データ生成部を備え、
前記合成動画データ生成部では、前記入力された動画データに、前記波形データが重畳される、請求項1に記載の擬音表示システム。
【請求項4】
前記合成動画データ生成部は、前記動画データを表示するフレームの周囲を囲むように、前記動画データのフレームの周りに前記波形データを配置する、請求項3に記載の擬音表示システム。
【請求項5】
前記記憶部には、前記擬音データごとに、前記オノマトペの文字データの表示/非表示を示す優先度情報が設定されており、
前記合成動画データ生成部では、前記優先度情報が表示に設定されている前記オノマトペの文字データが、前記入力された動画データに重畳され、前記優先度情報が非表示に設定されている前記オノマトペの文字データが、前記入力された動画データに重畳されない
、請求項1に記載の擬音表示システム。
【請求項6】
擬音表示システムで実行される方法であって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
を備え、
前記方法は、
動画データが入力されるステップと、
前記動画データから判定対象の音声データを抽出するステップと、
前記機械学習部で分析した関係に基づいて、前記動画データから抽出された前記判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力するステップと、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得するステップと、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、
を含み、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、方法。
【請求項7】
擬音表示システムと通信可能な端末装置であって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、
を備え、
前記端末装置は、
動画データが入力される動画データ入力部と、
前記動画データから判定対象の音声データを抽出する音声データ抽出部と、
前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信する送信部と、
前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信する受信部と、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、
を備え、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、端末装置。
【請求項8】
擬音表示システムと通信可能な端末装置で実行される方法であって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、
を備え、
前記方法は、
動画データが入力されるステップと、
前記動画データから判定対象の音声データを抽出するステップと、
前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信するステップと、
前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信するステップと、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、
を含み、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、方法。
【請求項9】
擬音表示システムと通信可能な端末装置で実行されるプログラムであって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、
を備え、
前記プログラムは、前記端末装置に、
動画データが入力されると、前記動画データから判定対象の音声データを抽出する処理と、
前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信する処理と、
前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信する処理と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する処理と、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する処理と、
を実行させ、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記端末装置では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、プログラム。
【請求項10】
擬音表示システムと通信可能な端末装置であって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、
を備え、
前記端末装置は、
前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、
動画データが入力される動画データ入力部と、
前記動画データから判定対象の音声データを抽出する音声データ抽出部と、
前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、
を備え、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、端末装置。
【請求項11】
擬音表示システムと通信可能な端末装置で実行される方法であって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、
を備え、
前記端末装置は、
前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部を備え、
前記方法は、
動画データが入力されるステップと、
前記動画データから判定対象の音声データを抽出するステップと、
前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力するステップと、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得するステップと、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、
を含み、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、方法。
【請求項12】
擬音表示システムと通信可能な端末装置で実行されるプログラムであって、
前記擬音表示システムは、
音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、
前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、
を備え、
前記端末装置は、
前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部を備え、
前記プログラムは、前記端末装置に、
動画データが入力されると、前記動画データから判定対象の音声データを抽出する処理と、
前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する処理と、
前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する処理と、
前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する処理と、
を実行させ、
前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、
前記端末装置では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された動画データに含まれる擬音を表示する機能を備える擬音表示システムに関する。
【背景技術】
【0002】
従来、聴覚障害をもつ人でも、音をともなう種々の情報を視覚的に捉えることができる情報報知システムが提案されている(例えば、特許文献1参照)。従来のシステムでは、音入力部で入力された音情報が、無線信号で携帯電話等の電子機器に送信し、その装置で音情報を映像情報に変換して、その映像情報が電子機器の表示部の画面に表示される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-207876号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のシステムでは、聴覚障碍者の擬音の学習効果について、まったく考慮されていない。例えば、身の回りの音がすべて同じフォントで表示されると、音の質感が伝わりにくくなり、その結果、聴覚障害者の擬音の学習効果が低下してしまう。
【0005】
本発明は、上記の課題に鑑みてなされたもので、聴覚障害者の擬音の学習効果を向上することのできる擬音表示システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、動画データが入力される動画データ入力部と、前記動画データから判定対象の音声データを抽出する音声データ抽出部と、前記機械学習部で分析した関係に基づいて、前記動画データから抽出された前記判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、を備え、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0007】
この構成によれば、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0008】
また、本発明の擬音表示システムでは、前記判定対象の音声データの音量レベルを算出する音量レベル算出部を備え、前記合成動画データ生成部では、前記音量レベルに応じて、前記入力された動画データに重畳する前記オノマトペの文字データのサイズが変更されてもよい。
【0009】
この構成によれば、音声データの音量レベルに応じて、動画データに重畳するオノマトペの文字データのサイズが変更される。例えば、音量レベルが大きいときには、擬音を表示する文字データのサイズを大きくし、音量レベルが小さいときには、擬音を表示する文字データのサイズを小さくする。これにより、擬音を表示する文字データのサイズによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0010】
また、本発明の擬音表示システムは、前記判定対象の音声データに基いて、当該判定対象の音声データの音量レベルを表す波形データを生成する波形データ生成部を備え、前記合成動画データ生成部では、前記入力された動画データに、前記波形データが重畳されてもよい。
【0011】
この構成によれば、音声データの音量レベルを表す波形データが動画データに重畳される。これにより、波形データによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0012】
また、本発明の擬音表示システムでは、前記合成動画データ生成部は、前記動画データを表示するフレームの周囲を囲むように、前記動画データのフレームの周りに前記波形データを配置してもよい。
【0013】
この構成によれば、音声データの音量レベルを表す波形データが、動画データを表示するフレームの周囲を囲むように、動画データに重畳される。これにより、波形データによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0014】
また、本発明の擬音表示システムでは、前記記憶部には、前記擬音データごとに、前記オノマトペの文字データの表示/非表示を示す優先度情報が設定されており、前記合成動画データ生成部では、前記優先度情報が表示に設定されている前記オノマトペの文字データが、前記入力された動画データに重畳され、前記優先度情報が非表示に設定されている前記オノマトペの文字データが、前記入力された動画データに重畳されなくてもよい。
【0015】
この構成によれば、擬音データごとに、オノマトペの文字データの表示/非表示を示す優先度情報が設定されており、優先度情報が「表示」に設定されているオノマトペの文字データが動画データに重畳され、優先度情報が「非表示」に設定されているオノマトペの文字データは動画データに重畳されない。これにより、身の回りの音を表示して見える化することができるとともに、ノイズの音は非表示とすることができ、聴覚障害者の擬音の学習効果を向上することができる。
【0016】
本発明の方法は、擬音表示システムで実行される方法であって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、を備え、前記方法は、動画データが入力されるステップと、前記動画データから判定対象の音声データを抽出するステップと、前記機械学習部で分析した関係に基づいて、前記動画データから抽出された前記判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力するステップと、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得するステップと、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、を含み、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0017】
この方法によっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0018】
本発明の端末装置は、擬音表示システムと通信可能な端末装置であって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、を備え、前記端末装置は、動画データが入力される動画データ入力部と、前記動画データから判定対象の音声データを抽出する音声データ抽出部と、前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信する送信部と、前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信する受信部と、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、を備え、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0019】
この端末装置によっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0020】
本発明の方法は、擬音表示システムと通信可能な端末装置で実行される方法であって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、を備え、前記方法は、動画データが入力されるステップと、前記動画データから判定対象の音声データを抽出するステップと、前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信するステップと、前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信するステップと、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、を含み、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0021】
この方法によっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0022】
本発明のプログラムは、擬音表示システムと通信可能な端末装置で実行されるプログラムであって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係に基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記擬音データと、当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、を備え、前記プログラムは、前記端末装置に、動画データが入力されると、前記動画データから判定対象の音声データを抽出する処理と、前記機械学習部への入力として、前記動画データから抽出された前記判定対象の音声データを、前記擬音表示システムに送信する処理と、前記推定部で推定して出力された当該判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、前記擬音表示システムから受信する処理と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する処理と、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する処理と、を実行させ、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記端末装置では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0023】
このプログラムによっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0024】
本発明の端末装置は、擬音表示システムと通信可能な端末装置であって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、を備え、前記端末装置は、前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部と、動画データが入力される動画データ入力部と、前記動画データから判定対象の音声データを抽出する音声データ抽出部と、前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部と、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する合成動画データ生成部と、を備え、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記合成動画データ生成部では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0025】
この端末装置によっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0026】
本発明の方法は、擬音表示システムと通信可能な端末装置で実行される方法であって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、を備え、前記端末装置は、前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部を備え、前記方法は、動画データが入力されるステップと、前記動画データから判定対象の音声データを抽出するステップと、前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力するステップと、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得するステップと、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成するステップと、を含み、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記方法では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0027】
この方法によっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0028】
本発明のプログラムは、擬音表示システムと通信可能な端末装置で実行されるプログラムであって、前記擬音表示システムは、音声データと、前記音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機械学習部と、前記機械学習部で分析した関係を、機械学習済みデータとして端末装置に送信する送信部と、を備え、前記端末装置は、前記擬音表示システムから送信された前記機械学習済みデータが記憶されているとともに、前記擬音データと当該擬音を表すオノマトペの文字データとが対応付けれて記憶されている記憶部を備え、前記プログラムは、前記端末装置に、動画データが入力されると、前記動画データから判定対象の音声データを抽出する処理と、前記記憶部に記憶されている前記機械学習済みデータに基づいて、判定対象の音声データを入力として、当該判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する処理と、前記記憶部を参照して、前記推定して出力された前記擬音データに対応付けられているオノマトペの文字データを取得する処理と、前記入力された動画データに前記オノマトペの文字データが重畳された合成動画データを生成する処理と、を実行させ、前記記憶部には、前記オノマトペの文字データが、前記擬音データに応じたフォント形式で記憶されており、前記端末装置では、前記擬音データに応じたフォント形式の前記オノマトペの文字データが、前記入力された動画データに重畳される。
【0029】
このプログラムによっても、上記のシステムと同様、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【発明の効果】
【0030】
本発明によれば、聴覚障害者の擬音の学習効果を向上することができる。
【図面の簡単な説明】
【0031】
図1】第1の実施の形態における擬音表示システムのブロック図である。
図2】第1の実施の形態におけるデータの対応付け一例である。
図3】第1の実施の形態における擬音表示(表示画面)の一例を示す図である。
図4】第1の実施の形態における擬音表示システムの動作を説明するためのシーケンス図である。
図5】第2の実施の形態における擬音表示システムのブロック図である。
図6】第2の実施の形態における擬音表示システムの動作を説明するためのシーケンス図である。
【発明を実施するための形態】
【0032】
以下、本発明の実施の形態の擬音表示システムについて、図面を用いて説明する。本実施の形態では、聴覚障害者の学習システム等に用いられる擬音表示システムの場合を例示する。
【0033】
(第1の実施の形態)
本発明の第1の実施の形態の擬音表示システムの構成を、図面を参照して説明する。図1は、第1の実施の形態の擬音表示システムの構成を示すブロック図である。図1に示すように、擬音表示システム1は、サーバ装置2と、ユーザ装置3で構成されている。サーバ装置2とユーザ装置3は、ネットワーク4で互いに通信可能に接続されている。例えば、サーバ装置2は、擬音表示サービスの提供者が所有するクラウドサーバ等であり、ユーザ装置3は、擬音表示サービスの利用者が所有するスマートフォン等である。
【0034】
図1に示すように、サーバ装置2は、機械学習部20と、推定部21と、文字データ取得部22と、記憶部23を備えている。機械学習部20は、音声データと、その音声データに含まれる擬音を表す擬音データとの関係を、機械学習により分析する機能を備えている。この機械学習には、ニューラルネットワークによるディープラーニング等の任意の手法が用いられる。
【0035】
例えば、ニューラルネットワークであれば、音声データを入力層に入力し、その音声データに含まれる擬音を表す擬音データを出力層から出力するように構成する。そして、入力層に入力するデータと出力層から出力されるデータとが紐付けられた分析用データ(教師データ)を用いた教師あり学習によって、ニューラルネットワークのニューロン間の重み付け係数が最適化される。
【0036】
推定部21は、機械学習部20で分析した関係に基づいて、後述するようにユーザ端末から送信された判定対象の音声データを入力として、その判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する機能を備えている。
【0037】
例えば、上記のニューラルネットワークであれば、判定対象の音声データを入力層に入力し、その判定対象の音声データに含まれる擬音を表す擬音データを推定して出力層から出力することにより、判定対象の音声データに含まれる擬音を表す擬音データの推定が行われる。
【0038】
文字データ取得部22は、記憶部23を参照して、推定部21から出力された擬音データに対応付けられているオノマトペの文字データを取得する機能を備えている。図2に示すように、記憶部23には、擬音データ(例えば「cat」「music」「speech」など)と、その擬音を表すオノマトペ(例えば「ニャー」「♪」「ペチャクチャ」など)と、そのオノマトペの文字データ(例えば「nya-.png」「music.png」「pechakucha.png」など)とが対応付けれて記憶されている。例えば、推定部21から「cat」という擬音データが出力された場合には、文字データ取得部22は「nya-.png」というオノマトペの文字データを取得する。
【0039】
この場合、記憶部23には、オノマトペの文字データが、擬音データに応じたフォント形式で記憶されている。例えば、オノマトペの文字データ「nya-.png」は、擬音データ「cat」に応じたフォント形式、すなわち、「猫(の鳴き声)」の音の質感を表すフォント形式(例えば、フォント形式A)の文字データである。また、オノマトペの文字データ「music.png」は、擬音データ「music」に応じたフォント形式、すなわち、「音楽」の音の質感を表すフォント形式(例えば、フォント形式B)の文字データである。
【0040】
また、記憶部23には、擬音データごとに、オノマトペの文字データの表示/非表示を示す優先度情報(例えば、優先度「高」、優先度「低」など)が設定されている。例えば、擬音データ「cat」は、オノマトペの文字データを表示することを示す優先度「高」が設定されており、擬音データ「vehicle」は、オノマトペの文字データを非表示とすることを示す優先度「低」が設定されている。この優先度情報(すなわち、オノマトペの文字データの表示/非表示)は、聴覚障害者の擬音の学習効果を考慮して、予め設定することができる。
【0041】
なお、記憶部23には、擬音データごとに、その擬音を表すオブジェクト名が対応づけて記憶されている。例えば、擬音データ「cat」には、その擬音を表すオブジェクト名「猫」が対応づけて記憶されている。また、擬音データ「music」には、その擬音を表すオブジェクト名「音楽」が対応づけて記憶されている。これらのオブジェクト名は、オノマトペとともにユーザ装置3に表示されてもよい。
【0042】
図1に示すように、ユーザ装置3は、撮影部30と、動画データ入力部31と、音声データ抽出部32と、通信部33と、音量レベル算出部34と、波形データ生成部35と、合成動画データ生成部36と、表示部37と、記憶部38を備えている。
【0043】
撮影部30は、動画を撮影する機能を備えており、例えば、ユーザ装置3に備えられたカメラ機能によって構成される。撮影部30で撮影された動画データは、動画データ入力部31に入力される。なお、動画データ入力部31には、撮影部30で撮影された動画データのほかにも、記憶部38に保存されている動画データ(例えば、他のユーザ装置から受け取った動画データやインターネット上で取得した動画データなど)が入力されてもよい。
【0044】
音声データ抽出部32は、動画データから判定対象の音声データを抽出する機能を備えている。音声データの抽出には、公知の技術を利用することができる。通信部33は、抽出された判定対象の音声データをサーバ装置2に送信する機能を備えている。また、通信部33は、判定対象の音声データに含まれる擬音を表す擬音データに対応づけられているオノマトペの文字データを、サーバ装置2から受信する機能を備えている。
【0045】
音量レベル算出部34は、判定対象の音声データの音量レベルを算出する機能を備えている。音量レベルの算出には、公知の技術を利用することができる。波形データ生成部35は、判定対象の音声データに基いて、その判定対象の音声データの音量レベルを表す波形データを生成する機能を備えている。例えば、波形データ生成部35は、判定対象の音声データから所定時間(例えば0.02秒間)の音声データの音量レベルの時間変化を示す波形データを生成する。
【0046】
合成動画データ生成部36は、入力された動画データにオノマトペの文字データが重畳された合成動画データを生成する機能を備えている。合成動画データ生成部36では、擬音データに応じたフォント形式のオノマトペの文字データが、入力された動画データに重畳される。また、合成動画データ生成部36では、音量レベルに応じて、入力された動画データに重畳するオノマトペの文字データのサイズが変更される。例えば、音量レベルが小さいほど、オノマトペの文字データのサイズが小さくなり、音量レベルが大きいほど、オノマトペの文字データのサイズが大きくなるように、入力された動画データに重畳するオノマトペの文字データのサイズが変更される。
【0047】
さらに、合成動画データ生成部36では、入力された動画データに、波形データ生成部35で生成された波形データが重畳される。この場合、合成動画データ生成部36は、動画データを表示するフレームの周囲を囲むように、動画データのフレームの周りに波形データを配置する(図3参照)。例えば、図3の例では、波形データ(例えば、0.02秒間の音量レベルの時間変化を示す波形データ)を、フレームの左上を始点として反時計回りにフレームの周りを一周させることにより、動画データのフレームの周りに波形データが配置されている。
【0048】
また、合成動画データ生成部36では、優先度情報が表示に設定されているオノマトペの文字データが、入力された動画データに重畳される。優先度情報が非表示に設定されているオノマトペの文字データが、入力された動画データに重畳されない。
【0049】
表示部37は、各種のデータを表示する機能を備えている。表示部37には、合成動画データ生成部36で生成された合成動画データが表示される。図3には、擬音表示(表示画面)の一例が示される。図3の例では、猫の動画データが入力された場合の合成動画データが、ユーザ装置3の表示部37に表示されている。この場合、猫の動画データの上に、猫の鳴き声のオノマトペ「ニャー」が重畳されるとともに、猫の動画データのフレームの周りに波形データWが配置されている。
【0050】
記憶部38には、擬音表示に用いられる各種のデータが記憶される。例えば、記憶部38には、撮影部30で撮影された動画データや、合成動画データ生成部36で生成された合成動画データなどが保存される。また、記憶部38には、擬音表示の機能を実現するためのプログラムがインストールされる。
【0051】
以上のように構成された第1の実施の形態の擬音表示システム1について、図4のシーケンス図を参照してその動作を説明する。
【0052】
図4に示すように、第1の実施の形態の擬音表示システム1では、サーバ装置2の機械学習部20で、音声データと、その音声データに含まれる擬音を示す擬音データとの関係を、予め機械学習により分析しておく(S10)。そして、ユーザ装置3の撮影部30で動画の撮影が行われて、動画データ入力部31にその動画データが入力されると(S11)、動画データから判定対象の音声データが抽出され(S12)、サーバ装置2へ送信される(S13)。
【0053】
サーバ装置2では、機械学習部20で分析した関係に基づいて、動画データから抽出された判定対象の音声データ(ユーザ装置3から送信された判定対象の音声データ)を入力として、その判定対象の音声データに含まれる擬音を表す擬音データが推定して出力される(S14)。つぎに、サーバ装置2では、記憶部23を参照して、推定して出力された擬音データに対応付けられているオノマトペの文字データ(擬音データに応じたフォント形式の文字データ)が取得され(S15)、取得したオノマトペの文字データがユーザ装置3に送信される(S16)。
【0054】
ユーザ装置3では、判定対象の音声データから音量レベルが算出されるとともに(S17)、判定対象の音声データの音量レベルを表す波形データが生成される(S18)。そして、ユーザ装置3では、サーバ装置2から送信されたオノマトペの文字データ(擬音データに応じたフォント形式の文字データ)を、音量レベルに応じた文字データのサイズ(フォントサイズ)に変更し、動画データ入力部31に入力された動画データに重畳することによって、合成動画データが生成される(S19)。このようにして生成された合成動画データが、ユーザ装置3の表示部37に表示される(S20)。
【0055】
このような第1の実施の形態の擬音表示システム1によれば、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳される。これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【0056】
また、本実施の形態では、音声データの音量レベルに応じて、動画データに重畳するオノマトペの文字データのサイズが変更される。例えば、音量レベルが大きいときには、擬音を表示する文字データのサイズを大きくし、音量レベルが小さいときには、擬音を表示する文字データのサイズを小さくする。これにより、擬音を表示する文字データのサイズによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0057】
また、本実施の形態では、音声データの音量レベルを表す波形データが動画データに重畳される。これにより、波形データによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0058】
また、本実施の形態では、音声データの音量レベルを表す波形データが、動画データを表示するフレームの周囲を囲むように、動画データに重畳される。これにより、波形データによって音量レベルを直感的に理解することが可能となり、聴覚障害者の擬音の学習効果を向上することができる。
【0059】
また、本実施の形態では、擬音データごとに、オノマトペの文字データの表示/非表示を示す優先度情報が設定されており、優先度情報が「表示」に設定されているオノマトペの文字データが動画データに重畳され、優先度情報が「非表示」に設定されているオノマトペの文字データは動画データに重畳されない。これにより、身の回りの音を表示して見える化することができるとともに、ノイズの音は非表示とすることができ、聴覚障害者の擬音の学習効果を向上することができる。
【0060】
(第2の実施の形態)
次に、本発明の第2の実施の形態の擬音表示システムについて説明する。ここでは、第2の実施の形態の擬音表示システムが、第1の実施の形態と相違する点を中心に説明する。ここで特に言及しない限り、本実施の形態の構成および動作は、第1の実施の形態と同様である。
【0061】
図5は、第2の実施の形態の擬音表示システムの構成を示すブロック図である。図5に示すように、本実施の形態の擬音表示システム100では、サーバ装置102は、機械学習部20で分析した関係を、機械学習済みデータとしてユーザ装置103に送信する送信部24を備えており、端末装置103の記憶部28には、サーバ装置102から送信された機械学習済みデータが記憶されている。
【0062】
また、本実施の形態の擬音表示システム100では、ユーザ装置103は、記憶部38に記憶されている機械学習済みデータに基づいて、判定対象の音声データを入力として、その判定対象の音声データに含まれる擬音を表す擬音データを推定して出力する推定部39と、記憶部38を参照して、推定して出力された擬音データに対応付けられているオノマトペの文字データを取得する文字データ取得部40を備えている。
【0063】
以上のように構成された第2の実施の形態の擬音表示システム1について、図6のシーケンス図を参照してその動作を説明する。
【0064】
図6に示すように、第2の実施の形態の擬音表示システム1では、サーバ装置2の機械学習部20で、音声データと、その音声データに含まれる擬音を示す擬音データとの関係を、予め機械学習により分析しておく(S10)。機械学習部20で分析した関係は、機械学習済みデータとしてユーザ装置103に送信され(S100)、ユーザ装置103の記憶部38に記憶される。
【0065】
そして、ユーザ装置103の撮影部30で動画の撮影が行われて、動画データ入力部31にその動画データが入力されると(S11)、動画データから判定対象の音声データが抽出される(S12)。ユーザ装置103では、記憶部38に記憶されている機械学習済みデータに基づいて、動画データから抽出された判定対象の音声データ(ユーザ装置3から送信された判定対象の音声データ)を入力として、その判定対象の音声データに含まれる擬音を表す擬音データが推定して出力される(S102)。つぎに、ユーザ装置103では、記憶部38を参照して、推定して出力された擬音データに対応付けられているオノマトペの文字データ(擬音データに応じたフォント形式の文字データ)が取得される(S103)。
【0066】
次に、ユーザ装置103では、判定対象の音声データから音量レベルが算出されるとともに(S17)、判定対象の音声データの音量レベルを表す波形データが生成される(S18)。そして、ユーザ装置103では、サーバ装置2から送信されたオノマトペの文字データ(擬音データに応じたフォント形式の文字データ)を、音量レベルに応じた文字データのサイズ(フォントサイズ)に変更し、動画データ入力部31に入力された動画データに重畳することによって、合成動画データが生成される(S19)。このようにして生成された合成動画データが、ユーザ装置103の表示部37に表示される(S20)。
【0067】
このような本発明の第2の実施の形態の擬音表示システム101によっても、第1の実施の形態と同様の作用効果が奏される。すなわち、擬音データに応じたフォント形式のオノマトペの文字データが動画データに重畳され、これにより、身の回りの音を表示して「見える化」する際に、擬音に応じた適切なフォント形式での表示が可能となるので、音の質感が伝わりやすくなり、聴覚障害者の擬音の学習効果を向上することができる。
【産業上の利用可能性】
【0068】
以上のように、本発明にかかる擬音表示システムは、聴覚障害者の擬音の学習効果を向上することができるという効果を有し、聴覚障害者の学習システム等として有用である。
【符号の説明】
【0069】
1 擬音表示システム
2 サーバ装置
3 ユーザ装置
4 ネットワーク
20 機械学習部
21 推定部
22 文字データ取得部
23 記憶部
30 撮影部
31 動画データ入力部
32 音声データ抽出部
33 通信部
34 音量レベル算出部
35 波形データ生成部
36 合成動画データ生成部
37 表示部
38 記憶部
101 擬音表示システム
102 サーバ装置
103 ユーザ装置
24 送信部
39 推定部
40 文字データ取得部
図1
図2
図3
図4
図5
図6