IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シーイーシーの特許一覧

特開2024-77245音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム
<>
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図1
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図2A
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図2B
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図2C
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図2D
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図3
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図4
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図5
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図6
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図7
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図8
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図9
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図10
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図11
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図12
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図13
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図14
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図15
  • 特開-音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024077245
(43)【公開日】2024-06-07
(54)【発明の名称】音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラム
(51)【国際特許分類】
   G01H 3/00 20060101AFI20240531BHJP
【FI】
G01H3/00 Z
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022189209
(22)【出願日】2022-11-28
(71)【出願人】
【識別番号】398011446
【氏名又は名称】株式会社シーイーシー
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(72)【発明者】
【氏名】梅野 学
(72)【発明者】
【氏名】中山 裕斗
【テーマコード(参考)】
2G064
【Fターム(参考)】
2G064AA14
2G064AB01
2G064AB02
2G064AB13
2G064CC02
2G064CC29
2G064CC43
2G064CC46
2G064DD08
2G064DD14
2G064DD15
(57)【要約】
【課題】音を判定できる音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラムを提供すること。
【解決手段】音判定システムは、音データを受け付ける受付部と、受付部が受け付けた音データから、音の特徴が表されている部分を抽出する抽出部と、受付部が受け付けた音データに基づいて、音を判定する第1処理部と、抽出部が抽出した音の特徴が表されている部分に基づいて、音を判定する第2処理部と、第1処理部による音の第1判定結果と第2処理部による音の第2判定結果とに基づいて、音を判定する判定部と、判定部による音の判定結果を出力する出力部とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
音データを受け付ける受付部と、
前記受付部が受け付けた前記音データから、音の特徴が表されている部分を抽出する抽出部と、
前記受付部が受け付けた前記音データに基づいて、前記音を判定する第1処理部と、
前記抽出部が抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定する第2処理部と、
前記第1処理部による前記音の第1判定結果と前記第2処理部による前記音の第2判定結果とに基づいて、前記音を判定する判定部と、
前記判定部による前記音の判定結果を出力する出力部と
を備える、音判定システム。
【請求項2】
前記第1処理部は、複数の音声データの各々について音画像と前記音データの音を識別する情報との関係を機械学習しており、前記受付部が受け付けた前記音声データを音画像に変換し、当該機械学習の結果を使用して、前記音画像に基づいて前記音を判定する、請求項1に記載の音判定システム。
【請求項3】
前記抽出部は、前記音データに基づいて波形情報を取得し、
前記第1処理部は、複数の音データの各々について波形情報と前記音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、前記抽出部が取得した前記波形情報に基づいて前記音を判定する、請求項1に記載の音判定システム。
【請求項4】
前記波形情報は、周波数、吹鳴周期、吹鳴回数の少なくとも一つである、請求項3に記載の音判定システム。
【請求項5】
前記抽出部は、前記音データから前記音の特徴が表されている部分を抽出し、
前記第2処理部は、複数の音声データの各々について音の特徴が表されている部分の音画像と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像に基づいて前記音を判定する、請求項1に記載の音判定システム。
【請求項6】
前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、
前記第2処理部は、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、前記音画像の次元を圧縮し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像の次元を圧縮した結果に基づいて前記音を判定する、請求項1に記載の音判定システム。
【請求項7】
前記抽出部は、前記音データに基づいて波形情報を取得し、
前記第1処理部は、
複数の音データの各々について波形情報と前記音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、前記抽出部が取得した前記波形情報に基づいて前記音を判定するとともに、
複数の音声データの各々について音画像と前記音データの音を識別する情報との関係を機械学習しており、前記受付部が受け付けた前記音声データを音画像に変換し、当該機械学習の結果を使用して、前記音画像に基づいて前記音を判定する、請求項1に記載の音判定システム。
【請求項8】
前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、
前記第2処理部は、
複数の音声データの各々について音の特徴が表されている部分の音画像と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像に基づいて前記音を判定するとともに、
前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、
複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、前記音画像の次元を圧縮し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像の次元を圧縮した結果に基づいて前記音を判定する、請求項7に記載の音判定システム。
【請求項9】
前記判定部は、音の特徴が表されている前記部分の音画像に基づいて音を判定した前記結果と、音の特徴が表されている前記部分の音画像の次元を圧縮した結果に基づいて音を判定した前記結果とのいずれかを、特徴量との一致度に基づいて判定する、請求項8に記載の音判定システム。
【請求項10】
音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付ける受付部と、
前記受付部が受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音データの音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する処理部と、
前記処理部が作成した前記学習モデルを出力する出力部と
を備える、学習モデル作成システム。
【請求項11】
前記受付部は、音データの音の特徴が表されている部分を変換した音部分画像を示す情報が学習データとして含まれ且つ音データによって示される前記音を識別する情報が教師データとして含まれる学習用データセットを受け付け、
前記処理部は、前記受付部が受け付けた前記学習用データセットに基づいて、前記音データの音の特徴が表されている前記部分を変換した前記音部分画像を説明変数、前記音データによって示される音を識別する情報を目的変数として、音データの音の特徴が表されている前記部分を変換した音部分画像情報と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する、請求項10に記載の学習モデル作成システム。
【請求項12】
コンピュータが実行する音判定方法であって、
音データを受け付けるステップと、
前記受け付けるステップで受け付けた前記音データから、音の特徴が表されている部分を抽出するステップと、
前記受け付けるステップで受け付けた前記音データに基づいて、前記音を判定するステップと、
前記抽出するステップで抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定するステップと、
前記音データに基づいて前記音を判定した結果と前記音の特徴が表されている前記部分に基づいて前記音を判定した結果とに基づいて、前記音を判定するステップと、
前記判定するステップによる前記音の判定結果を出力するステップと
を有する、音判定方法。
【請求項13】
コンピュータが実行する学習モデル作成方法であって、
音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付けるステップと、
前記受け付けるステップで受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成するステップと、
前記作成するステップで作成した前記学習モデルを出力するステップと
を有する、学習モデル作成方法。
【請求項14】
コンピュータに、
音データを受け付けるステップと、
前記受け付けるステップで受け付けた前記音データから、音の特徴が表されている部分を抽出するステップと、
前記受け付けるステップで受け付けた前記音データに基づいて、前記音を判定するステップと、
前記抽出するステップで抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定するステップと、
前記音データに基づいて前記音を判定した結果と前記音の特徴が表されている前記部分に基づいて前記音を判定した結果とに基づいて、前記音を判定するステップと、
前記判定するステップによる前記音の判定結果を出力するステップと
を実行させる、プログラム。
【請求項15】
コンピュータに、
音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付けるステップと、
前記受け付けるステップで受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音を識別する情報を目的変数として、音データを変換した音画像情報と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成するステップと、
前記作成するステップで作成した前記学習モデルを出力するステップと
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラムに関する。
【背景技術】
【0002】
近年、自動車や産業機器、デジタル家電のものづくり領域では、国際的な安全・環境基準への厳しい要求やグローバル標準化が加速している。自動運転技術が進む自動車業界ではソフトウェア開発の大規模化・複雑化に加え、市場からの短納期・高品質な開発要求により、検証工程の負担は年々増大している。ソフトウェア開発現場では、品質保証と同時に効率化を目指すため、テスト領域の自動化が加速している。しかし、機器音に関しては、複雑なノイズ音や音のタイミングの違いにより、従来の波形や周波数を使ったテスト手法では自動化されにくいのが現状である。
【0003】
機器音を検出する技術に関して、乗員の耳に届くキャビン内の異音の発生源がエンジンコンパートメント内であることを判定する技術が知られている(例えば、特許文献1参照)。この技術では、音源判定システムの実行装置は、エンジンコンパートメント内に設置されたマイクで収録した第1録音データから作成した第1解析用画像を機械学習済みモデルに入力して特定異音の特徴が現れている部分を検出する第1検出処理と、車両のキャビン内に設置されたマイクで収録した第2録音データから作成した第2解析用画像を機械学習済みモデルに入力して特定異音の特徴が現れている部分を検出する第2検出処理とを実行する。そして、実行装置は、第2検出処理を通じて検出された部分のうち、第1検出処理を通じて検出された部分と一致する判定対象部分がある場合に、異音の発生源がエンジンコンパートメント内であると判定する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-81305号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
検査担当者による検査工程が多い自動車や産業用装置、デジタル家電の中で、機器音の判定は、手動操作が必要性であり、判定精度も低い。
本発明は、音を判定できる音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様は、音データを受け付ける受付部と、前記受付部が受け付けた前記音データから、音の特徴が表されている部分を抽出する抽出部と、前記受付部が受け付けた前記音データに基づいて、前記音を判定する第1処理部と、前記抽出部が抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定する第2処理部と、前記第1処理部による前記音の第1判定結果と前記第2処理部による前記音の第2判定結果とに基づいて、前記音を判定する判定部と、前記判定部による前記音の判定結果を出力する出力部とを備える、音判定システムである。
(2)本発明の一態様の音判定システムにおいて、前記第1処理部は、複数の音声データの各々について音画像と前記音データの音を識別する情報との関係を機械学習しており、前記受付部が受け付けた前記音声データを音画像に変換し、当該機械学習の結果を使用して、前記音画像に基づいて前記音を判定する。
(3)本発明の一態様の音判定システムにおいて、前記抽出部は、前記音データに基づいて波形情報を取得し、前記第1処理部は、複数の音データの各々について波形情報と前記音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、前記抽出部が取得した前記波形情報に基づいて前記音を判定する。
(4)本発明の一態様の音判定システムにおいて、前記波形情報は、周波数、吹鳴周期、吹鳴回数の少なくとも一つである。
(5)本発明の一態様の音判定システムにおいて、前記抽出部は、前記音データから前記音の特徴が表されている部分を抽出し、前記第2処理部は、複数の音声データの各々について音の特徴が表されている部分の音画像と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像に基づいて前記音を判定する。
(6)本発明の一態様の音判定システムにおいて、前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、前記第2処理部は、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、前記音画像の次元を圧縮し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像の次元を圧縮した結果に基づいて前記音を判定する。
(7)本発明の一態様の音判定システムにおいて、前記抽出部は、前記音データに基づいて波形情報を取得し、前記第1処理部は、複数の音データの各々について波形情報と前記音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、前記抽出部が取得した前記波形情報に基づいて前記音を判定するとともに、複数の音声データの各々について音画像と前記音データの音を識別する情報との関係を機械学習しており、前記受付部が受け付けた前記音声データを音画像に変換し、当該機械学習の結果を使用して、前記音画像に基づいて前記音を判定する。
(8)本発明の一態様の音判定システムにおいて、前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、前記第2処理部は、複数の音声データの各々について音の特徴が表されている部分の音画像と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像に基づいて前記音を判定するとともに、前記抽出部は、前記音データから、前記音の特徴が表されている部分を抽出し、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と前記音データの音を識別する情報との関係を機械学習しており、前記抽出部が抽出した前記音の特徴が表されている部分を音画像に変換し、前記音画像の次元を圧縮し、当該機械学習の結果を使用して、前記音の特徴が表されている部分の前記音画像の次元を圧縮した結果に基づいて前記音を判定する。
(9)本発明の一態様の音判定システムにおいて、前記判定部は、音の特徴が表されている前記部分の音画像に基づいて音を判定した前記結果と、音の特徴が表されている前記部分の音画像の次元を圧縮した結果に基づいて音を判定した前記結果とのいずれかを、特徴量との一致度に基づいて判定する。
【0007】
(10)本発明の一態様は、音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付ける受付部と、前記受付部が受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音データの音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する処理部と、前記処理部が作成した前記学習モデルを出力する出力部とを備える、学習モデル作成システムである。
(11)本発明の一態様の学習モデル作成システムにおいて、前記受付部は、音データの音の特徴が表されている部分を変換した音部分画像を示す情報が学習データとして含まれ且つ音データによって示される前記音を識別する情報が教師データとして含まれる学習用データセットを受け付け、前記処理部は、前記受付部が受け付けた前記学習用データセットに基づいて、前記音データの音の特徴が表されている前記部分を変換した前記音部分画像を説明変数、前記音データによって示される音を識別する情報を目的変数として、音データの音の特徴が表されている前記部分を変換した音部分画像情報と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する。
【0008】
(12)本発明の一態様は、コンピュータが実行する音判定方法であって、音データを受け付けるステップと、前記受け付けるステップで受け付けた前記音データから、音の特徴が表されている部分を抽出するステップと、前記受け付けるステップで受け付けた前記音データに基づいて、前記音を判定するステップと、前記抽出するステップで抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定するステップと、前記音データに基づいて前記音を判定した結果と前記音の特徴が表されている前記部分に基づいて前記音を判定した結果とに基づいて、前記音を判定するステップと、前記判定するステップによる前記音の判定結果を出力するステップとを有する、音判定方法である。
(13)本発明の一態様は、コンピュータが実行する学習モデル作成方法であって、音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付けるステップと、前記受け付けるステップで受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成するステップと、前記作成するステップで作成した前記学習モデルを出力するステップとを有する、学習モデル作成方法である。
【0009】
(14)本発明の一態様は、コンピュータに、音データを受け付けるステップと、前記受け付けるステップで受け付けた前記音データから、音の特徴が表されている部分を抽出するステップと、前記受け付けるステップで受け付けた前記音データに基づいて、前記音を判定するステップと、前記抽出するステップで抽出した前記音の特徴が表されている前記部分に基づいて、前記音を判定するステップと、前記音データに基づいて前記音を判定した結果と前記音の特徴が表されている前記部分に基づいて前記音を判定した結果とに基づいて、前記音を判定するステップと、前記判定するステップによる前記音の判定結果を出力するステップとを実行させる、プログラムである。
(15)本発明の一態様は、コンピュータに、音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付けるステップと、前記受け付けるステップで受け付けた前記学習用データセットに基づいて、前記音データを変換した前記音画像を説明変数、前記音データによって示される前記音を識別する情報を目的変数として、音データを変換した音画像情報と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成するステップと、前記作成するステップで作成した前記学習モデルを出力するステップとを実行させる、プログラムである。
【発明の効果】
【0010】
本発明によれば、音を判定できる音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラムを提供できる。
【図面の簡単な説明】
【0011】
図1】本実施形態の音判定システム100の一例を示す図である。
図2A】音画像の一例を示す図である。
図2B】音画像の一例を示す図である。
図2C】音画像の一例を示す図である。
図2D】音画像の一例を示す図である。
図3】指紋画像の一例を説明するための図である。
図4】本実施形態に係る第1学習モデル作成システム200の一例を示す図である。
図5】本実施形態に係る第2学習モデル作成システム300の一例を示す図である。
図6】本実施形態に係る音判定システム100の動作の一例を示すフロー図である。
図7】本実施形態に係る第1学習モデル作成システム200の動作の一例を示すフロー図である。
図8】本実施形態に係る第2学習モデル作成システム300の動作の一例を示すフロー図である。
図9】実施形態の変形例1の音判定システム100aの一例を示す図である。
図10】実施形態の変形例1に係る第1学習DB作成システム400の一例を示す図である。
図11】実施形態の変形例1に係る第2学習モデル作成システム300aの一例を示す図である。
図12】実施形態の変形例1にかかる音判定システム100aの動作の一例を示す図である。
図13】実施形態の変形例1に係る第1学習DB作成システム400の動作の一例を示すフロー図である。
図14】実施形態の変形例1に係る第2学習モデル作成システム300aの動作の一例を示すフロー図である。
図15】実施形態の変形例2の音判定システム100bの一例を示す図である。
図16】実施形態の変形例2に係る音判定システム100bの動作の一例を示すフロー図である。
【発明を実施するための形態】
【0012】
以下、実施形態の音判定システム、学習モデル作成システム、音判定方法、学習モデル作成方法およびプログラムを、図面を参照して説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られない。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0013】
(実施形態)
(音判定システム)
図1は、本実施形態の音判定システム100の一例を示す図である。音判定システム100には、音ファイルが入力される。音判定システム100は、入力された音ファイルから音の波形を取得する。音判定システム100は、取得した音の波形を解析することによって音データを取得する。
【0014】
音判定システム100は、取得した音データを受け付ける。音判定システム100は、受け付けた音データから、音の特徴が表されている部分を抽出する。音判定システム100は、音データに基づいて音を判定するとともに、音の特徴が表されている部分に基づいて音を判定する。音判定システム100は、音データに基づいて音を判定した結果と、音の特徴が表されている部分に基づいて音を判定した結果とに基づいて、音を判定する。音判定システム100は、音の判定結果を出力する。
【0015】
音判定システム100は、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。音判定システム100は、入力部102と、解析部103と、受付部104と、抽出部106と、第1処理部108-1と、第2処理部108-2と、判定部110と、出力部112と、記憶部114とを備える。
【0016】
入力部102は、情報を入力する。一例として、入力部102は、キーボードおよびマウスなどの操作部を有してもよい。この場合、入力部102は、ユーザによって当該操作部に対して行われる操作に応じた情報を入力する。他の例として、入力部102は、外部の装置から情報を入力してもよい。当該外部の装置は、例えば、可搬な記憶媒体であってもよい。入力部102には、音ファイルが入力される。音ファイルの一例は、RIFF waveform Audio Format(WAV、ワヴ)と呼ばれる音声データ用のコンテナ規格にしたがって作成されたものである。
記憶部114は、HDD(hard disk drive)やフラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)などにより実現される。
【0017】
解析部103は、入力部102から音ファイルを取得する。解析部103は、取得した音ファイルから音の波形を取得し、取得した音の波形を解析する。具体的には、解析部103は、音の波形を高速フーリエ変換し、音の波形を高速フーリエ変換した結果に対して、A特性と窓関数でフィルタをかける。
A特性とは、騒音計による測定に使われる、人間の聴覚を考慮した周波数重み付け特性である。音の大きさは音圧のみではなく周波数にも左右される。人間の聴覚は、約1000Hz以下で徐々に感度が下がり、一般的に20Hzを下回ると聞こえなくなる。解析部103は、A特性と窓関数でフィルタをかけた結果の低周波領域にフィルタをかけることで、音データを取得する。
【0018】
受付部104は、解析部103から音データを取得する。受付部104は、取得した音データを受け付ける。
抽出部106は、受付部104から音データを取得し、取得した音データから、音の特性が強く出ている区間を探索する。以下、「音の特性が強く出ている区間」を指紋区間とも記載する。例えば、抽出部106は、音データに基づいて、音圧が最大値から例えば5%から10%に該当する部分を指紋区間として探索する。ここで、5%から10%は一例であり、適宜変更可能である。抽出部106は、指紋区間の探索結果に基づいて、一又は複数の指紋区間を抽出する。
【0019】
第1処理部108-1は、抽出部106から音データを取得する。第1処理部108-1は、取得した音データに基づいて、音を判定する。具体的には第1処理部108-1は、音データを音画像に変換する。例えば、音画像は、周波数、時間及び音圧によって表される画像である。例えば、音画像は、周波数軸、時間軸及び音圧軸の3軸によって表される。
図2Aから図2Dは、音画像の一例を示す図である。図2Aから図2Dにおいて、横軸は時間であり、縦軸は周波数であり、紙面に垂直な軸は音圧である。音圧は色の濃淡で表している。色が濃くなるにしたがって音圧が高くなる。
【0020】
音画像には、図2Aに示すように、音が鳴った又は鳴っていないを判定するための画像が含まれる。音が鳴った又は鳴っていないを判定するための画像は、音が鳴った場合には音圧が現れ、音が鳴っていない場合には音圧が現れない。音画像には、図2Bに示すようにブザーが鳴ったことを判定するための画像が含まれる。ブザーが鳴ったことを判定するための画像は、所定の時間に音圧が現れる。
音画像には、図2Cに示すようにメロディが鳴ったことを判定するための画像が含まれる。メロディが鳴ったことを判定するための画像は、メロディに特有の音圧が現れる。音画像には、図2Dに示すように機械アナウンスを判定するための画像が含まれる。機械アナウンスを判定するための画像は、機械アナウンスに特有の音圧が現れる。
図2Aから図2Dに示したのは一例であり、他の音を判別するための音画像を使用して音を判別するようにしてもよい。図1に戻り説明を続ける。
【0021】
第1処理部108-1は、第1学習済モデル109-1を備えている。第1学習済モデル109-1は、音データを変換した音画像を説明変数(特徴量)、音データによって示される音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習したものである。以下、音を識別する情報を、音情報とも記載する。第1学習済モデル109-1は、畳み込みニューラルネットワーク(Convolutional neural network: CNN)を用いて作成されたものであってもよい。畳み込みニューラルネットワークは、層間を共通重みの局所結合で繋いだニューラルネットワークである。
第1処理部108-1は、音データを変換することによって取得した音画像を、第1学習済モデル109-1に入力し、入力した音画像に対して、第1学習済モデル109-1が出力した音情報と、音画像と音画像の特徴量との一致度とを取得する。
【0022】
第2処理部108-2は、抽出部106から一又は複数の指紋区間を取得する。第2処理部108-2は、取得した一又は複数の指紋区間に基づいて、音を判定する。具体的には第2処理部108-2は、一又は複数の指紋区間の各々を音画像に変換する。以下、指紋区間を音画像に変換したものを指紋画像という。指紋画像は、周波数、時間及び音圧によって表される画像である。例えば、指紋画像は、周波数軸、時間軸及び音圧軸の3軸によって表される。
【0023】
図3は、指紋画像の一例を説明するための図である。図3において、横軸は時間であり、縦軸は周波数であり、紙面に垂直方向の軸は音圧である。指紋画像FIは、音データにおいて音の特性が強く出ている区間を画像化したものである。図3に示される例では、音画像SIに、指紋画像FI01、指紋画像FI02、指紋画像FI03及び指紋画像FI04が含まれる。図1に戻り説明を続ける。
第2処理部108-2は、第2学習済モデル109-2を備えている。第2学習済モデル109-2は、指紋区間を変換した指紋画像を説明変数(特徴量)、音データによって示される音情報を目的変数として、指紋区間を変換した指紋画像と音データによって示される音情報との関係を機械学習したものである。第2学習済モデル109-2は、オープンシーヴィ(OpenCV: Open Source Computer Vision Library)を用いて作成されたものであってもよい。オープンシーヴィは、画像・動画に関する処理機能をまとめたオープンソースのライブラリである。
第2処理部108-2は、指紋区間を変換することによって取得した指紋画像を、第2学習済モデル109-2に入力し、入力した指紋画像に対して、第2学習済モデル109-2が出力した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。
【0024】
判定部110は、第1処理部108-1から音画像に基づく音情報の判定結果を取得し、第2処理部108-2から指紋画像に基づく音情報の判定結果を取得する。判定部110は、取得した音画像に基づく音情報の判定結果及び指紋画像に基づく音情報の判定結果に基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
判定部110は、音画像に基づく音情報の判定結果と指紋画像に基づく音情報の判定結果とが一致している場合には、その音情報を、受付部104が受け付けた音データに含まれる音の音情報とする。判定部110は、音画像に基づく音情報の判定結果と指紋画像に基づく音情報の判定結果とが一致していない場合には、音画像と音画像の特徴量との一致度と、指紋画像と指紋画像の特徴量との一致度とに基づいて、一致度が高い方の判定結果を、受付部104が受け付けた音データに含まれる音の音情報とする。また、判定部110は、音画像に基づく音情報の判定結果を、指紋画像に基づく音情報の判定結果よりも優先してもよい。
【0025】
出力部112は、判定部110による音データに含まれる音の音情報の判定結果を取得する。出力部112は、取得した音の判定結果を出力する。出力部112は、音の判定結果を、音声で出力してもよいし、表示部(図示なし)に表示することによって出力してもよい。また、出力部112は、音の判定結果を、ネットワーク(図示なし)を介して、他の装置へ送信するようにしてもよい。
【0026】
入力部102、解析部103、受付部104、抽出部106、第1処理部108-1、第2処理部108-2、判定部110および出力部112の全部または一部は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部114に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。
なお、入力部102、解析部103、受付部104、抽出部106、第1処理部108-1、第2処理部108-2、判定部110および出力部112の全部または一部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0027】
次に、第1学習モデル作成システム200の一例について説明する。
(第1学習モデル作成システム200)
図4は、本実施形態に係る第1学習モデル作成システム200の一例を示す図である。
第1学習モデル作成システム200は、第1学習済モデル109-1を作成する。第1学習モデル作成システム200は、学習用データセットを受け付ける。学習用データセットには、音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音情報が教師データとして含まれる。
第1学習モデル作成システム200は、受け付けた学習用データセットに基づいて、音データを変換した音画像と音データによって示される音情報との関係を機械学習することによって学習済モデルを作成する。
【0028】
第1学習モデル作成システム200は、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。第1学習モデル作成システム200は、例えば、入力部210と、受付部220と、処理部230と、出力部240と、記憶部250とを備える。
入力部210は、入力デバイスを備える。入力部210には、学習用データセットが入力される。入力部210は、入力された学習用データセットを取得する。
記憶部250は、HDDやフラッシュメモリ、RAM、ROMなどにより実現される。記憶部250には、プログラムが記憶される。
【0029】
受付部220は、入力部210に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
処理部230は、受付部220が受け付けた学習用データセットを取得する。処理部230は、取得した学習用データセットに基づいて、音データを変換した音画像を説明変数、音データによって示される音情報を目的変数として、音データを変換した音画像情報と音データによって示される音情報との関係を機械学習することによって学習モデル232を作成する。
例えば、処理部230は、音データを変換した音画像を入力データ、音データによって示される音情報を教師データとして使用して機械学習する。本実施形態では、学習モデル232の一例として畳み込みニューラルネットワークを用いた場合について説明を続ける。
【0030】
出力部240は、処理部230が作成した学習モデル232を取得する。出力部240は、取得した学習モデル232を出力する。出力部240は、学習モデル232を、ネットワーク(図示なし)を介して、音判定システム100へ送信してもよい。
音判定システム100は、第1学習モデル作成システム200が送信した学習モデル232を受信し、受信した学習モデル232を、第1学習済モデル109-1として使用してもよい。
【0031】
入力部210と、受付部220と、処理部230と、出力部240との全部または一部は、例えば、CPUなどのプロセッサが記憶部250に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、入力部210と、受付部220と、処理部230と、出力部240との全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0032】
次に、第2学習モデル作成システム300の一例について説明する。
(第2学習モデル作成システム)
図5は、本実施形態に係る第2学習モデル作成システム300の一例を示す図である。
第2学習モデル作成システム300は、第2学習済モデル109-2を作成する。第2学習モデル作成システム300は、学習用データセットを受け付ける。学習用データセットには、音データから抽出した指紋区間を変換した指紋画像が学習データとして含まれ且つ音データによって示される音情報が教師データとして含まれる。
第2学習モデル作成システム300は、受け付けた学習用データセットに基づいて、指紋区間を変換した指紋画像と音データによって示される音情報との関係を機械学習することによって学習済モデルを作成する。
【0033】
第2学習モデル作成システム300は、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。第2学習モデル作成システム300は、例えば、入力部310と、受付部320と、処理部330と、出力部340と、記憶部350とを備える。
入力部310は、入力デバイスを備える。入力部310には、学習用データセットが入力される。入力部310は、入力された学習用データセットを取得する。
記憶部350は、HDDやフラッシュメモリ、RAM、ROMなどにより実現される。記憶部350には、プログラムが記憶される。
【0034】
受付部320は、入力部310に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
処理部330は、受付部320が受け付けた学習用データセットを取得する。処理部330は、取得した学習用データセットに基づいて、指紋区間を変換した指紋画像を説明変数、音声データによって示される音情報を目的変数として、指紋区間を変換した指紋画像と、音声データによって示される音情報との関係を機械学習することによって学習モデル332を作成する。
例えば、処理部330は、指紋区間を変換した指紋画像(情報)を入力データ、音声データによって示される音情報を教師データとして使用して機械学習する。本実施形態では、学習モデル332の一例としてオープンシーヴィを用いた場合について説明を続ける。
【0035】
出力部340は、処理部330が作成した学習モデル332を取得する。出力部340は、取得した学習モデル332を出力する。出力部340は、学習モデル332を、ネットワーク(図示なし)を介して、音判定システム100へ送信してもよい。
この場合、音判定システム100は、第2学習モデル作成システム300が送信した学習モデル332を受信し、受信した学習モデル332を、第2学習済モデル109-2として使用してもよい。
【0036】
入力部310と、受付部320と、処理部330と、出力部340との全部または一部は、例えば、CPUなどのプロセッサが記憶部350に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、入力部310と、受付部320と、処理部330と、出力部340との全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0037】
(音判定システム100の動作)
図6は、本実施形態に係る音判定システム100の動作の一例を示すフロー図である。図6を参照して、音判定システム100が、入力された音ファイルから得られる音データよって示される音情報を判定する処理について説明する。ここでは、音判定システム100において、第1処理部108-1には第1学習済モデル109-1が記憶され、第2処理部108-2には第2学習済モデル109-2が記憶されている場合について説明する。
【0038】
(ステップS1-1)
入力部102に、音ファイルが入力される。
(ステップS2-1)
解析部103は、入力部102から音ファイルを取得する。解析部103は、取得した音ファイルから音の波形を取得し、取得した音の波形を解析する。
(ステップS3-1)
受付部104は、解析部103から音データを取得する。受付部104は、取得した音データを受け付ける。
【0039】
(ステップS4-1)
抽出部106は、受付部104から音データを取得し、取得した音データから、指紋区間を抽出する。
(ステップS5-1)
第1処理部108-1は、受付部104から音データを取得する。第1処理部108-1は、取得した音データを音画像に変換する。第1処理部108-1は、音データを変換することによって取得した音画像を、第1学習済モデル109-1に入力し、入力した音画像に対して、第1学習済モデル109-1が出力した音情報と、音画像と音画像の特徴量との一致度とを取得する。
(ステップS6-1)
第2処理部108-2は、抽出部106から指紋区間を取得する。第2処理部108-2は、取得した指紋区間を指紋画像に変換する。第2処理部108-2は、指紋区間を変換することによって取得した指紋画像を、第2学習済モデル109-2に入力し、入力した指紋画像に対して、第2学習済モデル109-2が出力した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。
【0040】
(ステップS7-1)
判定部110は、第1処理部108-1から音画像を入力することによって取得した音情報と、音画像と音画像の特徴量との一致度とを取得し、第2処理部108-2から指紋画像を入力することによって取得した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。判定部110は、音画像を入力することによって取得した音情報と、音画像と音画像の特徴量との一致度及び指紋画像を入力することによって取得した音情報と、指紋画像と指紋画像の特徴量との一致度とに基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
(ステップS8-1)
出力部112は、判定部110から受付部104が受け付けた音データに含まれる音の音情報の判定結果を取得する。出力部112は、取得した音の判定結果を出力する。
【0041】
(第1学習モデル作成システム200の動作)
図7は、本実施形態に係る第1学習モデル作成システム200の動作の一例を示すフロー図である。図7を参照して、第1学習モデル作成システム200が、入力された学習用データセットから得られる音データを変換した音画像を示す情報及び音データによって示される音情報に基づいて、第1学習済モデル190-1を作成する処理について説明する。ここでは、複数の学習用データセットが用意されている場合について説明する。
【0042】
(ステップS1-2)
入力部210に、学習用データセットが入力される。入力部210は、入力された学習用データセットを取得する。
(ステップS2-2)
受付部220は、入力部210に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
(ステップS3-2)
処理部230は、受付部220が受け付けた学習用データセットを取得する。処理部230は、取得した学習用データセットに基づいて、音データを変換した音画像を説明変数、音データによって示される音情報を目的変数として、音データを変換した音画像と音データによって示される音情報との関係を機械学習することによって学習モデル232を作成する。
【0043】
(ステップS4-2)
処理部230は、機械学習を終了するか否かを決定する。具体的には、処理部230は、機械学習を行っていない学習用データセットがある場合には機械学習を継続すると決定し、機械学習を行っていない学習用データセットがない場合には機械学習を終了すると決定する。機械学習を継続すると決定した場合にはステップS1-2へ移行する。
(ステップS5-2)
機械学習を終了すると決定した場合に、出力部240は、処理部230が作成した学習モデル232を取得する。出力部240は、取得した学習モデル232を出力する。出力部240は、学習モデル232を、ネットワーク(図示なし)を介して、音判定システム100へ送信してもよい。
音判定システム100は、第1学習モデル作成システム200が送信した学習モデル232を受信し、受信した学習モデル232を、第1学習済モデル109-1として使用してもよい。
【0044】
(第2学習モデル作成システム300の動作)
図8は、本実施形態に係る第2学習モデル作成システム300の動作の一例を示すフロー図である。図8を参照して、第2学習モデル作成システム300が、入力された学習用データセットから得られる指紋区間を変換した指紋画像及び音データによって示される音情報に基づいて、第2学習済モデル190-2を作成する処理について説明する。ここでは、複数の学習用データセットが用意されている場合について説明する。
(ステップS1-3)
入力部310に、学習用データセットが入力される。入力部310は、入力された学習用データセットを取得する。
(ステップS2-3)
受付部320は、入力部310に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
(ステップS3-3)
処理部330は、受付部320が受け付けた学習用データセットを取得する。処理部330は、取得した学習用データセットに基づいて、指紋区間を変換した指紋画像を説明変数、音データによって示される音情報を目的変数として、指紋区間を変換した指紋画像と指紋区間によって示される音情報との関係を機械学習することによって学習モデル332を作成する。
【0045】
(ステップS4-3)
処理部330は、機械学習を終了するか否かを決定する。具体的には、処理部330は、機械学習を行っていない学習用データセットがある場合には機械学習を継続すると決定し、機械学習を行っていない学習用データセットがない場合には機械学習を終了すると決定する。機械学習を継続すると決定した場合にはステップS1-3へ移行する。
(ステップS5-3)
機械学習を終了すると決定した場合に、出力部340は、処理部330が作成した学習モデル332を取得する。出力部340は、取得した学習モデル332を出力する。出力部340は、学習モデル332を、ネットワーク(図示なし)を介して、音判定システム100へ送信してもよい。
音判定システム100は、第2学習モデル作成システム300が送信した学習モデル332を受信し、受信した学習モデル332を、第2学習済モデル109-2として使用してもよい。
【0046】
前述した実施形態では、学習モデル332の一例としてオープンシーヴィを用いた場合について説明したが、この例に限られない。例えば、YOLO(You Only Look Once)が適用されてもよい。YOLOは、処理速度が非常に早い物体検出アルゴリズムの1つである。YOROでは、予め画像全体を正方形のグリッドに分割しておき、それぞれのグリッドに対象となる物体が含まれているかどうかを判定する。
本実施形態に係る音判定システムによれば、音判定システム100は、音データを受け付ける受付部104と、受付部104が受け付けた音データから、音の特徴が表されている部分を抽出する抽出部106と、受付部104が受け付けた音データに基づいて、音を判定する第1処理部108-1と、抽出部106が抽出した音の特徴が表されている部分に基づいて、音を判定する第2処理部108-2と、第1処理部108-1による音の第1判定結果と第2処理部108-2による音の第2判定結果とに基づいて、音を判定する判定部110と、判定部110による音の判定結果を出力する出力部112とを備える。
このように構成することによって、音判定システム100は、音データに基づいて音を判定するとともに、音データから抽出される音の特徴が表されている部分に基づいて音を判定できるため、音データ及び音データから抽出される音の特徴が表されている部分のいずれか一方に基づいて音を判定する場合と比較して、音の判定精度を向上できる。
【0047】
音判定システム100において、第1処理部108-1は、複数の音声データの各々について音画像と音データの音を識別する情報との関係を機械学習しており、受付部104が受け付けた音声データを音画像に変換し、当該機械学習の結果を使用して、音画像に基づいて音を判定する。
このように構成することによって、音判定システム100は、複数の音声データの各々について音画像と音データの音を識別する情報との関係を機械学習した結果を使用して、音画像に基づいて音を判定することができるため、機械学習した結果を使用しない場合と比較して、音の判定精度を向上できる。
【0048】
音判定システム100において、抽出部106は、音データから、音の特徴が表されている部分を抽出し、第2処理部108-2は、複数の音声データの各々について音の特徴が表されている部分の音画像と音データの音を識別する情報との関係を機械学習しており、抽出部106が抽出した音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、音の特徴が表されている部分の音画像に基づいて音を判定する。
このように構成することによって、音判定システム100は、複数の音声データの各々について音の特徴が表されている部分の音画像と音データの音を識別する情報との関係を機械学習した結果を使用して、音の特徴が表されている部分の音画像に基づいて音を判定することができるため、機械学習した結果を使用しない場合と比較して、音の判定精度を向上できる。
【0049】
本実施形態に係る学習モデル作成システムによれば、学習モデル作成システムは、音データを変換した音画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付ける受付部220と、受付部220が受け付けた学習用データセットに基づいて、音データを変換した音画像を説明変数、音データによって示される音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する処理部230と、処理部230が作成した学習モデルを出力する出力部240とを備える。
このように構成することによって、学習モデル作成システムは、音データを変換した音画像を説明変数、音データによって示される音を識別する情報を目的変数として、音データを変換した音画像と音データによって示される音を識別する情報との関係を機械学習することができるため、学習モデルを作成できる。
【0050】
学習モデル作成システムにおいて、受付部220は、音データの音の特徴が表されている部分を変換した音部分画像を示す情報が学習データとして含まれ且つ音データによって示される音を識別する情報が教師データとして含まれる学習用データセットを受け付け、処理部230は、受付部220が受け付けた学習用データセットに基づいて、音データの音の特徴が表されている部分を変換した音部分画像を説明変数、音データによって示される音を識別する情報を目的変数として、音データの音の特徴が表されている部分を変換した音部分画像と音データによって示される音を識別する情報との関係を機械学習することによって学習モデルを作成する。
このように構成することによって、学習モデル作成システムは、音データの音の特徴が表されている部分を変換した音部分画像を説明変数、音データによって示される音を識別する情報を目的変数として、音データの音の特徴が表されている部分を変換した音部分画像情報と音データによって示される音を識別する情報との関係を機械学習することができるため、学習モデルを作成できる。
【0051】
(実施形態の変形例1)
(音判定システム)
図9は、実施形態の変形例1の音判定システム100aの一例を示す図である。音判定システム100aには、音ファイルが入力される。音判定システム100aは、入力された音ファイルから音の波形を取得する。音判定システム100aは、取得した音の波形を解析することによって音データを取得する。
【0052】
音判定システム100aは、取得した音データを受け付ける。音判定システム100aは、受け付けた音データから、指紋区間を抽出する。音判定システム100aは、音データに基づいて波形情報を取得する。音判定システム100aは、波形情報に基づいて音を判定するとともに、指紋区間に基づいて音を判定する。音判定システム100aは、波形情報に基づいて音を判定した結果と、指紋区間に基づいて音を判定した結果とに基づいて、音を判定する。音判定システム100aは、音の判定結果を出力する。
【0053】
音判定システム100aは、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。音判定システム100aは、入力部102と、解析部103と、受付部104と、抽出部106aと、第1処理部108a-1と、第2処理部108a-2と、判定部110aと、出力部112と、記憶部114とを備える。
記憶部114は、HDDやフラッシュメモリ、RAM、ROMなどにより実現される。記憶部150には、プログラムと、波形情報114aとが記憶される。波形情報114aについては後述する。
【0054】
抽出部106aは、受付部104から音データを取得し、取得した音データから、指紋区間を探索する。抽出部106aは、指紋区間の探索結果に基づいて、指紋区間を抽出する。
抽出部106aは、指紋区間の周波数情報を取得する。抽出部106aは、音データから音の先頭(鳴り始め)を検出する。抽出部106aは、音の先頭の検出結果に基づいて音データから吹鳴区間を取得する。抽出部106aは、取得した吹鳴区間に基づいて吹鳴回数を取得する。
抽出部106aは、取得した指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などの波形情報を、記憶部114の波形情報114aに記憶させる。つまり、波形情報には、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などが含まれる。
【0055】
第1処理部108a-1は、抽出部106aから波形情報を取得する。第1処理部108a-1は、取得した波形情報に基づいて、音を判定する。具体的には、第1処理部108a-1は、第1学習DB109a-1を備えている。第1学習DB109a-1は、複数の波形情報と、複数の波形情報の各々について波形情報によって示される音情報とを関連付けたものである。
第1処理部108a-1は、抽出部106aから取得した波形情報と、第1学習DB109a-1に含まれる複数の波形情報とを比較し、抽出部106aから取得した波形情報と複数の波形情報の各々との類似度を導出する。第1処理部108a-1は、抽出部106aから取得した波形情報と複数の波形情報との類似度の導出結果に基づいて、類似度が高い波形情報に関連付けられている音情報を、抽出部106aから取得した波形情報の音情報とする。
【0056】
具体的には、第1処理部108a-1は、抽出部106aから取得した波形情報に含まれる指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報と、第1学習DB109a-1に含まれる複数の波形情報の各々についての指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報との間で違い(誤差)を判別することによって類似度を導出する。ここで、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報の各々に重みづけし、重みづけに基づいて類似度が導出されてもよい。例えば、重みづけは、パーセントで表されてもよい。
【0057】
第2処理部108a-2は、抽出部106aから指紋区間を取得する。第2処理部108a-2は、取得した指紋区間に基づいて、音を判定する。具体的には第2処理部108a-2は、指紋区間を指紋画像に変換する。
第2処理部108a-2は、第2学習済モデル109a-2を備えている。第2学習済モデル109a-2は、指紋区間を変換した指紋画像の次元を圧縮したものを説明変数(特徴量)、音データによって示される音情報を目的変数として、指紋区間を変換した指紋画像の次元を圧縮したものと音データによって示される音情報との関係を機械学習したものである。第2学習済モデル109a-2は、オートエンコーダを用いて作成されたものであってもよい。オートエンコーダは、機械学習において、ニューラルネットワークを使用した次元圧縮のためのアルゴリズムである。
第2処理部108a-2は、指紋区間を変換することによって取得した指紋画像の次元を圧縮し、指紋画像の次元を圧縮した結果(情報)を、第2学習済モデル109a-2に入力し、入力した指紋画像の次元を圧縮した結果に対して、第2学習済モデル109a-2が出力した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。
【0058】
判定部110aは、第1処理部108a-1から波形情報に基づく音情報の判定結果と、波形情報の類似度とを取得し、第2処理部108a-2から指紋画像に基づく音情報の判定結果と、指紋画像と指紋画像の特徴量とを取得する。判定部110aは、取得した波形情報に基づく音情報と、波形情報の類似度及び指紋画像に基づく音情報と、指紋画像と指紋画像の特徴量との一致度とに基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
判定部110aは、波形情報に基づく音情報と指紋画像に基づく音情報とが一致している場合には、その音情報を、受付部104が受け付けた音データに含まれる音の音情報とする。判定部110aは、波形情報に基づく音情報と指紋画像に基づく音情報とが一致していない場合には、波形情報の類似度及び指紋画像と指紋画像の特徴量との一致度とに基づいて、受付部104が受け付けた音データに含まれる音の音情報を判定する。また、判定部110aは、音画像に基づく音情報の判定結果を、指紋画像に基づく音情報の判定結果よりも優先してもよい。
【0059】
抽出部106a、第1処理部108a-1、第2処理部108a-2および判定部110aの全部または一部は、例えば、CPUなどのプロセッサが記憶部114に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、抽出部106a、第1処理部108a-1、第2処理部108a-2および判定部110aの全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0060】
次に、第1学習DB作成システム400の一例について説明する。
(第1学習DB作成システム400)
図10は、実施形態の変形例1に係る第1学習DB作成システム400の一例を示す図である。
第1学習DB作成システム400は、第1学習DB109a-1を作成する。第1学習DB作成システム400は、学習用データセットを受け付ける。学習用データセットには、音データの波形情報と音データによって示される音情報とが含まれる。
第1学習モデル作成システム200は、受け付けた学習用データセットに基づいて、音データの波形情報と音データによって示される音情報とを関連付けて学習DB432を作成する。
【0061】
第1学習DB作成システム400は、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。第1学習DB作成システム400は、例えば、入力部410と、受付部420と、処理部430と、出力部440と、記憶部450とを備える。
入力部410は、入力デバイスを備える。入力部410には、学習用データセットが入力される。入力部410は、入力された学習用データセットを取得する。
記憶部450は、HDDやフラッシュメモリ、RAM、ROMなどにより実現される。記憶部450には、プログラムが記憶される。
【0062】
受付部420は、入力部410に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
処理部430は、受付部420が受け付けた学習用データセットを取得する。処理部430は、取得した学習用データセットに基づいて、学習用データセットに含まれる音データの波形情報と、音データによって示される音情報とを関連付けて記憶することによって学習DB432を作成する。
【0063】
出力部440は、処理部430が作成した学習DB432を取得する。出力部440は、取得した学習DB432を出力する。出力部440は、学習DB432を、ネットワーク(図示なし)を介して、音判定システム100aへ送信してもよい。
この場合、音判定システム100aは、第1学習DB作成システム400が送信した学習DB432を受信し、受信した学習DB432を、第1学習DB109a-1として使用してもよい。
【0064】
入力部410と、受付部420と、処理部430と、出力部440との全部または一部は、例えば、CPUなどのプロセッサが記憶部450に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、入力部410と、受付部420と、処理部430と、出力部440との全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0065】
次に、第2学習モデル作成システム300aの一例について説明する。
(第2学習モデル作成システム300a)
図11は、実施形態の変形例1に係る第2学習モデル作成システム300aの一例を示す図である。
第2学習モデル作成システム300aは、第2学習済モデル109a-2を作成する。第2学習モデル作成システム300aは、学習用データセットを受け付ける。学習用データセットには、音データから抽出した指紋区間を変換した指紋画像が学習データとして含まれ且つ音データによって示される音情報が教師データとして含まれる。
第2学習モデル作成システム300aは、受け付けた学習用データセットに基づいて、指紋区間を変換した指紋画像と音データによって示される音情報との関係を機械学習することによって学習済モデルを作成する。
【0066】
第2学習モデル作成システム300aは、スマートフォン、携帯端末、又はパーソナルコンピュータ、タブレット端末装置、あるいはその他の情報処理機器として実現される。第2学習モデル作成システム300aは、例えば、入力部310と、受付部320と、処理部330aと、出力部340と、記憶部350とを備える。
処理部330aは、受付部320が受け付けた学習用データセットを取得する。処理部330aは、取得した学習用データセットに基づいて、指紋区間を変換した指紋画像の次元を圧縮したものを説明変数、音声データによって示される音情報を目的変数として、指紋区間を変換した指紋画像の次元を圧縮したものと音声データによって示される音情報との関係を機械学習することによって学習モデル332aを作成する。
【0067】
例えば、処理部330aは、指紋区間を変換した指紋画像の次元を圧縮したものを入力データ、音声データによって示される音情報を教師データとして使用して機械学習する。本実施形態では、学習モデル332aの一例としてオートエンコーダを用いた場合について説明を続ける。この場合、処理部330aは、指紋区間を変換した指紋画像の次元を圧縮し、指紋画像の次元を圧縮した結果(情報)を入力データ、指紋区間によって示される音情報を教師データとして使用して機械学習する。
【0068】
処理部330aの全部または一部は、例えば、CPUなどのプロセッサが記憶部350に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、処理部330aの全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0069】
(音判定システムの動作)
図12は、実施形態の変形例1にかかる音判定システム100aの動作の一例を示す図である。図12を参照して、音判定システム100aが、入力された音ファイルから得られる音データよって示される音情報を判定する処理について説明する。ここでは、音判定システム100aにおいて、第1処理部108a-1には第1学習DB109a-1が記憶され、第2処理部108a-2には第2学習済モデル109a-2が記憶されている場合について説明する。
(ステップS1-4)
入力部102に、音ファイルが入力される。
(ステップS2-4)
解析部103は、入力部102から音ファイルを取得する。解析部103は、取得した音ファイルから音の波形を取得し、取得した音の波形を解析する。
(ステップS3-4)
受付部104は、解析部103から音データを取得する。受付部104は、取得した音データを受け付ける。
【0070】
(ステップS4-4)
抽出部106aは、受付部104から音データを取得し、取得した音データから、指紋区間を抽出する。
(ステップS5-4)
抽出部106aは、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などの波形情報を取得し、取得した指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などの波形情報を、記憶部114の波形情報114aに記憶させる。
(ステップS6-4)
第1処理部108a-1は、抽出部106aから波形情報を取得する。第1処理部108-1は、取得した波形情報と第1学習DB109a-1に含まれる複数の波形情報の各々と比較し、抽出部106aから取得した波形情報と複数の波形情報の各々との類似度を導出する。第1処理部108a-1は、抽出部106aから取得した波形情報と複数の波形情報との類似度の導出結果に基づいて、類似度が高い波形情報に関連付けられている音情報を、抽出部106aから取得した波形情報の音情報とする。
【0071】
(ステップS7-4)
第2処理部108a-2は、抽出部106aから指紋区間を取得する。第2処理部108a-2は、取得した指紋区間を指紋画像に変換する。第2処理部108a-2は、指紋区間を変換することによって取得した指紋画像の次元を圧縮し、指紋画像の次元を圧縮したものを、第2学習済モデル109a-2に入力し、入力した指紋画像の次元を圧縮したものに対して、第2学習済モデル109a-2が出力した音情報と、指紋画像の次元を圧縮したものと指紋画像の次元を圧縮したものの特徴量との一致度とを取得する。
(ステップS8-4)
判定部110aは、第1処理部108a-1から波形情報に基づいて取得した音情報と類似度とを取得し、第2処理部108a-2から指紋画像を入力することによって取得した音情報と、指紋画像の次元を圧縮したものと指紋画像の次元を圧縮したものの特徴量との一致度とを取得する。判定部110aは、波形情報に基づいて取得した音情報と類似度及び指紋画像を入力することによって取得した音情報と、指紋画像の次元を圧縮したものと指紋画像の次元を圧縮したものの特徴量との一致度とに基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
(ステップS9-4)
出力部112は、判定部110aから受付部104が受け付けた音データに含まれる音の音情報の判定結果を取得する。出力部112は、取得した音の判定結果を出力する。
【0072】
(第1学習DB作成システム400の動作)
図13は、実施形態の変形例1に係る第1学習DB作成システム400の動作の一例を示すフロー図である。図13を参照して、第1学習DB作成システム400が、入力された学習用データセットから得られる音データの波形情報及び音データによって示される音情報に基づいて、第1学習DB190a-1を作成する処理について説明する。ここでは、複数の学習用データセットが用意されている場合について説明する。
(ステップS1-5)
入力部410に、学習用データセットが入力される。入力部410は、入力された学習用データセットを取得する。
(ステップS2-5)
受付部420は、入力部410に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
(ステップS3-5)
処理部430は、受付部420が受け付けた学習用データセットを取得する。処理部430は、取得した学習用データセットに基づいて、音データの波形情報と音データによって示される音情報とを関連付けて記憶することによって学習DB432を作成する。
【0073】
(ステップS4-5)
処理部430は、記憶を終了するか否かを決定する。具体的には、処理部430は、記憶していない学習用データセットがある場合には記憶を継続すると決定し、記憶していない学習用データセットがない場合には記憶を終了すると決定する。記憶すると決定した場合にはステップS1-5へ移行する。
(ステップS5-5)
記憶を終了すると決定した場合に、出力部440は、処理部430が作成した学習DB432を取得する。出力部440は、取得した学習DB432を出力する。出力部440は、学習DB432を、ネットワーク(図示なし)を介して、音判定システム100aへ送信してもよい。
音判定システム100aは、第1学習DB作成システム400が送信した学習DB432を受信し、受信した学習DB432を、第1学習DB109a-1として使用してもよい。
【0074】
(第2学習モデル作成システム300aの動作)
図14は、実施形態の変形例1に係る第2学習モデル作成システム300aの動作の一例を示すフロー図である。図14を参照して、第2学習モデル作成システム300aが、入力された学習用データセットから得られる指紋区間を変換した指紋画像及び音データによって示される音情報に基づいて、第2学習済モデル190a-2を作成する処理について説明する。ここでは、複数の学習用データセットが用意されている場合について説明する。
(ステップS1-6)
入力部310に、学習用データセットが入力される。入力部310は、入力された学習用データセットを取得する。
(ステップS2-6)
受付部320は、入力部310に入力された学習用データセットを取得し、取得した学習用データセットを受け付ける。
(ステップS3-6)
処理部330aは、受付部320が受け付けた学習用データセットを取得する。処理部330aは、取得した学習用データセットに基づいて、指紋区間を変換した指紋画像の次元を圧縮し、指紋画像の次元を圧縮した結果(情報)を説明変数、音声データによって示される音情報を目的変数として、指紋区間を変換した指紋画像の次元を圧縮した結果(情報)と音声データによって示される音情報との関係を機械学習することによって学習モデル332aを作成する。
【0075】
(ステップS4-6)
処理部330aは、機械学習を終了するか否かを決定する。具体的には、処理部330aは、機械学習を行っていない学習用データセットがある場合には機械学習を継続すると決定し、機械学習を行っていない学習用データセットがない場合には機械学習を終了すると決定する。機械学習を継続すると決定した場合にはステップS1-6へ移行する。
(ステップS5-6)
処理部330aが機械学習を終了すると決定した場合に、出力部340は、処理部330aが作成した学習モデル332aを取得する。出力部340は、取得した学習モデル332aを出力する。出力部340は、学習モデル332aを、ネットワーク(図示なし)を介して、音判定システム100aへ送信してもよい。
音判定システム100aは、第2学習モデル作成システム300aが送信した学習モデル332aを受信し、受信した学習モデル332aを、第2学習済モデル109a-2として使用してもよい。
【0076】
実施形態の変形例1に係る音判定システム100aにおいて、音判定システム100aは、第1処理部108a-1の代わりに、第1処理部108-1を備えるようにしてもよい。また、音判定システム100aは、第2処理部108a-2の代わりに、第2処理部108-2を備えるようにしてもよい。
実施形態の変形例1に係る音判定システム100aによれば、音判定システム100において、抽出部106aは、音データに基づいて波形情報を取得し、第1処理部108a-1は、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、抽出部106aが取得した波形情報に基づいて音を判定する。
このように構成することによって、音判定システム100aは、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を使用して、抽出部106aが取得した波形情報に基づいて音を判定することができるため、音判定システム100aは、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を使用しないで抽出部106aが取得した波形情報に基づいて音を判定する場合と比較して、音の判定精度を向上できる。
【0077】
音判定システム100aにおいて、波形情報は、周波数、吹鳴周期、吹鳴回数の少なくとも一つである。
このように構成することによって、音判定システム100aは、複数の音データの各々について波形情報として周波数、吹鳴周期、吹鳴回数の少なくとも一つと音データの音を識別する情報とを関連付けた情報を使用して、抽出部106aが取得した波形情報に基づいて音を判定することができる。このため、音判定システム100aは、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を使用しないで抽出部106aが取得した波形情報に基づいて音を判定する場合と比較して、音の判定精度を向上できる。
【0078】
音判定システム100aにおいて、抽出部106aは、音データから、音の特徴が表されている部分を抽出し、第2処理部108a-2は、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と音データの音を識別する情報との関係を機械学習しており、抽出部106aが抽出した音の特徴が表されている部分を音画像に変換し、音画像の次元を圧縮し、当該機械学習の結果を使用して、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定する。
このように構成することによって、音判定システム100aは、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と音データの音を識別する情報との関係を機械学習した結果を使用して、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定することができるため、機械学習した結果を使用しないで音を判定する場合と比較して、音の判定精度を向上できる。
【0079】
(実施形態の変形例2)
(音判定システム)
図15は、実施形態の変形例2の音判定システム100bの一例を示す図である。音判定システム100bには、音ファイルが入力される。音判定システム100bは、入力された音ファイルから音の波形を取得する。音判定システム100bは、取得した音の波形を解析することによって音データを取得する。
音判定システム100bは、取得した音データを受け付ける。音判定システム100bは、受け付けた音データから、指紋区間を抽出する。音判定システム100bは、音データに基づいて波形情報を取得する。
音判定システム100bは、音データ及び波形情報に基づいて音を判定するとともに、指紋区間に基づいて複数の方法で音を判定する。実施形態の変形例では、一例として、指紋区間に基づいて2種類の方法で音を判定する場合について説明を続ける。3種類以上の方法で音を判定するように構成してもよい。音判定システム100bは、音データ及び波形情報に基づいて音を判定した結果と、指紋区間に基づいて2種類の方法で音を判定した結果とに基づいて、音を判定する。音判定システム100bは、音の判定結果を出力する。
【0080】
音判定システム100bは、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。音判定システム100bは、入力部102と、解析部103と、受付部104と、抽出部106bと、第1処理部108b-1と、第2処理部108b-2と、判定部110bと、出力部112と、記憶部114とを備える。
抽出部106bは、抽出部106aを適用できる。
第1処理部108b-1は、抽出部106bから音データを取得する。第1処理部108b-1は、取得した音データに基づいて、音を判定する。具体的には第1処理部108b-1は、音データを音画像に変換する。
【0081】
第1処理部108b-1は、第1学習済モデル109-1を備えている。第1学習済モデル109-1は、音データを変換した音画像を説明変数(特徴量)、音データによって示される音情報を目的変数として、音データを変換した音画像と音データによって示される音情報との関係を機械学習したものである。第1学習済モデル109-1の一例は、畳み込みニューラルネットワークを用いて作成されたものである。
第1処理部108b-1は、音データを変換することによって取得した音画像を、第1学習済モデル109-1に入力し、入力した音画像に対して、第1学習済モデル109-1が出力した音情報と、音画像と音画像の特徴量との一致度とを取得する。
【0082】
第1処理部108b-1は、抽出部106bから波形情報を取得する。第1処理部108b-1は、取得した波形情報に基づいて、音を判定する。具体的には、第1処理部108b-1は、第1学習DB109a-1を備えている。第1学習DB109a-1は、複数の波形情報と、複数の波形情報の各々について波形情報によって示される音情報とを関連付けたものである。
第1処理部108b-1は、抽出部106bから取得した波形情報と、第1学習DB109a-1に含まれる複数の波形情報とを比較し、抽出部106bから取得した波形情報と複数の波形情報の各々との類似度を導出する。第1処理部108b-1は、抽出部106bから取得した波形情報と複数の波形情報との類似度の導出結果に基づいて、類似度が高い波形情報に関連付けられている音情報を、抽出部106bから取得した波形情報の音情報とする。
【0083】
具体的には、第1処理部108b-1は、抽出部106bから取得した波形情報に含まれる指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報と、第1学習DB109a-1に含まれる複数の波形情報の各々についての指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報との間で違い(誤差)を判別することによって類似度を導出する。ここで、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報の各々に重みづけし、重みづけに基づいて類似度が導出されてもよい。例えば、重みづけは、パーセントで表されてもよい。
【0084】
第2処理部108b-2は、抽出部106bから一又は複数の指紋区間を取得する。第2処理部108b-2は、取得した一又は複数の指紋区間に基づいて、音を判定する。具体的には第2処理部108b-2は、一又は複数の指紋区間各々を音画像に変換する。
第2処理部108b-2は、第2学習済モデル109-2を備えている。第2学習済モデル109-2は、指紋区間を変換した指紋画像を説明変数(特徴量)、音データによって示される音情報を目的変数として、指紋区間を変換した指紋画像と音データによって示される音情報との関係を機械学習したものである。第2学習済モデル109-2は、オープンシーヴィ(OpenCV: Open Source Computer Vision Library)を用いて作成されたものであってもよい。
第2処理部108b-2は、一又は複数の指紋区間の各々を変換することによって取得した指紋画像を、第2学習済モデル109-2に入力し、入力した指紋画像に対して、第2学習済モデル109-2が出力した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。
【0085】
第2処理部108b-2は、抽出部106bから一又は複数の指紋区間を取得する。第2処理部108b-2は、取得した一又は複数の指紋区間に基づいて、音を判定する。具体的には第2処理部108b-2は、一又は複数の指紋区間の各々を指紋画像に変換する。
第2処理部108b-2は、第2学習済モデル109a-2を備えている。第2学習済モデル109a-2は、指紋区間を変換した指紋画像の次元を圧縮したものを説明変数(特徴量)、音データによって示される音情報を目的変数として、指紋区間を変換した指紋画像の次元を圧縮したものと音データによって示される音情報との関係を機械学習したものである。第2学習済モデル109a-2は、オートエンコーダを用いて作成されたものである。
第2処理部108b-2は、指紋区間を変換することによって取得した指紋画像の次元を圧縮し、指紋画像の次元を圧縮した結果(情報)を、第2学習済モデル109a-2に入力し、入力した指紋画像の次元を圧縮した結果に対して、第2学習済モデル109a-2が出力した音情報を取得する。
【0086】
判定部110bは、第1処理部108b-1から音画像に基づく音情報、音画像と音画像の特徴量との一致度、波形情報に基づく音情報及び類似度を取得し、第2処理部108b-2から指紋画像に基づく音情報、指紋画像と指紋画像の特徴量との一致度、指紋画像の次元を圧縮した結果に基づく音情報、及び指紋画像の次元を圧縮した結果と指紋画像の次元を圧縮した結果の特徴量との一致度とを取得する。判定部110bは、取得した音画像に基づく音情報、波形情報に基づく音情報、指紋画像に基づく音情報及び指紋画像の次元を圧縮した結果に基づく音情報に基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
【0087】
判定部110bは、全ての音情報が一致している場合には、その音情報を、受付部104が受け付けた音データに含まれる音の音情報とする。
判定部110bは、指紋画像に基づく音情報と指紋画像の次元を圧縮した結果に基づく音情報とが異なる場合には、指紋画像と指紋画像の特徴量との一致度と指紋画像の次元を圧縮した結果と指紋画像の次元を圧縮した結果の特徴量との一致度とに基づいて、一致度が高い方を音データに含まれる音の音情報とする。ここで、判定部110bは、一致度を評価する際に、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報の各々に重みづけした場合には、その重みづけに基づいて判定(評価)してもよい。例えば、重みづけは、パーセントで表されてもよい。
【0088】
判定部110bは、指紋画像に基づく音情報と指紋画像の次元を圧縮した結果に基づく音情報とが異なる場合には、音画像に基づく音情報を、受付部104が受け付けた音データに含まれる音の音情報としてもよい。
判定部110bは、指紋画像に基づく音情報と指紋画像の次元を圧縮した結果に基づく音情報とが同じである場合にも、音画像に基づく音情報に基づいて、受付部104が受け付けた音データに含まれる音の音情報を判定してもよい。
【0089】
出力部112は、判定部110bによる受付部104が受け付けた音データに含まれる音の音情報の判定結果を取得する。出力部112は、取得した音の判定結果を出力する。出力部112は、音の判定結果を、音声で出力してもよいし、表示部(図示なし)に表示することによって出力してもよい。また、出力部112は、音の判定結果を、ネットワーク(図示なし)を介して、他の装置へ送信するようにしてもよい。
【0090】
抽出部106b、第1処理部108b-1、第2処理部108b-2および判定部110bの全部または一部は、例えば、CPUなどのプロセッサが記憶部114に格納されたプログラムを実行することにより実現される機能部(以下、ソフトウェア機能部と称する)である。なお、抽出部106b、第1処理部108b-1、第2処理部108b-2および判定部110bの全部または一部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよく、ソフトウェア機能部とハードウェアとの組み合わせによって実現されてもよい。
【0091】
(音判定システムの動作)
図16は、実施形態の変形例2に係る音判定システム100bの動作の一例を示すフロー図である。図16を参照して、音判定システム100bが、入力された音ファイルから得られる音データよって示される音情報を判定する処理について説明する。ここでは、音判定システム100bにおいて、第1処理部108b-1には第1学習済モデル109-1及び第1学習DB109a-1が記憶され、第2処理部108b-2には第2学習済モデル109-2及び第2学習済モデル109a-2が記憶されている場合について説明する。
(ステップS1-7)
入力部102に、音ファイルが入力される。
(ステップS2-7)
解析部103は、入力部102から音ファイルを取得する。解析部103は、取得した音ファイルから音の波形を取得し、取得した音の波形を解析する。
(ステップS3-7)
受付部104は、解析部103から音データを取得する。受付部104は、取得した音データを受け付ける。
【0092】
(ステップS4-7)
抽出部106bは、受付部104から音データを取得し、取得した音データから、指紋区間を抽出する。
(ステップS5-7)
抽出部106bは、指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などの波形情報を取得し、取得した指紋区間の周波数情報、音データの吹鳴区間情報及び吹鳴回数情報などの波形情報を、記憶部114の波形情報114aに記憶させる。
(ステップS6-7)
第1処理部108b-1は、受付部104から音データを取得する。第1処理部108b-1は、取得した音データを音画像に変換する。第1処理部108b-1は、音データを変換することによって取得した音画像を、第1学習済モデル109-1に入力し、入力した音画像に対して、第1学習済モデル109-1が出力した音情報と、音画像と音画像の特徴量との一致度とを取得する。
【0093】
(ステップS7-7)
第1処理部108b-1は、抽出部106bから波形情報を取得する。第1処理部108b-1は、取得した波形情報と第1学習DB109a-1に含まれる複数の波形情報の各々と比較し、抽出部106bから取得した波形情報と複数の波形情報の各々との類似度を導出する。第1処理部108b-1は、抽出部106bから取得した波形情報と複数の波形情報との類似度の導出結果に基づいて、類似度が高い波形情報に関連付けられている音情報を、抽出部106bから取得した波形情報の音情報とする。
(ステップS8-7)
音判定システム100bにおいて、第2処理部108b-2は、取得した指紋区間を指紋画像に変換する。第2処理部108b-2は、指紋区間を変換することによって取得した指紋画像を、第2学習済モデル109-2に入力し、入力した指紋画像に対して、第2学習済モデル109-2が出力した音情報と、指紋画像と指紋画像の特徴量との一致度とを取得する。
【0094】
(ステップS9-7)
音判定システム100bにおいて、第2処理部108b-2は、抽出部106bから指紋区間を取得する。第2処理部108b-2は、取得した指紋区間を指紋画像に変換する。第2処理部108b-2は、指紋区間を変換することによって取得した指紋画像の次元を圧縮したものを、第2学習済モデル109a-2に入力し、入力した指紋画像の次元を圧縮したものに対して、第2学習済モデル109a-2が出力した音情報と、指紋画像の次元を圧縮した結果と指紋画像の次元を圧縮した結果の特徴量との一致度を取得する。
(ステップS10-7)
音判定システム100bにおいて、判定部110bは、第1処理部108b-1から音画像に基づく音情報と、音画像と音画像の特徴量との一致度及び波形情報に基づく音情報と類似度を取得し、第2処理部108b-2から指紋画像に基づく音情報と、指紋画像と指紋画像の特徴量との一致度及び指紋画像の次元を圧縮した結果に基づく音情報と、指紋画像の次元を圧縮した結果と指紋画像の次元を圧縮した結果の特徴量との一致度を取得する。判定部110bは、取得した音画像に基づく音情報と、音画像と音画像の特徴量との一致度、波形情報に基づく音情報と類似度、指紋画像に基づく音情報と、指紋画像と指紋画像の特徴量との一致度及び指紋画像の次元を圧縮した結果に基づく音情報と、指紋画像の次元を圧縮した結果と指紋画像の次元を圧縮した結果の特徴量との一致度に基づいて受付部104が受け付けた音データに含まれる音の音情報を判定する。
(ステップS11-7)
音判定システム100bにおいて、出力部112は、判定部110bによる受付部104が受け付けた音データに含まれる音の音情報の判定結果を取得する。出力部112は、取得した音の判定結果を出力する。
第1学習済モデル190-1を作成する処理については図7を適用でき、第2学習済モデル190-2を作成する処理については図8を適用でき、第1学習DB190a-1を作成する処理については図13を適用でき、第2学習済モデル190a-2を作成する処理については図14を適用できるため、ここでの説明は省略する。
【0095】
実施形態の変形例2に係る音判定システムによれば、音判定システム100bは、音判定システム100において、抽出部106bは、音データに基づいて波形情報を取得し、第1処理部108b-1は、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を記憶しており、当該情報を使用して、抽出部106bが取得した波形情報に基づいて音を判定するとともに、複数の音声データの各々について音画像と音データの音を識別する情報との関係を機械学習しており、受付部104が受け付けた音声データを音画像に変換し、当該機械学習の結果を使用して、音画像に基づいて音を判定する。
このように構成することによって、音判定システム100bは、音データに基づいて波形情報を取得し、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報を使用して、取得した波形情報に基づいて音を判定するとともに、受け付けた音声データを音画像に変換し、複数の音声データの各々について音画像と音データの音を識別する情報との関係を機械学習した結果を使用して、音画像に基づいて音を判定できる。このため、複数の音データの各々について波形情報と音データの音を識別する情報とを関連付けた情報と、複数の音声データの各々について音画像と音データの音を識別する情報との関係を機械学習した結果とのいずれか一方を使用した場合と比較して、判定精度を高めることができる。
【0096】
音判定システム100bにおいて、抽出部106bは、音データから、音の特徴が表されている部分を抽出し、第2処理部108b-2は、複数の音声データの各々について音の特徴が表されている部分の音画像と音データの音を識別する情報との関係を機械学習しており、抽出部106bが抽出した音の特徴が表されている部分を音画像に変換し、当該機械学習の結果を使用して、音の特徴が表されている部分の音画像に基づいて音を判定するとともに、抽出部106bは、音データから、音の特徴が表されている部分を抽出し、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と音データの音を識別する情報との関係を機械学習しており、抽出部106bが抽出した音の特徴が表されている部分を音画像に変換し、音画像の次元を圧縮し、当該機械学習の結果を使用して、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定する。
このように構成することによって、音判定システム100bは、音データから、音の特徴が表されている部分を抽出し、複数の音声データの各々について音の特徴が表されている部分の音画像と音データの音を識別する情報との関係を機械学習した結果を使用して、音の特徴が表されている部分の音画像に基づいて音を判定するとともに、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と音データの音を識別する情報との関係を機械学習した結果を使用して、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定できる。このため、複数の音声データの各々について音の特徴が表されている部分の音画像と音データの音を識別する情報との関係を機械学習した結果と、複数の音声データの各々について音の特徴が表されている部分の音画像の次元を圧縮した結果と音データの音を識別する情報との関係を機械学習した結果とのいずれか一方を使用した場合と比較して、判定精度を高めることができる。
【0097】
音判定システム100bにおいて、判定部110bは、音の特徴が表されている部分の音画像に基づいて音を判定した結果と、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定した結果とのいずれかを、特徴量との一致度に基づいて判定する。
このように構成することによって、音判定システムは、音の特徴が表されている部分の音画像に基づいて音を判定した結果と、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定した結果とのいずれかを、音の特徴が表されている部分の音画像と音の特徴が表されている部分の音画像の特徴量との一致度と、音の特徴が表されている部分の音画像の次元を圧縮した結果と音の特徴が表されている部分の音画像の次元を圧縮した結果の特徴量との一致度とに基づいて判定できるため、音の特徴が表されている部分の音画像に基づいて音を判定した結果と、音の特徴が表されている部分の音画像の次元を圧縮した結果に基づいて音を判定した結果とが異なる場合であっても、音を判定できる。
【0098】
以上、本発明の実施形態と、実施形態の変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態と、実施形態の変形例とに限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
また、上述した音判定システム100、音判定システム100a及び音判定システム100b、第1学習モデル作成システム200、第2学習モデル作成システム300、第1学習DB作成システム400、第2学習モデル作成システム300aの機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0099】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0100】
100、100a、100b…音判定システム、102…入力部、103…解析部、104…受付部、106、106a、106b…抽出部、108-1、108a-1、108b-1…第1処理部、108-2、108a-2、108b-2…第2処理部、109-1…第1学習済モデル、109a-1…第1学習DB、109-2、109a-2…第2学習済モデル、110、110a、110b…判定部、112…出力部、114…記憶部、114a…波形情報、200…第1学習モデル作成システム、210…入力部、220…受付部、230…処理部、232…学習モデル、240…出力部、250…記憶部、300、300a…第2学習モデル作成システム、310…入力部、320…受付部、330、330a…処理部、332、332a…学習モデル、340、340a…出力部、350…記憶部、400…第1学習DB作成システム、410…入力部、420…受付部、430…処理部、432…学習DB、440…出力部、450…記憶部
図1
図2A
図2B
図2C
図2D
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16