(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023122209
(43)【公開日】2023-09-01
(54)【発明の名称】意味判定プログラム、及び意味判定システム
(51)【国際特許分類】
G10L 15/16 20060101AFI20230825BHJP
G10L 15/10 20060101ALI20230825BHJP
G10L 15/06 20130101ALI20230825BHJP
G10L 15/18 20130101ALI20230825BHJP
【FI】
G10L15/16
G10L15/10 200C
G10L15/10 500T
G10L15/06 300Z
G10L15/10 400K
G10L15/18 300H
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022025781
(22)【出願日】2022-02-22
(11)【特許番号】
(45)【特許公報発行日】2022-04-18
(71)【出願人】
【識別番号】517198517
【氏名又は名称】クリスタルメソッド株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】河合 継
(57)【要約】
【課題】意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供する。
【解決手段】音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音データを取得する取得ステップと、
前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させること
を特徴とする意味判定プログラム。
【請求項2】
前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出すること
を特徴とする請求項1に記載の意味判定プログラム。
【請求項3】
前記抽出モデルは、
擬似的に生成された前記参照用音データを含む抽出用入力データと、
前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データと
を一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されること
を特徴とする請求項2に記載の意味判定プログラム。
【請求項4】
音データを取得する取得手段と、
前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、
前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えること
を特徴とする意味判定システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、意味判定プログラム、及び意味判定システムに関する。
【背景技術】
【0002】
近年、音素の開始時点及び終了時点に関するセグメンテーションデータが、学習データの自動増加やデータ再利用と言う観点において有用であり、データ量を最小単位で利用することができることが期待されている。このことから、音素のセグメンテーションデータを用いた音声認識の技術が注目を集めており、例えば特許文献1の波形の形状分析に基づく音素セグメンテーション方法及びそれを使用する音素セグメンテーション装置が知られている。
【0003】
特許文献1では、音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間の第1極大値の尖頭度を第2のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間の極大値数を第4のパラメータとして演算し、音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算し、第1~第5のパラメータそれぞれに対して重みを与え、第1~第5の重み付きパラメータを乗算し、乗算結果をしきい値と比較して音素境界を判定する。これにより、特許文献1では、発話音声に対して確度の高い音素セグメンテーションを行うことができる技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の開示技術では、判定したセグメンテーションデータを用いて音データを音声認識する際に、音素データとセグメンテーションデータとに対する音データの意味を示す意味データを判定することを想定していない。そのため、特許文献1では、例えばユーザ毎にセグメンテーションデータに個人差がある場合においても、音素データとセグメンテーションデータとに対する意味データが一義的に判定されてしまうので、意味データを精度よく判定することができない。このため、意味データを精度よく判定することが求められている。
【0006】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供することにある。
【課題を解決するための手段】
【0007】
第1発明に係る意味判定プログラムは、音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。
【0008】
第2発明に係る意味判定プログラムは、第1発明において、前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出することを特徴とする。
【0009】
第3発明に係る意味判定プログラムは、第2発明において、前記抽出モデルは、擬似的に生成された前記参照用音データを含む抽出用入力データと、前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されることを特徴とする。
【0010】
第4発明に係る意味判定システムは、音データを取得する取得手段と、前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えることを特徴とする。
【発明の効果】
【0011】
第1発明~第3発明によれば、予め取得された参照用音素データと参照用セグメンテーションデータとに対する意味データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定プログラムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。
【0012】
特に、第2発明によれば、抽出ステップは、予め取得された参照用音データに対する参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータを抽出する。これにより、精度よく音素データとセグメンテーションデータとを抽出できる。このため、意味データを精度よく判定できる。
【0013】
特に、第3発明によれば、抽出モデルは、擬似的に生成された参照用音データと、参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを用いて、機械学習により生成される。これにより、擬似的に生成された音データを学習データとすることが可能となり、想定される環境に適した学習データを容易に取得することができる。このため、意味データを精度よく判定できる。
【0014】
第4発明によれば、判定手段は、判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定システムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。
【図面の簡単な説明】
【0015】
【
図1】
図1は、実施形態における意味判定システムの一例を示す模式図である。
【
図2】
図2は、実施形態における意味判定システムの動作の一例を示す模式図である。
【
図3】
図3(a)は、音データの一例を示す模式図であり、
図3(b)は、スペクトログラムの一例を示す模式図である。
【
図4】
図4(a)は、抽出モデルの学習方法の一例を示す模式図であり、
図4(b)は、判定モデルの学習方法の一例を示す模式図である。
【
図5】
図5は、抽出モデルの一例を示す模式図である。
【
図6】
図6は、判定モデルの一例を示す模式図である。
【
図7】
図7(a)は、実施形態における意味判定装置の構成の一例を示す模式図であり、図(b)は、実施形態における意味判定装置の機能の一例を示す模式図であり、
図7(c)は、DB生成部の一例を示す模式図である。
【
図9】
図9は、実施形態における意味判定システムの動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明を適用した実施形態における意味判定プログラム、及び意味判定システムの一例について、図面を参照しながら説明する。
【0017】
図を用いて、本実施形態における意味判定システム100、及び意味判定装置1の一例について説明する。
図1は、本実施形態における意味判定システム100の一例を示す模式図である。
図2は、本実施形態における意味判定システム100の動作の一例を示す模式図である。
図4は、本実施形態における学習方法の一例を示す模式図である。
【0018】
<意味判定システム100>
意味判定システム100は、音データを取得し、取得した音データの意味データの判定するために用いられる。
【0019】
意味判定システム100は、音データから音素データ及びセグメンテーションデータを抽出し、例えば学習データを用いた機械学習により生成されたデータベースを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。
【0020】
意味判定システム100は、例えば
図1に示すように、意味判定装置1を備える。意味判定システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。意味判定装置1は、例えば通信網4を介して端末2やサーバ3と接続される。
【0021】
意味判定システム100では、例えば
図2に示すように、意味判定装置1は、音データを取得する。その後、意味判定装置1は、例えば抽出モデルを参照して、音データから音素データ及びセグメンテーションデータを抽出する。その後、意味判定装置1は、判定モデルを参照して、音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、意味判定システム100では、音データから抽出した音素データ及びセグメンテーションデータを判定できる。
【0022】
抽出モデルは、入力された音データから、音素データ及びセグメンテーションデータを出力するモデルである。抽出モデルは、例えば機械学習により、生成されてもよい。抽出モデルは、例えば一組の予め取得された参照用音データと、参照用音素データ及び参照用セグメンテーションデータとを学習データ(抽出用学習データ)として用いて、生成される。抽出モデルは、複数の抽出用学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。なお、抽出モデルは、音データから音素データ及びセグメンテーションデータを抽出し得る手段であれば、例えば音素自動ラベリング等の公知の技術を用いてもよい。
【0023】
判定モデルは、機械学習により生成される。判定モデルとして、例えば参照用音素データと参照用セグメンテーションデータとを入力データとし、入力データに対する判定を示す参照用意味データを出力データとして、入力データと出力データとを一組の学習データ(判定用学習データ)として用いて、生成される。判定モデルは、複数の判定用学習データを用いた機械学習により構築された、音素データ及びセグメンテーションデータから意味データを判定するための学習済みモデルが用いられる。
【0024】
音データは、例えば意味判定システム100によって出力される音素データ及びセグメンテーションデータを抽出するために用いられる。音データは、例えば図示しないマイク等の収音装置により収集された音に基づき生成される。音データは、例えば人の会話に基づいた音である。参照用音データとして、例えば後述する音データと同じデータ形式が用いられる。また、音データは、音から生成されたスペクトログラムの画像データを含んでもよい。
【0025】
音データは、音を符号化したものである。音の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。また、音データは、例えば
図3(a)に示すように、時間軸に対する振幅で示されてもよい。
【0026】
スペクトログラムは、例えば
図3(b)に示すように、時間軸及び周波数軸に対する強度(振幅)で示され、例えばフーリエ変換(例えば短時間フーリエ変換)を用いて音データから変換される。スペクトログラムは、画像データとして用いられ、例えば1ピクセル×1ピクセルは、0.064sec×15.624Hzの範囲に対応する。
【0027】
音素データは、音の音素を示すデータである。音素データは、例えば音データに含まれる音声の音素を示すデータである。音素データは、例えば音データに含まれる音声の母音と子音とに基づく音素を示すデータである。音素データは、母音と子音とが一対となる音素を示すデータでもよく、例えば「O:HA:YO:U」等のテキストデータを含む。
【0028】
セグメンテーションデータは、音素の開始時点及び終了時点に関するデータである。セグメンテーションデータは、例えば音素の開始時点及び終了時点を示すテキストデータであってもよい。セグメンテーションデータは、例えば音素の開始時点から終了時点までの時間の長さを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素に紐づくセグメンテーションを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素の並びに紐づいて並べられた各セグメンテーションを示すデータでもよい。音素データとセグメンテーションデータとは、例えば表1のように、お互いに紐づけられたテーブルであってもよい。
【0029】
音素データ及びセグメンテーションデータは、意味判定装置1により、例えば判定モデルを参照し、意味データを判定するために用いられる。音素データ及びセグメンテーションデータは、意味判定装置1により音データから抽出される。
【0030】
参照用音素データ及び参照用セグメンテーションデータは、抽出モデルを機械学習により生成する際、抽出用学習データとして用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば予め取得された音素データ及びセグメンテーションデータが用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば音素データ及びセグメンテーションデータとそれぞれ同一のデータ形式が用いられる。参照用音素データ及び参照用セグメンテーションデータは、例えば実際に録音された音に基づく音データと、擬似的に生成された音データとの少なくとも何れかであってもよい。
【0031】
参照用音データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる。参照用音データは、例えば予め取得された学習用音に基づく音データが用いられる。参照用泳データは、音データと同じデータ形式のものが用いられてもよい。
【0032】
参照用音データ及び参照用音素データ及び参照用セグメンテーションデータは、例えばGAN(Generative Adversarial Network)やオートエンコーダをモデルとした機械学習を用いて、生成された生成用データベース、特に、Conditional GANの一種であるpix2pixをモデルとした機械学習を用いて、生成された生成用データベースを用いて擬似的に生成されてもよい。
【0033】
意味データは、言葉の意味を示すデータである。意味データは、例えば音データの言葉の意味を示すデータであってもよい。意味データは、例えば言葉の意味を示す辞書を参照したテキストデータであってもよい。また、意味データは、音データの音響的特徴が示す意味のデータであってもよい。
【0034】
参照用意味データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる意味データである。参照用意味データは、意味データと同一の形式のデータが用いられてもよい。
【0035】
<学習方法>
本実施形態における学習方法は、入力された音データから音素データ及びセグメンテーションデータを抽出するために用いられる抽出モデル、及び音素データ及びセグメンテーションデータに対する意味データを判定するために用いられる判定モデルを生成する際に用いられる。
【0036】
学習方法は、例えば
図4(a)に示すように、抽出モデルを生成する。学習方法は、参照用音データを第1入力データとし、参照用音素データ及び参照用セグメンテーションデータを第1出力データとして、第1入力データと第1出力データとを一対のデータセットとする抽出用学習データを取得する。学習方法は、複数の抽出用学習データを用いた機械学習により、音データから音素データ及びセグメンテーションデータを抽出するための抽出モデルを生成する。
【0037】
また、学習方法は、例えば
図4(b)に示すように、判定モデルを生成する。学習方法は、参照用音素データ及び参照用セグメンテーションデータを第2入力データとし、参照用意味データを第2出力データとして、第2入力データと第2出力データとを一対のデータセットとする判定用学習データを取得する。学習方法は、複数の判定用学習データを用いた機械学習により、音素データ及びセグメンテーションデータから意味データを判定するための判定モデルを生成する。
【0038】
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
【0039】
抽出モデルには、例えば参照用音データ(第1入力データ)と参照用音素データ及び参照用セグメンテーションデータ(第1出力データ)との間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0040】
例えば第1連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。第1連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0041】
このため、意味判定システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、音データに適した音素データ及びセグメンテーションデータを選択する。これにより、音データが、参照用音データと同一又は類似である場合のほか、非類似である場合においても、音データに適した音素データ及びセグメンテーションデータを定量的に選択することができる。
【0042】
第1連関性は、例えば
図5に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(
図5では「参照用音素データA」+「参照用セグメンテーションデータA」~「参照用音素データC」+「参照用セグメンテーションデータC」)のそれぞれに対し、複数の第1入力データ(
図5では「参照用音データA」~「参照用音データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、音データに対して多角的な音素データ及びセグメンテーションデータの選択を実現することができる。
【0043】
第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1入力データに含まれる「参照用音データA」は、第1出力データに含まれる「参照用音素データA」+「参照用セグメンテーションデータA」との間の連関度AA「73%」を示し、第1出力データに含まれる「参照用音素データB」+「参照用セグメンテーションデータB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0044】
また、抽出モデルは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0045】
判定モデルには、例えば参照用音素データ及び参照用セグメンテーションデータ(第2入力データ)と参照用意味データ(第2出力データ)との間における連関度を有する第2連関性が記憶される。連関度は、第2入力データと第2出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
【0046】
例えば第2連関性は、多対多の情報(複数の第2入力データ、対、複数の第2出力データ)の間における繋がりの度合いにより構築される。第2連関性は、機械学習の過程で適宜更新され、例えば複数の第2入力データ、及び複数の第2出力データに基づいて最適化された関数(分類器)を示す。なお、第2連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
【0047】
このため、意味判定システム100では、例えば分類器の判定した結果を全て踏まえた第2連関性を用いて、音素データ及びセグメンテーションデータに適した意味データを選択する。これにより、音素データ及びセグメンテーションデータが、参照用音素データ及び参照用セグメンテーションデータと同一又は類似である場合のほか、非類似である場合においても、音素データ及びセグメンテーションデータに適した意味データを定量的に選択することができる。
【0048】
第2連関性は、例えば
図6に示すように、複数の第2出力データと、複数の第2入力データとの間における繋がりの度合いを示してもよい。この場合、第2連関性を用いることで、複数の第2出力データ(
図6では「参照用意味データA」~「参照用意味データC」)のそれぞれに対し、複数の第2入力データ(
図6では「参照用音素データA」+「セグメンテーションデータA」~「参照用音素データC」+「参照用セグメンテーションデータ」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第2連関性を介して、1つの第2出力データに対して、複数の第2入力データを紐づけることができる。これにより、音素データ及びセグメンテーションデータに対して多角的な意味データの選択を実現することができる。
【0049】
第2連関性は、例えば各第2出力データと、各第2入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第2入力データに含まれる「参照用音素データA」+「参照用セグメンテーションデータA」は、第2出力データに含まれる「参照用意味データA」との間の連関度AA「73%」を示し、第2出力データに含まれる「参照用意味データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
【0050】
また、判定モデルは、第2入力データと第2出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第2入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。
【0051】
<意味判定装置1>
次に、
図7、
図8を参照して、本実施形態における意味判定装置1の一例を説明する。
図7(a)は、本実施形態における意味判定装置1の構成の一例を示す模式図であり、
図7(b)は、本実施形態における意味判定装置1の機能の一例を示す模式図である。
図7(c)は、DB生成部16の一例を示す模式図である。
図8は、処理部12の一例を示す模式図である。
【0052】
意味判定装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。意味判定装置1は、例えば
図7(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0053】
CPU101は、意味判定装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えば意味判定装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
【0054】
I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、意味判定装置1の使用者等は、入力部108を介して、各種情報、又は意味判定装置1の制御コマンド等を入力する。また、入力部108は、収音が可能な図示しないマイクを備えていてもよい。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又は意味データ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。
【0055】
図7(b)は、意味判定装置1の機能の一例を示す模式図である。意味判定装置1は、取得部11と、処理部12と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。DB生成部16は、例えば
図7(c)に示すように、抽出モデル生成部161と、判定モデル生成部162とを有する。なお、
図7(b)、
図7(c)、
図8に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
【0056】
<<取得部11>>
取得部11は、音データを取得する。取得したデータは、上述した音素データ及びセグメンテーションデータを抽出する際に用いられる。取得部11は、例えば入力部108から入力された音データを取得するほか、例えば通信網4を介して、端末2等から音データを取得してもよい。
【0057】
取得部11は、例えば上述した各種モデルの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。
【0058】
例えば、抽出モデルの生成に用いられる抽出用学習データとして、参照用音データ及び参照用音素データ及び参照用セグメンテーションデータが挙げられる。また、例えば判定モデルの生成に用いられる判定用学習データとして、参照用音素データ及び参照用セグメンテーションデータ及び参照用意味データが挙げられる。
【0059】
<<処理部12>>
処理部12は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出し、判定モデルを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。
【0060】
処理部12は、
図8に示すように、取得部11に接続される抽出処理部121を有する。また、処理部12は、抽出処理部121に接続される判定処理部122を有する。
【0061】
抽出処理部121は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。抽出処理部121は、例えば抽出モデルを参照し、音データに対して、連関性の最も高い音素データ及びセグメンテーションデータを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用音素データ及び参照用セグメンテーションデータを、音素データ及びセグメンテーションデータとして選択してもよい。また、選択される参照用音素データ及び参照用セグメンテーションデータの数については、任意に設定できる。
【0062】
判定処理部122は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータを入力として、入力に対する意味データを判定する。判定処理部122は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータに対して、連関性の最も高い意味データを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用意味データを、意味データとして選択してもよい。また、選択される参照用意味データの数については、任意に設定できる。
【0063】
<<出力部14>>
出力部14は、意味データを出力する。出力部14は、I/F107を介して表示部109に意味データを出力するほか、例えばI/F105を介して、端末2等に意味データを出力する。
【0064】
<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部15は、取得部11、処理部12、DB生成部16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
【0065】
<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
【0066】
DB生成部16は、例えば、抽出モデル生成部161と、判定モデル生成部162とを有する。
【0067】
抽出モデル生成部161は、例えば一組の参照用音データと、参照用音素データ及び参照用セグメンテーションデータと、を抽出用学習データとして、複数の抽出用学習データを用いた機械学習により抽出モデルを生成する。
【0068】
判定モデル生成部162は、例えば一組の参照用音素データ及び参照用セグメンテーションデータと、参照用意味データと、を判定用学習データとして、複数の判定用学習データを用いた機械学習により判定モデルを生成する。
【0069】
<端末2>
端末2は、例えば意味判定システム100を用いたサービスのユーザ等が保有し、通信網4を介して意味判定装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末2は、音データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末2は、ユーザに意味データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。
【0070】
<サーバ3>
サーバ3は、通信網4を介して意味判定装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じて意味判定装置1から各種データが送信される。サーバ3は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば意味判定装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えば意味判定装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
【0071】
<通信網4>
通信網4は、例えば意味判定装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
【0072】
(意味判定システム100の動作)
次に、本実施形態における意味判定システム100の動作の一例について説明する。
図9は、本実施形態における意味判定システム100の動作の一例を示すフローチャートである。
【0073】
<取得手段S110>
取得手段S110は、例えば収音装置により収音された音に基づき生成された音データを取得する。取得手段S110では、例えば取得部11が、音データを取得する。また、取得部11は、例えば上述した抽出モデルの抽出用学習データに含まれる参照用音データと同じ形式の音データを取得してもよい。取得部11は、例えば端末2等から音データを取得するほか、例えば記憶部15を介して、保存部104に取得した音データを保存してもよい。
【0074】
<抽出手段S120>
抽出手段S120は、取得手段S110で取得した音データから音素データ及びセグメンテーションデータを抽出する。抽出手段S120は、例えば抽出処理部121が、上述した学習方法により予め生成された抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。また、抽出手段S120は、例えば判定モデルの判定用学習データに含まれる参照用音素データ及び参照用セグメンテーションデータと同じ形式の音素データ及びセグメンテーションデータを抽出してもよい。また、抽出手段S120は、抽出モデルを用いることなく、他の公知の技術によって、音データから音素データ及びセグメンテーションデータを抽出してもよい。
【0075】
また、抽出手段S120は、例えば記憶部15を介して、音データから抽出した音素データ及びセグメンテーションデータを保存部104に保存してもよい。なお、取得した各データは、例えばサーバ3や他の意味判定装置1に送信されてもよい。
【0076】
<判定手段S130>
判定手段S130は、例えば判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。判定手段S130では、例えば判定処理部122は、予め生成された判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。
【0077】
判定手段S130は、例えば記憶部15を介して、判定した意味データを保存部104に保存してもよい。なお、取得した意味データは、例えば端末2やサーバ3や他の意味判定装置1に送信されてもよい。判定する意味データはひとつの音素データ及びセグメンテーションデータに対して複数の意味データを取得してもよい。
【0078】
<出力手段S140>
出力手段S140では、例えば出力部14は、判定手段S130により判定された意味データを、表示部109や端末2等に出力する。
【0079】
上述した各手段を行うことで、本実施形態における意味判定システム100の動作が完了する。
【0080】
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0081】
1 :意味判定装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
14 :出力部
15 :記憶部
16 :DB生成部
100 :意味判定システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :抽出処理部
122 :判定処理部
161 :抽出モデル生成部
162 :判定モデル生成部
S110 :取得手段
S120 :抽出手段
S130 :判定手段
S140 :出力手段