(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6596517
(24)【登録日】2019年10月4日
(45)【発行日】2019年10月23日
(54)【発明の名称】口語語義解析システム及び方法
(51)【国際特許分類】
G06F 17/27 20060101AFI20191010BHJP
【FI】
G06F17/27 685
【請求項の数】8
【全頁数】13
(21)【出願番号】特願2017-567752(P2017-567752)
(86)(22)【出願日】2016年6月14日
(65)【公表番号】特表2018-524725(P2018-524725A)
(43)【公表日】2018年8月30日
(86)【国際出願番号】CN2016085763
(87)【国際公開番号】WO2017000777
(87)【国際公開日】20170105
【審査請求日】2018年2月21日
(31)【優先権主張番号】201510385309.1
(32)【優先日】2015年6月30日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】517246379
【氏名又は名称】ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】チェン、ジャンソン
【審査官】
成瀬 博之
(56)【参考文献】
【文献】
特開2005−044020(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
プリセットされた分野での口語語義を解析する口語語義解析システムであって、
前記プリセットされる分野での語義文型を格納し、各々の前記語義文型はアドレスに対応し、前記語義文型は字とキーワードを含み、各々の前記キーワードはラベルに対応し、前記字が所在している前記語義文型のアドレス及び/又は前記ラベルが所在している前記語義文型のアドレスを格納するプリセットされたワードリストを有する格納ユニットと、
待解析口語センテンスを取得する取得ユニットと、
前記格納ユニットと前記取得ユニットとにそれぞれ連接され、前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと合うソートされた候補語義文型を取得する検索ユニットと、
前記検索ユニットに連接され、ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析し、解析結果を取得する解析ユニットと、
を含み、
ソートされた前記候補語義文型によって、前記ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析する前記解析ユニットは、前記候補語義文型の各々について、有限状態オートマトンネットワークを構築し、前記有限状態オートマトンネットワークによって、前記待解析口語センテンスを採点し、前記待解析口語センテンスの点数を比較して、前記点数が最も高い待解析口語センテンスを前記解析結果とし、
前記ファジーマッチングアルゴリズムは、前記待解口語センテンスと前記候補語義文型の間に一致ではない部分の存在を許可し、
前記有限状態オートマトンネットワークは、前記待解析口語センテンスにおける前記キーワードを、対応する前記ラベルと入れ替え、候補待解析ラベル入れ替えセンテンスを得て、前記候補待解析ラベル入れ替えセンテンスと各候補語義文型から生成された前記有限状態オートマトンネットワークとの間でファジーマッチングを実行し、
前記ファジーマッチングは、動的計画アルゴリズムによりマッチングの程度を算出し、前記点数によって最高の文型を得て、対応する前記解析結果を取得する、
ことを特徴とするシステム。
【請求項2】
前記検索ユニットは、
前記待解析口語センテンスにある、前記格納ユニットにおける前記キーワードと同じキーワードを取出して、前記キーワードに対応する前記ラベルを取得する取出しモジュールと、
前記取出しモジュールに連接され、前記待解析口語センテンスにある前記キーワードを前記キーワードに対応する前記ラベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュールと、
前記入れ替えモジュールに連接され、前記入れ替え式の口語センテンスにある字と前記ラベルとにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記ラベルとマッチングする前記語義文型のアドレスを取得する検索モジュールと、
前記検索モジュールに連接され、前記入れ替え式の口語センテンスの類似度と比較する方式を採用して、前記入れ替え式の口語センテンスにある前記字及び/又は前記ラベルとマッチングする前記語義文型を類似度の高さの順にソートして、ソートされた前記候補語義文型を取得するソートモジュールと、
を含むことを特徴とする請求項1記載の口語語義解析システム。
【請求項3】
前記ソートモジュールは、得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の類似度の点数を取得し、
前記得点公式は、
S=(S1+S2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの間の類似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記ラベルが前記候補語義文型に占める割合を表すことを特徴とする請求項2記載の口語語義解析システム。
【請求項4】
前記ワードリストはハッシュテーブルであり、
前記ハッシュテーブルは、すべての前記語義文型における前記字及び前記ラベルを含み、
各々の前記字及び前記ラベルの後にリストがつき、
前記リストにおける各要素は、前記語義文型における前記字又は前記ラベルのアドレス(ID)を格納する、
ことを特徴とする請求項1記載の口語語義解析システム。
【請求項5】
前記待解析口語センテンスを取得する工程S1と、
前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと合うソートされた前記候補語義文型を取得する工程S2と、
ソートされた前記候補語義文型によって、前記ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析し、前記解析結果を取得する工程S3と、
を含み、
前記工程S3は、
前記候補語義文型の各々について、前記有限状態オートマトンネットワークを構築する工程S31と、
前記有限状態オートマトンネットワークによって、前記待解析口語センテンスを採点する工程S32と、
前記待解析口語センテンスの点数を比較して、前記点数が最も高い待解析口語センテンスを前記解析結果とする工程S33と、
を含み、
前記工程S3における前記ファジーマッチングアルゴリズムは、前記待解口語センテンスと前記候補語義文型の間に一致ではない部分の存在を許可し、
前記工程S3における前記有限状態オートマトンネットワークは、前記待解析口語センテンスにおける前記キーワードを、対応する前記ラベルと入れ替え、前記候補待解析ラベル入れ替えセンテンスを得て、前記候補待解析ラベル入れ替えセンテンスと各候補語義文型から生成された前記有限状態オートマトンネットワークとの間でファジーマッチングを実行し、
前記工程S3における前記ファジーマッチングは、動的計画アルゴリズムによりマッチングの程度を算出し、前記点数によって最高の文型を得て、対応する前記解析結果を取得する、
ことを特徴とする請求項1記載の口語語義解析システムに適用する口語語義解析方法。
【請求項6】
前記工程S2は、
前記待解析口語センテンスにある、前記格納ユニットにおける前記キーワードと同じキーワードを取出して、前記キーワードに対応する前記ラベルを取得する工程S21と、
前記待解析口語センテンスにある前記キーワードを、前記キーワードに対応する前記ラベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
前記入れ替え式の口語センテンスにある字と前記ラベルにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記ラベルとマッチングする前記語義文型のアドレスを取得する工程S23と、
前記入れ替え式の口語センテンスの類似度と比較する方式を採用して、前記入れ替え式の口語センテンスにある前記字及び/又は前記ラベルとマッチングする前記語義文型を類似度の高さの順にソートして、ソートされた前記候補語義文型を取得する工程S24と、
を含むことを特徴とする請求項5記載の口語語義解析方法。
【請求項7】
前記工程S24は、得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の類似度の点数を取得して、
前記得点公式は、
S=(S1+S2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの間の類似度の点数を表し、S1は前記候補語義文型中の前記字及び/又は前記ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S2は前記候補語義文型中の前記字及び/又は前記ラベルが前記候補語義文型に占める割合を表すことを特徴とする請求項6記載の口語語義解析方法。
【請求項8】
前記ワードリストは、ハッシュテーブルであり、
前記ハッシュテーブルは、すべての前記語義文型における前記字及び前記ラベルを含み、
各々の前記字及び前記ラベルの後にリストがつき、
前記リストにおける各要素は、前記語義文型における前記字又は前記ラベルのアドレス(ID)を格納する、
ことを特徴とする請求項5記載の口語語義解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、口語自然言語理解に関し、特に、ロバストネスが高い口語語義解析システム及びその方法に関する。
【背景技術】
【0002】
口語音声認識は、音声学、言語学、数学的な信号処理、パターン認識など多くの学科分野に関わる。知能設備の普及とともに、人と知能設備の間に、どうすればもっと直接的に友好的にインタラクションをすることができるのかが重要な問題になる。口語自然語言は、ユーザーに対して天然の友好性と便利性を持つため、口語自然言語に基づく人とマシンの間のインタラクションはトレンドになっており、工業界でもますます重視されてくる。口語自然言語交互の重要技術は、口語語義の理解にあり、即ち、ユーザーの話したセンテンスを解析することにより、ユーザーの伝えたい意図及び対応するキーワードを得る。一般的に、口語語義の理解を実現する方法は、相応しい語義文型を手作業で収集又は書き出し、待解析文型を前記文型とマッチングさせ、解析結果を得ることである。既存の口語語義解析方法は、主としては、何らかの文法に基づくマッチングであり、例えば、待解析口語センテンスは、語義文型と完全的なマッチングでなければ成功的に解析できず、このため、語義理解システムを構築する当業者は大量な時間をかけ、正則文法や文脈自由文法など語義文型を収集しなければならない。また、フロントエンド音声認識などモジュールには、識別の不正確の現象が存在するため、語義理解の解析に失敗ももたらし、さらに、待解析の文型は、大量な語義文型とマッチングする必要があるため、解析時間が長い及び効率が低い問題もある。
【0003】
既存の口語語義解析方法に存在する上述した問題に対して、本発明においては、大規模の語義文型庫に速やかに、正確に、待解析口語センテンスと類似する文型を見つけ、正確な結果を出すことができる口語語義解析システム及び方法を提供する。
【0004】
本発明により提供されたプリセットされた分野での口語語義を解析する口語語義解析システムは、
前記プリセットされる分野での語義文型を格納し、各々の前記語義文型はアドレスに対応し、前記語義文型は字とキーワードを含み、各々の前記キーワードはラベルに対応し、前記字が所在している前記語義文型のアドレス及び/又は前記ラベルが所在してる前記語義文型のアドレスを格納するプリセットされたワードリストも有する格納ユニットと、
待解析口語センテンスを取得する取得ユニットと、
前記格納ユニットと前記取得ユニットとにそれぞれ連接され、前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと合う候補語義文型及び相応の候補順序を取得する検索ユニットと、
前記検索ユニットに連接され、ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析し、解析結果を取得する解析ユニットと、
を含む。
【0005】
好ましくは、前記検索ユニットにおいて、
前記待解析口語センテンスにある、前記格納ユニットにおける前記キーワードと同じキーワードを取出して、それに、前記キーワードに対応する
ラベルを取得する取出しモジュールと、
前記取出しモジュールに連接され、前記待解析口語センテンスにある前記キーワードを前記キーワードに対応する
ラベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュールと、
前記入れ替えモジュールに連接され、前記入れ替え式の口語センテンスにある字と前記
ラベルとにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記
ラベルとマッチングする前記語義文型のアドレスを取得する検索モジュールと、
前記検索モジュールに連接され、前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、入れ替え式の口語センテンスにある前記字及び/又は前記
ラベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得するソートモジュールと、
を含む。
【0006】
好ましくは、前記ソートモジュールは得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得し、
前記得点公式は、
S=(S
1+S
2)/2
であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を表し、S
1は前記候補語義文型中の前記字及び/又は前記
ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S
2は前記候補語義文型中の前記字及び/又は前記
ラベルが前記候補語義文型に占める割合を表す。
【0007】
好ましくは、前記解析ユニットは、ソートされた前記候補語義文型により、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析する具体的な工程は、
前記候補語義文型の各々について、有限状態オートマトンネットワークを構築し、前記有限状態オートマトンネットワークによって、前記待解析口語センテンスを採点し、前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とする。
【0008】
好ましくは、前記ワードリストはハッシュテーブルを採用して表れる。
【0009】
口語語義解析システムに適用する口語語義解析方法は、
待解析口語センテンスを取得する工程S1と、
前記待解析口語センテンスにより、前記格納ユニットにある前記語義文型を検索し、前記待解析口語センテンスと類似する候補語義文型及び相応しい候補順序を取得する工程S2と、
ソートされた前記候補語義文型によって、ファジーマッチングアルゴリズムを採用して、前記待解析口語センテンスを解析して、解析結果を取得する工程S3と、
を含む。
【0010】
好ましくは、前記工程S2の具体的な工程は、
前記格納ユニットにあるキーワードと同じ前記待解析口語センテンスにあるキーワードを取得して、前記キーワードに対応する
ラベルを取得する工程S21と、
前記待解析口語センテンスにある前記キーワードを、前記キーワードに対応する
ラベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
前記入れ替え式の口語センテンスにある字と前記
ラベルにより、前記格納ユニットにある前記ワードリストを検索し、前記字とマッチングする前記語義文型のアドレス、及び/又は前記
ラベルとマッチングする前記語義文型のアドレスを取得す工程S23と、
前記入れ替え式の口語センテンスの相似度と比較する方式を採用して、前記入れ替え式の口語センテンスにある字とマッチングする前記語義文型及び/又は前記
ラベルとマッチングする前記語義文型を相似度の高さの順にソートして、ソートされた前記候補語義文型を取得する工程S24と、
を含む。
【0011】
好ましくは、前記工程S24は得点公式を採用することにより、前記候補語義文型と前記入れ替え式の口語センテンスの間の相似度の点数を取得して、
前記得点公式は、
S=(S
1+S
2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S
1は前記候補語義文型中の前記字及び/又は前記
ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S
2は前記候補語義文型中の前記字及び/又は前記
ラベルが前記候補語義文型に占める割合を表す。
【0012】
好ましくは、前記工程S3の具体的な工程は、
前記候補語義文型の各々について、有限状態のオートマトンネットワークを構築する工程S31と、
前記有限状態のオートマトンネットワークによって、前記待解析口語センテンスを採点する工程S32と、
前記待解析口語センテンスの点数を比較して、点数が最も高い前記待解析口語センテンスを前記待解析口語センテンスの解析結果とする工程S33と、
を含む。
【0013】
前記ワードリストは、ハッシュテーブルを採用して表れる。
【0014】
本発明の技術案では、口語語義解析システムで検索ユニットによって、速やかに待解析口語センテンスと関係する文型を検索することができ、マッチング効率が上がり、ファジーマッチングアルゴリズムを採用することにより待解析口語センテンスを解析する時、待解析口語センテンスと候補語義文型の間に一致ではない部分が存在することができ、一定の故障許容性を有し、システムのロバストネスが高まるようになる。口語語義解析方法では、速やかに待解析口語センテンスと関係ある文型を検索することができることにより、マッチングの効率を高め、大規模の語義文型庫で速やかに、正確に待解析口語センテンスと類似する文型を見つけ、正確な結果を出力することができる。
【図面の簡単な説明】
【0015】
【
図1】
図1は、本発明の一実施例の口語語義解析システムのブロック図である。
【
図2】
図2は、本発明の一実施例の口語語義解析方法のフローチャートである。
【
図3】
図3は、本発明の前記格納ユニットにおける上記の語義文型を検索する方法のフローチャートである。
【
図4】
図4は、本発明の前記待解析口語センテンスを解析する方法フローチャートである。
【
図5】
図5は、本発明の文型転置インデックスを示す図である。
【
図6】
図6は、本発明の文型に対応する有限状態オートマトンを示す図である。
【発明を実施するための形態】
【0016】
以下は本発明の付図を参照しながら、本発明の実施例の技術案を明確に、完全に説明するが、明らかに、記載されている実施例はただ本発明の一実施例だけであり、全部の実施例とするものではない。本発明の実施例に基づいて、当業者が創造的な労働をすることなく得られた他の実施例は、全て本発明の保護範囲内に属する。
【0017】
説明は、衝突しない状況では、本発明中の実施例及び実施例にある特徴を相互的に組み合わせることができる。
【0018】
以下、付図と具体的な実施例により、本発明をより詳しく説明するが、本発明を限定するものではない。
【0019】
図1の示したように、プリセットされた分野での口語語義を解析する口語語義解析システムは、
プリセットされている分野での語義文型を格納し、各語義文型は一つのアドレスに対応し、語義文型は字とキーワードを含み、各キーワードは一つのラベルに対応し、また、前記字が所在する語義文型のアドレス及び/又はラベルが所在する語義文型のアドレスを格納するプリセットされたワードリストも有する格納ユニット1と、
待解析口語センテンスを取得する取得ユニット2と、
格納ユニット1と取得ユニット2とにそれぞれ連接され、待解析口語センテンスにより、格納ユニット1にある語義文型を検索し、待解析口語センテンスと合う候補語義文型及び相応する候補順序を取得する検索ユニット3と、
検索ユニット3に連接され、ソートされた候補語義文型によって、ファジーマッチングアルゴリズムを採用して、待解析口語センテンスを解析し、解析結果を取得する解析ユニット4と、
を含む。
【0020】
本実施例では、検索ユニット3により、速やかに待解析口語センテンスと関係する文型を検索することができ、マッチング効率を高め、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析する時、待解析口語センテンスと候補語義文型の間に一致ではない部分が存在することができ、且つ口語語義解析システムを構築する当業者は、大量の差が小さい文型を書く必要もなくなり、また、音声認識のフロントエンドのミスに対して、一定の許容性も有し、システムのロバストネスを高めることができる。
【0021】
好ましい実施例では、検索ユニット3は、
格納ユニット1にあるキーワードと同じ待解析口語センテンスにあるキーワードを取出し、且つ、前記キーワードに対応する
ラベルを取得する取出しモジュール31と、
取出しモジュール31に連接され、待解析口語センテンスにあるキーワードをキーワードに対応する
ラベルと入れ替え、入れ替え式の口語センテンスを形成する入れ替えモジュール32と、
入れ替えモジュール32に連接され、入れ替え式の口語センテンス中の字と
ラベルとに基づいて、格納ユニット1にあるワードリストを検索し、字とマッチングする語義文型のアドレス、及び/又は
ラベルとマッチングする語義文型のアドレスを取得する検索モジュール34と、
検索モジュール34に連接され、入れ替え式の口語センテンスの相似度と比較する方式を採用して、入れ替え式の口語センテンスにある字及び/又は
ラベルとマッチングする語義文型を入れ替え式の口語センテンスと相似度の高さの順にソートして、ソートされた候補語義文型を取得するソートモジュール33と
、
を含む。
【0022】
本実施例では、検索ユニット3は待解析口語センテンスが与えられた時に、インデックスによって、速やかに待解析口語センテンスと近い候補語義文型を検索するために用いられる。
【0023】
具体的に、待解析口語センテンスを得た後、待解析口語センテンスにあるキーワードを取出し、ワードリストを検索し、待解析口語センテンスにおけるあらゆる可能な詞を遍歴し、ワードリストに当該詞や字が存在するかどうかを探し出し、存在する場合は、当該詞が待解析口語センテンスにおける位置を記録し、統計モデルにより検出し、条件ランダムフィールド(Conditional Radom Fields,CRF)訓練統計モデルを選択して、検出してもよく、待解析口語センテンスにおけるキーワードを相応する
ラベルと入れ替える。待解析口語センテンスにおける
ラベル及び入れ替えられてない字をインデックスに検索する。本実施例では、各字あるいは
ラベルをワードリストに検索することにより、その字あるいは
ラベルが現れたことがある語義文型の全てのアドレス(ID)を得ることができる。各語義文型と待解析口語文型の間に、どのぐらいの字あるいは
ラベルはマッチングしているかを記録することができる。検索結果に対しては、相似度の点数の大きさの順にソートして、点数が最も高い文型は候補語義文型とされる。
【0024】
好ましい実施例では、ソートモジュール33は得点公式を採用することにより、候補語義文型と入れ替え式の口語センテンスの間の相似度の点数を取得し、
得点公式は、
S=(S
1+S
2)/2Gであり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S
1は前記候補語義文型中の前記字及び/又は前記
ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S
2は前記候補語義文型中の前記字及び/又は前記
ラベルが前記候補語義文型に占める割合を表す。
【0025】
好ましい実施例では、解析ユニット4はソートされた候補語義文型により、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析する具体的な過程は、
候補語義文型の各々について、有限状態オートマトンネットワークを構築して、有限状態オートマトンネットワークにより、待解析口語センテンスを採点して、待解析口語センテンスの点数を比較して、点数が最も高い待解析口語センテンスを待解析口語センテンスの解析結果とする。
【0026】
本実施例では、解析ユニット4は、各候補語義文型に有限状態のオートマトンネットワークを構築することができる。各字あるいは
ラベルを有限状態のオートマトンネットワーク上に一つの弧とする。
図6に示したように、一つのセンテンスに対応する有限状態のオートマトンネットワークが表示され、有限状態のオートマトンネットワークによって、待解析口語センテンスを解析し採点し、具体的には、キーワードテスト結果によって待解析口語センテンスにおけるキーワードを相応する
ラベルと入れ替える。待解析口語センテンスにn個のキーワードのテスト結果があると仮定すれと、2
n個の
ラベルの可能な組み合わせが存在する。これら可能な組み合わせに
ラベルの位置が衝突する組み合わせを除くと、候補の待テストの
ラベルの入れ替えセンテンスが得られる。入れ替え式の口語センテンスを各文型から生成された有限状態のオートマトンネットワークとファジーマッチングし、マッチングする方法がたくさんあり、例えば、《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》のような方法があり、当該マッチング方法は既存の技術であるため、これ以上は贅言しなくて、当該マッチング方法は動的計画アルゴリズムにより、2つのセンテンスの間のマッチングする程度を速やかに算出することができ、点数によって、最高の文型及び相応する解析結果が得られる。
【0027】
さらに、解析と採点する過程では待解析口語センテンスと口語語義センテンスの間に挿入及び/又は削除及び/又は置換をすることができ、且つ、挿入及び/又は削除及び/又は置換をする回数はプリセットされた閾値に制限され、回数は閾値より小さい場合、待解析センテンスは相応する語義文型と合うとし、逆の場合、合わないとする。
【0028】
好ましい実施例では、ワードリストはハッシュテーブルによって表す。
【0029】
図2に示したように、口語語義解析システムに応用する口語語義解析方法は、
待解析口語センテンスを取得する工程S1と、
待解析口語センテンスによって、格納ユニット1にある語義文型を検索して、待解析口語センテンスと相応する候補語義文型及び相応する候補順序を取得する工程S2と、
ソートされた候補語義文型によって、ファジーマッチングアルゴリズムを採用することにより、待解析口語センテンスを解析して、解析結果を取得する工程S3と、
を含む。
【0030】
本実施例では、口語語義解析方法により、速やかに待解析口語センテンスと関係がある文型を検索することができ、マッチングの効率を高くし、大規模の語義文型庫中から待解析口語センテンスと類似する文型を速やかに且つ正確に見つけ、正確な結果を出力することができる。
【0031】
図3の示したように、好ましい実施例では、工程S2の具体的な流れは、
待解析口語センテンスにある格納ユニット1のキーワードと同じなキーワードを取出して、そのキーワードに対応する
ラベルを取得する工程SS21と、
待解析口語センテンスにあるキーワードをそのキーワードに対応する
ラベルと入れ替えて、入れ替え式の口語センテンスを形成する工程S22と、
入れ替え式の口語センテンスにある字と
ラベルによって、格納ユニット1にあるワードリストを検索して、字とマッチングする語義文型のアドレス及び/又は
ラベルとマッチングする語義文型のアドレスを取得する工程S23と、
入れ替え式の口語センテンスの相似度合いと比較する方式を採用して、入れ替え式の口語センテンス中の字とマッチングする語義文型及び/又は
ラベルとマッチングする語義文型について、ソートを行い、そして、ソートされた候補語義文型を取得する工程S24と、
を含む。
【0032】
本実施例では、口語語義解析方法はオフラインステージとオンラインステージの2つの部分を含むことができる。ここで、オフラインステージは、定義された分野のニーズによって、相応する分野での語義文型を収集と整理するものであり、その中に、語義文型は口語規則を見たし、且つ当該語義文型に解析する必要があるキーワードは
ラベルで表示されている。例えば、電話をかける分野での一つの可能なセンテンスは“張さんに電話をかけなさい”であり、“張さん”は解析する必要がある名称キーワードであるため、解析する必要のあるキーワードを
ラベルと入れ替えて、例えば、“張さん”を“$name”と入れ替え、それでは、当該の検索を介して、センテンスが書き直された後の文型は“$nameに電話をかけなさい”となる。各分野での語義文型にインデックスを立て、語義文型にある字と
ラベルを共同的にインデックスを立て、その中、
ラベルは字として検索される。
図5では、本実施例においてハッシュテーブル反転インデックスを採用することを示した。ハッシュテーブルに格納されたのはすべての語義文型に現れたことがある字と
ラベルであり、それぞれの字と
ラベルとの後にリストがつき、リストにおける各要素に当該字あるいは
ラベルが所在している文型のアドレス(ID番号)が格納されている。
【0033】
オンラインステージは、待解析口語センテンスが与えられた時に、インデックスによって、速やかに待解析センテンスと近い候補語義文型を検索するものである。その具体的な過程は、
待解析口語センテンスを取得した後に、待解析口語センテンスにあるキーワードを取り出し、ワードリストを検索し、ワードリストにあるワードごとについて、ハッシュインデックスを立てて、待解析口語センテンスが与えられた時に、待解析口語センテンスにあるすべての可能なワードを遍歴して、ハッシュテーブルに当該ワードが存在するかどうかを検索して、存在する場合、当該ワードは待解析センテンスにおける位置を記録し、統計モデルにより、検測を行い、条件ランダムフィールド訓練統計モデルを選択して検測してもよく、待解析口語センテンスにあるキーワードを相応する
ラベルと入れ替える。当該入れ替えはオフラインステージにある入れ替えと同じであり、待解析口語センテンスにある
ラベル及び入れ替えられてない字をインデックスに検索する。本実施例では、それぞれの字あるいは
ラベルをハッシュ反転インデックスに検索すると、その字あるいは
ラベルが現れたことがある全ての語義文型のアドレス(ID)を得ることができる。各語義文型と待解析文型の間にどのぐらいの字あるいは
ラベルはマッチングするかを記録する。検索結果を相似度の得点の高さの順にソートして、点数が最も高い文型が候補語義文型とされる。
【0034】
好ましい実施例では、工程S24は得点公式を採用することにより、候補語義文型と入れ替え式の口語センテンスの間の相似度の点数を取得し、
得点公式は、
S=(S
1+S
2)/2であり、
ここで、Sは前記候補語義文型と前記入れ替え式の口語センテンスの相似度の点数を表し、S
1は前記候補語義文型中の前記字及び/又は
ラベルが前記入れ替え式の口語センテンスに占める割合を表し、S
2は前記候補語義文型中の前記字及び/又は
ラベルが候補語義文型に占める割合を表す。
【0035】
図4に示したように、好ましい実施例では、工程S3の具体的な過程は、
各候補語義文型に有限状態のオートマトンネットワークを構築する工程S31と、
有限状態のオートマトンネットワークによって、待解析口語センテンスを採点する工程S32と、
待解析口語センテンスの点数を比較して、点数が最も高い待解析口語センテンスを待解析口語センテンスの解析結果とする工程S33と、
を含む。
【0036】
本実施例では、各候補語義文型に有限状態のオートマトンネットワークを構築することができる。それぞれの字あるいは
ラベルを有限状態のオートマトン上に一つの弧とする。
図6に示したように、センテンスが対応する有限状態のオートマトンのネットワークを示し、有限状態のオートマトンのネットワークによって、待解析口語センテンスを解析し採点し、具体的に、キーワードの検測結果によって、待解析口語センテンスにあるキーワードを相応する
ラベルと入れ替える。待解析口語センテンスにn個のキーワードの検測結果があると仮定すると、2
n個の
ラベルの可能な組み合わせが存在する。これらの可能な組
み合わせにある
ラベルの位置と衝突する組み合わせを除去することにより、候補の待テストの
ラベルの入れ替えセンテンスが得られ、入れ替え式の口語センテンスを各センテンスから生成された有限状態のオートマトンのネットワークとファジーマッチングして、マッチングする方法はたくさんあり、例えば《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》のような方法があり、当該マッチング方法は既存の技術なので、ここで贅言しないが、当該マッチング方法は動的計画アルゴリズムにより、速やかに2つのセンテンスの間のマッチング程度を算出することができ、採点によって、最も優れたセンテンス及び相応する解析結果が取得される。
【0037】
さらに、解析と採点する過程に待解析口語センテンスと口語語義センテンスの間に挿入及び/又は削除及び/又は置換をすることができる。また、挿入及び/又は削除及び/又は置換をする回数は、プリセットされた閾値に制限され、個数は閾値より小さい場合、待解析センテンスを相応する語義文型と合うとし、逆の場合、合わないとする。
【0038】
上述したのはただ本発明の好ましい実施例のみであり、本発明の実施例及び保護範囲を制限する意図はなく、当業者によって本発明の説明及び図面に基づいて均等な置換や明らかな変更によって得られる方案は、全て本発明の保護範囲内に属することを意識すべきである。