IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特開-抽出装置 図1
  • 特開-抽出装置 図2
  • 特開-抽出装置 図3
  • 特開-抽出装置 図4
  • 特開-抽出装置 図5
  • 特開-抽出装置 図6
  • 特開-抽出装置 図7
  • 特開-抽出装置 図8
  • 特開-抽出装置 図9
  • 特開-抽出装置 図10
  • 特開-抽出装置 図11
  • 特開-抽出装置 図12
  • 特開-抽出装置 図13
  • 特開-抽出装置 図14
  • 特開-抽出装置 図15
  • 特開-抽出装置 図16
  • 特開-抽出装置 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024112548
(43)【公開日】2024-08-21
(54)【発明の名称】抽出装置
(51)【国際特許分類】
   G06F 40/295 20200101AFI20240814BHJP
   G06F 40/242 20200101ALI20240814BHJP
【FI】
G06F40/295
G06F40/242
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023017666
(22)【出願日】2023-02-08
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】加藤 拓
(72)【発明者】
【氏名】石川 澄
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA15
5B091AB06
5B091AB08
5B091CC02
(57)【要約】
【課題】未知語又は専門用語の単語候補を抽出すること。
【解決手段】抽出装置1は、入力文に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された固有表現間の関係に関する関係情報を取得し、取得された関係情報が示す関係のある二つの固有表現に基づく入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する関係抽出単語抽出部15を備える。文字列は、関係のある二つの固有表現のうち入力文の文頭に近い方の固有表現からもう一方の固有表現まで、入力文において間にある語を語順に結合した文字列であってもよい。関係抽出単語抽出部15は、入力文を、含まれる所定の品詞で分割し、分割された各文字列であって所定の品詞を除く各文字列を単語候補としてさらに抽出して出力してもよい。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力文に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された前記固有表現間の関係に関する関係情報を取得し、取得された前記関係情報が示す関係のある二つの前記固有表現に基づく前記入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する抽出部を備える抽出装置。
【請求項2】
前記文字列は、関係のある二つの前記固有表現のうち前記入力文の文頭に近い方の前記固有表現からもう一方の前記固有表現まで、前記入力文において間にある語を語順に結合した文字列である、
請求項1に記載の抽出装置。
【請求項3】
前記抽出部は、前記入力文を、含まれる所定の品詞で分割し、分割された各文字列であって前記所定の品詞を除く各文字列を前記単語候補としてさらに抽出して出力する、
請求項1に記載の抽出装置。
【請求項4】
前記抽出部によって抽出された前記単語候補のうち、固有表現の所定の種類である単語を含む前記単語候補を除いて出力する種類選別部をさらに備える、
請求項1に記載の抽出装置。
【請求項5】
前記抽出部によって抽出された前記単語候補のうち、所定の辞書において出現頻度が所定の基準より高い前記単語候補を除いて出力する頻度選別部をさらに備える、
請求項1に記載の抽出装置。
【請求項6】
前記所定の辞書は、前記頻度選別部によって出力される前記単語候補を登録する辞書である、
請求項5に記載の抽出装置。
【請求項7】
前記抽出部によって抽出された前記単語候補を、所定の自然言語処理で利用する辞書に登録する登録部をさらに備える、
請求項1に記載の抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一側面は、未知語又は専門用語の単語候補を抽出する抽出装置に関する。
【背景技術】
【0002】
音声認識又は機械翻訳などの自然言語処理技術を、特定のドメイン又は場面で利用するためには、未知語又は専門用語を登録することが重要となる。例えば、音声認識又は機械翻訳では未知語又は専門用語を、それぞれの辞書に追加登録することで、認識処理、翻訳処理が可能となる。下記特許文献1では、自動音声認識システムにおいて未知語を学習する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2022-522926号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述の未知語又は専門用語のリストアップは人手で行われることが一般的だが、単語数が多い場合、又は、実施頻度が高い場合は、リストアップ作業が困難である。そこで、未知語又は専門用語の単語候補を抽出することが望まれている。
【課題を解決するための手段】
【0005】
本開示の一側面に係る抽出装置は、入力文に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された固有表現間の関係に関する関係情報を取得し、取得された関係情報が示す関係のある二つの固有表現に基づく入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する抽出部を備える。
【0006】
このような側面においては、入力文に対して抽出された関係のある二つの固有表現に基づく入力文中の文字列が、未知語又は専門用語の単語候補として抽出され、出力される。すなわち、未知語又は専門用語の単語候補を抽出することができる。
【発明の効果】
【0007】
本開示の一側面によれば、未知語又は専門用語の単語候補を抽出することができる。
【図面の簡単な説明】
【0008】
図1】実施形態に係る抽出装置の機能構成の一例を示す図である。
図2】実施形態に係る抽出装置が実行する処理における入出力の情報を整理した図である。
図3】入力データのデータ例を示す図である。
図4】抽出テキストのデータ例を示す図である。
図5】形態素区切りの表記と品詞のリストのテーブル例を示す図である。
図6】形態素区切りの表記と品詞と固有表現のラベルのリストのテーブル例を示す図である。
図7】形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストのテーブル例を示す図である。
図8】抽出候補リストのテーブル例を示す図である。
図9】表記と固有表現のラベルリストのテーブル例を示す図である。
図10】抽出対象外品詞リストのテーブル例を示す図である。
図11】抽出候補リストのテーブル例を示す図である。
図12】抽出対象外固有表現ラベルリストのテーブル例を示す図である。
図13】未知語・専門用語リストのテーブル例を示す図である。
図14】単語出現頻度辞書のテーブル例を示す図である。
図15】登録対象単語リストのテーブル例を示す図である。
図16】実施形態に係る抽出装置が実行する処理の一例を示すフローチャートである。
図17】実施形態に係る抽出装置で用いられるコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における本開示での実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。
【0010】
図1は、実施形態に係る抽出装置1の機能構成の一例を示す図である。抽出装置1は、入力データから未知語又は専門用語の単語候補を抽出して出力するコンピュータ装置である。未知語は、自然言語処理において辞書中に登録されていない語句など、未知の語である。専門用語は、特定の分野で使用又は通用する語句など、専門の用語である。
【0011】
図1に示す通り、抽出装置1は、情報格納部10、テキスト取得部11、形態素解析部12、固有表現抽出部13、関係抽出部14、関係抽出単語抽出部15(抽出部)、形態素解析単語抽出部16(抽出部)、単語選別部17(種類選別部)、モデル登録対象単語選別部18(頻度選別部)、及び、辞書登録部19(登録部)を含んで構成される。
【0012】
抽出装置1の各機能ブロックは、抽出装置1内にて機能することを想定しているが、これに限るものではない。例えば、抽出装置1の機能ブロックの一部は、抽出装置1とは異なるコンピュータ装置であって、抽出装置1とネットワーク接続されたコンピュータ装置内において、抽出装置1と情報を適宜送受信しつつ機能してもよい。また、抽出装置1の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。
【0013】
図2は、抽出装置1が実行する処理における入出力の情報を整理した図である。各入出力の情報の詳細は後述するとし、ここでは図2に沿って全体的な流れについて説明する。
【0014】
入力データ(具体例は図3)が、テキスト取得部11に入力されて、テキスト(具体例は図4)が出力される。当該テキストが、形態素解析部12に入力されて、形態素区切りの表記と品詞のリスト(具体例は図5)が出力される。当該形態素区切りの表記と品詞のリストが、固有表現抽出部13に入力されて、形態素区切りの表記と品詞と固有表現のラベルのリスト(具体例は図6)が出力される。当該形態素区切りの表記と品詞と固有表現のラベルのリストが、関係抽出部14に入力されて、形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリスト(具体例は図7)が出力される。当該形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストが、関係抽出単語抽出部15に入力されて、抽出候補リスト(具体例は図8)、及び、表記と固有表現のラベルリスト(具体例は図9)が出力される。
【0015】
上述の形態素解析部12から出力された形態素区切りの表記と品詞のリスト、及び、情報格納部10に予め格納された抽出対象外品詞リスト(具体例は図10)が、形態素解析単語抽出部16に入力されて、抽出候補リスト(具体例は図11)が出力される。上述の関係抽出単語抽出部15から出力された抽出候補リスト及び表記と固有表現のラベルリスト、上述の形態素解析単語抽出部16から出力された抽出候補リスト、並びに、情報格納部10に予め格納された抽出対象外固有表現ラベルリスト(具体例は図12)が、単語選別部17に入力されて、未知語・専門用語リスト(具体例は図13)が出力される。当該未知語・専門用語リスト、及び、情報格納部10に予め格納された単語出現頻度辞書(具体例は図14)が、モデル登録対象単語選別部18に入力されて、登録対象単語リスト(具体例は図15)が出力される。当該登録対象単語リストが、辞書登録部19に入力されて、辞書に登録される。
【0016】
以下、図1に示す抽出装置1の各機能について説明する。
【0017】
情報格納部10は、抽出装置1における算出などで利用される任意の情報及び抽出装置1における算出の結果などを格納する。情報格納部10によって格納された情報は、抽出装置1の各機能によって適宜参照されてもよい。情報格納部10は、例えば、抽出対象外品詞リスト、抽出対象外固有表現ラベルリスト及び単語出現頻度辞書(それぞれ詳細は後述する)を予め格納する。
【0018】
テキスト取得部11は、抽出装置1に入力された(又は情報格納部10によって予め格納された)テキストデータである入力データからテキスト部分を抽出して、抽出したテキストである抽出テキストを出力する。より具体的には、テキスト取得部11は、未知語又は専門用語が出現する入力データを入力として、1文ごとに改行されたテキストである抽出テキストを出力する。入力データは、例えば会社の会議がターゲットの場合は、当該会議の会議資料、過去の議事録、又は、関連する社内資料などが挙げられる。入力データのファイル形式に制約はない。テキスト取得部11は、テキストを抽出する際に、対応するテキスト抽出手法(既存技術)を利用し、ファイル中のテキストを抽出する。テキスト取得部11は、抽出したテキストに対し、テキスト中の改行コードと句点を単位に改行し、抽出テキストとして出力する。テキスト取得部11は、抽出テキストを形態素解析部12などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよい。
【0019】
図3は、入力データのデータ例を示す図である。図3に示す入力データには、テキスト「平成初めてのA社との打ち合わせ」に続いて2つの改行(改行コード)が含まれ、続いてテキスト「伊藤博文に関する新サービスBを提案。結果、前向きな意見あり。」が含まれる。
【0020】
図4は、抽出テキストのデータ例を示す図である。図4に示す抽出テキストには、それぞれのテキストが改行されたテキスト「平成初めてのA社との打ち合わせ」、テキスト「伊藤博文に関する新サービスBを提案。」及びテキスト「結果、前向きな意見あり。」が含まれる。
【0021】
形態素解析部12は、抽出テキストに対して形態素解析を実施する。より具体的には、形態素解析部12は、テキスト取得部11から入力された(又は情報格納部10によって予め格納された)抽出テキストに対し、形態素解析器(既存技術)を用いて、形態素解析(既存技術)を実施し、形態素区切りの表記と品詞のリストを出力する。形態素解析は、自然言語の文を解析し、形態素単位への分割及び品詞の判定が可能な技術である。形態素解析器としては任意の技術を用いてもよい。形態素解析部12は、形態素区切りの表記と品詞のリストを固有表現抽出部13及び形態素解析単語抽出部16などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよい。
【0022】
図5は、形態素区切りの表記と品詞のリストのテーブル例を示す図である。図5に示す形態素区切りの表記と品詞のリストは、図4に示す抽出テキストの一部(最初の2行)を形態素区切りにした各表記と、当該表記の品詞とが対応付いている。より具体的には、抽出テキストに含まれるテキスト「平成初めてのA社との打ち合わせ」に対しては、文頭から順に、表記「平成」及び品詞「名詞」、表記「初めて」及び品詞「副詞」、表記「の」及び品詞「助詞」、表記「A」及び品詞「名詞」、表記「社」及び品詞「名詞」、表記「と」及び品詞「助詞」、表記「の」及び品詞「助詞」、並びに、表記「打ち合わせ」及び品詞「名詞」が対応付いた形態素区切りの表記と品詞のリストが出力される。また、抽出テキストに含まれるテキスト「伊藤博文に関する新サービスBを提案。」に対しては、文頭から順に、表記「伊藤」及び品詞「名詞」、表記「博文」及び品詞「名詞」、表記「に」及び品詞「助詞」、表記「関する」及び品詞「動詞」、表記「新」及び品詞「接頭辞」、表記「サービス」及び品詞「名詞」、表記「B」及び品詞「名詞」、表記「を」及び品詞「助詞」、表記「を」及び品詞「助詞」、表記「提案」及び品詞「名詞」、並びに、表記「。」及び品詞「句点」が対応付いた形態素区切りの表記と品詞のリストが出力される。
【0023】
固有表現抽出部13は、形態素解析結果に対して、固有表現抽出を実施する。固有表現抽出は、自然言語の文又は形態素解析結果を解析し、人名、地名、組織名、製品名、数量、日付、時間などの固有表現に分類される単語を自動抽出する既存技術である。固有表現抽出(又は固有表現抽出システム)は、任意の技術を用いてもよい。未知語又は専門用語には、固有表現で構成されている単語が多いため、固有表現抽出を利用することで、形態素解析のみを利用する場合よりも頑健に単語を抽出可能となる。
【0024】
固有表現抽出部13は、より具体的には、形態素解析部12から入力された(又は情報格納部10によって予め格納された)形態素区切りの表記と品詞のリストに対し、固有表現抽出を実施する。固有表現抽出部13は、固有表現と判定された単語に対しては、固有表現の種類のラベルを付与して、形態素区切りの表記と品詞と固有表現のラベルのリストを出力する。固有表現抽出部13は、形態素区切りの表記と品詞と固有表現のラベルのリストを関係抽出部14などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよい。
【0025】
図6は、形態素区切りの表記と品詞と固有表現のラベルのリストのテーブル例を示す図である。図6に示す形態素区切りの表記と品詞と固有表現のラベルのリストは、図5に示す形態素区切りの表記と品詞のリストに対して固有表現抽出を実施し、固有表現と判定された単語に対して固有表現の種類のラベルを付与したものである。より具体的には、表記「平成」が固有表現と判定されて固有表現の種類のラベル「日付」が付与され、表記「伊藤」が固有表現と判定されて固有表現の種類のラベル「人名」が付与され、表記「博文」が固有表現と判定されて固有表現の種類のラベル「人名」が付与されている。
【0026】
関係抽出部14は、固有表現抽出結果に対して、関係抽出を実施する。関係抽出は、自然言語の文を解析し、固有表現同士の関係性(関連性)を判定する技術、又は、固有表現に分類される単語間に依存関係がある場合に各単語とその関係を自動抽出する既存技術である。関係抽出により、関係性の高い固有表現同士を検知することが可能である。関係抽出(又は関係抽出システム)は、任意の技術を用いてもよい。未知語又は専門用語には、複数の固有表現の複合語、又は、複数の固有表現と一般語の複合語が存在する。複合語を構成する複数の固有表現には、関係があることが多いため、関係抽出を利用することで、複合語を検知できる可能性が高い。
【0027】
関係抽出部14は、より具体的には、固有表現抽出部13から入力された(又は情報格納部10によって予め格納された)形態素区切りの表記と品詞と固有表現のラベルのリスト中の固有表現に対し、関係抽出を実施する。関係抽出部14は、関係があると判定された単語に対しては、関係のある単語のIDをラベルとして付与し、形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストを出力する。関係抽出部14は、形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストを関係抽出単語抽出部15などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよい。
【0028】
図7は、形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストのテーブル例を示す図である。図7に示す形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストは、図6に示す形態素区切りの表記と品詞と固有表現のラベルのリスト中の固有表現に対して関係抽出を実施し、関係があると判定された単語に対しては関係のある単語のIDをラベルとして付与したものである。より具体的には、表記「伊藤」に対して関係があると判定された単語「博文」のIDである「2」が付与され、表記「博文」に対して関係があると判定された単語「伊藤」のIDである「1」が付与されている。表記「平成」については関係があると判定された単語が無かったため、IDは付与されていない。なお、単語のIDは、抽出テキストの各テキストについて、形態素ごとに文頭から語順に「1」から昇順で付与されているものとする。例えば、表記「伊藤」のIDは「1」、表記「博文」のIDは「2」、表記「に」のIDは「3」、表記「関する」のIDは「4」、などである。また、実施形態では1つ表記に対して別の1つの表記が関係する場合を取りあげているが、これに限るものではなく、1つ表記に対して別の複数の表記が関係してもよい。
【0029】
上述の形態素解析部12、固有表現抽出部13及び関係抽出部14は、それぞれ別の(独立した)機能ブロックとして説明したが、1つの機能ブロックとして、形態素解析部12、固有表現抽出部13及び関係抽出部14それぞれで行われる処理を同時に実行してもよい。
【0030】
関係抽出単語抽出部15は、入力文(入力データ又は抽出テキスト)に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された固有表現間の関係に関する関係情報(形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリスト)を取得し、取得された関係情報が示す関係のある二つの固有表現に基づく入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する。文字列は、関係のある二つの固有表現のうち入力文の文頭に近い方の固有表現からもう一方の固有表現まで、入力文において間にある語を語順に結合した文字列であってもよい。以下、具体的に説明する。
【0031】
関係抽出単語抽出部15は、固有表現情報と関係抽出の結果に対し、抽出候補リスト及び表記と固有表現のラベルリストを作成して出力する。より具体的には、関係抽出単語抽出部15は、関係抽出部14から入力された(又は情報格納部10によって予め格納された)形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリスト(関係情報)に対し、以下の処理(1)~(3)を実施する。
(1)形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストにおいて、固有表現のラベルが付与されている単語wを抽出候補リストに追加する。
(2)関係のある単語のIDが存在する場合は、単語wと関係のある単語wとその間の単語wi+1、wi+2、…、wj-2、wj-1を結合し、抽出候補リストに追加する。
(3)抽出候補リストと、表記と固有表現のラベルリストを出力する。
【0032】
なお、処理(2)では2つの関係のある単語を結合することを前提としているが、これに限らず、3つ以上の関係のある単語を結合してもよい。
【0033】
関連のある固有表現と、その間の単語を結合することで、複数の固有表現の複合語、又は、複数の固有表現と一般語の複合語で構成される、未知語又は専門用語が抽出可能となる可能性が高い。関係抽出単語抽出部15は、単語間の関係も考慮した上で結合しているため、形態素解析結果のみを用いて周辺の単語を結合した場合と比較し、より頑健に未知語又は専門用語の単語候補を抽出可能となる。
【0034】
関係抽出単語抽出部15は、抽出候補リスト及び表記と固有表現のラベルリストを単語選別部17などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよいし、後述の通信装置1004を介して他の装置に送信してもよいし、後述の出力装置1006(ディスプレイなど)に表示してもよい。
【0035】
図8は、抽出候補リストのテーブル例を示す図である。図8に示す抽出候補リストは、図7に示す形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストに対する処理(1)により追加された表記「平成」、表記「伊藤」及び表記「博文」、並びに、処理(2)により結合して追加された表記「伊藤博文」を含んでいる。
【0036】
図9は、表記と固有表現のラベルリストのテーブル例を示す図である。図9に示す表記と固有表現のラベルリストは、図7に示す形態素区切りの表記と品詞と固有表現のラベルと関係のある単語のIDのリストのうち表記と固有表現(の行)を抽出したものである。
【0037】
形態素解析単語抽出部16は、入力文(入力データ又は抽出テキスト)を、含まれる所定の品詞で分割し、分割された各文字列であって所定の品詞を除く各文字列を単語候補としてさらに抽出して出力する。以下、具体的に説明する。
【0038】
形態素解析単語抽出部16は、形態素解析情報と抽出対象外品詞に対して、抽出候補リストを作成して出力する。より具体的には、形態素解析単語抽出部16は、形態素解析部12から入力された形態素区切りの表記と品詞のリストに対し、以下の処理(4)~(7)を実施する。
(4)(情報格納部10によって予め格納された)抽出対象外品詞リスト中の品詞に該当する単語を区切り単語とする。抽出対象外品詞リストの品詞は任意で設定可能だが、未知語又は専門用語に含まれることが少ない品詞であってもよい。例えば、抽出対象外品詞リストの品詞は、「助詞」、「動詞」、「副詞」、「連用詞」、「形容詞」、「冠名詞」、「接尾辞」、「読点」、「句点」及び「カッコ」などが挙げられる。
(5)形態素区切りの表記と品詞のリストに対し、処理(4)の区切り単語に該当する単語でリストを分割する。例えば、区切り単語がwの場合、l={w,…,wi-1},l={wi+1,…,w}(1文のNは形態素数)の形で分割される。
(6)処理(5)で分割された各リストに対して、含まれる単語を結合する。上記の場合は、w,…,wi-1が結合された単語と、wi+1,…,wが結合された単語が作成される。
(7)処理(6)で結合された各単語を抽出候補リストに追加し、抽出候補リストを出力する。
【0039】
未知語又は専門用語には、固有名詞で構成されていない単語もある。構成品詞としては例えば名詞又はアルファベット列などが多い。形態素解析結果の品詞の情報を元に、未知語又は専門用語に用いられることの少ない品詞の単語を除去することで、複合語で構成される単語も抽出可能となる。
【0040】
形態素解析単語抽出部16は、抽出候補リストを単語選別部17などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよいし、、後述の通信装置1004を介して他の装置に送信してもよいし、後述の出力装置1006(ディスプレイなど)に表示してもよい。
【0041】
図10は、抽出対象外品詞リストのテーブル例を示す図である。図10に示す抽出対象外品詞リストは、品詞として、助詞、動詞、副詞、連用詞、形容詞、冠名詞、接尾辞、読点及び句点を含んでいる。
【0042】
図11は、抽出候補リストのテーブル例を示す図である。図11に示す抽出候補リストは、図5に示す形態素区切りの表記と品詞のリストに対して、品詞が(図10に示す抽出対象外品詞リストに含まれる)「副詞」である表記「初めて」、品詞が(図10に示す抽出対象外品詞リストに含まれる)「助詞」である表記「の」、品詞が「助詞」である表記「と」、品詞が「助詞」である表記「の」、品詞が「助詞」である表記「に」、品詞が(図10に示す抽出対象外品詞リストに含まれる)「動詞」である表記「関する」、品詞が「助詞」である表記「を」、品詞が(図10に示す抽出対象外品詞リストに含まれる)「句点」である表記「。」で分割されて結合された、表記「平成」、表記「A社」、表記「打ち合わせ」、表記「伊藤博文」、表記「新サービスB」及び表記「提案」を含んでいる。
【0043】
単語選別部17は、関係抽出単語抽出部15によって抽出された単語候補のうち、固有表現の所定の種類である単語を含む単語候補を除いて出力する。以下、具体的に説明する。
【0044】
単語選別部17は、関係抽出単語抽出部15により出力された抽出候補リストと形態素解析単語抽出部16により出力された抽出候補リストとに対し、リストの正規化、及び、抽出対象外固有表現を含む単語の削除を実施する。より具体的には、単語選別部17は、関係抽出単語抽出部15により出力された抽出候補リストと、形態素解析単語抽出部16により出力された抽出候補リストと、表記と固有表現のラベルリストとを入力とし、以下の処理(8)~(12)を実施する。
(8)両抽出候補リストを結合し、重複する要素を削除する。抽出候補リスト中に複合語が存在する場合は、複合語の一部のみ発話することも考えられるため、(複合語に同じ語を含んでいた場合は)重複する要素とみなさない。例えば、片方のリストが「伊藤」及び「博文」を含み、もう片方のリストが「伊藤博文」を含んでいた場合、結合すると「伊藤」、「博文」及び「伊藤博文」を含む(すなわち両方のリストの要素を全てを含む)リストとなる。
(9)抽出候補リストに含まれる文字を正規化する。正規化の対象は任意で設定可能だが、未知語又は専門用語に含まれることが少ない文字列を除去してもよい。例えば、1文字のみ、数字、又は、記号のみで構成される単語を除去する。
(10)抽出候補リストと、表記と固有表現のラベルリストを参照し、抽出候補リスト中の各単語の固有表現をラベル付けする。
(11)抽出候補リスト中の単語に対し、(情報格納部10によって予め格納された)抽出対象外固有表現ラベルリスト中の固有表現ラベルに該当する単語を含む場合は、抽出候補リストから削除する。抽出対象外固有表現ラベルリストの固有表現ラベルは任意で設定可能だが、未知語又は専門用語に含まれることが少ない固有表現ラベルであってもよい。例えば、抽出対象外固有表現ラベルリストの固有表現ラベルは、「数量」、「日付」及び「時間」などが挙げられる。
(12)処理(11)で作成されたリスト(抽出候補リスト)を未知語・専門用語リストとして出力する。
【0045】
未知語又は専門用語を構成することの少ない固有表現又は文字列に対し、文字列の正規化、又は、抽出対象外固有表現ラベルリスト中の固有表現ラベルが付与された単語の除外を実施することで、高精度に未知語又は専門用語が抽出可能となる。
【0046】
単語選別部17は、未知語・専門用語リストをモデル登録対象単語選別部18などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよいし、後述の通信装置1004を介して他の装置に送信してもよいし、後述の出力装置1006(ディスプレイなど)に表示してもよい。
【0047】
図12は、抽出対象外固有表現ラベルリストのテーブル例を示す図である。図12に示す抽出対象外固有表現ラベルリストは、固有表現ラベルとして「数量」、「日付」及び「時間」を含んでいる。
【0048】
図13は、未知語・専門用語リストのテーブル例を示す図である。図13に示す未知語・専門用語リストは、図8に示す抽出候補リスト及び図11に示す抽出候補リストを結合したもののうち、重複する要素である表記「平成」(の片方)及び表記「伊藤博文」(の片方)を削除し、図9に示す表記と固有表現のラベルリストにおいて図12に示す抽出対象外固有表現ラベルリストに含まれる固有表現ラベル「日付」が付与された表記「平成」(上述の重複により削除して残ったもう片方)を削除した結果である、表記「A社」、「打ち合わせ」、「伊藤」、「博文」、「伊藤博文」、「新サービスB」及び「提案」を含んでいる。
【0049】
モデル登録対象単語選別部18は、関係抽出単語抽出部15によって抽出された単語候補のうち、所定の辞書(単語出現頻度辞書など)において出現頻度が所定の基準より高い単語候補を除いて出力する。所定の辞書は、モデル登録対象単語選別部18によって出力される単語候補を登録する辞書であってもよい。以下、具体的に説明する。
【0050】
モデル登録対象単語選別部18は、(情報格納部10によって予め格納された)単語出現頻度辞書において、出現頻度の低い(出現頻度が所定の基準より低い)単語のみを登録対象単語リストとして出力する。より具体的には、モデル登録対象単語選別部18は、単語選別部17から入力された(又は情報格納部10によって格納された)未知語・専門用語リストに対し、以下の処理(13)及び(14)を実施する。
(13)未知語・専門用語リスト中の単語wに対して、単語出現頻度辞書を参照し、単語が存在する場合は以下の(a)を実施し、存在しない場合は以下の(b)を実施する。
(a)単語出現頻度辞書における単語wの単語出現頻度P<閾値Tの場合は、単語wを登録対象単語リストに追加する(又は、単語出現頻度P≧閾値Tの単語wを登録対象単語リストに追加しない(削除する))。
(b)単語wを登録対象単語リストに追加する。
(14)登録対象単語リストを出力する。
【0051】
単語出現頻度辞書は、単語登録先の音声認識又は機械翻訳などの自然言語処理技術のモデルに含まれるものを利用する。単語登録先のモデルの形式として単語出現頻度辞書を持たない場合は、単語登録先のモデルの構築に用いられたテキストデータを元に、単語出現頻度辞書を(抽出装置1などが)作成する。また、単語の出現頻度を計算可能な場合は、単語出現頻度辞書の形式に制約はない。
【0052】
音声認識又は機械翻訳などの自然言語処理技術を、特定のドメイン又は場面で利用するためには、対応する辞書に対して未知語の単語だけでなく、出現しにくい単語も登録することで、精度高く自然言語処理技術が利用可能となる。そのため、単語出現頻度辞書において出現頻度の低い(出現頻度が所定の基準より低い)単語についても単語登録対象としている。
【0053】
モデル登録対象単語選別部18は、登録対象単語リストを辞書登録部19などの他の機能ブロックに出力してもよいし、情報格納部10によって格納させてもよいし、後述の通信装置1004を介して他の装置に送信してもよいし、後述の出力装置1006(ディスプレイなど)に表示してもよい。
【0054】
図14は、単語出現頻度辞書のテーブル例を示す図である。図14に示す単語出現頻度辞書は、単語出現頻度が「-2.4」の単語「打ち合わせ」、単語出現頻度が「-3.5」の単語「提案」、単語出現頻度が「-4.6」の単語「伊藤」、単語出現頻度が「-6.2」の単語「博文」、及び、単語出現頻度が「-8.4」の単語「伊藤博文」を含んでいる。図14に示す通り、閾値を「-5.0」とする。
【0055】
図15は、登録対象単語リストのテーブル例を示す図である。図15に示す登録対象単語リストは、図13に示す未知語・専門用語リストのうち、図14に示す単語出現頻度辞書において単語出現頻度が閾値「-5.0」未満である単語「博文」及び「伊藤博文」、並びに、当該単語出現頻度辞書に存在しない単語「A社」及び「新サービスB」を含んでいる(単語出現頻度が閾値「-5.0」以上である単語「打ち合わせ」、「提案」及び「伊藤」を削除している)。
【0056】
辞書登録部19は、関係抽出単語抽出部15によって抽出された単語候補を、所定の自然言語処理で利用する辞書に登録する。所定の自然言語処理は、例えば、音声認識又は機械翻訳などの自然言語処理である。
【0057】
続いて、図16を参照しながら、抽出装置1が実行する処理(抽出処理)の例を説明する。図16は、実施形態に係る抽出装置1が実行する処理の一例を示すフローチャートである。
【0058】
まず、テキスト取得部11が、入力データからテキスト(抽出テキスト)を取得する(ステップS1)。次に、形態素解析部12が、S1にて取得したテキストに対して形態素解析を実施する(ステップS2)。次に、固有表現抽出部13が、S2にて抽出された各形態素に対して、固有表現抽出を実施する(ステップS3)。次に、関係抽出部14が、S3にて抽出された各固有表現に対して、関係抽出を実施し(ステップS4)、固有表現を抽出候補リストとして出力する(ステップS5)。次に、関係抽出単語抽出部15が、S3にて抽出した固有表現に対して、関係のある単語があるか否かを判定する(ステップS6)。
【0059】
S6にてあると判定された場合(S6:YES)、関係抽出単語抽出部15が、関係のある単語と間の単語を結合し、抽出候補リストとして出力する(ステップS7)。S6にてないと判定された場合(S6:NO)、又は、S7に続いて、形態素解析単語抽出部16が、S2での形態素解析結果に対し、抽出対象外品詞に該当する単語で分割し、分割された文字列を抽出候補リストとして出力する(ステップS8)。次に、単語選別部17が、S7及びS8にて出力された抽出候補リストを結合し、重複する要素を削除し(ステップS9)、抽出候補リストに含まれる文字を正規化し(ステップS10)、抽出対象外固有表現を含む単語を削除する(ステップS11)。次に、モデル登録対象単語選別部18が、S9~S11が行われた未知語・専門用語リストのうち出現頻度がT未満単語のみをリスト形式で出力する(ステップS12)。
【0060】
なお、S8は、S2の後でありかつS9の前であればいつ実行してもよい。S8は省略してもよい。S9は省略してもよい。S10は省略してもよい。S11は省略してもよい。S12は省略してもよい。S12の後に、辞書登録部19が、S12にて出力された単語を辞書に登録してもよい。
【0061】
続いて、実施形態に係る抽出装置1の作用効果について説明する。
【0062】
抽出装置1によれば、入力文に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された固有表現間の関係に関する関係情報を取得し、取得された関係情報が示す関係のある二つの固有表現に基づく入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する関係抽出単語抽出部15を備える。この構成により、入力文に対して抽出された関係のある二つの固有表現に基づく入力文中の文字列が、未知語又は専門用語の単語候補として抽出され、出力される。すなわち、未知語又は専門用語の単語候補を抽出することができる。
【0063】
また、抽出装置1において、文字列は、関係のある二つの固有表現のうち入力文の文頭に近い方の固有表現からもう一方の固有表現まで、入力文において間にある語を語順に結合した文字列であってもよい。この構成により、関係のある二つの固有表現のうち入力文の文頭に近い方の固有表現からもう一方の固有表現まで、入力文において間にある語を語順に結合した文字列が、未知語又は専門用語の単語候補として抽出され、出力される。関係のある固有表現と、その間の単語を結合することで、複数の固有表現の複合語、又は、複数の固有表現と一般語の複合語で構成される、未知語又は専門用語が抽出可能となる。単語間の関係も考慮した上で結合しているため、形態素解析結果のみを用いて周辺の単語を結合した場合と比較し、より頑健に未知語又は専門用語が抽出可能となる。
【0064】
また、抽出装置1によれば、関係抽出単語抽出部15は、入力文を、含まれる所定の品詞で分割し、分割された各文字列であって所定の品詞を除く各文字列を単語候補としてさらに抽出して出力してもよい。未知語又は専門用語には、固有名詞で構成されていない単語もある。構成品詞としては例えば名詞又はアルファベット列などが多い。形態素解析結果の品詞の情報を元に、未知語又は専門用語に用いられることの少ない品詞の単語を除去することで、複合語で構成される単語も未知語又は専門用語として抽出可能となる。
【0065】
また、抽出装置1によれば、関係抽出単語抽出部15によって抽出された単語候補のうち、固有表現の所定の種類である単語を含む単語候補を除いて出力する単語選別部17をさらに備えてもよい。未知語又は専門用語を構成することの少ない固有表現又は文字列に対し、抽出対象外固有表現ラベルリスト中の固有表現ラベルが付与された単語(固有表現の所定の種類である単語を含む単語候補)の除外を実施することで、高精度に未知語又は専門用語が抽出可能となる。
【0066】
また、抽出装置1によれば、関係抽出単語抽出部15によって抽出された単語候補のうち、所定の辞書において出現頻度が所定の基準より高い単語候補を除いて出力するモデル登録対象単語選別部18をさらに備えてもよい。所定の辞書は、モデル登録対象単語選別部18によって出力される単語候補を登録する辞書であってもよい。音声認識又は機械翻訳などの自然言語処理技術を、特定のドメイン又は場面で利用するためには、対応する辞書(所定の辞書)に対して未知語の単語だけでなく、出現しにくい単語も登録することで、精度高く自然言語処理技術が利用可能となる。そのため、単語出現頻度辞書(所定の辞書)において出現頻度の低い単語についても単語登録対象としてもよい。
【0067】
また、抽出装置1によれば、関係抽出単語抽出部15によって抽出された単語候補を、所定の自然言語処理で利用する辞書に登録する辞書登録部19をさらに備えてもよい。関係抽出単語抽出部15によって抽出された単語候補を、音声認識又は機械翻訳などの自然言語処理技術(所定の自然言語処理)への単語登録することにより、各技術の精度の向上の効果がある。
【0068】
抽出装置1は、未知語及び専門用語抽出装置及び抽出方法に関する。
【0069】
特許文献「特開2006-155528号公報」に記載の従来技術では、未知語が既知語の複合語の場合、又は、形態素解析時に正しく未知語として判定されなかった場合は、未知語として抽出することが困難である。抽出装置1によれば、例えば、品詞情報を元に未知語候補を抽出しているので、形態素解析において未知語として判定されない単語であっても抽出が可能である。また、未知語又は専門用語には、固有表現が含まれることが多いため、固有表現抽出を用いることにより、より頑健に未知語又は専門用語を抽出が可能である。
【0070】
特許文献「特開2006-139686号公報」に記載の従来技術では、対応するテキストデータがない単語及び少ない単語には、利用が困難である。抽出装置1によれば、例えば、未知語が1箇所にのみ出現するテキストに対しても、未知語又は専門用語が抽出可能である。
【0071】
特許文献「2022-42033号公報」に記載の従来技術では、音声認識の精度によっては、正しい区切りで抽出することが困難である。より具体的には、未知語を含む音素配列を、言語モデルで単語配列に変換する際に、未知語部分の影響により一般語の音素に対する変換精度が低下するため、一般語の音素に対しても、誤った単語に変換される可能性が高い。その結果、形態素配列と単語配列の比較の際に、誤った区切りを未知語として出力する可能性がある。例えば、テキスト「令和には」の音素配列が「レイワニワ」となり(可読性のため音素配列をモーラで記載)、単語配列「0話2話」となり、テキスト「令和には」は未知語として出力される。抽出装置1によれば、単語登録先の自然言語処理モデルの性能によらず、頑健に単語を抽出可能である。
【0072】
抽出装置1は、例えば以下の処理(A)~(F)を行ってもよい。
(A)入力データからテキストを抽出。
(B)テキストに対し、形態素解析、固有表現抽出、関係抽出を実施。
(C)固有表現抽出と関係抽出の結果とから、抽出候補リストを作成。
(D)形態素解析結果と、抽出対象外品詞リストから、抽出候補リストを作成。
(E)処理(C)及び(D)の抽出候補リストと抽出対象外の固有表現リストから、未知語・専門用語リストを作成。
(F)登録先の機械学習モデルに紐づく単語出現頻度リストから、登録対象の単語リストを作成。
【0073】
抽出装置1によれば、本発明によれば、未知語又は専門用語の出現するテキストデータから自動で当該単語を抽出することで、ユーザの負担を軽減することができる。また、抽出装置1により抽出した単語を、音声認識又は機械翻訳などの自然言語処理技術への単語登録することにより、各技術の精度の向上の効果がある。
【0074】
抽出装置1において作成する未知語及び専門用語は、音声認識又は機械翻訳などの自然言語処理技術に対する、単語登録用のデータとして用いることができる。音声認識又は機械翻訳などで用いられるアルゴリズム又はモデルの形式に制約はない。抽出装置1により抽出した未知語及び専門用語を、例えば、特許文献「特開2022-74852号公報」に記載の技術(の単語抽出部)において利用することができる。
【0075】
本開示の抽出装置1は、以下の構成を有してもよい。
【0076】
[ア]
入力データからテキスト部分を抽出するテキスト抽出部と、
テキストデータに対して形態素解析を実施する形態素解析部と、
形態素解析結果に対して固有表現抽出を実施する固有表現抽出部と、
固有表現抽出結果に対して関係抽出を実施する関係抽出部と、
固有表現情報と関係抽出の結果に対して、抽出候補リストを作成する関係抽出単語抽出部と、
形態素解情報と抽出対象外品詞に対して、抽出候補リストを作成する形態素解析単語抽出部と、
関係抽出単語抽出部と形態素解析単語抽出部の抽出候補リストに対し、正規化及び抽出対象外固有表現の削除を実施する単語選択部と、
単語出現頻度辞書を元に、出現頻度の低い単語のみを登録対象の単語リストとして出力する、モデル登録対象単語選択部と、
を備える未知語及び専門用語抽出方法並びに抽出装置。
【0077】
[イ]テキスト抽出部
入力データからテキスト部分を抽出する。
【0078】
[ウ]形態素解析部
テキストデータに対して形態素解析を実施する。
【0079】
[エ]固有表現抽出部
形態素解析結果に対して固有表現抽出を実施する。
【0080】
[オ]関係抽出部
固有表現抽出結果に対して関係抽出を実施する。
【0081】
[カ]関係抽出単語抽出部
抽出した固有表現と関係抽出の結果に応じて単語の結合を実施し、抽出候補リストを作成する。
【0082】
[キ]形態素解析単語抽出部
形態素解結果と抽出対象外品詞に応じて単語リストの分割結合を実施し、抽出候補リストを作成する。
【0083】
[ク]単語選択部
関係抽出単語抽出部と形態素解析単語抽出部の抽出候補リストに対し、抽出候補リストの正規化及び抽出対象外固有表現の削除を実施する。
【0084】
[ケ]モデル登録対象単語選択部
単語出現頻度辞書を元に、出現頻度の低い単語のみを登録対象の単語リストとして出力する。
【0085】
本開示の抽出装置1は、以下の構成を有してもよい。
【0086】
[1]
入力文に対する固有表現抽出により抽出された固有表現に対する関係抽出により抽出された前記固有表現間の関係に関する関係情報を取得し、取得された前記関係情報が示す関係のある二つの前記固有表現に基づく前記入力文中の文字列を、未知語又は専門用語の単語候補として抽出して出力する抽出部を備える抽出装置。
【0087】
[2]
前記文字列は、関係のある二つの前記固有表現のうち前記入力文の文頭に近い方の前記固有表現からもう一方の前記固有表現まで、前記入力文において間にある語を語順に結合した文字列である、
[1]に記載の抽出装置。
【0088】
[3]
前記抽出部は、前記入力文を、含まれる所定の品詞で分割し、分割された各文字列であって前記所定の品詞を除く各文字列を前記単語候補としてさらに抽出して出力する、
[1]又は[2]に記載の抽出装置。
【0089】
[4]
前記抽出部によって抽出された前記単語候補のうち、固有表現の所定の種類である単語を含む前記単語候補を除いて出力する種類選別部をさらに備える、
[1]~[3]の何れか一項に記載の抽出装置。
【0090】
[5]
前記抽出部によって抽出された前記単語候補のうち、所定の辞書において出現頻度が所定の基準より高い前記単語候補を除いて出力する頻度選別部をさらに備える、
[1]~[4]の何れか一項に記載の抽出装置。
【0091】
[6]
前記所定の辞書は、前記頻度選別部によって出力される前記単語候補を登録する辞書である、
[5]に記載の抽出装置。
【0092】
[7]
前記抽出部によって抽出された前記単語候補を、所定の自然言語処理で利用する辞書に登録する登録部をさらに備える、
[1]~[6]の何れか一項に記載の抽出装置。
【0093】
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0094】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0095】
例えば、本開示の一実施の形態における抽出装置1などは、本開示の抽出方法の処理を行うコンピュータとして機能してもよい。図17は、本開示の一実施の形態に係る抽出装置1のハードウェア構成の一例を示す図である。上述の抽出装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0096】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。抽出装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0097】
抽出装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
【0098】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のテキスト取得部11、形態素解析部12、固有表現抽出部13、関係抽出部14、関係抽出単語抽出部15、形態素解析単語抽出部16、単語選別部17、モデル登録対象単語選別部18及び辞書登録部19などは、プロセッサ1001によって実現されてもよい。
【0099】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、テキスト取得部11、形態素解析部12、固有表現抽出部13、関係抽出部14、関係抽出単語抽出部15、形態素解析単語抽出部16、単語選別部17、モデル登録対象単語選別部18及び辞書登録部19は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0100】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0101】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
【0102】
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述のテキスト取得部11、形態素解析部12、固有表現抽出部13、関係抽出部14、関係抽出単語抽出部15、形態素解析単語抽出部16、単語選別部17、モデル登録対象単語選別部18及び辞書登録部19などは、通信装置1004によって実現されてもよい。
【0103】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0104】
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
【0105】
また、抽出装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
【0106】
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。
【0107】
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
【0108】
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0109】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0110】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0111】
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0112】
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
【0113】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0114】
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
【0115】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0116】
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0117】
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0118】
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
【0119】
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。
【0120】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0121】
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
【0122】
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0123】
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0124】
上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
【0125】
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0126】
本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
【0127】
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
【符号の説明】
【0128】
1…抽出装置、10…情報格納部、11…テキスト取得部、12…形態素解析部、13…固有表現抽出部、14…関係抽出部、15…関係抽出単語抽出部、16…形態素解析単語抽出部、17…単語選別部、18…モデル登録対象単語選別部、19…辞書登録部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17