特許第6018932号(P6018932)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エヌ・ティ・ティ・データの特許一覧

特許6018932用例検索装置、用例検索方法、および用例検索プログラム
<>
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000002
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000003
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000004
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000005
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000006
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000007
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000008
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000009
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000010
  • 特許6018932-用例検索装置、用例検索方法、および用例検索プログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6018932
(24)【登録日】2016年10月7日
(45)【発行日】2016年11月2日
(54)【発明の名称】用例検索装置、用例検索方法、および用例検索プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20161020BHJP
   G06F 17/27 20060101ALI20161020BHJP
【FI】
   G06F17/30 210D
   G06F17/30 330C
   G06F17/30 170A
   G06F17/27 610
【請求項の数】6
【全頁数】19
(21)【出願番号】特願2013-10349(P2013-10349)
(22)【出願日】2013年1月23日
(65)【公開番号】特開2014-142780(P2014-142780A)
(43)【公開日】2014年8月7日
【審査請求日】2015年7月8日
【新規性喪失の例外の表示】特許法第30条第2項適用 平成24年9月1日,NTT技術ジャーナル,第24巻,第9号(通巻282号),第65〜68頁,一般社団法人電気通信協会発行 平成24年11月1日掲載 http://www.nttdata.com/jp/ja/insights/foresights/ http://www.nttdata.com/jp/ja/insights/foresights/pdf/2012/foresights2012_vol2_01.pdf http://www.nttdata.com/jp/ja/insights/foresights/pdf/2012/foresights2012_vol2_02.pdf
(73)【特許権者】
【識別番号】000102728
【氏名又は名称】株式会社エヌ・ティ・ティ・データ
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】大木 環美
(72)【発明者】
【氏名】末永 高志
(72)【発明者】
【氏名】高木 徹
【審査官】 川▲崎▼ 博章
(56)【参考文献】
【文献】 特開平02−190972(JP,A)
【文献】 特開2009−181166(JP,A)
【文献】 岡部 浩司、河原 大輔、黒橋 禎夫,代表表記による自然言語リソースの整備,言語処理学会第13回年次大会発表論文集,日本,言語処理学会,2007年10月22日,p.606−609
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20 − 17/28
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、
入力された単語に品詞を付与する品詞付与部と、
品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類する処理部と、
前記分類された用例文を出力する結果出力部と、
を備えることを特徴とする用例検索装置。
【請求項2】
前記処理部は、さらに、前記用例文が分類された用例グループを、前記入力された単語の前記品詞に応じて決定される優先されるべき用例文の品詞に基づく大グループに分類し、各大グループにおいて用例数の多い順に前記用例グループを並び替え、
前記結果出力部は、前記大グループごとに、前記並び替えられた用例グループごとに用例文を抽出して出力することを特徴とする請求項1に記載の用例検索装置。
【請求項3】
前記処理部は、さらに、各大グループにおける用例グループ数を算出し、算出されたグループ数が多い順に前記大グループを並び替え、各大グループに含まれる用例グループ中において用例文を文の長さが短い順に並び替えることを特徴とする請求項2に記載の用例検索装置。
【請求項4】
前記入力された単語について、形態素の条件と付与すべき品詞との対応関係を記憶した品詞情報記憶部をさらに備え、
前記品詞付与部は、前記品詞情報記憶部を参照して前記入力された単語に品詞を付与することを特徴とする請求項1から3のいずれか一項に記載の用例検索装置。
【請求項5】
用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部と、結果出力部と、を備えるコンピュータ装置が実行する用例検索方法であって、
前記品詞付与部が、入力された単語に品詞を付与するステップと、
前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、
前記結果出力部が、前記分類された用例文を出力するステップと、
を含むことを特徴とする用例検索方法。
【請求項6】
用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部と、結果出力部と、を備えるコンピュータ装置に、
前記品詞付与部が、入力された単語に品詞を付与するステップと、
前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、
前記結果出力部が、前記分類された用例文を出力するステップと、
を実行させるための用例検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書作成支援のための用例検索技術に関する。
【背景技術】
【0002】
近年、オフショア開発が増加している。オフショア開発では、日本語が非母国語である現地の技術者が設計書の作成等を行う場合があり、非母国語話者の日本語における設計書作成支援が必要とされている。日本語に精通していない非母国語話者が設計書を日本語で作成する際、文法上の誤り(特に、日本語特有の“助詞”の使い方の誤り)が含まれる文書を作成してしまうリスクが高く、設計書の品質低下につながっている。日本語の文法に十分精通していない非母国語話者が文法上誤りのない文書を作成するための支援の一つとして、用例検索技術の利用が挙げられる。
【0003】
従来の用例検索技術としては、文章を入力として用例を検索する技術と、単語を入力として用例を検索する技術がある。前者(文章を入力として検索)の例としては、例えば、特許文献1に記載の技術が存在する。特許文献1に記載の技術では、入力された文(検索キーワード文)を格解析し、検索キーワード文中の二つの自立語を含み、かつ同じ格関係を持つ文を優先的に結果表示する。しかし、この技術では、検索キーワード文と検索対象である検索文書内の文との格関係を照合するため、検索時に文法上正しい日本語を入力する必要がある。もし文法上誤りのある検索キーワード文を入力すると、文法上に誤りが含まれた用例が優先的に表示されてしまう。したがって、そもそも文法上正しい日本語を入力することが難しい非母国語話者である利用者が特許文献1に記載の検索技術を利用する場合、結局は、正しい日本語を検索することが難しいという問題がある。
【0004】
一方、後者(単語を入力として検索)の場合、日本語の文法に精通していない利用者であっても正しい用例を検索することができるが、利用者の意図に沿わない用法を示す例文(以下、「用例」または「用例文」という。明細書を通じて同様。)が検索結果に含まれてしまうため、検索結果から所望の用例文を選択する際の利用者の負担が増大するという問題がある。具体的には例えば、「画面を遷移する」を採用すべきであるのか、「画面に遷移する」を採用すべきであるのか、利用者が疑問を持った場合、まず、「画面」と「遷移」という単語で検索を行う。結果には、例えば、「画面遷移」のような利用者が用法として所望しない例文も出力されてしまうため、利用者は検索結果から採用すべき例文を自分で選択しなければならない。
【0005】
このような利用者の負担を軽減する技術としては、例えば、特許文献2に開示の技術が存在する。この技術では、格パターンを記憶した記憶部を予め保有し、入力された単語をキーとして、検索キー(または「検索キーワード」という場合もある。明細書を通じて同様。)が含まれる格パターンを利用者に表示して絞り込み選択を促す。そして、利用者が表示された格パターンに対して適切な格パターンを指定すると、検索システムはテキストデータベースから、指定された格パターンに合致する用例文を検索して抽出し、利用者に提示する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−244669号公報
【特許文献2】特開平9−81588号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
日本語文法に精通していない利用者が日本語用例文を検索するには単語ベースでの検索技術が有効である。しかしながら、検索結果を利用者が使いやすいように分類して表示するためには、特許文献2に開示の技術のように、単語毎の格パターン(意味素性)を検索システム側で予め保有しておく必要がある。しかし、格パターンを付与した辞書を作成する作業は実際には人間が行うのであり、大変な手間と労力がかかる。さらに、検索対象の用例文の中に格パターンが付与されていない単語が存在する場合には、その用例文を処理対象とすることができない。つまり、そのような用例文は分類ができないために結果表示に含めることができない。もし分類された用例文とは別に個別に表示する場合には、表示内容が雑多となり、利用者が検索結果の中から適切な用例文を抽出する手間が増加する、といった問題が生じる。さらに、検索時に利用者が格パターンを選択する必要があるため、文法を正しく理解していない利用者がこの検索技術を利用する場合、意図した検索結果を得ることが難しいという問題が生じてしまう。
【0008】
また、上述した様々な問題は、設計書作成時のみならず、あらゆる書類の作成時における用例検索において発生しうる問題である。
【0009】
そこで、本発明は、上記課題を解決するために、より利用者の意図に合致した用例を容易に検索することが可能な用例検索技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明の一態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、入力された単語に品詞を付与する品詞付与部と、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類する処理部とを備えることを特徴とする用例検索装置である。
【0011】
また、本発明の他の態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部とを備えるコンピュータ装置が実行する用例検索方法であって、前記品詞付与部が、入力された単語に品詞を付与するステップと、前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップとを含むことを特徴とする用例検索方法である。
【0012】
また、本発明の他の態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部とを備えるコンピュータ装置に、前記品詞付与部が、入力された単語に品詞を付与するステップと、前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、を実行させるための用例検索プログラムである。
【発明の効果】
【0013】
本発明によれば、より利用者の意図に合致した用例を容易に検索することが可能である。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態に係る用例検索装置の構成の一例を示す図である。
図2】本発明の一実施形態に係る用例検索装置の全体的な処理の流れの一例を示すメインフロー図である。
図3】本発明の一実施形態に係る用例検索装置の品詞付与部での処理の流れの一例を示すフロー図である。
図4】キーワードの形態素に付与する品詞を決定するためのデータの一例を示す図である。
図5】キーワードに付与する品詞を決定するためのデータの一例を示す図である。
図6】本発明の一実施形態に係る用例検索装置の用例文抽出部での処理の流れの一例を示すフロー図である。
図7】本発明の一実施形態に係る用例検索装置の用例文分類部での処理の流れの一例を示すフロー図である。
図8】本発明の一実施形態に係る用例検索装置の用例文並び替え部での処理の流れの一例を示すフロー図である。
図9】検索キーワードの品詞に応じて、優先して提示すべき用例文の品詞の優先順位を示すデータの一例を示す図である。
図10】本発明の一実施形態に係る用例検索装置の結果出力部での処理の流れの一例を示すフロー図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について説明する。本実施形態に係る用例検索装置は、様々な言語の単語(句、文などであってもよい。以下同様。なお、本実施形態においては、一例として、日本語の場合について説明する。)を検索キーとして用例データベース(DB)からキーとなる単語を含む用例文を抽出する。そして、検索キーを含む「名詞」「助詞」「動詞」「活用(語形変化)」の一部または全部の組み合わせごとに、抽出した用例文を分類して、利用者(以降、「ユーザ」という)に対して検索結果として表示すべき代表文を選定し、選定した代表文をディスプレイ等の出力装置に表示出力する。本実施形態に係る用例検索装置の特徴は、単語をキーとして用例文を抽出した後、単語ごとの格情報を用いることなく、抽出した用例文の中の検索キーの品詞を考慮する点である。日本語は基本的に、「名詞」「助詞」「動詞」「活用」から成り立っていることを利用し、本実施形態の用例検索装置は、検索キーと、同一で品詞が同じ単語を含み、かつその単語に対して係り受け関係にある「名詞」「助詞」「動詞」「活用」(以降、「4つ組」という)の一部または全部の組み合わせ(以下、略して「4つ組の組み合わせ」という)ごとに抽出結果を分類する。ユーザがこの4つ組の使い方の例を把握したい場合、格パターンで用例文を分類する必要はなく、品詞の役割に着目して用例文を分類することで、ユーザに日本語の用法文を提示する。
【0016】
以下、図面を参照しながら、本実施形態に係る用例検索装置について詳述する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示される。
【0017】
(用例検索装置の構成)
図1は、本実施形態に係る用例検索装置の構成の一例を示す図である。用例検索装置1は、入出力部102、品詞付与部104、用例文抽出部106、用例文分類部108、用例文並び替え部110、結果出力部112、および用例記憶部114を備える。
【0018】
入出力部102は、ユーザが入力装置を用いて入力する検索キーワード(単語・句等)を受け付ける。また、結果出力部112が出力する用例文の検索結果をモニタ等の出力装置30に出力する。
【0019】
品詞付与部104は、ユーザの入力操作によって入力される検索キーワードに品詞を付与する。また、本実施形態においては、用例検索装置1は、形態素の条件と入力された単語に対して付与すべき品詞との対応関係を記憶した品詞情報記憶部116をさらに備え、品詞付与部104は、品詞情報記憶部116を参照して入力された単語に品詞を付与する。
【0020】
用例文抽出部106は、検索キーワードを含む用例文と、その用例文の形態素解析結果および構造解析結果である構文構造情報と、を用例記憶部114から抽出する。用例記憶部114には、用例文と、用例文の形態素解析結果と、用例文の構造解析結果とが関連付けて記憶されている。
【0021】
用例文分類部108は、用例文に含まれる検索キーワードについて、名詞、助詞、動詞、および活用の一部または全部の組み合わせを作成し、この組み合わせごとに用例文を用例グループに分類する。
【0022】
用例文並び替え部110は、検索キーワードの品詞に応じて決定される名詞、助詞、動詞、または活用の優先順位に応じて、用例グループを大グループにグループ化する。
【0023】
結果出力部112は、検索結果の用例文を出力する。
【0024】
なお、用例文抽出部106および用例文分類部108は、本発明における「処理部」に対応する。
【0025】
なお、用例検索装置1は、図示しないCPU(Central Processing Unit)、RAM等のメモリ、ハードディスク等の記憶装置、ネットワークインターフェイス等の一般的なコンピュータの構成と同様の構成により実現することが可能である。また、用例検索装置1の各構成の機能は、例えば、CPUがハードディスク等に記憶されているプログラムを読み出して実行することにより、または、例えば、FPGA(Field Programmable Gate Array)においてシーケンサロジックをカスタム設計することに実現される機能である。また、各構成における処理にて用いられるデータは、用例検索装置1のハードディスクやRAM等に記憶されるデータである。
【0026】
(用例検索方法の処理フロー)
以下、フロー図を用いて、本実施形態に係る用例検索装置における処理フローについて説明する。
【0027】
(メインフロー)
図2は、本実施形態の用例検索装置における全体的な処理の大まかな流れの一例を示すメインフロー図である。
【0028】
ユーザが用例文の検索をする際に、検索しようとするキーワード10をキーボード等の入力装置20を操作して入力すると、入出力部102は、このユーザによって入力された1つ以上のキーワード10の入力を受け付ける。
【0029】
品詞付与部104が、入力されたキーワードに適切な品詞を付与する(ステップS10)。これと並列に、またはこの後に、用例文抽出部106が、入力されたキーワードをキーとして用例記憶部114を検索し、キーワードが含まれるような用例文を抽出する(ステップS20)。
【0030】
用例文分類部108が、ステップS20で抽出された用例文について検索キーワードにおける4つ組の組み合わせを作成し、作成した4つ組の組み合わせに基づいて、各用例文を用例グループに分類する(ステップS30)。そして、用例文並び替え部110が、ユーザに入力された検索キーワードの品詞に応じて、用例グループを大グループに分類する。そして、大グループ中で用例数の多い順に用例グループを並び替えるとともに、各大グループに含まれる用例グループ中において用例文の並び替えを行う(ステップS40)。最後に、並び替えた用例グループごとに用例文を抽出して、ユーザに用例検索結果として表示する(ステップS50)。
【0031】
以下、ステップS10〜S50の各ステップにおける処理の詳細について、フロー図を用いて説明する。
(ステップS10の処理フロー:品詞付与部の処理)
次に、図2のステップS10における処理の詳細について説明する。図2のステップS10は、品詞付与部104が実行する処理である。図3は、図2のステップS10における処理の詳細を示すフロー図である。
【0032】
品詞付与部104は、ユーザによって入力された1つ以上のキーワード10を含む入力リスト(入力リストAとする)を入出力部102から受け付け、この入力リストAから、1つのキーワードを抽出する(ステップS101)。キーワードは、単語、句、文であってよい。また、単語間の区切りとしては、カンマ、句点やスペース等の予め定めた記号を使えばよい。実施例ではスペースを単語間の区切りとして用いる例を示す。なお、以降の説明において、「入力リスト」とは、以下に説明する用例検索装置1の各構成が受け付ける1つまたは複数の入力データの集合を意味する。
【0033】
ステップS101で抽出したキーワードに対して、既存の形態素解析エンジンを用いて形態素解析を行う(ステップS102)。形態素解析の結果から1つの形態素を抽出する(ステップS103)。
【0034】
ステップS103で取得した形態素が、図4に示される表1の条件のいずれに合致するか、表1の上位の条件(レコード)から順に判定する(ステップS104)。ここで、表1は、形態素解析して抽出したキーワードの形態素に対して付与すべき品詞の条件を示すデータであって、例えば品詞情報記憶部116に記憶されるデータである。表1のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。
【0035】
処理対象ドキュメントの性質により単語の使われ方が異なる場合があるため、処理対象ドキュメントの性質に合わせた品詞情報記憶部を用いて検索キーワードに付与された品詞を変更(形態素解析で付与された品詞を修正)する処理を追加することにより用例検索時に、より有用な用例文を提示することができる(形態素解析で付与された品詞をそのまま用いても良い)。
【0036】
品詞情報記憶部116を用いる理由としては、たとえば、設計書の場合には体言止めの表現が多用されることがある。具体例としては、「表示」という単語は「○○を表示する」よりも「○○を表示」という形式で使われることが一般である。「○○を表示」という表現を形態素解析すると、「表示」に付与される品詞は名詞となる。表示の品詞を”名詞”のまま後述の4つ組を抽出するよりも、表示の品詞を”動詞”とみなして、目的語(名詞)と表示(動詞)に着目して後述の4つ組と捉えた方が、本技術を用いて目的語である”○○(名詞)”と体言止めとなっている”表示”との間の助詞のパターンを適切に抽出することができる。そこで、処理対象のドキュメントが設計書である場合、形態素解析での品詞付与結果以外の品詞を付与したい規則や単語を品詞情報記憶部116にあらかじめ記憶しておき、単純に形態素解析を行った結果とは異なる品詞を検索キーワードに付与できるような構成を追加することで、有効な用例文の抽出能力を向上させることができる。
【0037】
図3に戻り、表1に合致する条件がない場合には、ステップS103の形態素解析で得た品詞をそのまま処理対象の形態素に付与する(ステップS105)。合致する条件があった場合は、表1の合致条件に対応する品詞を処理対象の形態素に付与する(ステップS106)。
【0038】
ステップS102で得た形態素の中で未処理の形態素がある場合は(ステップS107:No)、ステップS103に戻る。すべての形態素が処理済の場合(ステップS107:Yes)、処理対象のキーワードの品詞が、図5に示される表2の条件に合致するか否かを、表2の上位の条件(レコード)から順に判定する(ステップS108)。ここで、表2は、キーワードに対して付与すべき品詞の条件を示すデータであって、例えば品詞情報記憶部116に記憶されるデータである。表2のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。
【0039】
表2に合致する条件がない場合は、ステップS103〜S107の処理において形態素に付与した品詞を、そのまま処理対象のキーワードに付与する。この時、キーワードが句や文である場合は、単語ごとの品詞を“+”で連結して付与する(ステップS109)。合致する条件がある場合は、表2の合致条件に対応する品詞を処理対象のキーワードに付与する。この時、キーワードが句や文の場合は、キーワードに含まれる単語ごとに表2を参照して品詞を決定し、これらの品詞を“+”で連結して付与する(ステップS110)。
【0040】
最後に、入力リストAの中で、未処理のキーワードがあるか否かを判定する(ステップS111)。未処理のキーワードがある場合は、ステップS101に戻る。すべてのキーワードが処理済の場合は、用例文分類部108に品詞情報が付与された入力リストAを受け渡して処理を終了する。
【0041】
ここで、未処理のキーワードがあるか否かを判定する方法としては、例えば、入力リストAを受け取った時点で区切り情報(本例ではスペース)をもとにリスト内のキーワードの総数を求めておく(例えば、リストの中にスペースがN個あったら単語の数はN+1個となる)。また、入力個数(処理したキーワードの個数)を記憶するカウンタ(初期値=0)を設けておく。ステップS101で入力リストAの一端から順に、「カウンタの数+1」個目のキーワードを取り出し、キーワードを取り出した後にカウンタの数を1つ増やす。ステップS103において、このカウンタの数が、入力リストA内のキーワードの総数未満の場合、未処理のキーワードがあると判定する。
【0042】
例えば、品詞付与部104が、入力リストAとして「画面 表示」(スペースを単語の区切りとする)というキーワードを受け付けたとすると、「画面(名詞) 表示(動詞)」というようにそれぞれの単語に品詞が付与される。また、別の例として、入力リストAとして「画面に 表示する」(スペースを単語の区切りとした例)というキーワードを受け付けたとすると、「画面に(名詞+助詞) 表示する(動詞)」という具合に品詞が付与される。
【0043】
(ステップS20の処理フロー:用例文抽出部の処理)
次に、図2のステップS20における処理の詳細について説明する。図2のステップS20は、用例文抽出部106が実行する処理である。図6は、図2のステップS20における処理の詳細を示すフロー図である。
【0044】
用例文抽出部106は、品詞付与部104と同様に、ユーザによって入力された1つ以上のキーワード10を含む入力リストAを入出力部102から受け付ける。キーワードは、単語、句、文であってよい。また、本例ではスペースを単語間の区切りとする。そして、入力リストAに含まれるキーワードをすべて含む用例文を用例記憶部114から検索する(ステップS201)。
【0045】
ここで、用例記憶部114は、用例文と、付加情報(形態素解析結果および構文構造情報)とを関連づけて記憶する。より具体的には、例えば、データベース等のデータ形式でデータを保持するハードディスク等の記憶装置に設けられる記憶領域である。また、用例記憶部114に記憶されるデータは、(文法上正しい)手本となる日本語の書類等を既存の形態素解析エンジンを用いて形態素解析した結果と構文構造解析を用いて構文解析した結果に対して、表1(図4)および表2(図5)の規則に基づいて品詞付与したものを、自動的に登録したものであってもよい。既存の形態素解析および構文構造解析エンジンによって自動で解析した結果を自動登録することで、手間がかからずデータを準備することができる。また、用例記憶部114にデータを事前準備する際は、用例検索装置1のユーザが作成しようとしている書類と同種類の書類を形態素解析してデータ登録を行うとより好適である。例えば、ユーザが(日本語ネイティブが記載した)基本設計書に基づく詳細設計書を作成しようとする場合には、この基本設計書やこれに付随する書類を事前に形態素解析および構文構造解析して用例記憶部114に記憶しておくことで、対象とする分野が同じであることにより、ユーザの希望に合致する用例文が抽出される可能性が高くなる。
【0046】
図6に戻り、該当する用例文が用例記憶部114に存在しない場合は(ステップS202:No)、ユーザが視認している画面に該当の用例文がない旨をメッセージで表示する(ステップS204)。該当の用例文がある場合は(ステップS202:Yes)、検索結果から用例文と付加情報(形態素解析結果および構文構造情報)とを取得する(ステップS203)。取得後、用例文と付加情報とを、用例文分類部108に受け渡して処理を終了する。
【0047】
以下、具体例を示す。例えば、前述の例と同様に、用例文抽出部106がキーワード10として、「画面 表示」を受け付けたとする。用例文抽出部106は、これらのキーワードを含む用例文を、用例記憶部114を検索して抽出する。例えば、以下のような用例文を抽出したとする。
用例文:「以下の情報をユーザが視認するディスプレイ画面に表示する」
【0048】
また、用例文抽出部106は、用例記憶部114においてこの用例文に関連付けられている以下のような付加情報を取得する。
【0049】
(付加情報の形態)
係り受け情報内に各文節の単語・品詞・開始位置・文字数の情報が付与されている。つまり、以下のようになっている。(単語情報がある場合には、アンダーバー“ _ ”を区切り文字として連結する。)
(係り元の)文節番号:単語情報:品詞情報:開始位置:文字数=>(係り先の)文節番号:単語情報:品詞情報:開始位置:文字数
【0050】
(付加情報)
0:以下-+の:名詞+助詞:1-3=>1:情報-+を:名詞+助詞:4-3 1:情報-+を:名詞+助詞:4-3=>3:視認-する:動詞-基本形-する:11-4 2:ユーザ-+が:名詞+助詞:7-3:視認-する:動詞-基本形-する:11-4 3:視認-する:動詞-基本形-する:11-4=>4:ディスプレイ-画面-+に:名詞+助詞:15-9 4:ディスプレイ-画面-+に:名詞+助詞:15-9=> 5:表示-する:動詞-基本形-する:24-4
【0051】
この付加情報の例では、あらかじめ準備された用例文を形態素解析および構文構造解析して、各単語もしくは句に品詞と開始位置、文字の長さを付与している。さらに、係り受けの関係にある単語や句のペアを“ => ”で連結したものである。なお、本例の付加情報はあくまで一例であり、他の表現方法を採用しても構わない。
【0052】
(ステップS30の処理フロー:用例文分類部の処理)
次に、図2のステップS30における処理の詳細について説明する。図2のステップS30は、用例文分類部108が実行する処理である。図7は、図2のステップS30における処理の詳細を示すフロー図である。
【0053】
用例文分類部108は、1つ以上のキーワード10、品詞付与部104で得た各キーワードの品詞、および用例文抽出部106で得た用例文とその付加情報を含む入力リスト(入力リストCとする)を受け付ける。そして、入力リストCから1つの用例文を抽出する(ステップS301)。次に、抽出した用例文の付加情報の単語情報とキーワードとを照合する(ステップS302)。すなわち、付加情報の単語・句にキーワードが含まれているかを判定する。含まれていなければ(ステップS303:No)、ステップS301に戻る(ステップS303)。
【0054】
付加情報の単語情報にキーワードが含まれている場合は(ステップS303:Yes)、ステップS303で得た付加情報の単語情報の品詞と検索キーワードの品詞とを照合する(ステップS304)。キーワードの品詞と、ステップS303で得た付加情報内の単語情報の品詞が同じかであるかを判定する(ステップS305)。品詞が同じでない場合には、用例グループ「そのほか」に分類して(ステップS306)、ステップS301に戻る。
品詞が同じである場合には、対象のキーワードを含む、このキーワードについての4つ組(「名詞」「助詞」「動詞」「活用」)の(一部または全部の)組み合わせすべてを作成する(具体的には、4つ組の組み合わせを抽出する)(ステップS307)。なお、4つ組の組み合わせは、付加情報の係り受け情報と品詞情報から抽出することができる。
【0055】
例えば、キーワードとして、「画面 表示」を受け付け、「画面」には名詞、「表示」
には動詞の品詞が付与されている場合を例に説明する。上述した“一部または全部の(組み合わせ)”とは、キーワードの一部のみの場合、つまり
(A)「画面(名詞)」のみの場合、
(B)「表示(動詞)」のみの場合、
そして、キーワードすべて、つまり(C)「画面(名詞)」と「表示(動詞)」の双方がそろっている場合、
を示す。
【0056】
また、上述した“組み合わせすべてを作成する”とは、上記例での(A)、(B)、(C)のそれぞれに対して4つ組を抽出することを示している。例えば、(A)については、「画面(名詞)」を手掛かりとして、用例文の中からこの「画面(名詞)」に付随する「助詞」と、「画面(名詞)」の係り先である「動詞」とその「活用」を抽出して、「画面(名詞)」とあわせて4つ組とする。
【0057】
(B)についても、「表示(動詞)」を手掛かりとして、その「活用」と、「表示(動詞)」の係り元である「名詞」およびその「助詞」を抽出して4つ組とする。
【0058】
(C)については、「画面(名詞)」の係り先が、「表示(動詞)」である係り受け関係を抽出し、「画面(名詞)」に付随する「助詞」と「表示(動詞)」の「活用」を抽出して「画面(名詞)」および「表示(動詞)」とあわせて4つ組とする。なお、キーワードが2つ以上の場合は、(C)が優先的に取得される。(キーワードが1つの場合にはキーワードの品詞に応じて(A)もしくは(B)を実施、キーワードが2つの場合には(C)を実施、3つ以上の場合にはキーワードの中から2つを選び出すすべての組み合わせに対して順次(C)を実施する。)
図7に戻り、ステップS308以降の処理では、ステップS307で作成した4つ組の同一の組み合わせごとに用例文を分類するための用例グループを作成する処理を行う。
【0059】
まず、ステップS307で作成された4つ組の組み合わせがすでに用例グループに存在するか(つまり、この4つ組の組み合わせを分類するための用例グループが作成済みであるか)判定する(ステップS308)。この4つ組の組み合わせを分類するための用例グループが存在しない場合には、新たにこの用例グループを作成して、作成した用例グループに処理対象の用例文を格納する(ステップS309)。この4つ組の組み合わせを分類するための用例グループがすでに存在する場合には、その既存の用例グループに処理対象の用例文を格納する(ステップS310)。
【0060】
入力リストCの中で未処理の用例文があるか否かを判定する(ステップS311)。未処理の用例文がある場合はステップS301に戻る。すべての用例文が処理済みである場合は、本フローによる分類結果を用例文並び替え部110に受け渡して処理を終了する。
【0061】
以下、用例文抽出部106の説明で述べた具体例に続けて、用例文分類部108における処理の具体例を示す。例えば、用例文分類部108が、以下の内容の入力リストCを受け付けたとする。
【0062】
[入力リストC]
キーワード(品詞):「画面(名詞)」「表示(動詞)」
用例文(検索結果5つ):
【0063】
用例文(1)
(用例文)電子決裁画面を別画面で表示する
(付加情報)
0:電子-決済-画面-+を:電子決済画面を:名詞+助詞:1-7=>2:表示-する:表示する:動詞-基本形-する:12-4 1:別-画面-+で:別画面で:名詞+助詞:8-4=>2:表示-する:表示する:動詞-基本形-する:12-4
【0064】
用例文(2)
(用例文)画面IDより、次画面に表示するボタンタイプを設定する
(付加情報)
0:画面-ID-+より:画面IDより:名詞+助詞:1-6=>4:設定-する:設定する:動詞-基本形-する:23-4 1:次-画面-+に:次画面に:名詞+助詞:8-4=>2:表示-する:表示する:動詞-基本形-する:12-4 2:表示-する:表示する:動詞-基本形-する:12-4=>3:ボタン-タイプ-+を:ボタンタイプを:名詞+助詞:16-7 3:ボタン-タイプ-+を:ボタンタイプを:名詞+助詞:16-7=>4:設定-する:設定する:動詞-基本形-する:23-4
【0065】
用例文(3)
(用例文)以下の情報を画面に表示する
(付加情報)
0:以下-+の:以下の:名詞+助詞:1-3=>1:情報-+を:情報を:名詞+助詞:4-3 1:情報-+を:情報を:名詞+助詞:4-3=>3:表示-する:表示する:動詞-基本形-する:10-4 2:画面-+に:画面に:名詞+助詞:7-3=>3:表示-する:表示する:動詞-基本形-する:10-4
【0066】
用例文(4)
(用例文)カレンダー画面で、予定に入力した勤務パターンを表示
(付加情報)
0:カレンダー-画面-+で:カレンダー画面で:名詞+助詞:1-8=>4:表示:表示:動詞-サ変形-表示:23-2 1:予定-+に:予定に:名詞+助詞:9-3=>2:入力-する-た:入力した:動詞-連用形_基本形-した:12-4 2:入力-する-た:入力した:動詞-連用形_基本形-した:12-4=>3:勤務-パターン-+を:勤務パターンを:名詞+助詞:16-7 3:勤務-パターン-+を:勤務パターンを:名詞+助詞:16-7=>4:表示:表示:動詞-サ変形-表示:23-2
【0067】
用例文(5)
(用例文)クリックすると決裁文書画面が表示される
(付加情報)
0:クリック:クリック:名詞:1-4_する:する:動詞:5-2_と:と:助詞:7-1=>2:表示-する-れる:表示される:動詞-未然レル接続_基本形-される:15-5 1:決裁-文書-画面-+が:決裁文書画面が:名詞+助詞:8-7=>2:表示-する-れる:表示される:動詞-未然レル接続_基本形-される:15-5
【0068】
そして、(ステップS302〜S305を通過した場合、)ステップS307において、各用例文についてそれぞれ以下のような4つ組の組み合わせが作成される。このとき、各用例文内で検索キーワードに対して異なる4つ組の組み合わせをすべて抽出する。例えば、用例文(1)では、検索キーワード「画面(名詞)」と「表示(動詞)」について、2つの異なる4つ組([画面,で,表示,する]、[画面,を,表示,する]が存在するため、双方を抽出する。
(1)(i)[画面,で,表示,する] (ii)[画面,を,表示,する]
(2)[画面,に,表示,する]
(3)[画面,に,表示,する]
(4)[画面,で,表示,-]
(5)[画面,が,表示,される]
【0069】
そして、ステップS310では、以下のように用例文が用例グループに分類される。(なお、これらの4つ組の組み合わせがすでに用例グループに存在していた(その4つ組の組み合わせが既出である)場合は、既に存在するグループに格納されていく。)
(a)[画面,で,表示,する]・・・・用例文(1−i)
(b)[画面,に,表示,する]・・・・用例文(2)、用例文(3)
(c)[画面,で,表示,-]・・・・・・用例文(4)
(d)[画面,が,表示,される]・・・用例文(5)
(e)[画面,を,表示,する]・・・・用例文(1−ii)
(なお、本例では、[ ]内の4つ組の組み合わせ自体を、各用例グループを識別するためのグループIDとする。)
【0070】
(ステップS40の処理フロー:用例文並び替え部の処理)
次に、図2のステップS40における処理の詳細について説明する。図2のステップS40は、用例文並び替え部110が実行する処理である。図8は、図2のステップS40における処理の詳細を示すフロー図である。
【0071】
用例文分類部108から、1つ以上のキーワード10、品詞付与部104で得た各キーワードの品詞、および用例文分類部108で得た用例グループを含む入力リスト(入力リストDとする)を受け付ける。そして、図9に示される表3と、キーワードの品詞とを照合し、優先順位ごとの品詞を取得する(ステップS401)。ここで、表3は、検索キーワードの品詞に応じて、優先して選択すべき用例文の品詞の優先順位を示すデータである。この表3のデータは、日本語文法に精通していない非母国語話者が執筆した文書から、日本語の文法の誤りやすさの傾向を分析した結果に基づいてあらかじめその内容が決定されるデータである。また、表3のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。
【0072】
次に、グループIDである4つ組の組み合わせに対して、優先順位が1位の品詞の単語ごとにグループを作成する。本例では、説明の便宜上、このグループを「大グループ」と呼ぶことにする(ステップS402)。次に、各大グループのグループ数を算出する(ステップS403)。グループ数が多い大グループから順に並び替える(ステップS404)。並び替えた結果について、(上位から順に)大グループを1つ取り出す(ステップS405)。
【0073】
次に、取り出した大グループから用例グループを1つ抽出する(ステップS406)。抽出した用例グループ内の用例数を算出する(ステップS407)。また、用例グループから用例文を1つ抽出する(ステップS408)。次に、用例文の文の長さとして、文内の文字数を算出し、用例文と、文の長さとを関連付けて、ハードディスク等の記憶装置に保持しておく(ステップS409)。
【0074】
ステップS407で算出した用例数を使用して、対象の用例グループに未処理の用例文があるか否かを判定し(ステップS410)、未処理の用例文があればステップS407に戻る。対象の用例グループ内の用例文がすべて処理済みであれば、用例グループ内において、用例文を文の長さが短い順に並び替える(ステップS411)。ここで、本例では、文の長さが短い順に用例文を並び替えているが、ユーザが用例検索を行う際には、長い用例文よりも短い用例文を手本としたほうが文法的によりシンプルで理解しやすく、用例検索装置1から出力される用例文を応用して使用する場合でも、短い用例文のほうが変形しやすい等のメリットがある。
【0075】
大グループから未処理の用例グループがあるか否かを判定し(ステップS412)、あればステップS406に戻る。対象の大グループ内の用例グループがすべて処理済であれば、大グループ内において、用例数が多い順に、用例グループを並び替える(ステップS413)。ここで、本例では、用例数が多い順に用例グループを並び替えている。用例文は用例記憶部114から抽出されたものであり、用例記憶部114に記憶されている用例文は、文法上正しい、手本となる日本語の用例文が記憶されている。また、手本となる日本語の書類等から文章を抽出して形態素解析および構文構造解析して自動登録された場合であれば、用例数が多いということは、使用される頻度が高い文章であるということであるので、よりユーザが所望する用例文である可能性が高くなる。
【0076】
未処理の大グループがあるか否かを判定する(ステップS414)。未処理の大グループがあれば、ステップS405に戻る。なければ、並び替えた結果を結果出力部112に受け渡して処理を終了する。
【0077】
以下、用例文分類部108の説明で述べた具体例に続けて、用例文並び替え部110における処理の具体例を示す。例えば、用例文並び替え部110は、用例文分類部108から以下の内容の出力データ(入力リストD)を受け付けたとする。
【0078】
[入力リストD]
キーワード(品詞):「画面(名詞)」「表示(動詞)」
(a)[画面,で,表示,する]・・・・用例文(1−i)
(b)[画面,に,表示,する]・・・・用例文(2)、用例文(3)
(c)[画面,で,表示,-]・・・・・・用例文(4)
(d)[画面,が,表示,される]・・・用例文(5)
(e)[画面,を,表示,する]・・・・用例文(1−ii)
【0079】
(なお、各用例文の内容は、以下の通り。)
用例文(1)電子決裁画面を別画面で表示する
用例文(2)画面IDより、次画面に表示するボタンタイプを設定する
用例文(3)以下の情報を画面に表示する
用例文(4)カレンダー画面で、予定に入力した勤務パターンを表示
用例文(5)クリックすると決裁文書画面が表示される
【0080】
この場合、ステップS401では以下のような処理が実行される。すなわち、表3を参照すると、上記の入力リストDのキーワードの品詞(名詞、動詞)に対応する優先順位は、
1位:助詞
2位:活用
である。
【0081】
よって、ステップS402では、「画面」の後の“助詞”によって用例グループを分類する。つまり、本例の場合、以下のような大グループが作成されることになる。
大グループ:
(1)[画面,で,表示,する],[画面,で,表示,-]・・・・(助詞=“で”のグループ)
(2)[画面,に,表示,する]・・・・・(助詞=“に”のグループ)
(3)[画面,が,表示,される]・・・・(助詞=“が”のグループ)
(4)[画面,を,表示,する]・・・・・(助詞=“を”のグループ)
【0082】
上記の大グループ(1)のグループ数は2つ、大グループ(2)、(3)、(4)のグループ数はそれぞれ1つであるので(ステップS403)、大グループ(1)、(2)、(3)、(4)の順にグループ数が多いことになる(ステップS404)。
【0083】
そして、ステップS405からステップS414の処理によって、各大グループにおいて、その大グループに分類された用例グループは用例数が多い順で並び替えられ、さらに、それぞれの用例グループ内では、用例文の長さが短い順に用例文が並び替えられる。
【0084】
以上のような処理を経て、用例文並び替え部110における処理の並び替え結果としては、以下のような結果が得られる。
1.[画面,で,表示,する]・・・・用例文(1−i)
2.[画面,で,表示,-]・・・・・・用例文(4)
3.[画面,に,表示,する]・・・・用例文(3)、用例文(2)
4.[画面,が,表示,される]・・・用例文(5)
5.[画面,を,表示,する]・・・・用例文(1−ii)
【0085】
なお、上記の例では、表3の優先順位が1位の品詞に基づいて大グループを設定しているが、大グループの中で、さらに優先順位が2位の品詞(上記の例においては「表示」の後の「活用」)に基づいて大グループに従属するグループを設けてもよい。優先順位が3位以下ある場合も同様である。
【0086】
(ステップS50の処理フロー:結果出力部の処理)
次に、図2のステップS50における処理の詳細について説明する。図2のステップS50は、結果出力部112が実行する処理である。図10は、図2のステップS50における処理の詳細を示すフロー図である。
【0087】
用例文並び替え部110から、並び替え済みの用例グループを含む入力リスト(入力リストEとする)を受け付ける。入力リストEから、用例グループを1つ抽出する(ステップS501)。抽出した用例グループが、並び替え順番が1位の用例グループであるか否かを判定する(ステップS502)。
【0088】
並び替え順番が1位の用例グループであれば、対象の用例グループの未出力用例文から上位3文を出力し、ステップS507に遷移する(ステップS503)。抽出した用例グループが1位の用例グループでないならば、並び替え順番が2位の用例グループであるか否かを判定する(ステップS504)。
【0089】
並び替え順番が2位の用例グループであれば、対象の用例グループの未出力用例文から上位2文を出力し、ステップS507に遷移する(ステップS505)。抽出した用例グループが2位の用例グループでないならば、対象の用例グループの未出力用例文から上位1文を出力する(ステップS506)。
【0090】
すべての用例グループ内の用例文を出力したか否かを判定する(ステップS507)。出力していない用例文がある場合は、ステップS501に戻る。すべての用例文を出力した場合は、処理を終了する。
【0091】
また、4つの用例に複数の4つ組が存在する場合がある(例えば、上記の用例文(1−i)(1−ii)の例)。この場合は、付加情報の開始位置と文字数の情報を利用して、4つ組に色づけ(用例グループ毎に用例文を画面表示する際、入力されたキーワードを含む4つ組の文字をハイライト表示)を行うことで、区別することが可能となる。(色づけ、つまりハイライトは画面表示の工夫の一例であり、文字自体の色を目立つ色に変更する、文字のサイズを大きくする等、取得した4つ組を目立たせる様に画面表示を工夫する方法であればどの様な方法であってもよい。色を使う場合、品詞毎に色を変更してもよいし、名詞と動詞を異なる色とし、名詞と助詞を同じ色、動詞とその活用を同じ色としてもよい。)例えば、用例文(1)「電子決済画面を別画面で表示する」では、付加情報「1:別-画面+で:別画面で:名詞+助詞:8-4=>2: 表示-する:表示する:動詞-基本形-する:12-4」から、4つ組[画面,で,表示,する]が作成される。このとき、この付加情報と、検索キーワードの情報および品詞情報とから、以下のような単語と文内の単語記述開始位置および文字数の組み合わせを取得する。
【0092】
[画面,9-2][で,10-1][表示,12-2][する,12-4]
(なお、上記例での取得形式は[単語,単語記述開始位置-文字数]となっている。また本例は一例のため、この形式に限定するものではない。)
出力時に文字数を先頭から開始位置まで数えて各品詞ごとに色付けを行う。この提示により、用例文内で着目すべき日本語の文法(4つ組の組み合わせ)が明らかになり、かつ同じ文内で異なる4つ組がある場合にも、違いを一目で確認することが可能となる。
【0093】
また、本例においては、並び替え結果の上位のグループから順に、3つ、2つ、1つの用例文を出力するようにしているが、この用例部の数は一例であり、これに限定するものではない。
【0094】
(まとめ)
以上、説明したように、本実施形態に係る用例検索装置によれば、単語をキーとした検索で抽出した用例文を、単語ごとの格情報を用いることなく分類することができる。単語ごとに格情報を事前に決定しておくことは手間がかかり、格情報が準備されていない単語は処理することができないが、本実施形態の用例検索装置では、このような問題は起こり得ない。また、本実施形態に係る用例検索装置の用例記憶部114は、日本語文書を形態素解析および構文構造解析して品詞と係り受けの情報を付与したものであるため、用例用の日本語文書を既存技術で処理すれば用例記憶部114に簡単に登録することができる。つまり、用例文に含まれる新たな単語に対して格情報を付与するという作業が不要である。
【0095】
また、検索結果を、日本語の文の基幹となる「名詞」「助詞」「動詞」「活用」という4つ組に着目して分類し、分類に基づき用例文をユーザに提示するため(つまり、複数パターンの用例文がユーザに提示されるため)、ユーザが日本語文法についての深い知識を有していなくとも適した用例を選択しやすくなる。
【0096】
また、単語によって用例文を検索することができるため、文法上正しい日本語文章を記載するスキルがないユーザであっても、正しい日本語の用例文を検索することができる。
【0097】
ここまで本発明の一実施形態について説明したが、本発明は上述の実施形態に限定されず、その技術的思想の範囲内において種々異なる形態にて実施されてよいことは言うまでもない。
【0098】
また、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含む。さらに、本発明の範囲は、各請求項により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
【符号の説明】
【0099】
1 用例検索装置
10 キーワード
20 入力装置
30 出力装置
102 入出力部
104 品詞付与部
106 用例文抽出部
108 用例文分類部
110 用例文並び替え部
112 結果出力部
114 用例記憶部
116 品詞情報記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10