特許7453987 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社半導体エネルギー研究所の特許一覧

特許7453987文書データ処理方法、及び、文書データ処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-12

(45)【発行日】2024-03-21

(54)【発明の名称】文書データ処理方法、及び、文書データ処理システム

(51)【国際特許分類】

G06F 16/33 20190101AFI20240313BHJP

【ＦＩ】

G06F16/33

【請求項の数】 12

(21)【出願番号】P 2021550716

(86)(22)【出願日】2020-09-22

(86)【国際出願番号】 IB2020058810

(87)【国際公開番号】W WO2021064510

(87)【国際公開日】2021-04-08

【審査請求日】2023-08-25

(31)【優先権主張番号】P 2019182802

(32)【優先日】2019-10-03

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000153878

【氏名又は名称】株式会社半導体エネルギー研究所

(72)【発明者】

【氏名】山本一宇

(72)【発明者】

【氏名】東和樹

(72)【発明者】

【氏名】道前芳隆

【審査官】早川学

(56)【参考文献】

【文献】特開２０１９－０８２９３１（ＪＰ，Ａ）

【文献】本間幸徳ほか，文書構造を考慮した部分文書検索手法の提案，情報処理学会研究報告［ｏｎｌｉｎｅ］，情報処理学会，2017年05月11日，Ｖｏｌ．２０１７－ＮＬ－２３１，ｐｐ．１－６，[検索日 2017.05.11], Internet<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=178816&file_id=1&file_no=1>

【文献】PADIGELA, H. ET AL.，Investigating the successes and failures of BERT for passage re-ranking，2019年05月05日，pp.1-5，[検索日 2024.01.12], Internet <URL:http://arxiv.org/abs/1905.01758>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

複数の対象文書を読み取る文書読取部、
前記複数の対象文書のそれぞれを複数のブロックに分割する文書分割部、
前記ブロック毎に単語の分散表現を取得する第１の分散表現取得部、
前記第１の分散表現取得部において取得した分散表現を、前記対象文書毎、かつ、前記ブロック毎に格納する第１の分散表現保持部、
クエリ文章を読み取るクエリ文章読み取り部、
前記クエリ文章に含まれる単語を抽出し、前記クエリ文章に含まれる単語の分散表現を取得する第２の分散表現取得部、
前記第２の分散表現取得部において取得した分散表現を格納する第２の分散表現保持部、及び、
前記クエリ文章に含まれる単語の分散表現と、前記複数のブロックのそれぞれに含まれる単語の分散表現と、を比較し、前記ブロック毎の類似度を算出する類似度算出部、
を含む文書データ処理システムであり、
前記類似度算出部は、前記ブロックに含まれる単語の中から、前記クエリ文章に含まれる単語と一致する単語を検索し、一致した単語について、前記ブロックにおける単語の分散表現と、前記クエリ文章における単語の分散表現との類似度を算出する、文書データ処理システム。

【請求項2】

請求項１において、
前記複数のブロックは、それぞれ、前記対象文書の１つまたは複数の段落を含む、文書データ処理システム。

【請求項3】

請求項１において、
前記複数のブロックは、それぞれ、１つまたは複数の文を含む、文書データ処理システム。

【請求項4】

請求項１において、
前記類似度の算出は所定の品詞に対してのみ行う、文書データ処理システム。

【請求項5】

請求項１において、
前記類似度の算出はコサイン類似度の算出により行う、文書データ処理システム。

【請求項6】

請求項１において、
前記類似度算出部は、前記クエリ文章と前記ブロックで一致する単語が複数ある場合、それぞれの単語についての分散表現の類似度の和を前記ブロックのスコアとする、文書データ処理システム。

【請求項7】

複数の対象文書を読み取るステップ、
前記複数の対象文書のそれぞれを複数のブロックに分割するステップ、
前記ブロック毎に単語の分散表現を取得するステップ、
クエリ文章を読み取るステップ、
前記クエリ文章に含まれる単語を抽出し、前記クエリ文章に含まれる単語の分散表現を取得するステップ、及び、
前記クエリ文章に含まれる単語の分散表現と、前記複数のブロックのそれぞれに含まれる単語の分散表現を比較し、前記ブロック毎の類似度を算出するステップ、
を含む、文書データ処理システムが実行する文書データ処理方法であり、
前記ブロック毎の類似度を算出するステップでは、前記ブロックに含まれる単語の中から、前記クエリ文章に含まれる単語と一致する単語を検索し、一致した単語について、前記ブロックにおける単語の分散表現と、前記クエリ文章における単語の分散表現との類似度を算出する、文書データ処理システムが実行する文書データ処理方法。

【請求項8】

請求項７において、
前記複数のブロックは、それぞれ、前記対象文書の１つまたは複数の段落を含む、文書データ処理システムが実行する文書データ処理方法。

【請求項9】

請求項７において、
前記複数のブロックは、それぞれ、１つまたは複数の文を含む、文書データ処理システムが実行する文書データ処理方法。

【請求項10】

請求項７において、
前記類似度の算出は、所定の品詞に対してのみ行う、文書データ処理システムが実行する文書データ処理方法。

【請求項11】

請求項７において、
前記類似度の算出はコサイン類似度の算出により行う、文書データ処理システムが実行する文書データ処理方法。

【請求項12】

請求項７において、
前記クエリ文章と前記ブロックで一致する単語が複数ある場合、それぞれの単語についての分散表現の類似度の和を前記ブロックのスコアとする、文書データ処理システムが実行する文書データ処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一態様は、文書データの処理方法、及び、文書データの処理システムに関する。本発明の一態様は、文書の検索方法及び文書の検索システム、並びに、文書の読解支援方法及び文書の読解支援システムに関する。

【背景技術】

【0002】

一般に、大量の文書の中から、ユーザが求める情報に最も関連する文書を特定する場合や、その情報を記載した文章や段落を特定する場合、テキストを利用した検索が行われることがある。また、特許文献における国際特許分類のように文書の分類情報なども利用して検索が行われることがある。このような検索を適宜利用し、ある程度の件数に文書の数を絞り込んだ後に人力により内容の精査が行われることがある。電子化された文書であれば、キーワードとなる単語による検索を行いながら文書を閲覧して、所望の情報を見つける方法もある。また、設定された規則に従って文書の構造解析を行う方法が提案されている（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１４－２１９８３３号公報

【非特許文献】

【0004】

【文献】ＢＥＲＴ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｆｏｒｍｅｒｓｆｏｒＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，Ｄｅｖｌｉｎｅｔａｌ．（Ｓｕｂｍｉｔｔｅｄｏｎ１１Ｏｃｔ２０１８（ｖ１），ｌａｓｔｒｅｖｉｓｅｄ２４Ｍａｙ２０１９（ｔｈｉｓｖｅｒｓｉｏｎ，ｖ２））、［ｏｎｌｉｎｅ］、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８１０．０４８０５ｖ２＞

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記のようにキーワードや分類を利用した一次検索により一定数に絞り込んだ複数の文書の中から目的とする情報を記載した文書を特定すること、及び、複数の文書から関連度の高い箇所を特定することは労力の要る作業である。このような作業において、キーワードでテキスト検索することで、文書全体からキーワードを含む文や段落を探す方法もあるが、効率よく所望の情報を見つけられない場合もある。効率よく見つけられない原因としては、キーワードでヒットする箇所が多すぎて欲しい情報に辿りつくまでに時間がかかり過ぎる、適当なキーワードが見つけられない、などが挙げられる。また、規則に従って文書の構造解析を行う場合は、読み取り対象の構造が制限されるため、様々な構造を持った文書に対応することが難しい。本発明の一態様は、これらの問題の少なくとも一つを解決するものである。

【0006】

本発明の一態様は、クエリ文章として自然言語の入力を可能とし、複数の文書に対する検索を可能とし、入力された文章と関連の高い箇所を読み手に提示する文書データの処理システムまたは文書データの処理方法を提供することを課題の一つとする。

【0007】

なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。

【課題を解決するための手段】

【0008】

本発明の一態様は、複数の対象文書を読み取る文書読取部、複数の対象文書のそれぞれを複数のブロックに分割する文書分割部、ブロック毎に単語の分散表現を取得する第１の分散表現取得部、第１の分散表現取得部において取得した分散表現を、対象文書毎、かつ、ブロック毎に格納する第１の分散表現保持部、クエリ文章を読み取るクエリ文章読み取り部、クエリ文章に含まれる単語を抽出し、クエリ文章に含まれる単語の分散表現を取得する第２の分散表現取得部、第２の分散表現取得部において取得した分散表現を格納する第２の分散表現保持部、及び、クエリ文章に含まれる単語の分散表現と、複数のブロックのそれぞれに含まれる単語の分散表現と、を比較し、ブロック毎の類似度を算出する類似度算出部、を含む文書データ処理システムであり、類似度算出部は、ブロックに含まれる単語の中から、クエリ文章に含まれる単語と一致する単語を検索し、一致した単語について、ブロックにおける単語の分散表現と、クエリ文章における単語の分散表現との類似度を算出する、文書データ処理システムである。

【0009】

本発明の一態様は、複数の対象文書を読み取るステップ、複数の対象文書のそれぞれを複数のブロックに分割するステップ、ブロック毎に単語の分散表現を取得するステップ、クエリ文章を読み取るステップ、クエリ文章に含まれる単語を抽出し、クエリ文章に含まれる単語の分散表現を取得するステップ、及び、クエリ文章に含まれる単語の分散表現と、複数のブロックのそれぞれに含まれる単語の分散表現を比較し、ブロック毎の類似度を算出するステップ、を含む文書データ処理方法であり、ブロック毎の類似度を算出するステップでは、ブロックに含まれる単語の中から、クエリ文章に含まれる単語と一致する単語を検索し、一致した単語について、ブロックにおける単語の分散表現と、クエリ文章における単語の分散表現との類似度を算出する、文書データ処理方法である。

【0010】

類似度を算出した結果のスコアの表示方法は、作業の目的により適宜決定することができる。たとえば、類似度の高いブロック順に文章を画面に表示することができる。これは、複数の対象文書全体の中から最も関連する一つまたは複数の文書を探したい時に有用である。もしくは、複数の対象文書それぞれを評価したい場合は、対象文書のそれぞれにおける、類似度の最も高いブロックを表示する、または、類似度の高い上位の所定の数のブロックを表示することも可能である。

【0011】

複数のブロックは、それぞれ、対象文書の１つまたは複数の段落を含んでいてもよい。

【0012】

複数のブロックは、それぞれ、１つまたは複数の文を含むことができる。

【0013】

類似度の算出は所定の品詞に対してのみ行ってもよい。

【0014】

類似度の算出はコサイン類似度の算出により行ってもよい。

【0015】

クエリ文章とブロックで一致する単語が複数ある場合、それぞれの単語についての分散表現の類似度の和を当該ブロックのスコアとしてもよい。

【発明の効果】

【0016】

本発明の一態様により、クエリ文章として自然言語の入力を可能とし、複数の文書の中から、入力された文章と関連の高い箇所を読み手に提示する文書データの処理方法及び文書データの処理システムを提供できる。

【0017】

なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。

【図面の簡単な説明】

【0018】

図１は、文書データ処理システムの一例を示す図である。
図２は、文書データ処理方法の一例を示すフローチャートである。
図３は、文書データ処理方法の一例を示すフローチャートである。
図４は、単語の分散表現を説明する図である。
図５は、類似度の算出方法の一例を説明する図である。
図６は、文書データ処理システムのハードウェアの一例を示す図である。
図７は、文書データ処理システムのハードウェアの一例を示す図である。

【発明を実施するための形態】

【0019】

実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

【0020】

なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。

【0021】

また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。

【0022】

（実施の形態１）
本実施の形態では、本発明の一態様の文書データ処理システム及び文書データ処理方法について図１～図５を用いて説明する。

【0023】

本実施の形態の文書データ処理方法では、まず、処理の対象となる複数の文書（対象文書）を取得する。複数の文書としては、何らかの方法で集められた文書であり、取得方法は、特定の方法や手段に限定されるものではない。たとえば、一般の検索サービスを利用して収集した文書でもよいし、ユーザが独自の方法で収集した文書を対象としてもよい。また、対象とする文書の数は、処理を行うコンピュータやメモリの容量や負荷を考慮して、ユーザが適宜決めることができる。対象文書のそれぞれは複数のブロック（例えば段落）で区切り、ブロックごとに単語の分散表現を取得する。これにより各文書についてブロック毎の単語の分散表現を持ったデータが作られる。

【0024】

一方で、ユーザの関心のある情報を得るためのクエリ文章を取得し、更にクエリ文章に含まれる単語の分散表現を取得する。

【0025】

次に、ブロックに含まれる単語の中から、クエリ文章に含まれる単語と一致する単語を検索する。そして、一致した単語について、ブロックにおける単語の分散表現と、クエリ文章における単語の分散表現との類似度（例えばコサイン類似度）を算出する。一致した単語が複数ある場合、それぞれの単語についての分散表現の類似度の和をブロックのスコアとする。スコアが相対的に高いブロックは、クエリ文章に対する関連度が高いと考えられる。これにより、当該情報と関係性または類似性が高いブロックをデータ全体の中から特定することができる。例えば、スコアの高い順にブロックを並べ、関連度の高い順にブロックをユーザの利用する画面に表示することができる。

【0026】

本実施の形態の文書データ処理方法では、自然文による質問文の入力により、複数の対象文書の中から、その質問文に関連する箇所を提示することができる。同じ単語であっても文章により異なる分散表現が使われるため、質問文と関係性または類似性のより高いブロックを提示することができる。これにより、例えば、キーワードや分類を利用した一次検索により集合を作った後に、当該集合に含まれる文書を対象に処理することで効率的な読解や検索を行うことが可能となる。つまり、本実施の形態の文書データ処理システム及び文書データ処理方法は、文書の検索や、文書の読解支援等に用いることができる。

【0027】

質問文は、１つまたは複数の文を含むことができる。検索に用いるキーワードの選定が不要であるため、ユーザは、少ない負担で、所望の情報を文書から探し出すことができる。

【0028】

本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述であり、電子化されて機械可読である。文書は、例えば、特許出願書類、判例、契約書、約款、製品マニュアル、小説、刊行物、白書、技術文書などであるが、これらに限定されない。また、本明細書等において、文章とは、１つまたは複数の文を含む。

【0029】

本明細書等において、単語は、言語音と意味と文法上の機能を持つ最小の言語単位である。ただし、単語を更に分割したサブワードに対して分散表現を求めてもよい。例えば、英語の”ｔｒａｎｓｆｏｒｍｅｒ”という単語は、”ｔｒａｎｓｆｏｒｍ”と”ｅｒ”のサブワードに分解し、それぞれに分散表現を与えることも可能である。もしくは、２個以上の単語のつながったフレーズに対して分散表現を与えることも可能である。本明細書等では、単語を分割したサブワードに対しても単語と呼ぶ。本明細書等において、分散表現を与えたフレーズ、単語またはサブワードをトークンとも呼ぶ場合がある。

【0030】

本実施の形態において、単語の分散表現は、同じ単語であっても、周囲の単語の分布もしくは文脈により異なる分散表現が得られる言語モデルを用いて取得する。もしくは、同じ単語であっても文脈により異なる分散表現が得られる言語モデルを用いて取得する。また、単語の分散表現として、文章における単語の位置とセグメント（文のつながりの情報）とトークンの情報を埋め込んだ分散表現が得られる言語モデルを用いてもよい。また、セルフアテンション機能を有し文章の双方向から学習を行って分散表現を取得する言語モデルを用いてもよい。同じ単語であっても、周囲の単語の分布もしくは文脈により異なる分散表現が得られる言語モデルの一例としてＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）（非特許文献１参照）を挙げることができる。

【0031】

図４は、“ｃａｒｂｏｎ”を含む６個の英語の文章について、それぞれの文章における“ｃａｒｂｏｎ”に対してＢＥＲＴによって取得した分散表現をＸＹ座標にプロットしたものである。左半分の３つのプロット（四角）は材料の不純物として“ｃａｒｂｏｎ”が含まれる文章であり、右半分の３つのプロット（ひし形）は負極材料としての“ｃａｒｂｏｎ”についての文章である。図４は、同一の“ｃａｒｂｏｎ”であっても、文脈や文章によって異なる分散表現が得られることが示される例である。

【0032】

同じ単語であっても、含まれる文章によって、異なる単語の分散表現が得られる言語モデルを用いることで、ユーザが必要としている情報と関連度の高いブロックを、高い精度で探し出すことができる。例えば、クエリ文章に負極材料としての“ｃａｒｂｏｎ”が含まれていた場合、負極材料としての“ｃａｒｂｏｎ”が含まれているブロックのスコアが相対的に高くなり、不純物としての“ｃａｒｂｏｎ”が含まれているブロックのスコアは相対的に低くなると考えられる。

【0033】

［文書データ処理システム］
図１は、文書データ処理システム１００の構成を示すブロック図である。

【0034】

文書データ処理システム１００は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。もしくは、サーバに文書データ処理システム１００の処理部を設け、クライアントＰＣからネットワーク経由でアクセスして利用する構成としてもよい。

【0035】

文書データ処理システム１００は、文書読取部１０１、質問文入力部１０２、文書分割部１０３、分散表現取得部１０４ａ、分散表現取得部１０４ｂ、分散表現保持部１０５ａ、分散表現保持部１０５ｂ、単語選択部１０６、類似度算出部１０７、スコア表示部１０８、及び文章表示部１０９を備える。

【0036】

文書読取部１０１は、読解対象の複数の文書を読み取る。

【0037】

文書読取部１０１で読み取る複数の文書は、何らかの方法で収集した文書の集合である。例えば、インターネットを経由して収集した文書の集合でもよい。また、ユーザが利用するパーソナルコンピュータに保存された文書でもよく、ネットワークで接続されたストレージに保存されている文書であってもよい。

【0038】

質問文入力部１０２は、ユーザが検索用に指定する文章を入力する部分である。

【0039】

質問文（クエリ文章ともいう）の入力方法としては、任意の文章を直接入力する、もしくは、文書ファイルからテキストをコピーしたものを貼り付けてもよい。また、文書読取部１０１で読み取った文書の一部をユーザが任意に指定して質問文入力部１０２に読み込ませる仕組みでもよい。

【0040】

文書分割部１０３は、文書読取部１０１が読み取った複数の文書のそれぞれを複数のブロックに分割する。

【0041】

一段落を一ブロックとして、句点やピリオドで分けられる一つの文を一ブロックとして、もしくは所定数の段落または所定数の文を一ブロックとして、分割してもよい。書類によっては、はじめから段落番号が文書に含まれた形式の文書があり、その段落番号に従ってブロックに分割してもよい。

【0042】

分散表現取得部１０４ａは、文書読取部１０１で読み取った各文書をブロックごとに処理し、ブロックに含まれる単語の分散表現を取得する。

【0043】

分散表現取得部１０４ｂは、質問文入力部１０２に入力した文章に含まれる単語の分散表現を取得する。

【0044】

分散表現取得部１０４ａと分散表現取得部１０４ｂは基本的には同じ言語モデルを用いることが好ましい。

【0045】

分散表現保持部１０５ａと分散表現保持部１０５ｂは、取得した分散表現をデータとして保持する。分散表現保持部１０５ａの保持部のデータ構造を表１に示し、分散表現保持部１０５ｂの保持部のデータ構造を表２に示す。

【0046】

【表1】

【0047】

【表2】

【0048】

分散表現保持部１０５ａでは複数の文書毎にデータ領域があり、更にブロック毎のデータ領域がある。各ブロックのデータ領域には、それぞれのブロックが持つ文章から抽出された単語と、その単語に対応する分散表現が保存されている。分散表現保持部１０５ｂでは単一のクエリ文章を想定したデータ構造を示すが、複数のクエリ文章を入力し、それぞれの文章における単語の分散表現を保持してもよい。

【0049】

単語選択部１０６は入力した質問文に含まれる単語のうち、類似度算出に使う単語を選択する部分である。

【0050】

全ての単語を選択、名詞など所定の品詞を選択、もしくは、ユーザが自由に単語を選択できるようにしてもよい。選択する単語は最低一つであり、一つの場合でも、文章や文脈により異なる分散表現が得られるため、スコアリングは可能である。

【0051】

類似度算出部１０７は、分散表現取得部１０４ａ及び分散表現取得部１０４ｂで得られた単語の分散表現を用いて、ブロック毎に、質問文に対する類似度を算出する。

【0052】

スコア表示部１０８は、類似度算出部１０７で算出されたスコアを表示することができる。

【0053】

文章表示部１０９は、文書読取部１０１で読み取った文書を表示することができる。文章表示部１０９は、さらに、質問文入力部１０２に入力された文章を表示してもよい。

【0054】

スコア表示部１０８と文章表示部１０９は同期していることが好ましい。例えば、スコアが高い順に文章のブロックを並べ替える、スコアが所定の値以上のブロックのみを表示する等、スコアの値に基づき対象文書の表示方法が変更できてもよい。

【0055】

［文書データ処理方法］
図２及び図３は、それぞれ、文書データ処理システム１００が実行する処理の流れを説明するフローチャートである。つまり、図２及び図３は、それぞれ、本発明の一態様の文書データ処理方法の一例を示すフローチャートであるともいえる。

【0056】

［ステップＳ１：複数の対象文書を取得する］
まず、読解対象となる複数の文書を文書データ処理システム１００の文書読取部１０１にて読み込む。

【0057】

［ステップＳ２：対象文書を複数のブロックに分割する］
次に、文書分割部１０３にて、複数の対象文書のそれぞれを複数のブロックに分割する。

【0058】

［ステップＳ３：ブロック毎に、単語の分散表現を取得する］
次に、分散表現取得部１０４ａに、ブロック毎に文章を入力し、単語の分散表現を取得する。具体的には、対象文書をブロック毎にＢＥＲＴなどの言語モデルに入力し、単語の分散表現を取得する。分散表現取得部１０４ａにおいて取得した分散表現は、対象文書毎、かつ、ブロック毎に、分散表現保持部１０５ａに格納される。

【0059】

［ステップＳ４：クエリ文章を取得する］
さらに、文書データ処理システム１００の質問文入力部１０２にてクエリ文章を取得する。クエリ文章はユーザが任意で入力する文章であってもよく、対象文書のユーザの関心が高い箇所の文章であってもよい。図２では、ステップＳ３のあとにステップＳ４及びステップＳ５を行う例を示すが、図３に示すように、ステップＳ１～ステップＳ３と、ステップＳ４及びステップＳ５とは、それぞれ独立に行うことができ、順序は問わない。

【0060】

［ステップＳ５：クエリ文章に含まれる単語の分散表現を取得する］
次に、分散表現取得部１０４ｂに、クエリ文章を入力し、単語の分散表現を取得する。具体的には、クエリ文章をＢＥＲＴなどの言語モデルに入力し、単語の分散表現を取得する。分散表現取得部１０４ｂにおいて取得した分散表現は、分散表現保持部１０５ｂに格納される。

【0061】

［ステップＳ６：ブロックのスコアを算出する］
次に、類似度算出部１０７にて、各ブロックに含まれる単語とクエリ文章に含まれる単語の間で一致する単語を探し、単語が一致した場合のみ、一致した単語の分散表現の間でコサイン類似度を算出し、ブロック内でコサイン類似度の和を算出することでブロックのスコアを得る。

【0062】

単語選択部１０６にて、クエリ文章に含まれる単語のうち、類似度算出に使う単語を選択し、選択された単語に対してのみ、類似度の算出を行ってもよい。

【0063】

なお、本実施の形態ではコサイン類似度を用いて類似度を算出する例を示すが、他の類似度算出方法を用いてもよい。

【0064】

図５を用いてブロック毎にスコアを算出する方法を説明する。図５では、クエリ文章に対して、対象文書１及び対象文書２のブロック１、ブロック２、ブロック３、及びブロック４を比較する例を示す。まず、対象文書の各ブロックで、クエリ文章の単語と一致する単語を検索し、一致した単語に対してのみ、その単語の分散表現のコサイン類似度を算出する。１つのブロック中に一致した単語が複数ある場合は、各単語におけるコサイン類似度を加算することで、当該ブロックのスコアを算出する。例えば、図５に示す対象文書１のブロック１では、クエリ文章の単語Ｗ１と単語Ｗ２の２単語が一致する。この場合、対象文書１のブロック１のスコアは単語Ｗ１のコサイン類似度と単語Ｗ２のコサイン類似度の和となる。

【0065】

［ステップＳ７：算出したスコアを出力する］
そして、算出したスコアの高いブロックを、求めている情報を含む可能性が高いブロックとして、ユーザに提示することができる。提示の方法としては、所定の閾値を設定し、閾値を超えたブロックを提示する方法、各文書におけるスコアの最大値を持つブロックを提示する方法、もしくは、複数のブロック全体の中で上位のスコアを持つ所定の数のブロックを提示する方法などが挙げられる。また、これらの方法を適宜組み合わせてもよい。

【0066】

以上のように、本実施の形態の文書データ処理システム及び文書データ処理方法では、ユーザから、読解したい文書の集合と、必要としている情報に関連する文章とが供給されると、当該文書の集合中の、ユーザが必要としている情報と関連度の高いブロックを提示することができる。ユーザは、キーワードの選定が不要となり、所望の情報を文書から探し出すことが容易となる。

【0067】

本実施の形態の文書データ処理システム及び文書データ処理方法では、同じ単語であっても、含まれる文章によって、異なる単語の分散表現が得られる言語モデルを用いる。これにより、ユーザが必要としている情報と関連度の高いブロックを、高い精度で探し出すことができる。

【0068】

本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、１つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

【0069】

（実施の形態２）
本実施の形態では、本発明の一態様の文書データ処理システムについて図６及び図７を用いて説明する。

【0070】

本実施の形態の文書データ処理システムは、実施の形態１に示す文書データ処理方法を用いて、文書から所望の情報を容易に検索及び取得することができる。

【0071】

＜文書データ処理システムの構成例１＞
図６に、文書データ処理システム２００のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部１２０で行われる処理は、処理によって異なるサーバで実行されることがある。

【0072】

文書データ処理システム２００は、少なくとも、処理部１２０を有する。図６に示す文書データ処理システム２００は、さらに、入力部１１０、記憶部１３０、データベース１４０、表示部１５０、及び伝送路１６０を有する。

【0073】

［入力部１１０］
入力部１１０には、文書データ処理システム２００の外部から質問文（クエリ文章）が供給される。また、入力部１１０には、文書データ処理システム２００の外部から対象文書の集合が供給されてもよい。入力部１１０に供給された対象文書の集合及びクエリ文章は、それぞれ、伝送路１６０を介して、処理部１２０、記憶部１３０、またはデータベース１４０に供給される。

【0074】

対象文書及びクエリ文章は、例えば、テキストデータ、音声データ、または画像データとして入力される。対象文書は、テキストデータとして入力されることが好ましい。

【0075】

クエリ文章の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。

【0076】

文書データ処理システム２００は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部１２０が当該機能を有していてもよい。または、文書データ処理システム２００が、さらに、当該機能を有する音声変換部を有していてもよい。

【0077】

文書データ処理システム２００は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部１２０が当該機能を有していてもよい。または、文書データ処理システム２００が、さらに、当該機能を有する文字認識部を有していてもよい。

【0078】

［処理部１２０］
処理部１２０は、入力部１１０、記憶部１３０、データベース１４０などから供給されたデータを用いて、演算を行う機能を有する。処理部１２０は、演算結果を、記憶部１３０、データベース１４０、表示部１５０などに供給することができる。

【0079】

処理部１２０は、文書を複数のブロックに分割する機能を有する。例えば、文書を、章ごと、段落ごと、所定の数の文ごと、などの複数のブロックに分割する機能を有していてもよい。

【0080】

処理部１２０は、単語の分散表現を取得する機能を有する。例えば、対象文書のブロックに含まれる単語や、クエリ文章に含まれる単語の分散表現を取得することができる。

【0081】

処理部１２０は、クエリ文章から単語を抽出する機能を有する。これにより、クエリ文章に含まれる単語のうち、類似度算出に使う単語を選択することができる。

【0082】

処理部１２０は、単語の分散表現の間の類似度を算出する機能を有する。

【0083】

処理部１２０には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて低いため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部１２０が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部１２０を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部１２０をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書データ処理システムの低消費電力化を図ることができる。

【0084】

なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ、あるいはＯＳトランジスタと呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

【0085】

チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含む酸化物半導体であると好ましい。元素Ｍは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）、またはスズ（Ｓｎ）であることが好ましい。元素Ｍに適用可能な他の元素としては、ホウ素（Ｂ）、シリコン（Ｓｉ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、タングステン（Ｗ）などがある。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

【0086】

チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

【0087】

また、処理部１２０には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。

【0088】

また、処理部１２０には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。

【0089】

処理部１２０は、例えば、演算回路または中央演算装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を有する。

【0090】

処理部１２０は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＦＰＡＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＡｎａｌｏｇＡｒｒａｙ）等のＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によって実現された構成であってもよい。処理部１２０は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部１３０のうち少なくとも一方に格納される。

【0091】

処理部１２０はメインメモリを有していてもよい。メインメモリは、ＲＡＭ等の揮発性メモリ、及びＲＯＭ等の不揮発性メモリのうち少なくとも一方を有する。

【0092】

ＲＡＭとしては、例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等が用いられ、処理部１２０の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部１３０に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部１２０に直接アクセスされ、操作される。

【0093】

ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（ＯｎｅＴｉｍｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ－ＥＰＲＯＭ（Ｕｌｔｒａ－ＶｉｏｌｅｔＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

【0094】

［記憶部１３０］
記憶部１３０は、処理部１２０が実行するプログラムを記憶する機能を有する。また、記憶部１３０は、例えば、処理部１２０が生成した演算結果、及び、入力部１１０に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部１３０は、処理部１２０で取得した単語の分散表現を記憶する機能を有することが好ましい。

【0095】

記憶部１３０は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部１３０は、例えば、ＤＲＡＭ、ＳＲＡＭなどの揮発性メモリを有していてもよい。記憶部１３０は、例えば、ＲｅＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（ＰｈａｓｅｃｈａｎｇｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＦｅＲＡＭ（ＦｅｒｒｏｅｌｅｃｔｒｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＭＲＡＭ（ＭａｇｎｅｔｏｒｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、磁気抵抗型メモリともいう）、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部１３０は、ハードディスクドライブ（ＨａｒｄＤｉｓｃＤｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等の記録メディアドライブを有していてもよい。

【0096】

［データベース１４０］
文書データ処理システムは、データベース１４０を有していてもよい。例えば、データベース１４０は、複数の文書を記憶する機能を有する。例えば、データベース１４０に保存された文書の集合を対象として、本発明の一態様の文書データ処理方法を用いてもよい。なお、記憶部１３０及びデータベース１４０は互いに分離されていなくてもよい。例えば、文書データ処理システムは、記憶部１３０及びデータベース１４０の双方の機能を有する記憶ユニットを有していてもよい。

【0097】

なお、処理部１２０、記憶部１３０、及びデータベース１４０が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。

【0098】

［表示部１５０］
表示部１５０は、処理部１２０における演算結果を表示する機能を有する。また、表示部１５０は、対象文書を表示する機能を有する。また、表示部１５０は、クエリ文章を表示する機能を有していてもよい。

【0099】

なお、文書データ処理システム２００は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。

【0100】

［伝送路１６０］
伝送路１６０は、各種データを伝達する機能を有する。入力部１１０、処理部１２０、記憶部１３０、データベース１４０、及び表示部１５０の間のデータの送受信は、伝送路１６０を介して行うことができる。例えば、対象文書などのデータが、伝送路１６０を介して、送受信される。

【0101】

＜文書データ処理システムの構成例２＞
図７に、文書データ処理システム２１０のブロック図を示す。文書データ処理システム２１０は、サーバ２２０と、端末２３０（パーソナルコンピュータなど）と、を有する。

【0102】

サーバ２２０は、通信部１６１ａ、伝送路１６２、処理部１２０、及び記憶部１７０を有する。図７では図示しないが、さらに、サーバ２２０は入出力部などを有していてもよい。

【0103】

端末２３０は、通信部１６１ｂ、伝送路１６４、処理部１８０、記憶部１３０、及び表示部１５０を有する。図７では図示しないが、端末２３０は、さらに、データベースなどを有していてもよい。

【0104】

文書データ処理システム２１０のユーザは、端末２３０の入力部１１０に、質問文（クエリ文章）を入力する。質問文は、端末２３０の通信部１６１ｂからサーバ２２０の通信部１６１ａに送信される。

【0105】

通信部１６１ａが受信した質問文は、伝送路１６２を介して、記憶部１７０に保存される。または、質問文は、通信部１６１ａから、直接、処理部１２０に供給されてもよい。

【0106】

実施の形態１で説明した、文書分割、分散表現取得、及び類似度算出は、それぞれ、高い処理能力が求められる。サーバ２２０が有する処理部１２０は、端末２３０が有する処理部１８０に比べて処理能力が高い。したがって、これらの処理は、それぞれ、処理部１２０で行われることが好ましい。

【0107】

そして、処理部１２０によりブロックのスコアが算出される。スコアは、伝送路１６２を介して、記憶部１７０に保存される。または、スコアは、処理部１２０から、直接、通信部１６１ａに供給されてもよい。スコアは、サーバ２２０の通信部１６１ａから端末２３０の通信部１６１ｂに送信される。スコアは、端末２３０の表示部１５０に表示される。

【0108】

［伝送路１６２及び伝送路１６４］
伝送路１６２及び伝送路１６４は、データを伝達する機能を有する。通信部１６１ａ、処理部１２０、及び記憶部１７０の間のデータの送受信は、伝送路１６２を介して行うことができる。入力部１１０、通信部１６１ｂ、処理部１８０、記憶部１３０、及び表示部１５０の間のデータの送受信は、伝送路１６４を介して行うことができる。

【0109】

［処理部１２０及び処理部１８０］
処理部１２０は、通信部１６１ａ及び記憶部１７０などから供給されたデータを用いて、演算を行う機能を有する。処理部１８０は、通信部１６１ｂ、記憶部１３０、及び表示部１５０などから供給されたデータを用いて、演算を行う機能を有する。処理部１２０及び処理部１８０は、処理部１２０の説明を参照できる。処理部１２０は、処理部１８０に比べて処理能力が高いことが好ましい。

【0110】

［記憶部１３０］
記憶部１３０は、処理部１８０が実行するプログラムを記憶する機能を有する。また、記憶部１３０は、処理部１８０が生成した演算結果、通信部１６１ｂに入力されたデータ、及び入力部１１０に入力されたデータなどを記憶する機能を有する。

【0111】

［記憶部１７０］
記憶部１７０は、複数の文書、処理部１２０が生成した演算結果、及び通信部１６１ａに入力されたデータなどを記憶する機能を有する。

【0112】

［通信部１６１ａ及び通信部１６１ｂ］
通信部１６１ａ及び通信部１６１ｂを用いて、サーバ２２０と端末２３０との間で、データの送受信を行うことができる。通信部１６１ａ及び通信部１６１ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

【0113】

なお、サーバ２２０と端末２３０との通信は、ＷｏｒｌｄＷｉｄｅＷｅｂ（ＷＷＷ）の基盤であるインターネット、イントラネット、エクストラネット、ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＣＡＮ（ＣａｍｐｕｓＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＧＡＮ（ＧｌｏｂａｌＡｒｅａＮｅｔｗｏｒｋ）等のコンピュータネットワークに接続することで行ってもよい。

【0114】

本実施の形態は、他の実施の形態と適宜組み合わせることができる。

【符号の説明】

【0115】

Ｗ１：単語、Ｗ２：単語、１：ブロック、２：ブロック、３：ブロック、４：ブロック、１００：文書データ処理システム、１０１：文書読取部、１０２：質問文入力部、１０３：文書分割部、１０４ａ：分散表現取得部、１０４ｂ：分散表現取得部、１０５ａ：分散表現保持部、１０５ｂ：分散表現保持部、１０６：単語選択部、１０７：類似度算出部、１０８：スコア表示部、１０９：文章表示部、１１０：入力部、１２０：処理部、１３０：記憶部、１４０：データベース、１５０：表示部、１６０：伝送路、１６１ａ：通信部、１６１ｂ：通信部、１６２：伝送路、１６４：伝送路、１７０：記憶部、１８０：処理部、２００：文書データ処理システム、２１０：文書データ処理システム、２２０：サーバ、２３０：端末

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版