(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-19
(45)【発行日】2024-09-30
(54)【発明の名称】専門用語抽出装置、専門用語抽出方法及びプログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20240920BHJP
G06F 40/216 20200101ALI20240920BHJP
【FI】
G06F40/279
G06F40/216
(21)【出願番号】P 2020186260
(22)【出願日】2020-11-09
【審査請求日】2023-09-21
(31)【優先権主張番号】P 2020098236
(32)【優先日】2020-06-05
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 発行者名:一般社団法人日本医療情報学会、刊行物名:第23回日本医療情報学会春季学術大会シンポジウム2019in熊本抄録集、発行日:2019年6月6日集会名:第23回日本医療情報学会春季学術大会シンポジウム2019in熊本、開催日(発表日):2019年6月8日
(73)【特許権者】
【識別番号】504300088
【氏名又は名称】国立大学法人北海道国立大学機構
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100202913
【氏名又は名称】武山 敦史
(74)【代理人】
【識別番号】100222922
【氏名又は名称】和田 朋子
(72)【発明者】
【氏名】プタシンスキ ミハウ エドムンド
(72)【発明者】
【氏名】谷川原 綾子
【審査官】成瀬 博之
(56)【参考文献】
【文献】国際公開第2007/010836(WO,A1)
【文献】池野篤司 他3名,Web文書集合からの専門用語獲得,情報処理学会論文誌,社団法人情報処理学会,2006年06月15日,第47巻 第6号,1717-1727頁
【文献】相澤彰子 他4名,土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察,情報処理学会研究報告,社団法人情報処理学会,2005年09月29日,Vol.2005,No.94,131-138頁,2005-FI-80,2005-NL-169
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
文書のテキストデータを取得するテキストデータ取得部と、
前記テキストデータ取得部により取得されたテキストデータからNグラムの
文節を抽出するNグラム抽出部と、
前記Nグラム抽出部で生成されたNグラムの
文節内で助詞の前にある部分全体を専門用語の候補語
として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別部と、
前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて
当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別部と、
前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する専門用語登録部と、
を備え
、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる、
専門用語抽出装置。
【請求項2】
前記候補語判別部は、Nグラムの
文節内で助詞の前にある
部分全体のうち、ひらがな、カタカナ及び漢字の少なくとも一つから構成されている
ものを候補語として抽出する、
請求項1に記載の専門用語抽出装置。
【請求項3】
前記Nグラム抽出部は、抽出されたNグラムの
文節から句読点及び記号を削除するクリーニングを実行し、
前記候補語判別部は、前記Nグラム抽出部でクリーニングが実行されたNグラムの
文節から候補語を抽出する、
請求項1又は2に記載の専門用語抽出装置。
【請求項4】
前記専門用語判別部は、1文字の候補語、ひらがなからなる候補語及び一般用語に該当する候補語を削除する、
請求項1から
3のいずれか1項に記載の専門用語抽出装置。
【請求項5】
テキストデータ取得部が、文書のテキストデータを取得する工程と、
Nグラム抽出部が、前記テキストデータ取得部により取得されたテキストデータからNグラムの
文節を抽出する工程と、
候補語判別部が、前記Nグラム抽出部で生成されたNグラムの
文節内で助詞の前にある部分全体を専門用語の候補語
として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする工程と、
専門用語判別部が、前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて
当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する工程と、
専門用語登録部が、前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する工程と、
を含
み、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる、
専門用語抽出方法。
【請求項6】
コンピュータを、
文書のテキストデータを取得するテキストデータ取得手段、
前記テキストデータ取得手段により取得されたテキストデータからNグラムの
文節を抽出するNグラム抽出手段、
前記Nグラム抽出手段で生成されたNグラムの
文節内で助詞の前にある部分全体を専門用語の候補語
として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別手段、
前記候補語判別手段でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて
当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別手段、
前記専門用語判別手段で専門用語として判別された候補語を記憶部に登録する専門用語登録手段、
として機能させるための
プログラムであって、
前記専門用語判別手段により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、専門用語抽出装置、専門用語抽出方法及びプログラムに関する。
【背景技術】
【0002】
学術的なコミュニケーションの円滑化や自然言語処理の精度向上を図るため、各専門分野において専門用語の整備が行われている。専門用語の整備は手作業で行われることが多く、これには多くの時間及び人的資源が必要である。そこで、専門用語を効率よく抽出する手法の開発が進められている。例えば、特許文献1には、テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて名詞又は動詞を抽出する用語集管理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の用語集管理装置では、テキストデータから形態素解析により抽出した文字列の品詞を解析し、名詞又は動詞と判別された文字列を抽出している。特許文献1の用語集管理装置では、意味を有する最小の言語単位である形態素に基づいて用語を探索するため、用語の一部が未知語である場合、新規用語が抽出されない可能性がある。
【0005】
本発明は、このような背景に基づいてなされたものであり、テキストデータから専門用語を抽出する精度を向上させた専門用語抽出装置、専門用語抽出方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の第1の観点に係る専門用語抽出装置は、
文書のテキストデータを取得するテキストデータ取得部と、
前記テキストデータ取得部により取得されたテキストデータからNグラムの文節を抽出するNグラム抽出部と、
前記Nグラム抽出部で生成されたNグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別部と、
前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別部と、
前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する専門用語登録部と、
を備え、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる。
【0007】
前記候補語判別部は、Nグラムの文節内で助詞の前にある部分全体のうち、ひらがな、カタカナ及び漢字の少なくとも一つから構成されているものを候補語として抽出してもよい。
【0008】
前記Nグラム抽出部は、抽出されたNグラムの文節から句読点及び記号を削除するクリーニングを実行し、
前記候補語判別部は、前記Nグラム抽出部でクリーニングが実行されたNグラムの文節から候補語を抽出してもよい。
【0010】
前記専門用語判別部は、1文字の候補語、ひらがなからなる候補語及び一般用語に該当する候補語を削除してもよい。
【0011】
上記目的を達成するために、本発明の第2の観点に係る専門用語抽出方法は、
テキストデータ取得部が、文書のテキストデータを取得する工程と、
Nグラム抽出部が、前記テキストデータ取得部により取得されたテキストデータからNグラムの文節を抽出する工程と、
候補語判別部が、前記Nグラム抽出部で生成されたNグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする工程と、
専門用語判別部が、前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する工程と、
専門用語登録部が、前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する工程と、
を含み、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる。
【0012】
上記目的を達成するために、本発明の第3の観点に係るプログラムは、
コンピュータを、
文書のテキストデータを取得するテキストデータ取得手段、
前記テキストデータ取得手段により取得されたテキストデータからNグラムの文節を抽出するNグラム抽出手段、
前記Nグラム抽出手段で生成されたNグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別手段、
前記候補語判別手段でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別手段、
前記専門用語判別手段で専門用語として判別された候補語を記憶部に登録する専門用語登録手段、
として機能させるためのプログラムであって、
前記専門用語判別手段により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたNグラムの長さが長いほど大きくなる。
【発明の効果】
【0013】
本発明によれば、テキストデータから専門用語を抽出する精度を向上させた専門用語抽出装置、専門用語抽出方法及びプログラムを提供できる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施の形態に係る専門用語抽出装置の構成を示す図である。
【
図2】(a)は、テキストデータ記憶部のデータテーブルの一例を示す図であり、(b)は、専門用語記憶部のデータテーブルの一例を示す図である。
【
図3】本発明の実施の形態に係る専門用語抽出処理の流れを示すフローチャートである。
【
図4】本発明の実施の形態に係る候補語判別処理の流れを示すフローチャートである。
【
図5】本発明の実施の形態に係る専門用語判別処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態に係る専門用語抽出装置、専門用語抽出方法及びプログラムを、図面を参照しながら詳細に説明する。各図面においては、同一又は同等の部分に同一の符号を付す。
【0016】
専門用語抽出装置100は、特定の専門分野を扱っている文書のテキストデータから当該専門分野に属する専門用語を網羅的に抽出する装置である。専門用語抽出装置100は、例えば、汎用コンピュータである。
【0017】
図1に示すように、専門用語抽出装置100は、操作部110と、表示部120と、通信部130と、記憶部140と、制御部150と、を備える。専門用語抽出装置100の各部は、内部バス(図示せず)等を介して相互に接続されている。
【0018】
操作部110は、ユーザの指示を受け付け、受け付けた操作に対応する操作信号を制御部150に供給する。操作部110は、例えば、キーボード、マウス等を備え、テキストデータを記憶部140に記憶させる操作、記憶部140に記憶されたテキストデータから専門用語を抽出する処理を実行させる操作等を受け付ける。
【0019】
表示部120は、制御部150から供給される画像データに基づいて、ユーザに向けて各種の画像を表示する。表示部120は、例えば、液晶パネル、有機EL(Electro Luminescence)パネル等を備え、文書のテキストデータ、テキストデータから抽出された専門用語のリスト等を表示する。表示部120は、専門用語に関する情報を出力する出力部の一例である。
【0020】
通信部130は、インターネット等の通信ネットワークに接続することが可能なインターフェースである。
【0021】
記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、ハードディスクドライブ等を備える。記憶部140は、制御部150に実行されるプログラムや各種のデータを記憶する。また、記憶部140は、制御部150が処理を実行するためのワークメモリとして機能する。さらに、記憶部140は、テキストデータ記憶部141と、辞書142と、専門用語記憶部143と、を備える。
【0022】
図2(a)に示すように、テキストデータ記憶部141は、文書のテキストデータ(テキストデータを格納したテキストファイル)を文書のタイトルに対応付けて記憶する。テキストデータは、一つの文書のテキストデータであってもよく、同一の専門分野に属する複数の文書のテキストデータを一つに統合したものであってもよい。
【0023】
辞書142は、一般的な日本語の用語である一般用語を記憶する。一般用語は、専門分野に関わらず広く一般に用いられている用語(単語を含む)である。辞書142は、インターネット等のネットワーク上で提供されている一般的な用語が収録された辞書等に基づいて生成すればよい。
【0024】
図2(b)に示すように、専門用語記憶部143は、文書のテキストデータから抽出された専門用語を文書のタイトルに対応付けて記憶する。
【0025】
図1に戻り、制御部150は、CPU(Central Processing Unit)等を備え、専門用語抽出装置100の各部の制御を実行する。制御部150は、記憶部140に記憶されているプログラムを実行することにより、
図3~
図5に示す専門用語を抽出する一連の処理を実行する。
【0026】
制御部150は、機能的には、テキストデータ取得部151と、チャンキング部152と、Nグラム抽出部153と、候補語判別部154と、専門用語判別部155と、専門用語登録部156と、を備える。
【0027】
テキストデータ取得部151は、テキストデータ記憶部141又は外部の機器から文書のテキストデータを取得する。
【0028】
チャンキング部152は、テキストデータ取得部151で取得されたテキストデータに含まれる文を文節に分割するチャンキングを実行する。
【0029】
Nグラム抽出部153は、チャンキングを実行することで得られた文節からNグラムのチャンク(文節)を抽出する。Nグラムは、任意の文字列を連続したN個の文字、単語、チャンク等で分割する手法であるが、ここではNグラムのチャンクを抽出する。Nは任意の自然数であるが、例えば、1グラムから7グラムまでの全てのNグラムのチャンクを抽出すればよい。例えば、1グラムでは、文から1つずつ文節を取り出せばよく、2グラムでは、文から基準となる文節を1つずつずらしながら2つの連続する文節を取り出せばよい。
【0030】
また、Nグラム抽出部153は、Nグラムのチャンクから句読点及び記号を削除するクリーニングを実行する。Nグラムのチャンクから除去される句読点は、例えば、句点、読点、ピリオド、コロンを含む。記号は、例えば、括弧、角括弧、隅付き括弧を含む。
【0031】
候補語判別部154は、句読点及び記号を削除されたNグラムのチャンクの中から専門用語の候補語を判別し、判別された候補語の出現頻度をカウントする。具体的には、候補語判別部154は、Nグラムのチャンクにおいて助詞の前に現れたフレーズを抽出することで体言を認識する。体言は、語形変化をしない語彙であり、日本語では名詞、代名詞及び数詞が該当する。
【0032】
体言の認識に用いる助詞は、予め実験により選ばれた体言に付きやすい助詞である。具体的には、「において」、「によって」、「までに」、「なんて」、「ばかり」、「として」、「だって」、「ために」、「ぐらい」、「くらい」、「など」、「こそ」、「だけ」、「のみ」、「しか」、「さえ」、「でも」、「とも」、「すら」、「やら」、「より」、「なり」、「だの」、「にて」、「まで」、「から」、「や」、「の」、「を」、「で」、「に」、「と」、「も」、「が」、「へ」、「よ」、「は」である。
【0033】
一例として「骨折,疾病が原因とする骨変化像を観察する」との文を文節に分割すると、「骨折,疾病が」、「原因と」、「する」、「骨変化像を」、「観察する」との各文節に分割できる。「骨変化像を」の文節には、助詞「を」が含まれているため、助詞「を」の前にあるフレーズ「骨変化像」が体言であると認識できる。
【0034】
また、候補語判別部154は、体言と認識されたフレーズからひらがな、カタカナ及び漢字の少なくとも一つから構成されたフレーズを抽出する概念実証を実行することで、体言と認識されたフレーズから専門用語の候補語を判別する。
【0035】
専門用語判別部155は、候補語判別部154で判別された専門用語の候補語から専門用語を判別する。具体的には、専門用語判別部155は、候補語判別部154で判別された専門用語の候補語から外形上専門用語として不適切な候補語を削除する。外形上不適切な候補語は、例えば、1文字の候補語、ひらがなのみからなる候補語である。
【0036】
また、専門用語判別部155は、候補語の出現頻度及び候補語の信頼性に基づいて候補語の重みを算出し、算出された重みが閾値未満である場合に当該重みに対応する候補語を削除する。言い換えると、算出された重みが閾値以上である場合に当該重みに対応する候補語を専門用語の候補として残す。候補語の重みWは、親頻度をe、信頼度調整をRとすると、以下の式(1)で表される。
W=e×R …(1)
【0037】
ただし、親頻度eは、テキスト中に候補語が出現する頻度であり、信頼度調整Rは、候補語の信頼性を示す指標であり、具体的には、候補語に対応するNグラムの長さである。例えば、1グラムであれば信頼度調整Rは1であり、2グラムであれば信頼度調整Rは2である。様々な閾値を用いて実験を繰り返した結果、重み≧2の条件を満たす候補語を専門用語と評価し得ることが判明した。
【0038】
候補語の調整のために候補語の重みを算出するのは、Nグラム(N≧2)において候補語が用いられたコンテキストが長いほど、言い換えるとNグラムのNの値が大きくなるほど、ある文節が他の文節と一緒に頻繁に出現(共起)しやすくなり、ある文節に含まれる候補語が誤って抽出された可能性が低くなるためである。
【0039】
一例として、「骨折,疾病が原因とする骨変化像を観察する」との文に加えて、文書内の他の文にも「原因と」や「骨変化像を」というチャンクが存在していれば、これらのチャンクの出現頻度が増加する。また、「骨変化像を 観察する」(2グラム)や「原因と する 骨変化像を」(3グラム)等のNグラムが複数存在していれば、「原因」や「骨変化像」とのフレーズがより広い文脈で使われることとなり、その信頼度が増加する。上記の例では、「原因と」と「骨変化像を」とが候補語抽出の対象となり、その中から「原因」及び「骨変化像」とのフレーズが候補語として抽出される。
【0040】
加えて、専門用語判別部155は、辞書142を参照して、候補語から一般用語に該当する候補語を削除する。上記の一例では、「原因」「骨変化像」が体言認識を用いて候補語として抽出されており、「原因」は辞書を参照することで一般用語としてフィルタリングされるため、最終的に「骨変化像」を専門用語であると判別する。
【0041】
専門用語登録部156は、専門用語判別部155から出力された候補語を専門用語として専門用語記憶部143に記憶させる。
以上が、専門用語抽出装置100の構成である。
【0042】
(専門用語抽出処理)
次に、
図3のフローチャートを参照して、専門用語抽出装置100が実行する専門用語抽出処理の流れを説明する。専門用語抽出処理は、文書のテキストデータから専門用語を抽出する処理である。
【0043】
ユーザは、専門用語抽出装置100に専門用語抽出処理を実行させる前に、教科書、専門書、論文集等の文書の画像を読み取り、コンピュータ上で当該画像に対してOCR(Optical Character Recognition)を実行することで、文書のテキストデータを生成する。OCRは、スキャナ等で読み取られた文書の画像から文字列を認識してテキストデータに変換するソフトウェアである。文書が電子文書であれば、テキストデータが既に生成されているため、上記の手順は不要である。
【0044】
ユーザは、同一の分野に属する複数の文書から生成したテキストデータを統合して一つのテキストファイルを生成してもよい。複数の文書から生成されたテキストデータを一つに統合するのは、同一の専門分野に属する複数の文書に出現する専門用語の出現頻度を把握するためである。例えば、ある専門用語が各文書に1度ずつ出現するならば、当該専門分野において高い頻度で出現する専門用語と判断できる。ユーザは、上記の手順で統合されたテキストデータを取得し、テキストデータ記憶部141に記憶させる。その後、ユーザが操作部110を操作して開始を指示すると、専門用語抽出装置100は、専門用語を抽出する一連の処理を開始する。
【0045】
まず、テキストデータ取得部151は、テキストデータ記憶部141からテキストデータを取得し(ステップS1)、チャンキング部152は、取得されたテキストデータに含まれる文を文節に分割するチャンキングを実行する(ステップS2)。文節分割には、公知の手法を用いることができる。
【0046】
次に、Nグラム抽出部153は、ステップS2の処理でチャンキングされた文節からNグラムのチャンクを抽出する(ステップS3)。Nグラム抽出部153は、例えば、1グラム~7グラムの全てのNグラムのチャンクを抽出する。
【0047】
次に、Nグラム抽出部153は、ステップS3の処理で抽出されたNグラムのチャンク中の句読点及び記号を除去するクリーニングを実行する(ステップS4)。
【0048】
次に、候補語判別部154は、ステップS4の処理でクリーニングが実行されたNグラムのチャンクの中から候補語を判別する候補語判別処理を実行する(ステップS5)。以下、
図4のフローチャートを参照して、候補語判別部154が実行するステップS5の候補語判別処理の流れを説明する。
【0049】
まず、候補語判別部154は、クリーニングされたNグラムのチャンクから体言を認識する(ステップS51)。Nグラムのチャンクから助詞の前に現れたフレーズを抽出することで、Nグラムのチャンクから体言を認識できる。
【0050】
次に、候補語判別部154は、ステップS51で認識された体言から、ひらがな、カタカナ及び漢字の少なくとも一つの成分から構成される体言を抽出する概念実証を実行し、専門用語の候補語を抽出する(ステップS52)。
【0051】
次に、候補語判別部154は、ステップS52で抽出された候補語がテキストデータ中に出現する頻度をカウントし(ステップS53)、処理をリターンする。
以上が、候補語判別処理の流れである。
【0052】
図3に戻り、専門用語判別部155は、ステップS5の候補語判別処理で判別された候補語から専門用語を判別する専門用語判別処理を実行する(ステップS6)。以下、
図5のフローチャートを参照して、専門用語判別部155が実行するステップS6の専門用語判別処理の流れを説明する。
【0053】
まず、専門用語判別部155は、ステップS5の候補語判別処理で判別された候補語から外形上不適切な候補語、例えば、1文字の候補語、ひらがなのみからなる候補語を削除する(ステップS61)。
【0054】
次に、専門用語判別部155は、ステップS61で抽出された候補語の重みを算出し、当該重みが閾値未満である候補語を削除する(ステップS62)。候補語の重みは、上記の式(1)に基づいて算出され、閾値は、例えば2に設定すればよい。
【0055】
次に、専門用語判別部155は、ステップS62で残された候補語から、辞書142に記憶された一般用語と一致する候補語を削除し(ステップS63)、処理をリターンする。
以上が、専門用語判別処理の流れである。
【0056】
再び
図3に戻り、専門用語登録部156は、ステップS6の処理が終了した後に残された候補語を専門用語とみなして専門用語記憶部143に記憶させ(ステップS7)、処理を終了する。
以上が、専門用語抽出処理の流れである。
【0057】
ユーザは、専門用語抽出処理により抽出された専門用語を専門用語記憶部143から読み出して評価してもよい。具体的には、専門用語記憶部143に記憶された専門用語のリストを表示部120に表示させ、専門用語を一語一語確認すればよい。専門用語と評価できない用語については、操作部110を操作して専門用語記憶部143から削除すればよい。
【0058】
以上説明したように、実施の形態に係る専門用語抽出装置100は、Nグラムのチャンクから体言を認識することで専門用語の候補語を抽出しており、専門分野に関する用語を記憶した辞書が不要である。このため、専門分野に関する文書さえ入手できれば、専門分野に関する事前知識を必要とせずに任意の専門分野に関する専門用語を抽出できる。また、実施の形態に係る専門用語抽出装置100は、形態素解析を用いておらず、複合語が既に含まれているNグラムのチャンクから体言を抽出しているため、形態素から複合語を合成する必要がなく、網羅的に専門用語を抽出できる。
【0059】
また、実施の形態に係る専門用語抽出装置100は、候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて、当該候補語が専門用語に該当するかどうかを判別する。候補語の出現頻度のみならず、当該候補語が抽出されたNグラムの長さ(信頼性)を考慮しているため、体言として認識された候補語が専門用語であるかどうかを精度よく判別できる。
【0060】
本発明は上記実施の形態に限られず、以下に述べる変形も可能である。
【0061】
(変形例)
上記実施の形態では、専門分野に関する専門用語を収集し、専門用語集を整備していたが、本発明はこれに限られない。例えば、上記の手法を専門分野に関する専門用語集を更新する際に用いてもよい。また、上記の手法を文書のコレクションが共通する専門分野に属するかどうかを確認するために用いてもよい。
【0062】
上記実施の形態では、チャンキングにより得られた文の文節からNグラムのチャンクを抽出していたが、本発明はこれに限られない。例えば、テキストデータから任意の単位でNグラムのチャンクを抽出してもよい。
【0063】
上記実施の形態では、体言として認識されたフレーズに対して概念実証を実行していたが、本発明はこれに限られない。アルファベットや数字が頻繁に用いられない専門分野では、体言として認識されたフレーズに対して概念実証を実行しなくてもよい。
【0064】
上記実施の形態では、1文字の候補語、ひらがなのみからなる候補語、一般用語に該当する候補語を削除していたが、本発明はこれに限られない。例えば、専門分野によっては、これらの候補語をそのまま専門用語に含めてもよい。
【0065】
上記実施の形態では、専門用語判別処理(ステップS6)において、1文字の候補語及びひらがなのみからなる候補語を削除する工程、重みが閾値未満の候補語を削除する工程、一般用語に該当する候補語を削除する工程の順で処理を実行していたが、本発明はこれに限られない。例えば、1文字の候補語及びひらがなのみからなる候補語を削除する工程を実行した後に、一般用語に該当する候補語を削除する工程を実行し、その後、重みが閾値未満の候補語を削除する工程を実行してもよい。
【0066】
上記実施の形態では、専門用語として判別された候補語を専門用語記憶部143に登録していたが、本発明はこれに限られない。専門用語として判別された候補語に関する情報を外部のサーバやコンピュータ等に送信してもよい。
【0067】
上記実施の形態では、各種データは専門用語抽出装置100の記憶部140に記憶されていたが、本発明はこれに限定されない。例えば、各種データは、その全部又は一部が通信ネットワークを介して外部のサーバやコンピュータ等に記憶されていてもよい。
【0068】
上記実施の形態では、通信ネットワークとしてインターネット等を用いていたが、本発明はこれに限られない。例えば、通信ネットワークは、LAN(Local Area Network)や専用線等を用いて実現してもよい。
【0069】
上記実施の形態では、専門用語抽出装置100は、それぞれ記憶部140に記憶されたプログラムに基づいて動作していたが、本発明はこれに限定されない。例えば、プログラムにより実現された機能的な構成をハードウェアにより実現してもよい。
【0070】
上記実施の形態では、専門用語抽出装置100は、例えば、汎用コンピュータであったが、本発明はこれに限られない。例えば、専門用語抽出装置100は、専用のシステムで実現してもよく、クラウド上に設けられたコンピュータであってもよい。
【0071】
上記実施の形態では、専門用語抽出装置100が実行する処理は、上述の物理的な構成を備える装置が記憶部140に記憶されたプログラムを実行することによって実現されていたが、本発明は、プログラムとして実現されてもよく、そのプログラムが記録された記憶媒体として実現されてもよい。
【0072】
また、上述の処理動作を実行させるためのプログラムを、フレキシブルディスク、CD-ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical Disk)等のコンピュータにより読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の処理動作を実行する装置を構成してもよい。
【0073】
上記実施の形態は例示であり、本発明はこれらに限定されるものではなく、特許請求の範囲に記載した発明の趣旨を逸脱しない範囲でさまざまな実施の形態が可能である。各実施の形態や変形例で記載した構成要素は自由に組み合わせることが可能である。また、特許請求の範囲に記載した発明と均等な発明も本発明に含まれる。
【0074】
以下、実施例を挙げて本発明を具体的に説明する。ただし、本発明はこれらの実施例に限定されるものではない。
【0075】
(実施例)
実施例では、放射線技術学シリーズ(公益社団法人日本放射線技術学会監修)全15冊から放射線技術関連の専門用語の抽出を行った。放射線技術学シリーズの教科書の全ページをスキャンし、OCRを用いてテキストデータを生成し、テキストデータを一つのファイルに統合した。次に、Cobocha(https://taku910.github.io/cabocha)を用いて文を文節に分割した。次に、文節からNグラム(N=1~7)のチャンクを抽出し、抽出されたNグラムのチャンクから句読点や記号を削除した。
【0076】
次に、Nグラムのチャンクにおいて助詞の前に現れたフレーズを体言と認識し、その後、体言と認識されたフレーズからひらがな、カタカナ及び漢字の少なくとも一つの成分からなるフレーズを抽出することで、専門用語の候補語を抽出した。次に、抽出された候補語から1文字の候補語、ひらがなのみの候補語、出現頻度が1回の候補語、一般用語を全て削除し、残された候補語を専門用語とみなした。一般用語は、みんなの日本語の単語、Wiktionary:日本語の基本語彙1000、日本語能力試験JLPT(Japanese-Language Proficiency Test)N1~N5単語集に掲載されたものとした。
【0077】
次に、本手法で抽出された専門用語の妥当性を評価した。抽出された専門用語は1135語であったが、そのうち放射線技術学用語集(JSRT(Japanese Society of Radiological Technology)用語集)に含まれていた専門用語は309語(27%)であった。JSRT用語集は、公益社団法人日本放射線技術学会が作成した用語集である。抽出された専門用語のうちJSRT用語集に含まれていた用語は、例えば、アレイコイル、イオン性造影剤、安定同位体、吸収線量であった。放射線技術学シリーズのテキストに実際に存在するJSRT用語集に掲載された専門用語は792語であるため、本手法による専門用語の抽出精度は309/792≒39%であった。他方、JSRT用語集に含まれていなかった専門用語は826語(73%)であった。これらの用語については、専門家3名に専門用語と判断できる用語の選定を依頼した。専門家は臨床経験5年以上の診療放射線技師である。
【0078】
その結果、専門家3名が選定した用語は419語(50.73%)あり、専門家2名以上が選定した用語が772語(93.46%)であった。具体例を挙げると、専門家3名が選定した用語は、例えば、「傾斜磁場」、「減弱」、「スライス厚」、「照射線量」、「断面積」、「遺伝的影響」等であった。専門家1、2名が選定した用語は、例えば、「心臓」、「ガイドライン」、「個人情報」、「診療録」、「頭部外傷」、「死亡率」等であった。専門家が選定しなかった用語は、例えば、「距離」、「温度」、「シフト」、「数量」、「異物」、「告示」、「アインシュタイン」、「拡大表示」等であった。
【0079】
専門家2名以上が専門用語であると選定した用語を専門用語とみなすと、JSRT用語集に含まれていなかった専門用語は全部で772語(93.46%)であった。以上から、本手法は、既存の用語集に掲載されていない専門用語も網羅的に抽出でき、専門分野の用語集の整備及び更新に有用であることが確認できた。
【符号の説明】
【0080】
100 専門用語抽出装置
110 操作部
120 表示部
130 通信部
140 記憶部
141 テキストデータ記憶部
142 辞書
143 専門用語記憶部
150 制御部
151 テキストデータ取得部
152 チャンキング部
153 Nグラム抽出部
154 候補語判別部
155 専門用語判別部
156 専門用語登録部