IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立公共システムの特許一覧

<>
  • 特開-情報処理装置及び情報処理方法 図1
  • 特開-情報処理装置及び情報処理方法 図2
  • 特開-情報処理装置及び情報処理方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023150605
(43)【公開日】2023-10-16
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
   G06F 40/151 20200101AFI20231005BHJP
   G06F 40/55 20200101ALI20231005BHJP
   G06F 40/44 20200101ALI20231005BHJP
   G06F 40/16 20200101ALI20231005BHJP
【FI】
G06F40/151
G06F40/55
G06F40/44
G06F40/16
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022059803
(22)【出願日】2022-03-31
(71)【出願人】
【識別番号】596127554
【氏名又は名称】株式会社日立社会情報サービス
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】高橋 泰之
(72)【発明者】
【氏名】亀島 佳史
(72)【発明者】
【氏名】田中 公司
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091AA11
5B091EA01
5B109QA02
5B109QA03
5B109QA14
(57)【要約】
【課題】やさしい日本語に変換する辞書の作成の負担を低減する。
【解決手段】本発明の情報処理装置100は、所定の文章データを収集する収集部1と、収集した文章データの形態素解析をし、形態素解析の結果に基づいて、収集した文章データの係り受け解析をし、係り受け解析によって特定された係り受け構造に基づくグラフを作成し、作成されたグラフのクラスタリングを行うことでクラスタを生成するテキストマイニング部2と、生成されたクラスタの1つである第1クラスタに属する第1特徴語を含む文章データを収集した文章データから1次集約するとともに、1次集約した文章データから、所定値以上の出現回数で出現する第2特徴語を抽出し、抽出した第2特徴語を含む文章データを2次集約する集約部3と、2次集約した文章データを用いて変換辞書を作成する作成部4と、作成した変換辞書を自然言語処理モデルに学習させる学習部5と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
所定の文章データを収集する収集部と、
前記収集した文章データの形態素解析をし、前記形態素解析の結果に基づいて、前記収集した文章データの係り受け解析をし、前記係り受け解析によって特定された係り受け構造に基づくグラフを作成し、前記作成されたグラフのクラスタリングを行うことでクラスタを生成するテキストマイニング部と、
前記生成されたクラスタの1つである第1クラスタに属する第1特徴語を含む文章データを前記収集した文章データから1次集約するとともに、前記1次集約した文章データから、所定値以上の出現回数で出現する第2特徴語を抽出し、前記抽出した第2特徴語を含む文章データを2次集約する集約部と、
前記2次集約した文章データを用いて変換辞書を作成する作成部と、
前記作成した変換辞書を自然言語処理モデルに学習させる学習部と、を備える情報処理装置。
【請求項2】
対象文章データを前記自然言語処理モデルに入力し、変換する変換部、をさらに備える請求項1に記載の情報処理装置。
【請求項3】
前記対象文章データ又は前記変換された対象文章データに第1単語が含まれている場合、前記第1単語を予め指定された第2単語に置換する強制置換部、をさらに備える請求項2に記載の情報処理装置。
【請求項4】
情報処理装置が、
所定の文章データを収集するステップと、
前記収集した文章データの形態素解析をし、前記形態素解析の結果に基づいて、前記収集した文章データの係り受け解析をし、前記係り受け解析によって特定された係り受け構造に基づくグラフを作成し、前記作成されたグラフのクラスタリングを行うことでクラスタを生成するステップと、
前記生成されたクラスタの1つである第1クラスタに属する第1特徴語を含む文章データを前記収集した文章データから1次集約するとともに、前記1次集約した文章データから、所定値以上の出現回数で出現する第2特徴語を抽出し、前記抽出した第2特徴語を含む文章データを2次集約するステップと、
前記2次集約した文章データを用いて変換辞書を作成するステップと、
前記作成した変換辞書を自然言語処理モデルに学習させるステップと、を備える情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
近年、日本語で記述された文章をわかりやすく説明してほしいという要望が多い。具体的には、通常の日本語の文章を外国人や子供にもわかるようにやさしい日本語に変換して欲しい、関西弁を標準語に変換して欲しい、特殊な医療用語が多く用いられた文章を翻訳して欲しい、などの要望である。これらの要望を満たすため、難解な日本語をやさしい(わかりやすい)日本語に変換する技術開発が盛んである。
【0003】
例えば、特許文献1には、平易な日本語で記述された文書を従来よりも簡単に提供するセンテンス平易化システムについて開示されている。このセンテンス平易化システムは、難解語句ごとに、平易な語句である平易語句を用いて難解語句を分かりやすくする易化方法を選択させるためにそれぞれの第一の選択肢を表示し、難解語句の直前に現われる語句に関わる直前関連処理方法を選択させるために複数の第二の方法それぞれの第二の選択肢を表示し、難解語句の直後に現われる語句に関わる直後関連処理方法を選択させるために複数の第三の方法の第三の選択肢を表示する。難解語句ごとに、選択された事項および指定された平易語句などを記憶する。そして、日本語で記述された原センテンスを選択された事項に基づいて平易化する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2021-121976号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の発明は、やさしい日本語に変換する発明として、プログラムロジックで文章を解析し、そのプログラムの中で変換処理を行うものといえる。一方で、やさしい日本語に変換する発明として、自然言語処理モデルに機械学習させて変換するものも知られている。同じ意味の文章であってもさまざまな言い回しで記述することができるため、自然言語処理モデルを用いてやさしい日本語に変換するためには膨大な数の変換パターン(変換辞書(辞書))を学習しておく必要がある。しかし、学習する辞書の作成に多大な時間と労力を要するという問題がある。
【0006】
本発明は、このような事情に鑑みて、やさしい日本語に変換する辞書の作成の負担を低減することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決する本発明は、
所定の文章データを収集する収集部と、
前記収集した文章データの形態素解析をし、前記形態素解析の結果に基づいて、前記収集した文章データの係り受け解析をし、前記係り受け解析によって特定された係り受け構造に基づくグラフを作成し、前記作成されたグラフのクラスタリングを行うことでクラスタを生成するテキストマイニング部と、
前記生成されたクラスタの1つである第1クラスタに属する第1特徴語を含む文章データを前記収集した文章データから1次集約するとともに、前記1次集約した文章データから、所定値以上の出現回数で出現する第2特徴語を抽出し、前記抽出した第2特徴語を含む文章データを2次集約する集約部と、
前記2次集約した文章データを用いて変換辞書を作成する作成部と、
前記作成した変換辞書を自然言語処理モデルに学習させる学習部と、を備える情報処理装置である。
【0008】
また、本発明は、
情報処理装置が、
所定の文章データを収集するステップと、
前記収集した文章データの形態素解析をし、前記形態素解析の結果に基づいて、前記収集した文章データの係り受け解析をし、前記係り受け解析によって特定された係り受け構造に基づくグラフを作成し、前記作成されたグラフのクラスタリングを行うことでクラスタを生成するステップと、
前記生成されたクラスタの1つである第1クラスタに属する第1特徴語を含む文章データを前記収集した文章データから1次集約するとともに、前記1次集約した文章データから、所定値以上の出現回数で出現する第2特徴語を抽出し、前記抽出した第2特徴語を含む文章データを2次集約するステップと、
前記2次集約した文章データを用いて変換辞書を作成するステップと、
前記作成した変換辞書を自然言語処理モデルに学習させるステップと、を備える情報処理方法である。
【発明の効果】
【0009】
本発明によれば、やさしい日本語に変換する辞書の作成の負担を低減することができる。
【図面の簡単な説明】
【0010】
図1】本実施形態における情報処理装置の機能構成図である。
図2】本実施形態における準備処理のフローチャートである。
図3】本実施形態における変換処理のフローチャートである。
【発明を実施するための形態】
【0011】
[構成]
図1は、本実施形態における情報処理装置の機能構成図である。情報処理装置100は、難解な日本語の文章をやさしい日本語に変換するコンピュータである。情報処理装置100は、入力部、出力部、制御部、および、記憶部といったハードウェアを備える。例えば、制御部がCPU(Central Processing Unit)から構成される場合、その制御部を含むコンピュータによる情報処理は、CPUによるプログラム実行処理で実現される。また、そのコンピュータに含まれる記憶部は、CPUの指令により、そのコンピュータの機能を実現するためのさまざまなプログラムを記憶する。これによりソフトウェアとハードウェアの協働が実現される。前記プログラムは、記録媒体に記録したり、ネットワークを経由したりすることで提供可能となる。出力部は、画面表示をする表示部の機能を含めてもよい。
【0012】
情報処理装置100は、収集部1と、テキストマイニング部2と、集約部3と、作成部4と、学習部5と、強制置換部6と、変換部7とを備えている。また、情報処理装置100は、文章DB11と、変換辞書DB12と、強制置換辞書DB13と、自然言語処理モデル14とを記憶している。「DB」はデータベース(Data Base)の略である
【0013】
収集部1は、所定の文章データを収集する。所定の文章データは、やさしい日本語に変換するサービスを利用するユーザにとって価値のある文章データであり、例えば、当該ユーザに関する文章データ、当該ユーザの属する分野に関する文章データであるが、これらに限定されない。収集部1は、ユーザが入力した検索条件に従い、このような文章データを、例えば、関連分野のホームページや、関連分野の書籍から収集できる。
【0014】
テキストマイニング部2は、所定のテキストデータに対してテキストマイニングを行う。テキストマイニング部2のテキストマイニングは、特開2019-117484号公報(以下、「参考文献1」という)に開示されており、周知であるため、詳細な説明は省略する。
【0015】
集約部3は、テキストマイニングの結果に基づいて、収集した文章データのうち、ユーザにとって有益な文章データを集約する。
作成部4は、集約された文章データを用いて変換辞書を作成する。変換辞書は、文章データを変換するときの変換パターンをまとめたもの(辞書)である。
学習部5は、作成した変換辞書を自然言語処理モデル14に機械学習させる。
強制置換部6は、ユーザが指定する単語を、ユーザが所望する別の単語に置換する。強制置換部6による置換は、自然言語処理モデル14に基づく変換よりも優先する。また、強制置換部6は、後記の強制置換辞書を作成する。
変換部7は、対象文章データを自然言語処理モデル14に入力し、変換する。
【0016】
文章DB11は、収集部1が収集した文章データを所定の形式で格納するデータベースである。
変換辞書DB12は、集約部3が集約した文章データと、集約した文章データの変換後の文章データとの組をまとめた(対応付けて記憶した)変換辞書を格納するデータベースである。
強制置換辞書DB13は、ユーザが指定する単語と、当該単語に対して強制置換部6が置換した単語との組をまとめた強制置換辞書を格納するデータベースである。
自然言語処理モデル14は、人間が日常的に使用している言葉をコンピュータに理解させ、人間の言葉である自然言語を機械で処理するための機械学習用モデルである。自然言語処理モデル14は、周知のものを採用でき、詳細な説明は省略する。
【0017】
(収集部1の処理の詳細)
収集部1は、ホームページや書籍の記載内容に対し、句点、改行、括弧などで区切りを設けることで、記載内容を文章単位に分け、文章データを収集することができる。また、収集部1は、収集した文章データごとに一意のID(識別子、Identifier)を付与することができる。その結果、収集部1は、IDと文章データとの組をまとめた文章一覧データを作成できる。
【0018】
(テキストマイニング部2の処理の詳細)
参考文献1の発明を用いて、テキストマイニング部2は、収集部1が収集したすべての文章データ、つまり文章一覧データ中のすべての文章データに対してテキストマイニングを行う。具体的には、テキストマイニング部2は、収集した文章データの各々の形態素解析を行う。また、テキストマイニング部2は、形態素解析の結果に基づいて、収集した文章データの各々の係り受け解析を行う。また、テキストマイニング部2は、係り受け解析によって特定された係り受け構造に基づくグラフを文章データごとに作成する。また、テキストマイニング部2は、文章データごとに作成したグラフをマージして、1つのグラフを作成する。また、テキストマイニング部2は、マージしたグラフのクラスタリングを行う。その結果、マージしたグラフに関する1または複数のクラスタが生成される。また、テキストマイニング部2は、生成された各クラスタから、1または複数の特徴語を抽出することができる。特徴語は、所定値以上の出現回数(TF:Term Frequency)で出現する語である。所定値は、例えば、クラスタごとに決定してもよいし、どのクラスタに対しても一律に同じ値として決定してもよい。
【0019】
テキストマイニング部2は、生成されたクラスタごとにカテゴリを設定することができる。クラスタごとのカテゴリは、収集した文章データの記載内容が示す複数種類の小概念の1つを象徴しており、情報処理装置100のオペレータが設定できる。オペレータは、例えば、各クラスタに含まれる特徴語から推測して設定してもよいし、各クラスタに含まれる特徴語以外の語から推測して設定してもよいし、各クラスタに含まれる語以外の語から推測して設定してもよい。
【0020】
(集約部3の処理の詳細)
集約部3は、テキストマイニングによって生成されたクラスタの1つ(第1クラスタ)に属する特徴語(第1特徴語)を用いて、収集部1が収集したすべての文章データから当該特徴語を含む文章データを集約する(1次集約)。1次集約された文章データは、カテゴライズされた特定の概念を主題とし、より特定の分野に限定された文章データであるといえる。集約部3は、カテゴリの数、つまりクラスタの数だけ1次集約を実行できる。
【0021】
また、集約部3は、1次集約された文章データに含まれる単語を特定し、特定した単語の出現回数、及び、特定した単語を含む文章データに付与された(複数個の)IDを、単語ごとに集計できる。集約部3は、出現する単語と、当該単語の出現回数と、当該単語を含む文章データのIDとの組をまとめた単語一覧データを作成できる。単語一覧データは、カテゴリごとに用意できる。
【0022】
また、集約部3は、単語一覧データを参照して、1次集約された文章データから、所定条件を満たす特徴語(第2特徴語)を抽出し、抽出した特徴語を含む文章データを集約する(2次集約)。所定条件は、例えば、「所定値以上の出現回数で出現する」という条件にすることができるが、これに限定されない。また。上記の「所定値」は、任意の数値を設定できる。「所定値以上の出現回数で出現する」という条件を用いた場合、集約部3は、2次集約により、1次集約された文章データから、よく使用されている特徴語を含む文章データを選別できる。
【0023】
(作成部4の処理の詳細)
まず、作成部4は、2次集約された文章データと、集約部3が作成した単語一覧データとを突き合わせ、IDが一致する文章データを抽出する。ここで、突き合わせに用いる単語一覧データは、例えば、オペレータが事前に有効性を確認して任意に選択した1または複数種類のカテゴリに含まれる単語の単語一覧データとすることができる。また、作成部4は、抽出した文章データから、極端に文字数が少ない文章データ、極端に文字数が多い文章データは除外することができる。
【0024】
次に、作成部4は、出現回数の多い単語から順に、IDをキーにして、対象の単語を含む文章データを、前段で抽出した文章データから所定個(例:1単語につき10個)まで出力する。ここで、作成部4は、予め決めた出力件数の上限に従い、上限まで文章データを出力する。次に、作成部4は、出力された文章データを変換前文章データとし、変換前文章データをまとめた変換前文章一覧データを作成する。
【0025】
一方、作成部4は、集約部3が作成した単語一覧データから、出現回数が所定値以上となる単語を抽出する。このとき、単語の抽出対象となる単語一覧データに係るカテゴリは、例えば、オペレータが事前に有効性を確認して任意に選択した1または複数種類のカテゴリとすることができるが、これに限定されない。抽出された単語は、変換前単語とする。オペレータは、(手作業により)変換前単語をやさしい日本語に変換したときの単語を変換後単語として設定し、情報処理装置100に入力する。次に、作成部4は、変換前単語と変換後単語との組をまとめた単語辞書を作成する。このとき、変換に揺らぎが起きないように単語の変換ルールを予め決めておくことが好ましい。
【0026】
次に、作成部4は、変換前文章一覧データ及び前段で作成した単語辞書を用いて変換辞書を作成する。具体的には、作成部4は、変換前文章一覧データ中の文章データに含まれる単語が単語辞書の変換前単語であった場合は、当該単語を変換後単語に変換する。その結果、変換前文章データの各々に対して変換後単語を含む変換後文章データが作成される。作成部4は、変換前文章データと変換後文章データとの組をまとめた変換辞書を作成する。
【0027】
作成部4は、単語変換がなされた、変換前文章データと変換後文章データとの組について、変換した単語以外の文章部分(変換前文章データの文章部分でもよいし、変換後文章データの文章部分でもよい)を、オペレータからの操作(手作業)により適宜変更できる。また、このような変更は複数種類実行できる。このような変更は、意味は同じであるが言い回しを適宜変更した文章を複数種類用意することで、単語変換という機械的な変換に対してわかりやすいだけでなく読みやすい(違和感のない)日本語文章を提供する点で有用である。変換した単語以外の文章部分を変更することで変換辞書を整備することができ、変換の精度を向上させることができる。なお、変換した単語以外の文章部分の変更は任意である。
【0028】
[処理]
本実施形態の情報処理装置100が実行する処理について説明する。図2は、本実施形態における準備処理のフローチャートである。図3は、本実施形態における変換処理のフローチャートである。
【0029】
(準備処理)
準備処理は、以下の手順で進行する。まず、収集部1が、ユーザからの検索条件に従い、ユーザにとって価値のある所定の文章データを収集する(ステップA1)。次に、収集部1が、収集した文章データに対してIDを付与するテキスト加工をする(ステップA2)。テキスト加工により、文章一覧データが作成される。次に、テキストマイニング部2が文章一覧データ中のすべての文章データに対してテキストマイニングを行う(ステップA3)。次に、集約部3が、テキストマイニングの結果に基づいて、文章データを1次集約する(ステップA4)。次に、集約部3が、1次集約の結果に対して、文章データを2次集約する(ステップA5)。次に、作成部4が、2次集約された文章データを用いて変換辞書を作成する(ステップA6)。次に、学習部5が、作成された変換辞書を自然言語処理モデル14に機械学習させる(ステップA7)。最後に、強制置換部6が、ユーザが指定する単語と、当該単語に対して強制置換部6が置換した単語との組をまとめた強制置換辞書を作成する(ステップA8)。
【0030】
以上で、準備処理が完了する。なお、ステップA8の強制置換辞書の作成は、ステップA7の後段に限らず、任意のタイミングで行ってもよい。
【0031】
(変換処理)
変換処理は、以下の手順で進行する。変換処理は、情報処理装置100に変換対象の文章データがユーザから入力されたときに開始する。まず、強制置換部6が、入力された文章データに対し強制置換をする(ステップB1)。強制置換部6は、強制置換辞書DB13に格納されている強制置換辞書に基づいて、入力された文章データからユーザが独自に変換したい単語(第1単語)を抽出し、別の単語(第2単語)に変換する。次に、変換部7が、強制置換済みの文章データを自然言語処理モデル14に入力し、変換する(ステップB2)。最後に、強制置換部6が、変換した文章データに対し強制置換をする(ステップB3)。強制置換部6は、強制置換辞書に基づいて、変換された文章データからユーザが独自に変換したい単語(第1単語)を抽出し、別の単語(第2単語)に変換する。その結果、情報処理装置100は、やさしい日本語で記述された文章データを出力できる。
【0032】
以上で、変換処理が完了する。なお、ステップB1,B3の強制置換は、選択的であり、省略可能である。また、自然言語処理モデル14による変換(ステップB2)の前段に強制置換(ステップB1)を行うことで、変換した文章データにおいて、ユーザが所望する独自の単語変換を確実に反映させることができる。
【0033】
本実施形態によれば、変換対象となる単語を、1次集約により特定の分野にカテゴライズされた単語に限定できるとともに、2次集約により出現回数が多いなどの条件を満たした単語にさらに限定できる。よって、変換辞書に登録させる単語の数を低減させることができ、やさしい日本語に変換するために学習する変換パターンの数を低減させることができる。一方で、限定された単語は、ユーザが所望するものであり、ユーザにとって有益な文章データを提供できる単語である。したがって、やさしい日本語に変換する辞書の作成の負担を低減することができる。
また、変換対象の文章データにおいて、ユーザが指定した単語を所望の単語に独自に強制置換することができるので、自然言語処理モデル14による変換に優先して、ユーザの嗜好に沿った文章データに変換することができる。
【0034】
[具体例]
(1):変換部7は、「困難な任務だったが、何とかやり遂げた。」という文章を、「難しい仕事だったが、やり遂げた。」という文章に変換することができる。「困難な」、「任務」という難解な語はそれぞれ、「難しい」、「仕事」というやさしい語にそれぞれ変換されている。また、「何とか」という副詞は、存在しなくても基本的に意味が変わらないので、削除することで、やさしい文章に変換できる。
(2):変換部7は、「必ず印鑑をご持参ください。」という文章を、「必ずはんこを持ってきてください。」にという文章に変換することができる。「印鑑」、「持参」という難解な語はそれぞれ、「はんこ」、「持ってきて」というやさしい語に変換されている。
(3):変換部7は、「定期総会の開催に関するお問い合わせはお断りしております。」という文章を、「定期総会を開くことに関わる問い合わせは断っています。」という文章に変換することができる。「開催」、「お断り」という難解な語はそれぞれ、「開く」、「断って」というやさしい語に変換されている。また、作成部4が作成した変換辞書を整備しておくことで、変換した単語以外の文章部分を読みやすく変更することができる(名詞から動詞への変換にともなう前後の言い回しの変更、丁寧語から標準語への変更)。
(4):変換部7は、「会場へお越しの際は、公共交通機関をご利用ください。」という文章を、「会場へ来るときは、バスや電車を使ってください。」という文章に変換することができる。「お越し」、「公共交通機関」、「ご利用」という難解な語はそれぞれ、「来る」、「バスや電車」、「使って」というやさしい語に変換されている。
【0035】
[変形例]
(a):本発明では、難解な日本語をやさしい日本語に変換する場合について説明したが、他の言語に関しても適用できる。また、本発明は、異なる種類へ翻訳する場合についても適用できる。
【0036】
(b):本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
(c):本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
(d):その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0037】
100 情報処理装置
1 収集部
2 テキストマイニング部
3 集約部
4 作成部
5 学習部
6 強制置換部
7 変換部
11 文章DB
12 変換辞書DB
13 強制置換辞書DB
14 自然言語処理モデル
図1
図2
図3