IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-88130情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図10
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図11
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図12
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図13
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024088130
(43)【公開日】2024-07-02
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06F 40/166 20200101AFI20240625BHJP
   G06F 40/216 20200101ALI20240625BHJP
【FI】
G06F40/166
G06F40/216
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022203153
(22)【出願日】2022-12-20
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】西川 荘介
(72)【発明者】
【氏名】小林 健
(72)【発明者】
【氏名】井上 裁都
(72)【発明者】
【氏名】増山 毅司
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091AA15
5B091EA01
5B109QB11
(57)【要約】
【課題】的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供すること。
【解決手段】本開示に係る情報処理装置は、校正対象となる文章を示す校正対象文章を受け付ける受付部と、校正対象文章のうち校正範囲を示すマスク部を特定する特定部と、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、校正対象文章のうちマスク部を秘匿した校正対象文章に基づいて、マスク部に含まれる文字列を推定する推定部と、推定部が推定した文字列と、マスク部に含まれる文字列が一致しない場合は、マスク部の文字列を校正対象として指摘する指摘部と、を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
校正対象となる文章を示す校正対象文章を受け付ける受付部と、
前記校正対象文章のうち校正範囲を示すマスク部を特定する特定部と、
文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、前記校正対象文章のうち前記マスク部を秘匿した前記校正対象文章に基づいて、前記マスク部に含まれる文字列を推定する推定部と、
前記推定部が推定した文字列と、前記マスク部に含まれる文字列が一致しない場合は、前記マスク部の文字列を校正対象として指摘する指摘部と、
を備える情報処理装置。
【請求項2】
前記推定部が推定した前記マスク部に含まれる文字列の出現確率に対する、前記校正対象文章の前記マスク部に含まれる文字列の出現確率の比率を示す確信度を算出する算出部と、をさらに備える、
請求項1に記載の情報処理装置。
【請求項3】
前記算出部が算出した前記確信度が所定の閾値を超える対象ワードをホワイトリストとして抽出する抽出部と、をさらに備える、
請求項2に記載の情報処理装置。
【請求項4】
前記受付部は、校正フィルタリングを行った後の文章を前記校正対象文章として受け付け、
前記特定部は、校正フィルタリングにおいて指摘された文字列を前記マスク部として特定し、
前記推定部は、前記マスク部に含まれる文字列を推定する、
請求項1に記載の情報処理装置。
【請求項5】
校正対象となる文章を示す校正対象文章を受け付けるステップと、
前記校正対象文章のうち校正範囲を示すマスク部を特定するステップと、
文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、前記校正対象文章のうち前記マスク部を秘匿した前記校正対象文章に基づいて、前記マスク部に含まれる文字列を推定するステップと、
推定した文字列と、前記マスク部に含まれる文字列が一致しない場合は、前記マスク部の文字列を校正対象として指摘するステップと、
を含む情報処理方法。
【請求項6】
校正対象となる文章を示す校正対象文章を受け付けるステップと、
前記校正対象文章のうち校正範囲を示すマスク部を特定するステップと、
文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、前記校正対象文章のうち前記マスク部を秘匿した前記校正対象文章に基づいて、前記マスク部に含まれる文字列を推定するステップと、
推定した文字列と、前記マスク部に含まれる文字列が一致しない場合は、前記マスク部の文字列を校正対象として指摘するステップと、
をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
文章について文法チェックや文字列チェック、単語チェックなどを行い、文章の誤り箇所を指摘する文章校正システムが知られている。文章校正システムでは、文章の文脈を考慮して校正を指摘することができず、校正の必要がない文字列について校正を指摘する場合があるなど、校正の品質に不安があった。また、校正の必要がないワードのリストを示すホワイトリストの作成に手間がかかっていた。
【0003】
例えば、下記の特許文献1には、文章中の改善箇所の抽出精度を向上し得る、文章改善箇所抽出装置であって、ユーザが文章を閲読した際の視線の軌跡を特定する視線履歴情報を取得する情報取得部と、取得された視線履歴情報に基づいてユーザが文章を閲読した際の標準閲読速度を計算する標準閲読速度計算部と、取得された視線履歴情報に基づいて、文章において、ユーザの視線の移動速度が標準閲読速度に比べて低下している箇所を、文章の改善箇所として抽出する改善箇所抽出部と、を備える文章改善箇所抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-164515号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の文章改善箇所抽出装置は、文章改善箇所を抽出することができるものの、どのように改善したら良いかを提案することができなかった。本開示は上記課題を鑑み、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本開示に係る情報処理装置は、校正対象となる文章を示す校正対象文章を受け付ける受付部と、前記校正対象文章のうち校正範囲を示すマスク部を特定する特定部と、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、前記校正対象文章のうち前記マスク部を秘匿した前記校正対象文章に基づいて、前記マスク部に含まれる文字列を推定する推定部と、前記推定部が推定した文字列と、前記マスク部に含まれる文字列が一致しない場合は、前記マスク部の文字列を校正対象として指摘する指摘部と、を備える。
【発明の効果】
【0007】
本開示によれば、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することができる。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係る情報処理の第一の例を示す図である。
図2図2は、実施形態に係る情報処理の第二の例を示す図である。
図3図3は、実施形態に係る情報処理システムの構成例を示す図である。
図4図4は、実施形態に係る情報処理装置の構成例を示す図である。
図5図5は、実施形態に係るホワイトリスト記憶部に記憶される情報の一例を示す図である。
図6図6は、実施形態に係る自然言語モデル記憶部に記憶される情報の一例を示す図である。
図7図7は、実施形態に係る情報処理装置の推定部の推定結果の第一の例を示す図である。
図8図8は、実施形態に係る情報処理装置の推定部の推定結果の第二の例を示す図である。
図9図9は、実施形態に係る情報処理装置の算出部の確信度の算出結果の一例を示す図である。
図10図10は、実施形態に係る情報処理装置の抽出部の処理の概要を示す図である。
図11図11は、実施形態に係る情報処理装置の抽出部によって抽出されたホワイトリストワードの確信度の一例を示す図である。
図12図12は、実施形態に係る事業者端末の構成例を示す図である。
図13図13は、実施形態に係る情報処理の一例を示すフローチャートである。
図14図14は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。
【0010】
(実施形態)
〔1.実施形態に係る情報処理〕
〔1-1.実施形態に係る情報処理の一例〕
まず、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の第一の例を示す図である。図1では、実施形態に係る情報処理が情報処理装置100、事業者端末200により実行される例を示す。以下、実施形態に係る情報処理についてステップごとに順を追って説明する。
【0011】
まず、情報処理装置100は、事業者端末200から校正対象となる文章を受け付ける(ステップS1)。例えば、情報処理装置100は、事業者端末200から事業者M1が入力した校正対象となる文章として、文章A「文部科学省が報道発表した資料を閲覧できます。」といった文章を受け付ける。ここで、文章Aのような文章は、事業者端末200の出力部230に文章の入力ボックスを表示させて、事業者端末200が備える入力部320を介して、事業者M1から文章の入力を受け付けてよい。
【0012】
次に、情報処理装置100は、事業者端末200から校正対象となる文章のうち、校正対象の範囲を示すマスク部の特定を受け付ける(ステップS2)。例えば、情報処理装置100は、事業者端末200から事業者M1が入力した前述の文章Aにおける「科学」をマスク部として特定を受け付ける。ここで、マスク部の特定の受け付けは、事業者端末200の出力部230に、ステップS1において受け付けた校正対象文章(例えば、前述の文章A)を表示させて、事業者端末200の入力部220を介して、事業者からマスク部の特定を受け付けてよい。情報処理装置100は、事業者端末200からマスク部の特定を受け付けたら、受け付けたマスク部に沿って特定された箇所をマスクした文章を生成する。例えば、情報処理装置100は、文章Aにおいて「科学」をマスク部として特定を受け付けた場合であれば、文章A*「文部[MASK]省が報道発表した資料を閲覧できます。」を生成する。
【0013】
次に、情報処理装置100は、受け付けた校正対象文章をモデルに入力し、マスク部に当て嵌まる置換ワードの推定結果を出力する(ステップS3)。例えば、情報処理装置100は、ステップS2において生成した前述の文章A*をモデルに入力して、マスク部に当て嵌まる置換ワードの推定結果を出力する。この場合のモデルは、BERT(Bidirectional Encorder Representations from Transformers)や、ELMo(Embeddings from Language Model)、Word2Vec、Bidirectional LSTM(Long Short Term Memory)などにより構成可能である。これらのモデルは、入力した文章のマスク部に当て嵌まる単語を前後の文脈を考慮して予測する。なお、モデルの出力は、マスク部に当て嵌まる複数の置換ワードが、その出現確率と共に出力される。情報処理装置100は、モデルの出力のうち、最も出現確率が高いと予測された置換ワードをマスク部に当て嵌まる置換ワードの推定結果としてよい。
【0014】
次に、情報処理装置100は、マスク部の文章と、モデルの推定結果が一致している場合は校正不要、一致していない場合は校正必要と判断する(ステップS4)。例えば、情報処理装置100は、文章A「文部科学省が報道発表した資料を閲覧できます。」においてマスク部の元々対象ワード「科学」に対して、ステップS3においてモデルが推定した置換ワードが「科学」であったとする。この場合、情報処理装置100は、マスク部の元々対象ワードと、モデルの推定結果が一致していることから、校正不要と判断する。
【0015】
次に、情報処理装置100は、文章校正の結果を事業者端末200に通知する(ステップS5)。例えば、情報処理装置100は、ステップS4において、文章Aのマスクした箇所の「科学」に対して、モデルの推定結果が「科学」で一致していることから、校正不要と判断した旨を示す文章校正の結果を事業者端末200に通知する。
【0016】
これによれば、文章の文脈を考慮して文章の校正箇所を指摘することができる。そのため、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理装置100を提供することができる。
【0017】
〔1-2.実施形態に係る情報処理の他の例〕
情報処理装置100は、推定したマスク部に含まれる文字列の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出する。
【0018】
この情報処理について順を追って説明する。まず、情報処理装置100は、図1に示したステップS1からS3と同じ処理を実行する。ステップS1からS3は、上述した処理と同じであるから説明を省略する。
【0019】
次に、情報処理装置100は、推定したマスク部に含まれる文字列の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出する(ステップSa)。例えば、情報処理装置100は、ステップS1において、文章B「として「地方創生臨時交付金」を拡充する費用と」といった文章を受け付けたとする。そして、情報処理装置100は、ステップS2において、マスク部として文章Bのうち「交付」を対象ワードとして特定を受け付け、「交付」の箇所をマスクした文章B*を生成したとする。この場合、情報処理装置100は、モデルに文章B*を入力して、マスク部として特定された箇所に当て嵌まる置換ワードの出現確率、及びマスク部の元々の文字列を示す対象ワードの出現確率を出力する。そして、情報処理装置100は、複数の置換ワードの出現確率に対する、対象ワード「交付」の出現確率の比率を確信度としてそれぞれ算出する。すなわち、情報処理装置100は、校正対象文章のマスク部の対象ワードの出現確率と、マスク部に当て嵌まるワードとして推定した置換ワードの複数の候補の出現確率を算出して、それぞれの比率を確信度として算出するといえる。つまり、確信度は、対象ワードの出現確率を、置換ワードの出現確率によって除算した値である。
【0020】
これによれば、マスク部に含まれる文字列の推定結果の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出することができる。そのため、マスク部の推定結果が適切であるか否かの判断を容易に行うことができる。
【0021】
〔1-3.実施形態に係る情報処理の他の例〕
情報処理装置100は、算出した確信度が所定の閾値を超える対象ワードをホワイトリストとして抽出する。
【0022】
この情報処理について順を追って説明する。まず、情報処理装置100は、図1に示したステップS1からS3と同じ処理を実行する。ステップS1からS3は、上述した処理と同じであるから説明を省略する。
【0023】
次に、情報処理装置100は、前述したステップSaと同じ処理を実行する。ステップSaは、前述した処理と同じであるから説明を省略する。
【0024】
次に、情報処理装置100は、ステップSaにおいて算出した確信度が所定の閾値を超える対象ワードをホワイトリストワードとして抽出する(ステップSb)。例えば、情報処理装置100は、ステップS1において、文章C「中高一貫校」といった文章を受け付けたとする。そして、情報処理装置100は、ステップS2において、マスク部として文章Cのうち「一貫」の箇所の特定を受け付け、「一貫」の箇所をマスクした文章C*を生成したとする。そして、情報処理装置100は、ステップS3において、モデルに文章C*を入力して、マスク部として特定された箇所に当て嵌まる置換ワードの出現確率、及びマスク部の元々の文字列を示す対象ワードの出現確率を出力したとする。そして、情報処理装置100は、ステップSaにおいて、マスク部の「一貫」の出現確率と、マスク部に当て嵌まる置換ワードとしての「一環」の出現確率の比率を示す確信度を算出し、その値を12,786,820,790と算出したとする。この場合、情報処理装置100は、確信度が所定の閾値、例えば100を超える対象ワードをホワイトリストワードとして抽出する。このようにして、情報処理装置100は、その他の対象ワードについても確信度に基づいて、ホワイトリストワードとして抽出する。
【0025】
これによれば、確信度が所定の閾値を超える文字列をホワイトリストワードとして抽出することができる。そのため、ホワイトリストワードの抽出を効率的に行うことができる。
【0026】
〔1-4.実施形態に係る情報処理の他の例〕
情報処理装置100は、校正フィルタリングを行った後の文章を校正対象文章として受け付け、校正フィルタリングにおいて指摘された文字列をマスク部として特定し、マスク部に含まれる文字列を推定する。
【0027】
この情報処理について順を追って説明する。
【0028】
まず、情報処理装置100は、事業者端末200から校正対象となる文章を受け付ける(ステップS1-1)。この場合において、情報処理装置100は、校正対象文章として、校正フィルタリングを行った後の文章を校正対象文章として受け付ける。ここで、校正フィルタリングとは、文章を入力すると、文法や単語表現に基づいて、誤りを指摘する文章校正システムを用いて文章の校正箇所を指摘することを指している。例えば、文章D「無人の戦車が自律的に標的を攻撃する。」といった文章を、文章校正システムに入力して、校正指摘として「自律->[自立]との誤用に注意(誤用注意)」を受けていたとする。この場合、情報処理装置100は、前述の文章Dを校正対象文章として受け付ける。
【0029】
次に、情報処理装置100は、事業者端末200から校正対象となる文章のうち、校正対象の範囲を示すマスク部の特定を受け付ける(ステップS2-1)。この場合、情報処理装置100は、校正フィルタリングにおいて指摘された文字列をマスク部として特定する。例えば、前述の文章Dを校正対象文章として受け付けた場合であれば、情報処理装置100は、校正フィルタリングにおいて指摘された文字列である「自律」をマスク部として特定する。そして、情報処理装置100は、文章Dのマスク部をマスクした文章D*「無人の戦車が[MASK]的に標的を攻撃する。」を生成する。
【0030】
次に、情報処理装置100は、受け付けた校正対象文章をモデルに入力し、マスク部の推定結果を出力する(ステップS3-1)。例えば、情報処理装置100は、前述の文章D*をモデルに入力し、マスク部の推定結果を出力する。この場合のモデルには、前述したものと同様のものを用いてよい。つまり、情報処理装置100は、入力した文章のマスク部に当て嵌まる単語を前後の文脈を考慮して予測する。情報処理装置100は、モデルの出力のうち、最も出現確率が高いと予測された単語をマスク部に当て嵌まる置換ワードの推定結果としてよい。
【0031】
次に、情報処理装置100は、図1に示したステップS4、及びS5と同じ処理を実行する。ステップS4、及びS5は、上述した処理と同じであるから説明を省略する。
【0032】
このような情報処理装置100の処理の概要について図2に示す。図2は、実施形態に係る情報処理の第二の例を示す図である。図2の中央の位置に示す「校正くん」は、校正フィルタリングの一例を示しており、校正対象文章として「校正くん」に文章D「無人の戦車が自律的に標的を攻撃する。」が入力されたことが示されている。そして、図2には「校正くん」の指摘として、「自律->[自立]との誤用に注意(誤用注意)」との指摘されたことが示されている。また、図2には、その指摘を受けて、指摘を受けた箇所である「自律」をマスクした文章D*をモデルに入力して、新たな指摘がされたことが示されている。
【0033】
これによれば、校正フィルタリングを行った後の文章に対して、校正フィルタリングにより指摘された文字列をマスク部として特定し、マスク部に含まれる文字列を推定することができる。そのため、校正フィルタリングにおける指摘が適切であるか否かを別の観点から検証することができる。
【0034】
〔2.情報処理システムの構成〕
次に、図3を用いて実施形態に係る情報処理システムの構成について説明する。図3は、実施形態に係る情報処理システムの構成例を示す図である。図3に示すように、実施形態に係る情報処理システム1は、情報処理装置100と、事業者端末200と、ネットワークNを有する。以下、これらの構成について簡単に順を追って説明する。
【0035】
情報処理装置100は、例えばPC(Personal Computer)、WS(Work Station)、サーバの機能を備えるコンピュータなどの情報処理装置であってよい。情報処理装置100は、事業者端末200からネットワークNを介して送信されてきた情報に基づいて処理を行う。
【0036】
事業者端末200は、事業者が利用する情報処理装置である。事業者端末200は、例えば、スマートフォン、タブレット型端末、デスクトップ型PC、ノート型PC、携帯電話機、PDA等の情報処理装置であってよい。なお、図1に示す例においては、事業者端末200がノート型PCである場合を示している。
【0037】
ネットワークNは、情報処理装置100と、事業者端末200を有線、又は無線により相互に通信可能に接続する。ネットワークNが有線の場合は、IEEE802.3に規定されるイーサネット(登録商標)(ETHERNET(登録商標))により実現されてよい。また、ネットワークNが無線の場合は、IEEE802.11に規定される無線LAN(Local Area Network)により実現されてよい。
【0038】
〔3.情報処理装置の構成〕
次に、図4を用いて、情報処理装置100の構成について説明する。
【0039】
図4は、実施形態に係る情報処理装置の構成例を示す図である。図4に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130と、を有する。
【0040】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)、無線LAN(Local Area Network)カード等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、事業者端末200などとの間で情報の送受信を行う。
【0041】
(記憶部120について)
記憶部120は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部130が実行するプログラム、あるいは制御部130が処理するデータを記憶する。主記憶装置は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部130が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやSSD(Solid State Drive)、磁気テープ、光ディスク等によって実現されてよい。
【0042】
図4に示すように、記憶部120は、ホワイトリスト記憶部121と、自然言語モデル記憶部122を有する。以下、これらの構成について順を追って説明する。
【0043】
(ホワイトリスト記憶部121について)
ホワイトリスト記憶部121は、文章校正における指摘対象から除外されるワードのリストを示すホワイトリストを記憶する。ここで、図5を用いて、ホワイトリスト記憶部121が記憶する情報の一例を説明する。図5は、実施形態に係る情報処理装置のホワイトリスト記憶部に記憶される情報の一例を示す図である。
【0044】
図5に示す例において、ホワイトリスト記憶部121は、「ホワイトリストワードID」、「ホワイトリストワード」という項目に係る情報を紐付けて記憶する。
【0045】
「ホワイトリストワードID」は、ホワイトリストワードを識別する識別子であり、文字列や記号などによって表される。「ホワイトリストワード」は、ホワイトリストとして管理されるワードを示す。
【0046】
すなわち、図5においては、ホワイトリストワードID「WID#1」により識別されるホワイトリストワードが「WORD#1」であることを示している。
【0047】
なお、ホワイトリスト記憶部121に記憶される情報は、「ホワイトリストワードID」、「ホワイトリストワード」という項目に係る情報に限定されるものではなく、その他の任意のホワイトリストに関係する情報が記憶されてよい。
【0048】
(自然言語モデル記憶部122について)
自然言語モデル記憶部122は、自然言語モデルに関係する情報を記憶する。ここで、図6を用いて、自然言語モデル記憶部122が記憶する情報の一例を説明する。図6は、実施形態に係る情報処理装置の自然言語モデル記憶部に記憶される情報の一例を示す図である。
【0049】
図6に示す例において、自然言語モデル記憶部122は、「モデルID」、「モデルデータ」という項目に係る情報を紐付けて記憶する。
【0050】
「モデルID」は、自然言語モデルを識別する識別子であり、文字列や番号によって表される。「モデルデータ」は、自然言語モデルのモデルデータを示す。例えば、自然言語モデルは、ニューラルネットワークなどであってよい。
【0051】
すなわち、図6において、モデルID「M#1」で識別されるモデルは、自然言語モデルM#1を示す。また、モデルデータ「MDT#1」は、自然言語モデルM#1のモデルデータを示す。
【0052】
ここで、自然言語モデルがニューラルネットワークである場合は、モデルデータ「MDT#1」には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるノードが互いにどのように結合するかという結合情報や、結合されたノード間で入出力される数値に掛け合わされる結合係数などの各種情報が含まれる。
【0053】
なお、自然言語モデル記憶部122に記憶される情報は、「モデルID」、「モデルデータ」という項目に係る情報に限定されるものではなく、その他の任意の自然言語モデルに関係する情報が記憶されてよい。
【0054】
(制御部130について)
次に、図4に戻って、制御部130について説明する。制御部130は、情報処理装置100を制御するコントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100の記憶部120に記憶されている各種プログラムを読み出して、RAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array))等の集積回路により実現されてもよい。
【0055】
制御部130は、図4に示すように、受付部131と、特定部132と、推定部133と、指摘部134と、算出部135と、抽出部136を有する。制御部130は、記憶部120からプログラムを読み出して、RAMを作業領域として実行することで、これらの機能を実現して、以下に説明する情報処理の機能や作用を実現または実行する。以下、これらの処理を、順を追って説明する。
【0056】
(受付部131について)
受付部131は、校正対象となる文章を示す校正対象文章を受け付ける。例えば、受付部131は、事業者端末200から事業者M1が入力した校正対象となる文章として、文章A「文部科学省が報道発表した資料を閲覧できます。」といった文章を受け付ける。受付部131は、校正対象となる文章を受け付けたら、受け付けた文章を記憶部120に記憶する。
【0057】
受付部131は、校正フィルタリングを行った後の文章を校正対象文章として受け付けてもよい。ここで、校正フィルタリングとは、文章を入力すると、文法や単語表現に基づいて、誤りを指摘する文章校正システムを用いて文章の校正箇所を指摘することを指している。例えば、文章D「無人の戦車が自律的に標的を攻撃する。」といった文章を、文章校正システムに入力して、校正指摘として「自律->[自立]との誤用に注意(誤用注意)」を受けていたとする。この場合、受付部131は、前述の文章Dを校正対象文章として受け付ける。
【0058】
(特定部132について)
特定部132は、校正対象文章のうち校正範囲を示すマスク部を特定する。例えば、特定部132は、事業者端末200から事業者M1が入力した前述の文章Aにおける「科学」をマスク部として特定を受け付ける。ここで、マスク部の特定の受け付けは、事業者端末200の出力部230に、ステップS1において受け付けた校正対象文章(例えば、前述の文章A)を表示させて、事業者端末200の入力部220を介して、マスク部の特定を受け付けてよい。特定部132は、事業者端末200からマスク部の特定を受け付けたら、受け付けたマスク部に沿って特定された箇所をマスクした文章を生成する。例えば、特定部132は、前述の文章Aにおいて「科学」をマスク部として特定を受け付けた場合であれば、文章A*「文部[MASK]省が報道発表した資料を閲覧できます。」を生成する。
【0059】
特定部132は、校正フィルタリングにおいて指摘された文字列をマスク部として特定してもよい。例えば、受付部131が前述の文章Dを校正対象文章として受け付けた場合であれば、特定部132は、校正フィルタリングにおいて指摘された文字列である「自律」をマスク部として特定する。そして、特定部132は、文章Dのマスク部をマスクした文章D*「無人の戦車が[MASK]的に標的を攻撃する。」を生成する。
【0060】
(推定部133について)
推定部133は、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、校正対象文章のうちマスク部を秘匿した校正対象文章に基づいて、マスク部に含まれる文字列を推定する。この場合のモデルは、BERTや、ELMo、Word2Vec、Bidirectional LSTMなどにより構成可能である。これらのモデルは、入力した文章のマスク部に当て嵌まる単語を前後の文脈を考慮して予測する。なお、モデルの出力は、マスク部に当て嵌まる複数の単語が、その出現確率が大きい順に並べて出力される。推定部133は、モデルの出力のうち、最も出現確率が高いと予測された単語をマスク部の推定結果としてよい。
【0061】
ここで、図7を用いて、推定部133の推定結果の第一の例について説明する。図7は、実施形態に係る情報処理装置の推定部の推定結果の第一の例を示す図である。図7には、入力した校正対象文章と、マスク部に元々含まれる対象ワードと、当該の対象ワードの出現確率と、推定部133が推定した置換ワードと、当該の置換ワードの出現確率といった項目について、校正対象文章ごとに一覧表として示されている。例えば、「文部[MASK]省」といった校正対象文章の場合であれば、マスク部に元々含まれる対象ワードが「科学」であり、対象ワードの出現確率が「99.98」であり、置換ワードが「科学」であり、当該の置換ワードの出現確率が「0.0」であることが示されている。なお、図7に示す第一の例の場合であれば、いずれも対象ワードの出現確率が、置換ワードの出現確率を上回っていることから、校正の必要無しと判断してよい。
【0062】
次に、図8を用いて、推定部133の推定結果の第二の例について説明する。図8は、実施形態に係る情報処理装置の推定部の推定結果の第二の例を示す図である。図8には、図7に示した項目と同じ項目について、図7に示した校正対象文章とは異なる校正対象文章に関して示されている。例えば、「結局[MASK]的」といった文章であれば、マスク部に元々含まれる対象ワードが「自律」であり、対象ワードの出現確率が「0.01」であり、置換ワードが「自立」であり、当該の置換ワードの出現確率が「0.05」であることが示されている。なお、図8に示す第二の例の場合であれば、いずれも対象ワードの出現確率が、置換ワードの出現確率を下回っていることから、校正の必要有りと判断してよい。
【0063】
(指摘部134について)
指摘部134は、推定部133が推定した文字列と、マスク部に含まれる文字列とが一致しない場合は、マスク部の文字列を校正対象として指摘する。例えば、受付部131が受け付けた文章A「文部科学省が報道発表した資料を閲覧できます。」において、特定部132がマスクした箇所の「科学」に対して、推定部133のモデルが推定した置換ワードが「科学」であったとする。この場合、指摘部134は、マスク部に含まれる文字列と、モデルの推定結果が一致していることから、校正不要と判断し、校正対象の指摘を行わない。この場合は、指摘部134は、校正不要と判断した旨を示すメッセージを生成して、事業者端末200の出力部230に表示させる。
【0064】
これに対し、例えば、受付部131が文章B「として「地方創生臨時交付金」を拡充する費用と」といった文章を受け付けて、推定部133のモデルが推定した置換ワードが「交付」であったとする。この場合、指摘部134は、マスク部に含まれる文字列と、モデルの推定結果が一致していないことから、校正必要と判断し、校正対象として指摘を行う。具体的には、指摘部134は、「「交付」は、「公布」が適切な可能性があります。」といったメッセージを生成して、事業者端末300の出力部230に表示させてよい。
【0065】
(算出部135について)
算出部135は、推定部133が推定したマスク部に含まれる文字列の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出する。例えば、受付部131が文章B「として「地方創生臨時交付金」を拡充する費用と」といった文章を受け付けたとする。そして、特定部132がマスク部として文章Bのうち「交付」の箇所の特定を受け付け、「交付」の箇所をマスクした文章B*を生成したとする。この場合、推定部133は、モデルに文章B*を入力して、マスク部として特定された箇所に当て嵌まる置換ワードの出現確率、及びマスク部の元々の文字列を示す対象ワードの出現確率を出力して、出現確率が最も高いワードを推定結果として出力する。そして、算出部135は、複数の置換ワードの出現確率に対する、対象ワード「交付」の出現確率の比率を確信度としてそれぞれ算出する。つまり、確信度は、マスク部に元々含まれる対象ワードの出現確率を、置換ワードの出現確率によって除算した値である。
【0066】
ここで、図9を用いて算出部135が算出した確信度の算出結果の一例について説明する。図9は、実施形態に係る情報処理装置の算出部の確信度の算出結果の一例を示す図である。図9には、入力した校正対象文章と、マスク部の元々含まれる対象ワードと、推定部133が推定した置換ワードと、対象ワードの置換ワードに対する確信度が示されている。例えば、「として「地方創生臨時[MASK]金」を拡充する費用と」といった校正対象文章の場合であれば、対象ワードが「交付」であり、置換ワードが「公布」であり、確信度が「75,030,000」であることが示されている。このように、算出部135は、校正対象文章ごとに、対象ワードの出現確率と、置換ワードの出現確率の比率を示す確信度を算出する。
【0067】
(抽出部136について)
抽出部136は、算出部135が算出した確信度が所定の閾値を超える対象ワードをホワイトリストとして抽出する。例えば、受付部131が文章C「中高一貫校」といった文章を受け付けたとする。そして、特定部132がマスク部として文章Cのうち「一貫」の箇所の特定を受け付け、「一貫」の箇所をマスクした文章C*を生成したとする。そして、推定部133が、モデルに文章C*を入力して、マスク部として特定された箇所に当て嵌まる置換ワードの出現確率、及びマスク部の元々の文字列を示す対象ワードの出現確率を出力したとする。そして、算出部135が、マスク部の「一貫」の出現確率と、マスク部に当て嵌まる置換ワードとしての「一環」の出現確率の比率を示す確信度を算出し、その値を12,786,820,790と算出したとする。この場合、抽出部136は、確信度が所定の閾値、例えば100を超える対象ワードをホワイトリストワードとして抽出する。
【0068】
このような抽出部136の処理について、図10を用いて説明する。図10は、実施形態に係る情報処理装置の抽出部の処理の概要を示す図である。図10に概要として示すように、抽出部136は、校正対象文章の確信度に基づいて、ホワイトリストワードを抽出する。図10に示す例においては、校正対象文章として入力された「中高一貫校」、「実戦力」、「文部科学省」、「消火器」、「パレスチナ解放機構」といった文章に対して、抽出部136が確信度に基づいてホワイトリストとして抽出したのは、「中高一貫校」、「文部科学省」、「パレスチナ解放機構」であることが示されている。
【0069】
なお、図10に示した例を含むホワイトリストワードとして抽出された例の確信度について、図11を用いて説明する。図11は、実施形態に係る情報処理装置の抽出部によって抽出されたホワイトリストワードの確信度の一例を示す図である。図11には、抽出部136が抽出したホワイトリストワード、及び当該のホワイトリストワードの確信度の例が示されている。図11に示すホワイトリストワードの確信度はいずれも高い値であり、確信度が高いことから、校正対象として指摘する必要がないと判断されてホワイトリストワードとして抽出してよいと考えられる。なお、抽出部136がホワイトリストワードとして抽出する際の確信度の閾値は、任意の値を設定して良いが、例えば、一例としては100と設定してよい。また、小規模な正解データセットを人手で用意して、このデータセットに対するシステムの性能が最も良くなる閾値を設定してもよい。
【0070】
〔4.事業者端末の構成〕
次に、図12を用いて、実施形態に係る事業者端末200の構成について説明する。図12は、実施形態に係る事業者端末の構成例を示す図である。図12に示すように、事業者端末200は、通信部210と、入力部220と、出力部230と、制御部240を有する。
【0071】
通信部210は、例えば、NIC、無線LANカード等によって実現される。そして、通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100との間で各種の情報の送受信を行う。
【0072】
入力部220は、事業者から各種の操作情報が入力される。例えば、入力部220は、タッチパネルにより表示面(例えば出力部230)を介して事業者からの各種操作を受け付けてもよい。また、入力部220は、事業者端末200に設けられたボタンや、事業者端末200に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0073】
出力部230は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット型端末等の表示画面であり、各種情報を表示するための表示装置である。つまり、事業者端末200は、入力部220がタッチパネルである場合は、出力部230である表示画面により事業者の入力を受け付け、事業者への出力も行う。また、出力部230は、スピーカーであってもよく、スピーカーにより音声を出力してよい。
【0074】
制御部240は、例えば、CPUやMPU等によって、事業者端末200に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部240は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
【0075】
図12に示すように、制御部240は、受付部241と、通知部242を有する。
【0076】
受付部241は、事業者から校正対象となる文章を示す校正対象文章を受け付ける。例えば、受付部241は、事業者端末200の出力部230に文章の入力ボックスを表示させて、事業者端末200が備える入力部220を介して、事業者から文章の入力を受け付けてよい。
【0077】
通知部242は、情報処理装置100の指摘部134が通知した校正の要不要の判断結果を事業者に通知する。例えば、通知部242は、事業者端末200の出力部230に指摘部134から通知された校正の要不要の判断結果を表示させて、事業者に指摘部134の通知した校正の要不要の判断結果を通知してよい。
【0078】
〔5.情報処理のフロー〕
次に、図13を用いて、実施形態に係る情報処理の手順について説明する。図13は、実施形態に係る情報処理の一例を示すフローチャートである。以下、図13に示すフローチャートに沿って、実施形態に係る情報処理の手順について説明する。
【0079】
まず、情報処理装置100は、校正対象となる文章を受け付ける(ステップS101)。次に、情報処理装置100は、校正対象となる文章のうち、校正対象の範囲を示すマスク部の特定を受け付ける(ステップS102)。そして、情報処理装置100は、校正対象の文章をモデルに入力し、マスク部の推定結果を出力する(ステップS103)。そして、情報処理装置100は、マスク部の文章と、モデルの推定結果が一致している場合は校正不要、一致していない場合は校正必要と判断する(ステップS104)。そして、情報処理装置100は、文章校正の結果を通知する(ステップS105)。
【0080】
これによれば、文章の文脈を考慮して文章の校正箇所を指摘することができる。そのため、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理方法を提供することができる。
【0081】
〔6.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100は、例えば図14に示すような構成のコンピュータ1000によって実現される。図14は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0082】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが記憶される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
【0083】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0084】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0085】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0086】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0087】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、情報処理装置100の制御部130の機能を実現する。
【0088】
〔7.構成と効果〕
本開示に係る情報処理装置100は、校正対象となる文章を示す校正対象文章を受け付ける受付部131と、校正対象文章のうち校正範囲を示すマスク部を特定する特定部132と、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、校正対象文章のうちマスク部を秘匿した校正対象文章に基づいて、マスク部に含まれる文字列を推定する推定部133と、推定部133が推定した文字列と、マスク部に含まれる文字列が一致しない場合は、マスク部の文字列を校正対象として指摘する指摘部134と、を備える。
【0089】
この構成によれば、文章の文脈を考慮して文章の校正箇所を指摘することができる。そのため、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理装置100を提供することができる。
【0090】
本開示に係る情報処理装置100は、推定部133が推定したマスク部に含まれる文字列の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出する算出部135と、をさらに備える。
【0091】
この構成によれば、マスク部に含まれる文字列の推定結果の出現確率に対する、校正対象文章のマスク部に含まれる文字列の出現確率の比率を示す確信度を算出することができる。そのため、マスク部の推定結果が適切であるか否かの判断を容易に行うことができる。
【0092】
本開示に係る情報処理装置100は、算出部135が算出した確信度が所定の閾値を超える文字列をホワイトリストとして抽出する抽出部136と、をさらに備える。
【0093】
この構成によれば、確信度が所定の閾値を超える文字列をホワイトリストワードとして抽出することができる。そのため、ホワイトリストワードの抽出を効率的に行うことができる。
【0094】
本開示に係る情報処理装置100の受付部131は、校正フィルタリングを行った後の文章を校正対象文章として受け付け、特定部132は、校正フィルタリングにおいて指摘された文字列をマスク部として特定し、推定部133は、マスク部に含まれる文字列を推定する。
【0095】
この構成によれば、校正フィルタリングを行った後の文章に対して、校正フィルタリングにより指摘された文字列をマスク部として特定し、マスク部に含まれる文字列を推定することができる。そのため、校正フィルタリングにおける指摘が適切であるか否かを別の観点から検証することができる。
【0096】
本開示に係る情報処理方法は、校正対象となる文章を示す校正対象文章を受け付けるステップと、校正対象文章のうち校正範囲を示すマスク部を特定するステップと、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、校正対象文章のうちマスク部を秘匿した校正対象文章に基づいて、マスク部に含まれる文字列を推定するステップと、推定した文字列と、マスク部に含まれる文字列が一致しない場合は、マスク部の文字列を校正対象として指摘するステップと、を含む。
【0097】
この構成によれば、文章の文脈を考慮して文章の校正箇所を指摘することができる。そのため、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理方法を提供することができる。
【0098】
本開示に係る情報処理プログラムは、校正対象となる文章を示す校正対象文章を受け付けるステップと、校正対象文章のうち校正範囲を示すマスク部を特定するステップと、文章のうちの一部の文字列を秘匿した秘匿文章を入力した際に、当該秘匿された文字列を推定するように学習が行われたモデルを用いて、校正対象文章のうちマスク部を秘匿した校正対象文章に基づいて、マスク部に含まれる文字列を推定するステップと、推定した文字列と、マスク部に含まれる文字列が一致しない場合は、マスク部の文字列を校正対象として指摘するステップと、をコンピュータに実行させる。
【0099】
この構成によれば、文章の文脈を考慮して文章の校正箇所を指摘することができる。そのため、的確に文章の改善箇所を指摘し、文章の改善案を提案することができる情報処理プログラムを提供することができる。
【0100】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0101】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受付部131は、受付手段や受付回路に読み替えることができる。
【符号の説明】
【0102】
100 情報処理装置
110 通信部
120 記憶部
121 ホワイトリスト記憶部
122 自然言語モデル記憶部
130 制御部
131 受付部
132 特定部
133 推定部
134 指摘部
135 算出部
136 抽出部
200 事業者端末
210 通信部
220 入力部
230 出力部
240 制御部
241 受付部
242 通知部
N ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14