特開2024-124026 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-124026情報処理プログラム，情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024124026

(43)【公開日】2024-09-12

(54)【発明の名称】情報処理プログラム，情報処理方法および情報処理装置

(51)【国際特許分類】

G06F 40/268 20200101AFI20240905BHJP

G06F 40/216 20200101ALI20240905BHJP

【ＦＩ】

G06F40/268

G06F40/216

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023031908

(22)【出願日】2023-03-02

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和４年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「人間とＡＩの双方に扱いやすいことばの単位の創出」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110003649

【氏名又は名称】弁理士法人真田特許事務所

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】平岡達也

(72)【発明者】

【氏名】岩倉友哉

(57)【要約】

【課題】訓練済み機械学習モデルにデータを入力する字句分割器の調整における計算資源の消費量を低減する。
【解決手段】文字列データを第１字句分割器に入力することで、文字列データに対応した異なる複数の分割パターンで文字列データを分割した複数の分割済み文字列データを、データセットに含まれる文字列データごとに取得し、分割済み文字列データを入力データとして、入力データに応じた推論処理を行なう訓練済み機械学習モデルに、各文字列データについての複数の分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出し、各文字列データについて、対応する複数の分割済み文字列データの中から指標が所定の条件を満たす分割済み文字列データを選択し、各文字列データについて選択した分割済み文字列データに基づいて、訓練済み機械学習モデルに入力データを入力する第２字句分割器の調整を行なう、処理をコンピュータに実行させる。
【選択図】図１２

【特許請求の範囲】

【請求項1】

文字列データを第１字句分割器に入力することで、前記文字列データに対応した異なる複数の第１分割パターンで前記文字列データを分割した複数の第１分割済み文字列データを、データセットに含まれる複数の前記文字列データのそれぞれについて取得し、
前記第１分割済み文字列データを入力データとして、前記入力データに応じた推論処理を行なう訓練済み機械学習モデルに、前記複数の文字列データのそれぞれについての前記複数の第１分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出し、
前記複数の文字列データのそれぞれについて、対応する前記複数の第１分割済み文字列データの中から前記良否を示す指標が所定の条件を満たす第１分割済み文字列データを選択し、
前記複数の文字列データのそれぞれについて選択した前記第１分割済み文字列データに基づいて、前記訓練済み機械学習モデルに前記入力データを入力する第２字句分割器の調整を行なう、
処理をコンピュータに実行させる、情報処理プログラム。

【請求項2】

前記調整を行なう処理は、
前記訓練済み機械学習モデルの訓練に用いた訓練データセットに含まれない語彙と一致する文字列が前記第２字句分割器から出力されることを抑制するように、前記第２字句分割器を訓練する、処理を含む、
請求項１に記載の情報処理プログラム。

【請求項3】

前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる、前記文字列データに対応した異なる複数の第２分割パターンで前記文字列データを分割した複数の第２分割済み文字列データのうち、前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを調整する、処理を含む、
請求項２に記載の情報処理プログラム。

【請求項4】

前記スコアを調整する処理は、
前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを、前記複数の第２分割済み文字列データのそれぞれのスコアよりも小さくなるように制御する、処理を含み、
前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる前記複数の第２分割済み文字列データのうち、前記文字列データについて選択した前記第１分割済み文字列データと一致する第２分割済み文字列データのスコアが最大となるように、前記第２字句分割器のパラメータを最適化する、処理を含む、
請求項３に記載の情報処理プログラム。

【請求項5】

前記第２字句分割器は、ＢｉＬＳＴＭ（Bidirectional Long Short-Term Memory）を用いた字句分割器である、
請求項１～請求項４のいずれか１項に記載の情報処理プログラム。

【請求項6】

【請求項7】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム，情報処理方法および情報処理装置に関する。

【背景技術】

【0002】

機械学習モデルを用いた自然言語処理では、機械学習モデルへの入力となるテキスト等の文字列データを、より細かい単位、例えばトークン（Token）に分割する処理が行なわれることがある。トークンは、文字列データをいずれか１箇所以上の位置で区切って得られる１以上の文字列（字句，語）である。

【0003】

例えば、テキストが「外国人参政権」である場合、或る区切り方で分割すると、「外国人」，「参政」，「権」のトークンが得られる。また、例えば、テキストが「award for best actor」である場合、或る区切り方で分割すると、「a」，「ward」，「for」，「b」，「est」，「actor」のトークンが得られる。

【0004】

以下、便宜上、トークンを「単語」と表記する場合がある。「単語」には、例えば、「外国人」，「award」のような一般的な単語（Word）、並びに、「権」，「est」のようなサブワード（Subword）、等のトークン（Token）が含まれてよい。文字列データをトークンに分割する処理は、「単語分割」又は「トークナイゼーション（Tokenization）」と称されてもよい。

【0005】

単語分割におけるテキストの区切り方、換言すれば分割パターンは、機械学習モデルを用いた自然言語処理での性能、例えば機械学習モデルから出力される推論結果の精度に影響を与えることがある。このことは、分割パターンを変えることで、訓練済みの機械学習モデルのパラメータの調整を不要としつつ自然言語処理での性能向上を実現できる可能性があることを意味する。

【0006】

例えば、単語分割を行なう単語分割器（字句分割器）と、単語分割器の後段の機械学習モデル（以下、「後段モデル」と表記する場合がある）とを並列に起動することで、単語分割と後段モデルとを同時に最適化（調整）する手法が知られている。

【0007】

当該手法では、例えば、複数のテキストを含む入力データをそれぞれ単語分割器に入力して得られる分割済みテキストを後段モデルに入力し、後段モデルの訓練結果を単語分割器にフィードバックすることで、単語分割器の最適化が行なわれる。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, and Naoaki Okazaki, “Joint Optimization of Tokenization and Downstream Model”, In Findings of the Association for Computational Linguistics: ACL 2021, Association for Computational Linguistics, August 2021

【発明の概要】

【発明が解決しようとする課題】

【0009】

上述した手法では、単語分割器と後段モデルとが並列に起動する（動作する）ことになる。従って、単語分割器及び後段モデルを実行するコンピュータでは、単語分割器の最適化を行なうことによって、コンピュータの計算資源の消費量、例えばメモリの使用量やプロセッサの処理能力の消費量が増加し得る。このため、コンピュータの性能によっては、上述した手法を実用化することが難しい場合がある。

【0010】

１つの側面では、本発明は、訓練済み機械学習モデルにデータを入力する字句分割器の調整における計算資源の消費量を低減することを目的の１つとする。

【課題を解決するための手段】

【0011】

１つの側面では、情報処理プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、文字列データを第１字句分割器に入力することで、前記文字列データに対応した異なる複数の第１分割パターンで前記文字列データを分割した複数の第１分割済み文字列データを、データセットに含まれる複数の前記文字列データのそれぞれについて取得してよい。前記処理は、前記第１分割済み文字列データを入力データとして、前記入力データに応じた推論処理を行なう訓練済み機械学習モデルに、前記複数の文字列データのそれぞれについての前記複数の第１分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出してよい。前記処理は、前記複数の文字列データのそれぞれについて、対応する前記複数の第１分割済み文字列データの中から前記良否を示す指標が所定の条件を満たす第１分割済み文字列データを選択してよい。前記処理は、前記複数の文字列データのそれぞれについて選択した前記第１分割済み文字列データに基づいて、前記訓練済み機械学習モデルに前記入力データを入力する第２字句分割器の調整を行なってよい。

【発明の効果】

【0012】

１つの側面では、本発明は、訓練済み機械学習モデルにデータを入力する字句分割器の調整における計算資源の消費量を低減することができる。

【図面の簡単な説明】

【0013】

【図1】単語分割の分割パターンに応じた後段モデルの推論結果の変化例を示す図である。

【図2】単語分割の分割パターンに応じた後段モデルの推論結果の変化の他の例を示す図である。

【図3】比較例に係る単語分割の最適化手法を説明するための図である。

【図4】一実施形態の一例としてのサーバの機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。

【図5】一実施形態の一例としてのサーバのソフトウェア構成例を示すブロック図である。

【図6】後段モデル及び単語分割器Ｂの訓練フェーズの動作例を説明するための図である。

【図7】訓練済み単語分割器Ｂ及び訓練済み後段モデルを用いた推論フェーズの動作例を説明するための図である。

【図8】訓練用データセットの一例を示す図である。

【図9】分割済みデータセットの一例を示す図である。

【図10】複数パターンの分割済みデータセットの一例を示す図である。

【図11】訓練用分割済みデータセットの一例を示す図である。

【図12】分割済みデータセットからの分割済みデータの選択手法の一例を説明するための図である。

【図13】単語分割器Ｂにおけるスコア算出処理の一例を説明するための図である。

【図14】単語分割器Ｂによるスコアの算出手法の一例を説明するための図である。

【図15】語彙の制約の一例を示す図である。

【図16】一実施形態に係る手法による、訓練済み後段モデルの性能への影響の一例を説明するための図である。

【図17】一実施形態に係るサーバによる後段モデルの機械学習処理の動作例を説明するためのフローチャートである。

【図18】一実施形態に係るサーバによる単語分割器Ｂの機械学習処理の動作例を説明するためのフローチャートである。

【図19】一実施形態に係るサーバによる推論処理の動作例を説明するためのフローチャートである。

【発明を実施するための形態】

【0014】

以下、図面を参照して実施形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0015】

〔Ａ〕単語分割の調整の説明
まず、単語分割の調整について説明する。一実施形態では、単語分割器（字句分割器）が、入力されるテキストの単語分割を行ない、分割結果である複数の単語を後段モデルに入力する。単語分割器としては、例えば、トークナイザー（Tokenizer）が挙げられる。テキストは、文字列データの一例である。また、単語分割器により複数の単語（トークン）に分割されたテキストは、分割済み文字列データの一例である。

【0016】

後段モデルは、自然言語処理に関する種々のＡＩ（Artificial Intelligence）タスクを実行する機械学習モデルである。一実施形態では、後段モデルは、例えば、入力される複数の単語の全体（文字列データ）のトピック分類を行なうトピック分類器（Topic Classifier）であってよい。トピック分類は、文書分類タスクの一例である。

【0017】

図１は、単語分割の分割パターンに応じた後段モデルの推論結果の変化例を示す図である。図１では、単語分割器１１０に「外国人参政権」（Non-citizen suffrage）のテキストが入力された場合において、単語分割器１１０が、以下の２つの分割パターンでテキストを単語分割した例を示す。
・外国（Foreign）/人参（Carrot）/政権（Administration）
・外国人（Foreign citizen）/参政（Participation in government）/権（Rights）

【0018】

以下、上記の単語パターンのように、単語分割によるテキストの区切りをスラッシュ（/）で表記する。また、括弧は、単語分割で得られる単語（トークン）の意味を、便宜上、単語とは別の言語（図１の例では英語）で表記したものである。なお、トークンは必ずしも意味を持つ単位である必要はないが、図１に示す例においては、解釈のため、トークンに対応する訳語を付記している。

【0019】

以下の説明では、単語分割器１１０によるテキストの単語分割により得られる複数の単語を、「分割済みテキスト」と表記する場合がある。分割済みテキストは、分解済み文字列データの一例である。

【0020】

トピック分類器１２０は、単語分割器１１０から入力される分割済みテキストの潜在的な意味を解析し、分割済みテキストを、所定の複数のトピックのうちのいずれかのトピックに分類する。

【0021】

図１の例では、「外国人参政権（Non-citizen suffrage）」のトピックは、「政治トピック」が適切である。例えば、トピック分類器１２０は、分割済みテキスト「外国人/参政/権」については「政治トピック」に分類する。一方、トピック分類器１２０は、分割済みテキスト「外国/人参/政権」を、「人参（Carrot）」の単語の影響により「食品トピック」に分類する場合がある。

【0022】

このような不適切なトピック分類の発生は、日本語や中国語のような「分かち書き」の無い言語に限定されるものではない。「分かち書き」の有る言語、例えば英語では、単語分割器１１０は、Word間のスペースに加えて、１つのWordをSubwordに分割することがある。

【0023】

図２は、単語分割の分割パターンに応じた後段モデルの推論結果の変化の他の例を示す図である。図２では、単語分割器１１０に「prime contractor（元請業者）」のテキストが入力された場合において、単語分割器１１０が、以下の２つの分割パターンでテキストを単語分割した例を示す。
・prime（主）/contr（収縮）/actor（俳優）
・prime（主）/contract（契約）/or（又は）

【0024】

図２の例では、「prime contractor（主契約者）」のトピックは、「ビジネス（Business）」トピックが適切である。例えば、トピック分類器１２０は、分割済みテキスト「prime/contract/or」については「Business」トピックに分類する。一方、トピック分類器１２０は、分割済みテキスト「prime/contr/actor」を、「actor（俳優）」のSubwordの影響により「Movie」（映画）トピックに分類する場合がある。

【0025】

トピック分類器１２０の訓練（機械学習）では、訓練データとして、例えば、入力されるテキストに対していずれかの分割パターンに従い単語分割器１１０が出力した分割済みテキストが用いられる。このため、トピック分類器１２０は、例えば、訓練データとして、「外国/人参/政権」，「prime/contr/actor」等を用いて訓練されることがある。

【0026】

このような不適切な分割済みテキストにより訓練された訓練済みトピック分類器１２０であっても、図１及び図２に示すように、分割済みテキストの分割パターンによっては、適切なトピック分類結果（推論結果）を出力することができる可能性がある。換言すれば、トピック分類器１２０のパラメータを変更しない（固定した）状態で、単語分割器１１０による分割パターンを変えることで、トピック分類器１２０の推論精度を向上させることができる可能性がある。

【0027】

そこで、訓練済み後段モデルの処理性能を向上できるような適切な単語分割、例えば、「外国人/参政/権」，「prime/contract/or」等の、後段モデルに入力すると正しい結果が得られる単語分割を行なう単語分割器１１０を作成することを考える。

【0028】

図３は、比較例に係る単語分割の最適化手法を説明するための図である。図３に示すように、複数の訓練用テキストを含む訓練用データセット２０１が単語分割器２１０に入力される。

【0029】

単語分割器２１０は、訓練用データセット２０１内の複数の訓練用テキストのそれぞれを単語分割し、複数の分割済み訓練データを含む分割済み訓練データセット２０２を後段モデル２２０に入力する。

【0030】

後段モデル２２０（例えばトピック分類器）は、分割済み訓練データセット２０２に含まれる複数の分割済み訓練データのそれぞれを用いて推論処理を行ない、フィードバック機構２３０（最適化機構）により推論結果を単語分割器２１０にフィードバックする。

【0031】

このように、最適化機構により単語分割器２１０に後段モデル２２０を組み込んで単語分割器２１０を再訓練することで、適切な単語分割を行なうように単語分割器２１０を最適化することができる。

【0032】

しかしながら、図３に例示する手法では、後段モデル２２０及び最適化機構を、単語分割器２１０とともに並列に起動することになる。このため、単語分割器２１０及び後段モデル２２０を実行するコンピュータでは、単語分割器２１０のみを起動する場合と比較して、コンピュータの計算資源、例えばメモリの使用量が増加し得る。従って、コンピュータの処理性能によっては、図３に例示する手法を実用化することが難しい場合がある。

【0033】

また、図３に例示する手法では、構造上、単語分割器２１０として、ユニグラム言語モデルを用いた手法等の単純な手法が採用される。このため、単語分割器２１０が学習できる単語分割のバリエーション（分割パターン）に制約が生じる場合がある。

【0034】

このような制約は、例えば、表現力の高い単語分割器を用いることで解消できる可能性がある。表現力の高い単語分割器としては、例えば、ニューラルネットワークを用いたニューラル単語分割器が挙げられる。

【0035】

しかし、ニューラル単語分割器は、単語分割を行なう際に使用する「語彙」に制約がない又は小さいため、ニューラル単語分割器による単語分割により、実際に後段モデル２２０で利用できる語彙には含まれていない「未知語」が出力されてしまう可能性がある。「語彙」とは、単語分割によりテキストを分割して得られる語であり、例えば上述した「外国人」，「参政」，「権」等の字句（トークン）である。「未知語」は、例えば、後段モデル２２０の訓練で用いられていない（訓練データセットに含まれない）単語であり、一例として、「人参政権」という語である。

【0036】

このため、後段モデル２２０で使用可能な語彙の制限により、ニューラル単語分割器のような表現力の高い単語分割器を、図３に例示する手法に単純に適用することが難しい場合がある。

【0037】

そこで、１つの側面では、一実施形態では、訓練済み機械学習モデルにデータを入力する単語分割器の調整における計算資源の消費量を低減する手法の一例を説明する。また、他の側面では、訓練済み機械学習モデルで利用可能な字句の制約を満たしつつ、表現力の高い単語分割器の調整を実現する手法の一例を説明する。

【0038】

〔Ｂ〕ハードウェア構成例
一実施形態に係るサーバ１（図５参照）は、仮想サーバ（ＶＭ：Virtual Machine）であってもよいし、物理サーバであってもよい。また、サーバ１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ１の機能のうちの少なくとも一部は、クラウド環境により提供されるハードウェア（ＨＷ）リソース及びネットワーク（ＮＷ）リソースを用いて実現されてもよい。

【0039】

図４は、一実施形態の一例としてのサーバ１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。サーバ１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図４に例示するＨＷ構成を備えてよい。

【0040】

図４に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ，グラフィック処理装置１０ｂ，メモリ１０ｃ，記憶部１０ｄ，ＩＦ（Interface）部１０ｅ，ＩＯ（Input / Output）部１０ｆ及び読取部１０ｇを備えてよい。

【0041】

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｊで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

【0042】

プロセッサ１０ａとしては、例えば、ＣＰＵ，ＭＰＵ，ＡＰＵ，ＤＳＰ，ＡＳＩＣ，ＦＰＧＡ等の集積回路（ＩＣ：integrated circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

【0043】

グラフィック処理装置１０ｂは、ＩＯ部１０ｆのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置１０ｂは、機械学習モデルを利用した機械学習処理及び推論処理を実行するアクセラレータとしての構成を有してよい。グラフィック処理装置１０ｂとしては、種々の演算処理装置、例えば、ＧＰＵ（Graphics Processing Unit），ＡＰＵ，ＤＳＰ，ＡＳＩＣ又はＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。

【0044】

メモリ１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｃとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

【0045】

記憶部１０ｄは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｄとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置，ＳＳＤ（Solid State Drive）等の半導体ドライブ装置，不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ，ＳＣＭ（Storage Class Memory），ＲＯＭ（Read Only Memory）等が挙げられる。

【0046】

記憶部１０ｄは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｈ（データ処理プログラム）を格納してよい。

【0047】

例えば、サーバ１のプロセッサ１０ａは、記憶部１０ｄに格納されたプログラム１０ｈをメモリ１０ｃに展開して実行することにより、後述する制御部３０（図５参照）としての機能を実現できる。

【0048】

ＩＦ部１０ｅは、サーバ１と他のコンピュータとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｅは、イーサネット（登録商標）等の電気通信（例えばＬＡＮ（Local Area Network））、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。

【0049】

なお、プログラム１０ｈは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｄに格納されてもよい。

【0050】

ＩＯ部１０ｆは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、ＩＯ部１０ｆは、入力装置及び表示装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置１０ｂに接続されてよい。

【0051】

読取部１０ｇは、記録媒体１０ｉに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｇは、記録媒体１０ｉを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｇとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｉにはプログラム１０ｈが格納されてもよく、読取部１０ｇが記録媒体１０ｉからプログラム１０ｈを読み出して記憶部１０ｄに格納してもよい。

【0052】

記録媒体１０ｉとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

【0053】

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。

【0054】

〔Ｃ〕ソフトウェア構成例
図５は、一実施形態の一例としてのサーバ１のソフトウェア構成例を示すブロック図である。サーバ１は、単語分割器の調整を行なうコンピュータ又は情報処理装置の一例である。

【0055】

図５に示すように、サーバ１は、例示的に、分割制御部３１，第１機械学習部３２，生成部３３，第２機械学習部３４及び推論部３５を備えてよい。サーバ１が備えるブロック３１～３５は、制御部３０の一例である。制御部３０の機能は、例えば、図４に示すコンピュータ１０のプロセッサ１０ａが、メモリ１０ｃに展開されたプログラム１０ｈを実行することにより実現されてよい。

【0056】

また、図５に示すように、サーバ１は、例示的に、訓練用データセット１１，分割済みデータセット１２，１３及び１６，訓練用分割済みデータセット１４，推論用データセット１５並びに推論結果１７を記憶可能な記憶領域を備えてよい。

【0057】

さらに、サーバ１は、単語分割器２１及び２４，後段モデル２２，訓練済み後段モデル２３並びに訓練済み単語分割器２５のデータを記憶可能な記憶領域を備えてよい。なお、訓練済み後段モデル２３は、機械学習により訓練済みの後段モデル２２であり、後段モデル２２のパラメータが変化した機械学習モデルと捉えられてよい。また、訓練済み単語分割器２５は、機械学習により訓練済みの単語分割器２４であり、単語分割器２４のパラメータが変化した機械学習モデルと捉えられてよい。

【0058】

サーバ１が有する記憶領域は、例えば、図４に示すコンピュータ１０のメモリ１０ｃ及び記憶部１０ｄのうちの一方又は双方の記憶領域により実現されてよい。

【0059】

サーバ１（制御部３０）は、例えば、訓練用データセット１１及び推論用データセット１５のうちの少なくとも１つを、図示しない他のコンピュータからＩＦ部１０ｅ及びネットワークを介して受信し、記憶領域に格納してもよい。

【0060】

また、サーバ１（制御部３０）は、例えば、記憶領域に格納された訓練済み後段モデル２３，訓練済み単語分割器２５及び推論結果１７のうちの少なくとも１つを、ＩＦ部１０ｅ及びネットワークを介して、図示しない他のコンピュータに送信してもよい。なお、サーバ１は、中間データ、例えばデータ１１～１６，２１，２２，２４のうちの少なくとも１つを、ＩＦ部１０ｅ及びネットワークを介して、図示しない他のコンピュータに送信してもよい。

【0061】

以下、単語分割器２１を単語分割器Ａと表記し、単語分割器２４を単語分割器Ｂと表記し、訓練済み単語分割器２５を訓練済み単語分割器Ｂと表記する場合がある。

【0062】

単語分割器Ａは、第１字句分割器の一例である。単語分割器Ａは、図１及び図２に示す単語分割器１１０又は図３に示す単語分割器２１０と同様に、ユニグラム言語モデルを用いた手法等の単純な手法を採用した単語分割器であってよい。例えば、単語分割器Ａは、単語分割器Ａが扱うことのできる語彙が格納された単語リスト２１ａを参照し、当該単語リスト２１ａに含まれる語彙を用いた単語分割を行なってよい。

【0063】

単語分割器Ｂは、表現力の高い単語分割器（字句分割器，トークン分割器）の一例であり、訓練済み後段モデル２３に入力データを入力する第２字句分割器の一例である。例えば、単語分割器Ｂは、ニューラルネットワークを用いたニューラル単語分割器であってよい。一例として、単語分割器Ｂは、ＢｉＬＳＴＭ（Bidirectional Long Short-Term Memory）を用いたニューラル単語分割器であってもよい。ＢｉＬＳＴＭは、ＬＳＴＭ，ＲＮＮ（Recurrent Neural Network）の一例である。なお、単語分割器Ａは、単語分割器Ｂと同様のニューラル単語分割器であってもよい。

【0064】

後段モデル２２は、トピック分類器，感情分類器等の種々の文書分類タスクを実行する機械学習モデルであってよく、一例として、ＳＶＭ（Support Vector Machine）等の文書分類器であってもよい。

【0065】

なお、後段モデル２２が実行するＡＩタスクは、文書分類タスクに限定されるものではなく、自然言語処理に関する種々のＡＩタスクを実行可能であってよい。一例として、後段モデル２２は、後段モデル２２からの出力結果の良さ（例えば精度）を定量的に測れる機械学習モデル、例えば、教師ラベルに対する損失を計算できる機械学習モデル等であってもよい。

【0066】

図６は、後段モデル２２及び単語分割器Ｂの訓練フェーズの動作例を説明するための図であり、図７は、訓練済み単語分割器Ｂ及び訓練済み後段モデル２３を用いた推論フェーズの動作例を説明するための図である。

【0067】

図６に例示するように、分割制御部３１は、複数の訓練データを含む訓練用データセット１１を単語分割器Ａ（単語分割器２１）に入力する。

【0068】

図８は、訓練用データセット１１の一例を示す図である。図８に示すように、訓練用データセット１１は、例示的に、訓練データとして、文字列データの一例であるテキストと、教師ラベルとを含んでよい。教師ラベルとしては、図８に例示するように、トピックが挙げられる。

【0069】

図８には、訓練用データセット１１に、以下の訓練データが含まれる場合を想定する。なお、括弧内は訓練データの教師ラベル（トピック）である。
「外国人参政権について議論（Debate about non-citizen suffrage）」（政治）
「人参など価格高騰（Prices of carrots etc. soar）」（経済）
「トルコ災害支援を決定（Decided to provide disaster relief to Turkey）」（外交）
「prime contractor information（元請業者情報）」（Business（ビジネス））
「award for best actor（最優秀男優賞）」（Movie（映画））

【0070】

分割制御部３１は、複数の訓練データのそれぞれを単語分割器Ａに入力することで、訓練データごとの分割済みデータを含む、分割済みデータセット１２を取得してよい。

【0071】

訓練データごとの分割済みデータは、訓練データを単語分割器Ａに入力することで、当該訓練データを所定の分割パターンで単語分割して得た分割済み文字列データの一例である。所定の分割パターンは、複数の訓練データのそれぞれについて、単語分割器Ａが単語リスト２１ａに基づき実行可能な複数の第１分割パターンのうちのいずれか１つの分割パターンの一例である。

【0072】

一例として、単語分割器Ａは、N-best分割（例えばN=100）等の手法により、各訓練データについてN個（例えば100個）の分割パターンで単語分割が可能であってよい。例えば、所定の分割パターンは、複数の第１分割パターン、例えばN個の分割パターンのうちの、最もスコアが高い分割パターンであってよい。

【0073】

図９は、分割済みデータセット１２の一例を示す図である。図９には、図８に示す訓練データのそれぞれが、以下のように所定の分割パターンで分割された例を示す。
「外国/人参/政権/に/ついて/議論」（政治）
「人参/など/価格/高騰」（経済）
「トルコ/災害支援/を/決定」（外交）
「prime/contr/actor/inform/ation」（Business）
「award/for/best/actor」（Movie）

【0074】

第１機械学習部３２は、訓練データセットの一例である分割済みデータセット１２を後段モデル２２に入力し、分割済みデータセット１２を用いた後段モデル２２の機械学習（訓練）を行なう。

【0075】

一例として、第１機械学習部３２は、「外国/人参/政権/に/ついて/議論」を後段モデル２２に入力した場合に「政治」トピックの分類結果が出力されるように、後段モデル２２のパラメータを最適化してよい。後段モデル２２の機械学習は、既知の種々の手法により実現されてよい。

【0076】

分割制御部３１及び第１機械学習部３２による上述した後段モデル２２の機械学習処理（符号Ａ１参照）により、訓練済み後段モデル２３が得られる。訓練済み後段モデル２３は、入力データに応じた推論処理を行なう訓練済み機械学習モデルの一例である。

【0077】

また、分割制御部３１は、訓練用データセット１１を単語分割器Ａに入力することで、複数パターンの分割済みデータセット１３を取得する。例えば、分割制御部３１は、複数の訓練データのそれぞれを単語分割器Ａに入力することで、訓練データごとの複数の分割済みデータを含む、分割済みデータセット１３を取得してよい。

【0078】

訓練データごとの複数の分割済みデータは、訓練データを単語分割器Ａに入力することで、当該訓練データに対応した異なる複数の第１分割パターンで当該訓練データを分割して得た複数の第１分割済み文字列データの一例である。

【0079】

例えば、分割制御部３１は、単語分割器Ａにより様々なバリエーションで訓練データを単語分割することで、１つの訓練データについて複数パターンの単語分割結果を、訓練用データセット１１に含まれる複数の訓練データのそれぞれについて取得してよい。

【0080】

図１０は、複数パターンの分割済みデータセット１３の一例を示す図である。図１０には、単語分割器ＡがN-bestの単語分割を行なう場合を例に挙げる。なお、図１０では、簡単のために、N=3である例を示すが、これに限定されるものではなく、例えば、上述したようにN=100等であってもよい。

【0081】

図１０は、図８に示す訓練データのそれぞれが複数の分割パターンで分割された例を示す。一例として、「外国人参政権について議論」（政治）の訓練データから、単語分割器Ａにより以下の３つの分割済みデータが生成される。
「外国/人参/政権/に/ついて/議論」（政治）
「外国人/参政権/に/ついて/議論」（政治）
「外国人/参政/権/につ/いて/議論」（政治）

【0082】

生成部３３は、単語分割器Ｂ（単語分割器２４）の訓練に用いる訓練用分割済みデータセット１４を生成する。

【0083】

例えば、生成部３３は、分割済みデータセット１３に含まれる複数の分割済みデータを入力データとして、訓練済み後段モデル２３による推論処理を行なう。また、生成部３３は、複数の訓練データのそれぞれについての複数の分割済みデータを訓練済み後段モデル２３に入力した場合の推論結果の良否を示す指標を算出する。

【0084】

推論結果の良否を示す指標としては、例えば、訓練済み後段モデル２３からの出力と、訓練データの教師ラベルとに基づく損失が挙げられる。損失は、例えば、交差エントロピー誤差等の種々の損失関数により算出されてよい。

【0085】

また、推論結果の良否を示す指標として、例えば、分割済みデータセット１３に含まれる各分割済みデータについての、訓練済み後段モデル２３の各ラベルに対する予測確率（予測スコア）が用いられてもよい。各ラベルに対する予測確率とは、訓練済み後段モデル２３による分割済みデータのトピック分類により出力される各ラベルが正解であるという確信度合いを示す情報であり、予測確率が大きいほど、当該ラベルが正解である確率が高いことを意味する。なお、上述した損失は、各ラベルに対する予測確率に基づき算出されてもよい。

【0086】

そして、生成部３３は、複数の訓練データのそれぞれについて、対応する複数の分割済みデータの中から推論結果の良否を示す指標が所定の条件を満たす分割済みデータを選択することで、複数の訓練データのそれぞれについて選択された分割済みデータを含む訓練用分割済みデータセット１４を取得する。所定の条件とは、例えば、推論結果の良否を示す指標が最適であることであってよく、一例として、損失が最小であることであってよい。生成部３３による訓練用分割済みデータセット１４の選択処理の詳細は後述する。

【0087】

図１１は、訓練用分割済みデータセット１４の一例を示す図である。図１１には、図１０に示す複数の分割済みデータのうちの以下の分割済みデータが選択された例を示す。
「外国人/参政権/に/ついて/議論」（政治）
「人参/など/価格/高騰」（経済）
「トルコ/災害/支援/を/決定」（外交）
「prime/contract/or/inform/at/ion」（Business）
「award/for/best/actor」（Movie）

【0088】

例えば、訓練用分割済みデータセット１４では、「外国人参政権について議論」の分割済みデータとして、分割済みデータセット１２の「外国/人参/政権/に/ついて/議論」とは異なる分割済みデータが選択されている。また、例えば、「prime contract or information」の分割済みデータとして、分割済みデータセット１２の「prime/contr/actor/inform/ation」とは異なる分割済みデータが選択されている。

【0089】

なお、一実施形態では、生成部３３は、訓練用分割済みデータセット１４として、１つの訓練データについて１つの分割済みデータを選択するものとするが、これに限定されるものではない。例えば、生成部３３は、１つの訓練データについて、推論結果の良否を示す指標が所定の条件を満たす（例えば損失が所定値以下である）１以上の分割済みデータを選択してもよい。

【0090】

以上のように、分割制御部３１及び生成部３３により、訓練用分割済みデータセット１４の生成処理（符号Ａ２１参照）が行なわれる。

【0091】

第２機械学習部３４は、取得した訓練用分割済みデータセット１４を単語分割器Ｂに入力し、訓練用分割済みデータセット１４に含まれる分割済みデータに基づいて、単語分割器Ｂの調整、例えば機械学習（訓練又は再訓練）を行なう。例えば、サーバ１は、単語分割器Ｂの機械学習を行なうことで、単語分割器Ｂのパラメータの調整（最適化）を行なってよい。

【0092】

一例として、第２機械学習部３４は、訓練データの１つである「外国人参政権について議論」（政治）を単語分割器Ｂに入力した場合に、単語分割器Ｂの出力が、生成部３３により選択された分割済みデータである「外国人/参政権/に/ついて/議論」（政治）となる確率が高くなるように、単語分割器Ｂのパラメータを最適化してよい。単語分割器Ｂの機械学習処理の詳細は後述する。

【0093】

以上のように、第２機械学習部３４により、訓練用分割済みデータセット１４を用いた単語分割器Ｂの機械学習処理（符号Ａ２２参照）が行なわれる。

【0094】

分割制御部３１，生成部３３及び第２機械学習部３４による上述した単語分割器Ｂの調整（符号Ａ２参照）、例えば訓練により、訓練済み単語分割器Ｂ（訓練済み単語分割器２５）が得られる。

【0095】

図７に例示するように、推論部３５は、訓練済み単語分割器Ｂ及び訓練済み後段モデル２３の推論処理（符号Ａ３参照）を行なう。

【0096】

例えば、推論部３５は、推論用データセット１５を訓練済み単語分割器Ｂに入力し、分割済みデータセット１６を取得する。推論用データセット１５には、複数の推論用データ、例えば複数のテキストが含まれてよい。推論部３５が訓練済み後段モデル２３の評価を行なう場合、推論用データセット１５は、複数の評価用データを含んでもよい。

【0097】

例えば、推論部３５は、複数の推論用データのそれぞれを訓練済み単語分割器Ｂに入力することで、推論用データごとの分割済みデータを含む、分割済みデータセット１６を取得してよい。

【0098】

推論用データごとの分割済みデータは、推論用データを訓練済み単語分割器Ｂに入力することで、当該推論用データを所定の分割パターンで単語分割して得た分割済み文字列データの一例である。所定の分割パターンは、複数の推論用データのそれぞれについて、訓練済み単語分割器Ｂが実行可能な複数の第１分割パターンのうちのいずれか１つの分割パターンの一例である。

【0099】

また、例えば、推論部３５は、分割済みデータセット１６に含まれる複数の分割済みデータを入力データとして用いて、訓練済み後段モデル２３による推論処理を実行し、推論結果１７を取得してよい。

【0100】

なお、推論部３５は、推論用データセット１５及び推論結果１７に基づき訓練済み後段モデル２３の評価を行なってもよい。例えば、推論部３５は、訓練済み後段モデル２３による推論の良否を示す指標を取得し、当該指標に基づき訓練済み後段モデル２３を評価してよい。サーバ１は、評価結果を推論結果１７とともに他のコンピュータ等に出力してもよい。

【0101】

以上のように、一実施形態に係る手法によれば、訓練済み後段モデル２３を用いた訓練用分割済みデータセット１４の作成（図６の符号Ａ２１参照）、並びに、訓練用分割済みデータセット１４を用いた単語分割器Ｂの機械学習（符号Ａ２２参照）が行なわれる。

【0102】

単語分割の最適化を符号Ａ２１及びＡ２２の２段階の処理により実現することで、訓練済み後段モデル２３は、２段階の処理のうちの符号Ａ２１で示す処理の際に起動されていればよく、符号Ａ２２で示す処理では、起動を不要とすることができる。なお、単語分割器Ｂは、符号Ａ２１で示す処理では起動を不要とすることができ、符号Ａ２２で示す処理の際に起動されていればよい。

【0103】

これにより、訓練済み後段モデル２３と単語分割器Ｂとの並列起動を抑制する（例えば不要とする）ことができる。従って、コンピュータの計算資源の消費量、例えばメモリの使用量やプロセッサの処理能力の消費量の増加を抑制でき、単語分割器Ｂを調整する際における計算資源の消費量を低減することができる。

【0104】

また、後段モデル２２の訓練に用いる分割済みデータセット１２を生成した単語分割器Ａとは別に、新たに単語分割器Ｂが作成されることで、様々な単語分割手法、一例として、ニューラルネットワークを用いた単語分割手法を採用することが可能となる。

【0105】

〔Ｃ－１〕訓練用分割済みデータセットの生成処理の一例
次に、生成部３３による訓練用分割済みデータセット１４の生成処理（図６の符号Ａ２１参照）の一例を説明する。

【0106】

図１２は、分割済みデータセット１３からの分割済みデータの選択手法の一例を説明するための図である。図１２には、図１０に例示する分割済みデータセット１３の各分割済みデータを入力としたときの、訓練済み後段モデル２３の各ラベルに対する予測確率（予測スコア）を示す。

【0107】

図１２では、訓練データに対応するN個ごと（例えばN=3個ごと）の分割済みデータについて、太字で示す予測確率のラベルが教師ラベル（正解ラベル）であることを示す。

【0108】

図１２において、各訓練データに対応するN個ごとの分割済みデータのうち、太字で示す予測確率が最も大きい分割済みデータが、推論結果の良否を示す指標が所定の条件を満たす分割済みデータであるといえる。

【0109】

従って、生成部３３は、訓練データごとに、太字で示す予測確率が最も大きい分割済みデータを選択（抽出）して、訓練用分割済みデータセット１４に加えてよい。図１２において、生成部３３により選択される分割済みデータを、「選択」の項目に付加したチェックにより示す。以上により、訓練用分割済みデータセット１４（図１１参照）が作成されてよい。

【0110】

〔Ｃ－２〕単語分割器Ｂの一例
次に、単語分割器Ｂの一例を説明する。図１３は、単語分割器Ｂにおけるスコア算出処理の一例を説明するための図である。

【0111】

一実施形態では、単語分割器Ｂとして、ニューラルネットワーク等を用いた表現力の高い単語分割器を採用している。一方、訓練済み後段モデル２３は、単語分割器Ｂよりも表現力の低い単語分割器Ａから出力された、単語リスト２１ａに含まれる語彙の範囲内で表現された分割済みデータセット１２を用いて訓練されている。従って、訓練済み単語分割器Ｂから出力される分割済みデータには、訓練済み後段モデル２３が学習していない単語、換言すれば、「未知語」が含まれる可能性がある。

【0112】

そこで、単語分割器Ｂは、訓練済み後段モデル２３の利用可能な字句の制約を満たすために、スコア算出処理によって、未知語を含む単語分割による分割済みデータセットの出力を抑制するように訓練されてよい。

【0113】

スコア算出処理は、単語分割器Ｂに語彙制約を設けるための手法の一例である。例えば、単語分割器Ｂは、スコア算出処理により、入力される訓練データに対応する複数の分割済みデータのそれぞれについて、確率p(s’|s)を算出する。ここで、sは訓練データ（テキスト）であり、s’は分割済みデータである。なお、確率は、スコアの一例である。スコアとしては、確率に限定されるものではなく、種々の指標が用いられてもよい。以下、確率p(s’|s)をスコアp(s’|s)と表記する場合がある。

【0114】

スコアp(s’|s)は、場合分けにより、以下の式（１）又は（２）により算出されてよい。
・s’に含まれる全単語が、訓練済み後段モデル２３の訓練に使用された場合（単語リスト２１ａに存在する場合）、
p(s’|s) = f(s’,s) （１）
・訓練済み後段モデル２３の訓練に未使用の単語（単語リスト２１ａに存在しない単語）がs’に存在する場合、
p(s’|s) = 0.0 （２）

【0115】

一例として、訓練データが「外国人参政権」であり、単語分割器Ｂから分割済みデータとして「外国人/参政/権」が出力される場合であって、「外国人」，「参政」，「権」の各単語が単語リスト２１ａに存在する場合を想定する。この場合、スコアp(外国人,参政,権|外国人参政権)は、上記式（１）に従い、所定の関数であるf(“外国人,参政,権”,“外国人参政権”)の結果である“0.5”として算出される。同様に、「参政権」の単語も単語リスト２１ａに存在する場合、スコアp(外国人,参政権|外国人参政権)は、上記式（１）に従い、所定の関数であるf(“外国人,参政権”,“外国人参政権”)の結果である“0.3”として算出される。

【0116】

一方、訓練データが「外国人参政権」であり、単語分割器Ｂから分割済みデータとして「外国/人参政権」が出力される場合であって、「外国」の単語が単語リスト２１ａに存在し、「人参政権」の単語が単語リスト２１ａに存在しない場合を想定する。この場合、スコアp(外国,人参政権|外国人参政権)は、上記式（２）に従い、“0.0”として算出される。

【0117】

なお、訓練データ或いは推論データを単語分割器Ｂに入力することで得られる複数の分割済みデータは、訓練データ或いは推論データに対応した異なる複数の第２分割パターンで訓練データ或いは推論データを分割した複数の第２分割済み文字列データの一例である。

【0118】

単語分割器Ｂは、例えば、複数の分割済みデータ（複数の候補）のうち、スコアが最も高い分割済みデータを出力する。訓練済み後段モデル２３が学習していない単語（訓練済み後段モデル２３に含まれない語彙）を含む制限対象の分割済みデータは、スコアが最低になる。このため、単語分割器Ｂは、制限対象の分割済みデータを出力することを抑制できる。

【0119】

なお、上記式（２）において、制限対象の分割済みデータのスコアp(s’|s)の値は、“0.0”に限定されるものではない。例えば、上記式（２）に代えて、単語分割器Ｂから制限対象の分割済みデータの出力が抑制される仕組みであれば、種々の式又は手法が用いられてもよい。

【0120】

次に、スコアp(s’|s)の算出手法の一例を説明する。なお、以下の説明では、単語分割器ＢがニューラルネットワークとしてＢｉＬＳＴＭを用いた単語分割器であるものとする。

【0121】

K文字の訓練データ（テキスト）s = c₁...c_Kについて、i文字目で始まりj文字目で終わる単語w_i,jの出現確率p(w_i,j|s)は、下記式（３）～（７）により算出できる。なお、i,jは、1以上K以下の整数であり、i<jである。

【数1】

【0122】

上記式（３）において、BiLSTM(v_c1... v_cK)kは、k番目の入力v_ckに対応するＢｉＬＳＴＭの出力を得る操作である。また、k番目の入力v_ckは、c_Kに対応する文字埋め込み表現である。上記式（４）及び（５）において、MLP_begin及びMLP_endは、それぞれ異なる多層パーセプトロン（MLP:Multi Layer Perceptron）である。上記式（６）において、σ(h_i ^(begin)Th_j ^(end))は、シグモイド関数である。h_i ^(begin)Th_j ^(end)は、h_i ^(begin)とh_j ^(end)との内積である。なお、V_θは、訓練済み後段モデル２３で使用可能な語彙である。

【0123】

上記式（６）及び（７）に示すp(w_i,j|s)は、訓練データsごとにまとめて計算することができる。また、分割済みデータのスコアp(s’|s)は、分割済みデータs’の各々の単語wの出現確率の積で表すことができる。

【0124】

従って、例えば、訓練データs=“外国人参政権”である場合、上記式（３）と、上記式（６）及び（７）とに基づき、スコアp(外国人,参政,権|外国人参政権)は、下記式（８）～（１１）により表すことができる。なお、下記式（８）において、“外国人参政権”をsと表記している。

【数2】

【0125】

図１４は、単語分割器Ｂによるスコアの算出手法の一例を説明するための図である。図１４に例示するように、単語分割器Ｂは、入力される訓練用データ（テキスト）の文字埋め込み表現を、文字埋め込み部２４ａにより取得し、文字埋め込み表現をＢｉＬＳＴＭ２４ｂに入力する。単語分割器Ｂは、ＢｉＬＳＴＭ２４ｂからの出力h_k（上記式（３）参照）を、上記式（４）を算出するＭＬＰｂｅｇｉｎ２４ｃと、上記式（５）を算出するＭＬＰｅｎｄ２４ｄとにそれぞれ入力し、h_k ^(begin)及びh_k ^(end)をそれぞれ取得する。

【0126】

単語分割器Ｂは、w_i,j∈V_θの場合、ＭＬＰｂｅｇｉｎ２４ｃの出力であるh_k ^(begin)と、ＭＬＰｅｎｄ２４ｄの出力であるh_k ^(end)とを算出部２４ｅに入力する。そして、単語分割器Ｂは、算出部２４ｅにより、上記式（６）（式（９）～（１１））に従い、各単語についての出現確率p(w_i,j|s)をシグモイド関数により算出する。単語分割器Ｂは、算出部２４ｅにより、単語ごとに算出した出現確率を乗算することで、分割済みデータについてのスコアp（s’|s）を算出することができる。

【0127】

一方、単語分割器Ｂは、w_i,j∈V_θではない場合、すなわち、w_i,jが訓練済み後段モデル２３に含まれない語彙である場合、当該単語の出現確率を“0.0”に決定してよい。例えば、単語分割器Ｂは、算出部２４ｅによるシグモイド関数の計算の前に、各単語がw_i,j∈V_θであるか否かを判定し、w_i,j∈V_θではないと判定したときに、当該単語についてシグモイド関数の計算を省略し、出現確率p(w_i,j|s)=0.0を求めてもよい。

【0128】

また、上述のように、スコアp（s’|s）は、分割済みデータs’の各単語の出現確率p(w_i,j|s)の積で表すことができる。このため、単語分割器Ｂは、分割済みデータのうちの少なくとも１つの単語がw_i,j∈V_θではないことを検出した時点で、当該分割済みデータのスコアp（s’|s）=0.0を求めてもよい。

【0129】

ＢｉＬＳＴＭ２４ｂから出力される単語がw_i,j∈V_θであるか否かの判定、換言すれば、w_i,j∈V_θではないことの検出は、例えば、図１５に例示する上三角行列の参照により行なうことができる。

【0130】

図１５は、語彙の制約の一例を示す図である。図１５に例示するように、テーブル２４ｆは、上記式（６）及び（７）に示す語彙の制約を、訓練データsが“外国人参政権”である場合について、上三角行列により表したテーブルである。テーブル２４ｆの縦軸は、単語（トークン）の始端を示し、テーブル２４ｆの横軸は、単語（トークン）の終端を示す。テーブル２４ｆは、例えば、記憶領域に格納されてもよい。

【0131】

テーブル２４ｆでは、網掛け枠内の単語は、訓練済み後段モデル２３に含まれない語彙であり、白抜き枠内の単語は、訓練済み後段モデル２３に含まれる語彙である。

【0132】

例えば、単語分割器Ｂは、図１５に示すテーブル２４ｆを参照して、網掛け枠内に存在する単語についての出現確率pを“0.0”に決定してよい。このように、テーブル２４ｆは、網掛け枠内の単語の出現確率p=0.0とするためのマスクの一例である。

【0133】

なお、図１３～図１５では、訓練データsが「外国人参政権」（日本語）である場合を例に挙げたが、例えば、訓練データsが他の言語のテキスト、例えば「prime contractor」（英語）である場合においても同様である。例えば、単語分割器Ｂは、ＢｉＬＳＴＭ２４ｂにより「prime contractor」を分割して得られた各トークンについての出現確率p(w_i,j|s)を算出し、分割済みデータごとのスコアp（s’|s）を算出してよい。

【0134】

第２機械学習部３４（図５参照）は、単語分割器Ｂの機械学習処理（図６の符号Ａ２２参照）において、訓練用分割済みデータセット１４に含まれる分割済みデータのスコアが大きくなるように、単語分割器Ｂのパラメータを最適化してよい。例えば、訓練用分割済みデータセット１４に対応する各訓練データs^（sハット）について、下記式（１２）に示す損失Ls^を最小化するように、単語分割器Ｂのパラメータを最適化してよい。単語分割器Ｂの機械学習の終了判定の手法としては、既知の種々の手法が採用されてよい。

【数3】

【0135】

このように、第２機械学習部３４は、訓練済み後段モデル２３の訓練に用いた分割済みデータセット１２に含まれない語彙と一致する文字列が単語分割器Ｂから出力されることを抑制するように、単語分割器Ｂを訓練する。これにより、単語分割器Ｂが利用できる語彙に制約を与えることができ、訓練済み単語分割器Ｂから未知語が出力されることを抑制することができる。

【0136】

例えば、単語分割器Ｂは、第２機械学習部３４による単語分割器Ｂの訓練において、訓練済み後段モデル２３に含まれない語彙と一致する文字列を分割結果として含む分割済みデータのスコアを調整、一例として“0.0”に設定する。これにより、単語分割器Ｂが利用できる語彙に、ハードな（固定的又は半固定的な）制約を与えることができ、訓練済み単語分割器Ｂから未知語が出力される可能性をより抑制することができる。

【0137】

また、単語分割器Ｂは、第２機械学習部３４による単語分割器Ｂの訓練において、訓練済み後段モデル２３に含まれない語彙と一致する文字列を分割結果として含む分割済みデータのスコアを、複数の分割済みデータのそれぞれのスコアよりも小さくなるように制御する。例えば、第２機械学習部３４は、複数の訓練データのそれぞれについて、訓練データを単語分割器Ｂに入力することで得られる複数の分割済みデータのうち、生成部３３が選択した分割済みデータと一致する分割済みデータのスコアが最大となるように、単語分割器Ｂのパラメータを最適化する。これにより、生成部３３により選択された分割済みデータであって、訓練済み後段モデル２３の性能（例えば推論精度）の向上に寄与できる単語分割による分割済みデータを出力（再現）するように、単語分割器Ｂを訓練することができる。

【0138】

訓練済み単語分割器Ｂ（図５参照）は、推論処理（図７の符号Ａ３参照）において、下記式（１３）が最も大きくなるような分割済みデータs’を出力してよい。一例として、訓練済み単語分割器Ｂ（例えば算出部２４ｅ）は、ビタビアルゴリズム等の手法によって、下記式（１３）が最も大きくなるような分割済みデータs’を出力してよい。

【数4】

【0139】

図１６は、一実施形態に係る手法による、訓練済み後段モデル２３の性能への影響の一例を説明するための図である。図１６に示す表には、項番4の「一実施形態に係る訓練済み単語分割器Bを用いた訓練済み後段モデル」の比較として、項番1の「図1,図2に示す手法」，項番2の「図3に示す比較例」，項番3の「語彙制約を省略した訓練済み単語分割器Bを用いた訓練済み後段モデル」を示す。項番3は、図１３～図１５を参照して説明した語彙制約のための処理を省略した手法である。

【0140】

なお、図１６では、訓練済み後段モデル２３として、感情分類タスクで訓練を行なった後段モデルを用いた例を示す。

【0141】

図１６の「性能（F1値）」に示すように、項番4の手法では、性能が45.41%となり、他の手法と比較して、訓練済み後段モデル２３の性能向上に寄与することがわかる。

【0142】

図１６の「学習データの再現率」に示すように、項番3及び4の手法では、ニューラルネットワークを用いているため表現力が高く、訓練データの再現率がいずれもほぼ100%となっている。

【0143】

図１６の「未知語割合」に示すように、項番4の手法では、語彙制約により、検証データについて、訓練済み後段モデル２３が扱えない未知語と一致するトークンを含む分割済みデータの出力を抑制できている。

【0144】

なお、項番3及び4の手法では、単語分割器Ｂの最適化の際に、訓練済み後段モデル２３を単語分割器Ｂとともに並列に起動することを抑制でき、計算資源の消費量の低減を実現できる。

【0145】

これらのことから、項番3及び4の手法によれば、訓練済み後段モデル２３の再訓練，追加学習等の、パラメータ全体を修正する手法よりも低コストで、訓練済み後段モデル２３の性能向上を実現することができる。

【0146】

〔Ｄ〕動作例
次に、上述の如く構成された一実施形態の一例としてのサーバ１における動作例を、図１７～図１９を参照して説明する。

【0147】

〔Ｄ－１〕機械学習処理
図１７は、一実施形態に係るサーバ１による後段モデル２２の機械学習処理の動作例を説明するためのフローチャートであり、図１８は、一実施形態に係るサーバ１による単語分割器Ｂの機械学習処理の動作例を説明するためのフローチャートである。

【0148】

図１７に例示するように、分割制御部３１は、訓練用データセット１１の複数の訓練データの各々を単語分割器Ａに入力して、訓練用データごとの分割済みデータを含む、分割済みデータセット１２を取得する（ステップＳ１）。

【0149】

第１機械学習部３２は、分割済みデータセット１２を用いて後段モデル２２の機械学習を実行して（ステップＳ２）、訓練済み後段モデル２３を取得し、処理が終了する。なお、後段モデル２２の機械学習の手法並びに機械学習の終了判定の手法としては、既知の種々の手法が採用されてよい。

【0150】

図１８に例示するように、分割制御部３１は、訓練用データセット１１の複数の訓練データの各々を単語分割器Ａに入力して、訓練用データを複数の分割パターンで分割して得た複数の分割済みデータを訓練データごとに含む、複数パターンの分割済みデータセット１３を取得する（ステップＳ１１）。

【0151】

生成部３３は、分割済みデータセット１３の複数の分割済みデータの各々を入力した訓練済み後段モデル２３からの推論結果の良否を示す指標が所定の条件を満たす分割済みデータを、訓練データごとに選択することで、訓練用分割済みデータセット１４を取得する（ステップＳ１２）。

【0152】

第２機械学習部３４は、訓練用分割済みデータセット１４を用いて単語分割器Ｂの機械学習を実行して（ステップＳ１３）、訓練済み単語分割器Ｂを取得し、処理が終了する。

【0153】

〔Ｄ－２〕推論処理
図１９は、一実施形態に係るサーバ１による推論処理の動作例を説明するためのフローチャートである。

【0154】

図１９に例示するように、推論部３５は、推論用データセット１５を訓練済み単語分割器Ｂに入力し、分割済みデータセット１６を取得する（ステップＳ２１）。

【0155】

推論部３５は、分割済みデータセット１６を用いて訓練済み後段モデル２３による推論を実行し（ステップＳ２２）、推論結果１７を取得する。

【0156】

推論部３５は、推論結果１７に基づき、訓練済み後段モデル２３を評価し（ステップＳ２３）、処理が終了する。

【0157】

なお、評価結果は、推論結果１７とともに他のコンピュータ等に出力されてもよい。また、ステップＳ２３の処理は省略されてもよい。

【0158】

〔Ｅ〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

【0159】

例えば、図５に示すサーバ１が備えるブロック３１～３５は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

【0160】

また、例えば、図５に示すサーバ１は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、各ブロック３１～３５はアプリケーションサーバ又はＷｅｂサーバ、各データ１１～１７，２１～２５を格納する記憶領域はＤＢ（Database）サーバ、等であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ１としての処理機能を実現してもよい。

【0161】

〔Ｆ〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0162】

（付記１）
文字列データを第１字句分割器に入力することで、前記文字列データに対応した異なる複数の第１分割パターンで前記文字列データを分割した複数の第１分割済み文字列データを、データセットに含まれる複数の前記文字列データのそれぞれについて取得し、
前記第１分割済み文字列データを入力データとして、前記入力データに応じた推論処理を行なう訓練済み機械学習モデルに、前記複数の文字列データのそれぞれについての前記複数の第１分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出し、
前記複数の文字列データのそれぞれについて、対応する前記複数の第１分割済み文字列データの中から前記良否を示す指標が所定の条件を満たす第１分割済み文字列データを選択し、
前記複数の文字列データのそれぞれについて選択した前記第１分割済み文字列データに基づいて、前記訓練済み機械学習モデルに前記入力データを入力する第２字句分割器の調整を行なう、
処理をコンピュータに実行させる、情報処理プログラム。

【0163】

（付記２）
前記調整を行なう処理は、
前記訓練済み機械学習モデルの訓練に用いた訓練データセットに含まれない語彙と一致する文字列が前記第２字句分割器から出力されることを抑制するように、前記第２字句分割器を訓練する、処理を含む、
付記１に記載の情報処理プログラム。

【0164】

（付記３）
前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる、前記文字列データに対応した異なる複数の第２分割パターンで前記文字列データを分割した複数の第２分割済み文字列データのうち、前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを調整する、処理を含む、
付記２に記載の情報処理プログラム。

【0165】

（付記４）
前記スコアを調整する処理は、
前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを、前記複数の第２分割済み文字列データのそれぞれのスコアよりも小さくなるように制御する、処理を含み、
前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる前記複数の第２分割済み文字列データのうち、前記文字列データについて選択した前記第１分割済み文字列データと一致する第２分割済み文字列データのスコアが最大となるように、前記第２字句分割器のパラメータを最適化する、処理を含む、
付記３に記載の情報処理プログラム。

【0166】

（付記５）
前記第２字句分割器は、ＢｉＬＳＴＭ（Bidirectional Long Short-Term Memory）を用いた字句分割器である、
付記１～付記４のいずれか１項に記載の情報処理プログラム。

【0167】

（付記６）
文字列データを第１字句分割器に入力することで、前記文字列データに対応した異なる複数の第１分割パターンで前記文字列データを分割した複数の第１分割済み文字列データを、データセットに含まれる複数の前記文字列データのそれぞれについて取得し、
前記第１分割済み文字列データを入力データとして、前記入力データに応じた推論処理を行なう訓練済み機械学習モデルに、前記複数の文字列データのそれぞれについての前記複数の第１分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出し、
前記複数の文字列データのそれぞれについて、対応する前記複数の第１分割済み文字列データの中から前記良否を示す指標が所定の条件を満たす第１分割済み文字列データを選択し、
前記複数の文字列データのそれぞれについて選択した前記第１分割済み文字列データに基づいて、前記訓練済み機械学習モデルに前記入力データを入力する第２字句分割器の調整を行なう、
処理をコンピュータが実行する、情報処理方法。

【0168】

（付記７）
前記調整を行なう処理は、
前記訓練済み機械学習モデルの訓練に用いた訓練データセットに含まれない語彙と一致する文字列が前記第２字句分割器から出力されることを抑制するように、前記第２字句分割器を訓練する、処理を含む、
付記６に記載の情報処理方法。

【0169】

（付記８）
前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる、前記文字列データに対応した異なる複数の第２分割パターンで前記文字列データを分割した複数の第２分割済み文字列データのうち、前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを調整する、処理を含む、
付記７に記載の情報処理方法。

【0170】

（付記９）
前記スコアを調整する処理は、
前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを、前記複数の第２分割済み文字列データのそれぞれのスコアよりも小さくなるように制御する、処理を含み、
前記訓練する処理は、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる前記複数の第２分割済み文字列データのうち、前記文字列データについて選択した前記第１分割済み文字列データと一致する第２分割済み文字列データのスコアが最大となるように、前記第２字句分割器のパラメータを最適化する、処理を含む、
付記８に記載の情報処理方法。

【0171】

（付記１０）
前記第２字句分割器は、ＢｉＬＳＴＭ（Bidirectional Long Short-Term Memory）を用いた字句分割器である、
付記６～付記９のいずれか１項に記載の情報処理方法。

【0172】

（付記１１）
文字列データを第１字句分割器に入力することで、前記文字列データに対応した異なる複数の第１分割パターンで前記文字列データを分割した複数の第１分割済み文字列データを、データセットに含まれる複数の前記文字列データのそれぞれについて取得し、
前記第１分割済み文字列データを入力データとして、前記入力データに応じた推論処理を行なう訓練済み機械学習モデルに、前記複数の文字列データのそれぞれについての前記複数の第１分割済み文字列データを入力した場合の推論結果の良否を示す指標を算出し、
前記複数の文字列データのそれぞれについて、対応する前記複数の第１分割済み文字列データの中から前記良否を示す指標が所定の条件を満たす第１分割済み文字列データを選択し、
前記複数の文字列データのそれぞれについて選択した前記第１分割済み文字列データに基づいて、前記訓練済み機械学習モデルに前記入力データを入力する第２字句分割器の調整を行なう、
制御部を備える、情報処理装置。

【0173】

（付記１２）
前記制御部は、前記調整を行なう処理において、
前記訓練済み機械学習モデルの訓練に用いた訓練データセットに含まれない語彙と一致する文字列が前記第２字句分割器から出力されることを抑制するように、前記第２字句分割器を訓練する、
付記１１に記載の情報処理装置。

【0174】

（付記１３）
前記制御部は、前記訓練する処理において、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる、前記文字列データに対応した異なる複数の第２分割パターンで前記文字列データを分割した複数の第２分割済み文字列データのうち、前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを調整する、
付記１２に記載の情報処理装置。

【0175】

（付記１４）
前記制御部は、
前記スコアを調整する処理において、
前記語彙と一致する文字列を分割結果として含む第２分割済み文字列データのスコアを、前記複数の第２分割済み文字列データのそれぞれのスコアよりも小さくなるように制御し、
前記訓練する処理において、
前記複数の文字列データのそれぞれについて、前記文字列データを前記第２字句分割器に入力することで得られる前記複数の第２分割済み文字列データのうち、前記文字列データについて選択した前記第１分割済み文字列データと一致する第２分割済み文字列データのスコアが最大となるように、前記第２字句分割器のパラメータを最適化する、
付記１３に記載の情報処理装置。

【0176】

（付記１５）
前記第２字句分割器は、ＢｉＬＳＴＭ（Bidirectional Long Short-Term Memory）を用いた字句分割器である、
付記１１～付記１４のいずれか１項に記載の情報処理装置。

【符号の説明】

【0177】

１サーバ
１０コンピュータ
１１訓練用データセット
１２，１６分割済みデータセット
１３複数パターンの分割済みデータセット
１４訓練用分割済みデータセット
１５推論用データセット
１７推論結果
２１，２４，Ａ，Ｂ単語分割器
２２後段モデル
２３訓練済み後段モデル
２４ａ文字埋め込み部
２４ｂＢｉＬＳＴＭ
２４ｃＭＬＰｂｅｇｉｎ
２４ｄＭＬＰｅｎｄ
２４ｅ算出部
２４ｆテーブル
２５，Ｂ訓練済み単語分割器
３０制御部
３１分割制御部
３２第１機械学習部
３３生成部
３４第２機械学習部
３５推論部

【図1】