IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧

<>
  • 特開-文章生成方法及び文章生成装置 図1
  • 特開-文章生成方法及び文章生成装置 図2
  • 特開-文章生成方法及び文章生成装置 図3
  • 特開-文章生成方法及び文章生成装置 図4
  • 特開-文章生成方法及び文章生成装置 図5
  • 特開-文章生成方法及び文章生成装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024084446
(43)【公開日】2024-06-25
(54)【発明の名称】文章生成方法及び文章生成装置
(51)【国際特許分類】
   G06F 40/56 20200101AFI20240618BHJP
【FI】
G06F40/56
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022198725
(22)【出願日】2022-12-13
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】110000486
【氏名又は名称】弁理士法人とこしえ特許事務所
(72)【発明者】
【氏名】山崎 翔太
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB17
5B091CA21
5B091CD11
5B091EA01
(57)【要約】
【課題】適切な機械学習を行うための相当数の文章データを生成できる文章生成方法及び文章生成装置を提供する。
【解決手段】製品又はサービスのうち少なくとも一方に対する評価が記載された文章から、製品又はサービスのうち少なくとも一方の評価箇所と当該評価箇所に対する評価内容とを含む分類文と、分類文以外の非分類文とを抽出し、分類文と非分類文とを組み合わせて新たな文章を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
プロセッサにより実行される文章生成方法において、
前記プロセッサは、
製品又はサービスのうち少なくとも一方に対する評価が記載された文章から、前記製品又は前記サービスのうち少なくとも一方の評価箇所と前記評価箇所に対する評価内容とを含む分類文と、前記分類文以外の非分類文とを抽出し、
前記分類文と前記非分類文とを組み合わせて新たな文章を生成する、文章生成方法。
【請求項2】
前記プロセッサは、前記分類文に、前記評価箇所と前記評価内容との組み合わせに対応した区分を関連付ける、請求項1に記載の文章生成方法。
【請求項3】
前記プロセッサは、
前記分類文と前記非分類文とをデータベースに登録し、
前記データベースから取得した前記分類文と前記非分類文とを組み合わせて前記新たな文章を生成する、請求項1に記載の文章生成方法。
【請求項4】
前記プロセッサは、前記文章を第1区分に分類する前記分類文と、前記第1区分と異なる第2区分に属する前記文章の前記非分類文とを組み合わせて前記新たな文章を生成し、
前記文章のうち、前記第1区分に属する前記文章の数は、前記第2区分に属する前記文章の数より少ない、請求項2に記載の文章生成方法。
【請求項5】
前記プロセッサは、前記文章を第1区分に分類する前記分類文と、前記第1区分と異なる第2区分に属する前記文章の前記非分類文とを組み合わせて前記新たな文章を生成し、
前記文章のうち、前記第1区分に属する前記文章の数は、前記第2区分に属する前記文章の数より多い、請求項2に記載の文章生成方法。
【請求項6】
前記プロセッサは、前記分類文と、前記分類文に関連付けられた前記区分と同じ前記区分に属する前記文章のうち、前記分類文が抽出された前記文章と異なる前記文章の前記非分類文とを組み合わせて前記新たな文章を生成する、請求項2に記載の文章生成方法。
【請求項7】
前記プロセッサは、異なる前記区分に関連付けられた複数の前記分類文と、異なる前記区分に属する複数の前記文章の前記非分類文とを組み合わせて前記新たな文章を生成する、請求項2に記載の文章生成方法。
【請求項8】
前記分類文は、前記評価箇所を示す語句と、前記評価内容を示す語句とを含み、
前記非分類文は、前記評価箇所を示す語句と、前記評価内容を示す語句とのうち少なくとも一方を含まない、請求項1に記載の文章生成方法。
【請求項9】
前記評価箇所を示す語句は、前記評価箇所の名称の少なくとも一部を含む単語又はその類義語を含み、
前記評価内容を示す語句は、前記単語又は前記類義語に対する評価を示す単語を含む、請求項8に記載の文章生成方法。
【請求項10】
前記プロセッサは、
前記文章に含まれる文に対し、前記評価箇所又は前記評価内容を示す第1単語と前記第1単語に関連する第2単語とが所定数以上含まれているか否かを判定し、
前記文に前記第1単語と前記第2単語とが前記所定数以上含まれていると判定した場合は、前記文を前記分類文として抽出し、
前記文に前記第1単語と前記第2単語とが前記所定数未満しか含まれていないと判定した場合は、前記文を前記非分類文として抽出する、請求項1に記載の文章生成方法。
【請求項11】
前記プロセッサは、前記文章から前記分類文と前記非分類文とを抽出するように予め学習された学習済みモデルを用いて前記分類文と前記非分類文とを抽出する、請求項1に記載の文章生成方法。
【請求項12】
前記文章は、前記文章の品質を示す指標値が所定値以上の前記文章である、請求項1に記載の文章生成方法。
【請求項13】
前記指標値は、前記文章に含まれる単語数が多いほど高い値をとる、請求項12に記載の文章生成方法。
【請求項14】
前記指標値は、前記文章に含まれる、前記評価箇所又は前記評価内容を示す第1単語と前記第1単語に関連する第2単語の数が多いほど高い値をとる、請求項12に記載の文章生成方法。
【請求項15】
前記文章は、車両用部品を含む前記製品又は車両用サービスを含む前記サービスのうち少なくとも一方に対する顧客の評価を含む前記文章である、請求項1に記載の文章生成方法。
【請求項16】
前記プロセッサは、前記新たな文章をデータベースに登録する、請求項1に記載の文章生成方法。
【請求項17】
製品又はサービスのうち少なくとも一方に対する評価が記載された文章から、前記製品又は前記サービスのうち少なくとも一方の評価箇所と前記評価箇所に対する評価内容とを含む分類文と、前記分類文以外の非分類文とを抽出する抽出部と、
前記分類文と前記非分類文とを組み合わせて新たな文章を生成するテキスト生成部とを備える、文章生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章生成方法及び文章生成装置に関するものである。
【背景技術】
【0002】
機械翻訳により電子テキスト文書を繰り返し翻訳し、元の電子テキスト文書の言語に戻すために最後に翻訳する電子テキスト文書を、再翻訳する前に、別の言語への翻訳の基礎とし、再翻訳した電子テキスト文書から単語を選択し、選択した単語を、対応する同義語で置き換えて電子テキスト文書を生成し、同義語で置き換えた電子テキスト文書から単語を選択し、選択した単語を、対応するミススペルの単語で置き換えて拡張された電子テキスト文書を生成する、電子テキスト文書を拡張する方法が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-220144号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
機械翻訳による再翻訳を用いて文章を生成する場合は、機械翻訳による翻訳と再翻訳とをある程度繰り返した段階から同じ文章しか生成できなくなり、単語の置き換えにより文章を生成する場合は、生成できる文章の数は、置き換え可能な単語の数に制限される。機械学習には相当数のデータが必要とされるところ、上記従来技術では、生成できる文章の数が限られ、適切な機械学習を行うための文章データが生成できないという問題がある。
【0005】
本発明が解決しようとする課題は、適切な機械学習を行うための相当数の文章データを生成できる文章生成方法及び文章生成装置を提供することである。
【課題を解決するための手段】
【0006】
本発明は、製品又はサービスのうち少なくとも一方に対する評価が記載された文章から、製品又はサービスのうち少なくとも一方の評価箇所と当該評価箇所に対する評価内容とを含む分類文と、分類文以外の非分類文とを抽出し、分類文と非分類文とを組み合わせて新たな文章を生成することによって上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、適切な機械学習を行うための相当数の文章データを生成できる。
【図面の簡単な説明】
【0008】
図1】本発明に係る分類モデル生成システムの実施形態の一例を示すブロック図である。
図2図1のテキストデータの一例を示す図である。
図3図2のテキストデータに対する形態素解析の結果の一例を示す図である。
図4図2のテキストデータから抽出した分類文と非分類文とを示す図である。
図5図2のテキストデータから生成した拡張テキストの一例を示す図である。
図6図1の分類モデル生成システムにおける処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を図面に基づいて説明する。
【0010】
[分類モデル生成システムの構成]
図1は、本発明に係る分類モデル生成システム1を示すブロック図である。分類モデル生成システム1は、製品又はサービスのうち少なくとも一方に対する評価が記載された文章を所定の区分に分類する分類モデルを生成するための装置である。製品又はサービスのうち少なくとも一方に対する評価が記載された文章としては、製品又はサービスの品質アンケート、不具合調査の結果、ウェブサイトに投稿された文章などが挙げられるが、これらに限定されない。また、文章の言語は特に限定されない。分類モデルとしては、サポートベクターマシン、ニューラルネットワークなどが挙げられるが、文章を適切に分類できる限りどのようなモデル(プログラム)であってもよい。
【0011】
製品とは、工業製品、家電製品など、工場において量産される物品のことを言い、例えば、車両のような車両用部品を含む製品である。製品に対する評価とは、顧客による製品の良し悪し又は優劣の判定のことを言い、当該評価には、製品において評価が行われた評価箇所と、その評価箇所に対する評価内容とが含まれる。評価箇所とは、製品の一部又は全部のことを言い、具体的には、製品の部品、製品の部分(例えば、外側部分、内側部分、取手部分)などである。評価箇所に対する評価内容とは、製品の一部又は全部に対する顧客の判定結果のことを言い、例えば、ある部品の優れた点、ある部分の悪い点などである。
【0012】
サービスとは、製品のメンテナンスサービス、通信機器を用い、離れた場所から製品を制御するコネクティッドサービス、レンタルサービスなど、顧客に対して行われる活動や提供される価値のことを言い、例えば、カーディーラーにおける定期点検のような車両整備や顧客へのコンサルティングを含む車両用サービスである。サービスに対する評価とは、顧客によるサービスの良し悪し又は優劣の判定のことを言い、当該評価には、サービスにおいて評価が行われた評価箇所と、その評価箇所に対する評価内容が含まれる。評価箇所とは、サービスの一部又は全部のことを言い、例えば、車両の点検サービスにおける点検内容や、作業内容説明、接客などである。評価箇所に対する評価内容とは、サービスの一部又は全部に対する顧客の判定結果のことを言い、例えば、ある作業内容説明の優れた点、ある接客対応の悪い点などである。
【0013】
図1に示すように、分類モデル生成システム1は、文章生成装置10、分類済みテキストデータベース21、ラベル付き分類文データベース22、非分類文データベース23、拡張テキストデータベース24及びモデル生成装置30を備える。これらの装置及びデータベースは、有線又は無線LANなどの公知の通信手段より接続され、お互いに情報を授受できる。
【0014】
文章生成装置10は、分類済みテキストデータベース21(以下、第1データベースとも言う)に格納された文章データ(以下、テキストデータとも言う)から、新たな文章を生成するための装置である。以下、文章生成装置10が新たに生成した文章を拡張テキストとも言う。文章生成装置10は、例えばコンピュータであり、プロセッサであるCPU(Central Processing Unit)と、プログラムが格納されたROM(Read Only Memory)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とを備える。
【0015】
図2には、第1データベース21に格納されたテキストデータの一例を示す。図2に示すテキストデータは、車両の販売店(ディーラー)において車両のオーナーに対して実施された品質アンケートの結果の一部である。図2に示すテキストデータは、それぞれ、評価された車両の箇所と、当該箇所に対する顧客の評価内容との組み合わせに対応した区分ごとに分類されている。番号1の文章は、「カップホルダー」が評価箇所であり、「配置が悪い」が評価内容である。番号2の文章は、「内装」が評価箇所であり、「見栄えが悪い」が評価内容である。番号3の文章は、「ナビゲーション装置」が評価箇所であり、「経路設定の不良」が評価内容である。
【0016】
モデル生成装置30は、分類モデルを生成するための装置である。モデル生成装置30は、例えばコンピュータであり、文章生成装置10と同様にCPU、ROM及びRAMを備える。モデル生成装置30は、拡張テキストを用いて、分類モデルを学習させるためのデータセットを生成する機能を有する学習データ生成部31と、データセットを用いて分類モデルを学習させ、分類モデルを生成する機能を有する分類モデル生成部32とを備える。図1には、学習データ生成部31及び分類モデル生成部32を機能ブロックとして便宜的に抽出して示す。
【0017】
[各機能ブロックの機能]
モデル生成装置30が、学習データ生成部31の機能により生成するデータセットは、文章とその区分とが関連付けられたテキストデータであり、分類モデルを適切に学習させるためには相当数(例えば50~1000以上)のテキストデータが必要である。また、機械学習の観点から、データセットは、区分ごとに同程度の数のテキストデータを有することが好ましいが、テキストデータの種類によっては、区分ごとのテキストデータの数に偏りがあるデータしか利用できない場合がある。
【0018】
そこで、本実施形態の分類モデル生成システム1では、文章生成装置10が、取得したテキストデータから拡張テキストを生成することで、分類モデルを適切に学習させることができ、区分ごとにほぼ同数のテキストデータを有するデータセットを生成する。ここで、ほぼ同数とは、例えば、区分ごとのテキストデータの数の最大値と最小値との差が、当該最小値の10%以下であることを言う。文章生成装置10のROMには、拡張テキスト生成機能を実現するプログラムが格納され、CPUがROMに格納されたプログラムを実行することで当該機能が実現される。図1には、拡張テキスト生成機能を実現する機能ブロックである、前処理部11、抽出部12及びテキスト生成部13を便宜的に抽出して示す。
【0019】
以下、図1に示す機能ブロックが有する機能を、図2に示すテキストデータを用いて説明する。
【0020】
前処理部11は、テキストデータと、それに関連付けられた区分の情報(以下、ラベルとも言う)とを取得する機能を有する。文章生成装置10は、第1データベース21に格納された分類済みテキストデータから、分類対象の文章において評価された製品又はサービスのうち少なくとも一方に関する文章を抽出し、そのテキストデータを取得する。これに代え、文章生成装置10は、図示しない入力装置から入力されたテキストデータと、それに関連付けられたラベルとを取得してもよい。また、製品及び/又はサービスを評価するウェブサイトからテキストデータと、それに関連付けられたラベルとを取得してもよい。
【0021】
前処理部11は、文章の品質を示す指標値を算出する機能を有する。文章の品質とは、文章(テキスト)を拡張テキストの生成に用いることができるか否かを示す性質であり、当該品質を示す指標値とは、文章が当該性質をどの程度有するのかを示す値である。文章生成装置10は、取得したテキストデータについて品質の指標値を算出する。指標値が所定値以上であるテキストデータは、拡張テキストを生成する処理に用いる。これに対し、指標値が所定値未満であるテキストデータは、拡張テキストを生成する処理に用いない。指標値は、区分に関する情報が含まれていないテキストデータの数を低減できる範囲内で適宜の値を設定できる。
【0022】
指標値は、文章に含まれる単語の数が多いほど高い値をとるように設定してもよい。例えば、取得したテキストデータから、文章に含まれる単語の数が5~20個以下の文章を除外できるように指標値を設定する。文章生成装置10は、指標値を算出する場合に文章に含まれる単語を抽出するときは、公知のソフトウェアを用いてテキストデータに対して形態素解析を行う。図3には、図2に示す番号1~3の各テキストデータに対して形態素解析を行った解析結果を示す。図3では、解析により抽出された単語を「/」により区切って示す。図3に示すように、番号1~3の各テキストデータは少なくとも5個以上の単語を含むため、これらのテキストデータの指標値は、所定値以上となる。
【0023】
また、指標値は、文章に含まれる、評価箇所又は評価内容を示す単語とそれに関連する単語の数が多いほど高い値をとるように設定してもよい。評価箇所を示す単語は、評価される製品及びサービスごとに、部品を示す単語、製品の部位(又は部分)を示す単語、複数のサービスが組み合わされたサービスの一部分を示す単語などが予め設定されている。評価内容を示す単語は、評価箇所が設定された段階で、評価箇所ごとに、想定される顧客の判定結果を示す単語として収集され、評価箇所と関連付けられる。評価箇所又は評価内容を示す単語に関連する単語は、公知の類語辞典(シソーラス)から、評価箇所又は評価内容を示す単語の類語として取得する。又はこれに代え又はこれに加え、公知の対義語辞典などから、評価箇所又は評価内容を示す単語の対義語として取得してもよい。これらの単語は、例えば第1データベース21に格納されている。なお、対義語には反対語が含まれるものとする。
【0024】
抽出部12は、製品又はサービスのうち少なくとも一方に対する評価が記載された文章から分類文と非分類文とを抽出する機能を有する。分類文とは、製品又はサービスのうち少なくとも一方の評価箇所と、当該評価箇所に対する評価内容とを含む文のことを言い、非分類文とは、分類文以外の文のことを言う。文章生成装置10は、第1データベース21から取得したテキストデータから、句点で区切られた文を抽出する。そして、文ごとに、評価箇所を示す語句と、評価内容を示す語句とが含まれるか否かを判定する。ある文に、評価箇所を示す語句と、評価内容を示す語句とが含まれている場合は、当該文を分類文に分類する。これに対し、ある文に、評価箇所を示す語句と、評価内容を示す語句とのうち少なくとも一方が含まれていない場合は、当該文を非分類文に分類する。
【0025】
評価箇所を示す語句には、評価箇所を示す単語と、評価箇所を示す単語同士を組み合わせた句とが含まれる。具体的には、評価箇所の名称の少なくとも一部を含む単語と、その類義語及び対義語とが含まれる。例えば、評価箇所の名称が「カップホルダー」である場合は、評価箇所を示す句は「カップホルダー」であり、評価箇所の名称の一部を含む単語は「カップ」であり、評価箇所を示す単語の類義語は「タンブラー」である。評価箇所を示す語句は製品及びサービスごとに予め設定されており、類義語及び対義語は公知の類語辞典及び対義語辞典から取得する。
【0026】
評価内容を示す語句には、評価内容を示す単語と、評価内容を示す単語同士を組み合わせた句とが含まれる。具体的には、評価箇所の名称の少なくとも一部を含む単語又はその類義語及び対義語に対する評価を示す単語が含まれる。評価内容を示す語句は、評価箇所ごとに、想定される顧客の判定結果を示す語句を予め収集し、評価箇所を示す語句と関連付けたうえで、例えば第1データベースに登録しておく。
【0027】
図4には、図2に示す番号1~3の各テキストデータから抽出した文を示す。文章生成装置10は、各文について、図3に示す形態素解析の結果を用いて、評価箇所を示す語句と評価内容を示す語句とが含まれるか否かを判定し、分類文と非分類文とを抽出する。具体的には、番号1のテキストデータの文(3)には、評価箇所を示す単語である「カップホルダー」と、評価内容を示す単語である「低い」とが含まれているため、文(3)を分類文に分類する。これに対し、文(1)~(2)及び(4)~(5)には、評価箇所を示す語句が含まれていないため、これらの文を非分類文に分類する。
【0028】
同様に、番号2のテキストデータの文(2)には、評価箇所を示す単語である「内装」と、評価内容を示す単語である「最悪の」とが含まれているため、文(2)を分類文に分類する。また、文(3)には、評価箇所を示す単語である「内装」と、評価内容を示す句である「良くない」とが含まれているため、文(3)を分類文に分類する。これに対し、文(1)及び(4)には、評価箇所を示す語句が含まれていないため、これらの文を非分類文に分類する。
【0029】
同様に、番号3のテキストデータの文(1)には、評価箇所を示す句である「ナビゲーション装置」と、評価内容を示す句である「正しく行えない」とが含まれているため、文(1)を分類文に分類する。また、文(2)には、評価箇所を示す単語である「案内」と、評価内容を示す句である「わかりにくい」とが含まれているため、文(2)を分類文に分類する。さらに、文(3)には、評価箇所を示す単語である「コネクティッドサービス」と、評価内容を示す句である「利用できない」とが含まれているため、文(3)を分類文に分類する。これに対し、文(4)は、評価箇所を示す語句を含まないため、非分類文に分類される。
【0030】
また、文章生成装置10は、テキストデータから抽出した文に対し、評価箇所又は評価内容を示す単語(以下、第1単語とも言う)と当該単語に関連する単語(以下、第2単語とも言う)とが所定数以上含まれているか否かを判定してもよい。第1単語と第2単語とが所定数以上含まれている(つまり、第1単語と第2単語との和が所定数以上である)と判定した場合は、その文を分類文として抽出する。これに対し、第1単語と第2単語とが所定数未満しか含まれていないと判定した文は、非分類文として抽出される。所定数は、分類文を適切に抽出できる範囲内で適宜の値(例えば2~5)を設定できる。
【0031】
他の例として、文章生成装置10は、文章から分類文と非分類文とを抽出するように予め学習された学習済みモデルを用いて分類文と非分類文とを抽出してもよい。学習済みモデルとは、例えば、入力層にテキストデータを入力すると、出力層から分類文と非分類文とが出力されるように学習されたニューラルネットワークである。また、文章生成装置10は、取得したテキストデータから文を抽出し、抽出した文を特徴量に基づいてクラスタリングすることで分類文と非分類文とを抽出してもよい。特徴量としては、関連付けられた区分、単語の品詞、単語の出現頻度、単語同士の共起頻度などが挙げられる。
【0032】
文章生成装置10は、抽出した分類文に、評価箇所と評価内容との組み合わせに対応した区分を関連付ける。例えば、図4に示す番号1のテキストデータの文(3)には、番号1のテキストデータの区分である「カップホルダー/配置が悪い」を関連付ける。また、番号2のテキストデータの文(2)及び(3)には、「内装/見栄えが悪い」を関連付け、番号3のテキストデータの文(1)~(3)には、「ナビゲーション装置/経路設定の不良」を関連付ける。さらに、番号3のテキストデータの文(3)には、分類文として抽出した後に明確になった区分として、「コネクティッドサービス/支援が利用できない」を関連付けてもよい。区分と関連付けられた分類文は、区分の情報を示すラベルと組み合わされたラベル付き分類文となり、ラベル付き分類文データベース22(以下、第2データベースとも言う)に登録される。また、文章生成装置10は、抽出した非分類文を、非分類文データベース23(以下、第3データベースとも言う)に登録する。なお、文章生成装置10は、抽出した分類文と非分類文を、データベースに登録せずに次の処理に出力してもよい。
【0033】
テキスト生成部13は、分類文と非分類文とを組み合わせて新たな文章(拡張テキスト)を生成する機能を有する。文章生成装置10は、第2データベース22から取得したラベル付き分類文と、第3データベース23から取得した非分類文とを組み合わせて拡張テキストを生成する。分類文と非分類文との組み合わせ方は特に限定されないが、例えば、一のテキストデータの分類文を、他のテキストデータの分類文と入れ替えて拡張テキストを生成する。これに代え又はこれに加え、一のテキストデータの非分類文を、他のテキストデータの非分類文と入れ替えて拡張テキストを生成してもよい。
【0034】
また、抽出された全ての分類文及び非分類文から、少なくとも一つ分類文と、少なくとも一つの非分類文とをランダムに選択し、選択した分類文と非分類文とを組み合わせて拡張テキストを生成してもよい。ただし、分類文及び非分類文をランダムに選択した場合は、生成した拡張テキストが元のテキストデータと同じものであるか否かを判定し、同じものであると判定した場合は、生成した拡張テキストを破棄する。
【0035】
例えば、文章生成装置10は、テキストデータを第1区分に分類する分類文と、第1区分と異なる第2区分に属するテキストデータの非分類文とを組み合わせて拡張テキストを生成してもよい。この場合、第1区分に属するテキストデータの数が、第2区分に属するテキストデータの数より少ないときは、テキストデータの数が少ない区分について拡張テキストを生成することになり、区分ごとのテキストデータの数の偏りを抑制できる。これに対し、第1区分に属するテキストの数が、第2区分に属するテキストデータの数より多いときは、テキストデータの数が多い区分についてさらにテキストデータを充実できる。
【0036】
また、文章生成装置10は、分類文と、当該分類文に関連付けられた区分と同じ区分に属するテキストデータの非分類文とを組み合わせて拡張テキストを生成してもよい。この場合、非分類文が抽出されるテキストデータは、分類文が抽出されるテキストデータと異なるテキストデータである。つまり、同じ区分に分類された複数のテキストデータのうち、一のテキストデータの分類文と、他のテキストデータの非分類文とを組み合わせて拡張テキストを生成してもよい。
【0037】
さらに、文章生成装置10は、異なる区分に関連付けられた複数の分類文と、異なる区分に属する複数のテキストデータの非分類文とを組み合わせて拡張テキストを生成してもよい。例えば、文章生成装置10は、区分Aに関連付けられた分類文aと、区分Bに関連付けられた分類文bと、区分Cに属するテキストデータの非分類文cと、区分Dに属するテキストデータの非分類文dとを組み合わせて拡張テキストXを生成する。この場合、拡張テキストXは、区分Aと区分Bに分類される。つまり、本実施形態では、区分Aと、区分Aと異なる区分Bとに同じ拡張テキストXが属しても(分類されても)よい。
【0038】
図5には、図4に示す分類文と非分類文とを用いて、図2に示すテキストデータから生成した拡張テキストデータを示す。番号4の拡張テキストデータは、番号1のテキストデータの文(2)を、番号2のテキストデータの文(1)に置き換え、番号1のテキストデータの文(5)を、番号2のテキストデータの文(4)に置き換えて生成したものである。番号4の拡張テキストデータは、「カップホルダーの位置が低い。」という分類文を含むため、「カップホルダー/配置が悪い」の区分に属する。
【0039】
番号5の拡張テキストデータは、番号2のテキストデータの文(2)を、番号1のテキストデータの文(3)に置き換え、番号2のテキストデータの文(4)を、番号3のテキストデータの文(4)に置き換えて生成したものである。番号5の拡張テキストデータは、「カップホルダーの位置が低い。」という分類文と、「内装のプラスチック材料が安っぽく、質感が良くない。」という分類文とにより、「カップホルダー/配置が悪い」の区分と、「内装/見栄えが悪い」の区分とに属する。
【0040】
文章生成装置10は、生成した拡張テキストデータを、図1に示す拡張テキストデータベース24(以下、第4データベースとも言う)に出力し、登録する。モデル生成装置30は、学習データ生成部31の機能により、第1データベース21からテキストデータを取得し、第4データベース24から拡張テキストデータを取得する。そして、分類モデルを学習させるためのデータセットを生成する。
【0041】
拡張テキストデータは、区分ごとに登録されたテキストデータの数を掛け合わせた数だけ生成できる。例えば、区分Aに属するテキストデータが100件であり、区分Bに属するテキストデータが10件である場合は、区分Bに属する拡張テキストデータは1000件作成できる。モデル生成装置30は、生成された拡張テキストデータからランダムに90件を選択し、区分Aのテキストデータを100件有し、区分Bのテキストデータを100件有する学習用データセットを生成する。そして、モデル生成装置30は、分類モデル生成部32の機能により、学習用データセットを用いて分類モデルを学習させ、学習させた分類モデルを分類モデル生成システム1の外部に出力する。
【0042】
[分類モデル生成システムにおける処理]
図6を参照して、文章生成装置10及びモデル生成装置30が情報を処理する際の手順を説明する。図6は、本実施形態の分類モデル生成システム1において実行される、情報の処理を示すフローチャートの一例である。以下に説明する処理は、文章生成装置10及びモデル生成装置30がそれぞれ備えるプロセッサ(CPU)により所定の時間間隔で実行される。
【0043】
まず、ステップS1にて、前処理部11の機能により、第1データベース21から区分ごとに分類されたテキストデータを取得する。続くステップS2にて、取得したテキストデータについて文章の品質を示す指標値を算出し、ステップS3にて、算出した指標値が所定値以上であるか否かを判定する。算出した指標値が所定値未満であると判定した場合は、ステップS1に進み再度テキストデータを取得する。また、ある一定の回数(例えば5~10回)ステップS3の処理を繰り返しても指標値が所定値以上のテキストデータを取得できない場合は、ルーチンの実行を終了してもよい。
【0044】
ステップS4にて、抽出部12の機能により、取得したテキストデータから、製品又はサービスのうち少なくとも一方の評価箇所と当該評価箇所に対する評価内容とを含む分類文と、分類文以外の非分類文とを抽出する。続くステップS5にて、抽出した分類文に、区分を示すラベルを関連付けてラベル付き分類文を生成し、ステップS6にて、ラベル付き分類文を第2データベース22に登録し、非分類文を第3データベース23に登録する。
【0045】
ステップS7にて、テキスト生成部13の機能により、第2データベース22からラベル付き分類文を取得し、第3データベース23から非分類文を取得し、ステップS8にて、取得したラベル付き分類文と非分類文とを組み合わせて新たな文章を生成する。続くステップS9にて、生成した新たな文章を第4データベース24に登録する。
【0046】
ステップS10にて、学習データ生成部31の機能により、第1データベース21からテキストデータを取得すると共に、第4データベース24から拡張テキストデータを取得し、ステップS11にて、分類モデルを学習させるための学習用データセットを生成する。そして、ステップS12にて、学習用データセットを用いて分類モデルを学習させ、製品又はサービスのうち少なくとも一方に対する評価が記載された文章を、製品又はサービスのうち少なくとも一方の評価箇所と評価内容との組み合わせに対応した区分に分類するための分類モデルを生成する。その後、ルーチンの実行を終了する。
【0047】
[本発明の実施態様]
以上のとおり、本実施形態によれば、プロセッサにより実行される文章生成方法において、前記プロセッサは、製品又はサービスのうち少なくとも一方に対する評価が記載された文章から、前記製品又はサービスのうち少なくとも一方の評価箇所と前記評価箇所に対する評価内容とを含む分類文と、前記分類文以外の非分類文とを抽出し、前記分類文と前記非分類文とを組み合わせて新たな文章を生成する、文章生成方法が提供される。これにより、分類モデルを適切に学習させることができ、区分ごとに偏りのないテキストデータを有するデータセットが生成できる。
【0048】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記分類文に、前記評価箇所と前記評価内容との組み合わせに対応した区分を関連付ける。これにより、生成された拡張テキストデータを区分と関連付けることができる。
【0049】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記分類文と前記非分類文とをデータベースに登録し、前記データベースから取得した前記分類文と前記非分類文とを組み合わせて前記新たな文章を生成する。これにより、拡張テキストデータを繰り返し生成する場合に、分類文と非分類文を抽出する処理を省略できる。
【0050】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記文章を第1区分に分類する前記分類文と、前記第1区分と異なる第2区分に属する前記文章の前記非分類文とを組み合わせて前記新たな文章を生成し、前記文章のうち、前記第1区分に属する前記文章の数は、前記第2区分に属する前記文章の数より少ない。これにより、区分ごとのテキストデータの数の偏りを抑制できる。
【0051】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記文章を第1区分に分類する前記分類文と、前記第1区分と異なる第2区分に属する前記文章の前記非分類文とを組み合わせて前記新たな文章を生成し、前記文章のうち、前記第1区分に属する前記文章の数は、前記第2区分に属する前記文章の数より多い。これにより、テキストデータの数が多い区分についてさらにテキストデータを充実できる。
【0052】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記分類文と、前記分類文に関連付けられた前記区分と同じ前記区分に属する前記文章のうち、前記分類文が抽出された前記文章と異なる前記文章の前記非分類文とを組み合わせて前記新たな文章を生成する。これにより、一つの区分に属するテキストデータから拡張テキストデータを生成できる。
【0053】
また、本実施形態の文章生成方法によれば、前記プロセッサは、異なる前記区分に関連付けられた複数の前記分類文と、異なる前記区分に属する複数の前記文章の前記非分類文とを組み合わせて前記新たな文章を生成する。これにより、複数の区分についてさらにテキストデータを充実できる。
【0054】
また、本実施形態の文章生成方法によれば、前記分類文は、前記評価箇所を示す語句と、前記評価内容を示す語句とを含み、前記非分類文は、前記評価箇所を示す語句と、前記評価内容を示す語句とのうち少なくとも一方を含まない。これにより、分類文と非分類文とを確実に区別できる。
【0055】
また、本実施形態の文章生成方法によれば、前記評価箇所を示す語句は、前記評価箇所の名称の少なくとも一部を含む単語又はその類義語を含み、前記評価内容を示す語句は、前記単語又は前記類義語に対する評価を示す単語を含む。これにより、分類文と非分類文とを確実に区別できる。
【0056】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記文章に含まれる文に対し、前記評価箇所又は前記評価内容を示す第1単語と前記第1単語に関連する第2単語とが所定数以上含まれているか否かを判定し、前記文に前記第1単語と前記第2単語とが前記所定数以上含まれていると判定した場合は、前記文を前記分類文として抽出し、前記文に前記第1単語と前記第2単語とが前記所定数未満しか含まれていないと判定した場合は、前記文を前記非分類文として抽出する。これにより、比較的簡単な処理で分類文と非分類文とを確実に区別できる。
【0057】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記文章から前記分類文と前記非分類文とを抽出するように予め学習された学習済みモデルを用いて前記分類文と前記非分類文とを抽出する。これにより、分類文と非分類文と抽出するモデルを生成する処理が省略できる。
【0058】
また、本実施形態の文章生成方法によれば、前記文章は、前記文章の品質を示す指標値が所定値以上の前記文章である。これにより、質の高い拡張テキストデータが生成できる。
【0059】
また、本実施形態の文章生成方法によれば、前記指標値は、前記文章に含まれる単語数が多いほど高い値をとる。これにより、質の高い拡張テキストデータが生成できる。
【0060】
また、本実施形態の文章生成方法によれば、前記指標値は、前記文章に含まれる、前記評価箇所又は前記評価内容を示す第1単語と前記第1単語に関連する第2単語の数が多いほど高い値をとる。これにより、質の高い拡張テキストデータが生成できる。
【0061】
また、本実施形態の文章生成方法によれば、前記文章は、車両用部品を含む前記製品又は車両用サービスを含む前記サービスのうち少なくとも一方に対する顧客の評価を含む前記文章である。これにより、テキストデータの属性が明確になる。
【0062】
また、本実施形態の文章生成方法によれば、前記プロセッサは、前記新たな文章をデータベースに登録する。これにより、学習用データセットの生成が容易になる。
【0063】
また、本実施形態によれば、製品又は車両用サービスを含む前記サービスのうち少なくとも一方に対する評価が記載された文章から、前記製品又は車両用サービスを含む前記サービスのうち少なくとも一方の評価箇所と前記評価箇所に対する評価内容とを含む分類文と、前記分類文以外の非分類文とを抽出する抽出部12と、前記分類文と前記非分類文とを組み合わせて新たな文章を生成するテキスト生成部13とを備える、文章生成装置10が提供される。これにより、分類モデルを適切に学習させることができ、区分ごとに偏りのないテキストデータを有するデータセットが生成できる。
【符号の説明】
【0064】
1…分類モデル生成システム
10…文章生成装置
11…前処理部
12…抽出部
13…テキスト生成部
21…分類済みテキストデータベース(第1データベース)
22…ラベル付き分類文データベース(第2データベース)
23…非分類文データベース(第3データベース)
24…拡張テキストデータベース(第4データベース)
30…モデル生成装置
31…学習データ生成部
32…分類モデル生成部
図1
図2
図3
図4
図5
図6