IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 犀動智能科技股▲ふん▼有限公司の特許一覧

特許7588689要約生成方法、要約生成システム、及びコンピュータープログラム
<>
  • 特許-要約生成方法、要約生成システム、及びコンピュータープログラム 図1
  • 特許-要約生成方法、要約生成システム、及びコンピュータープログラム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-14
(45)【発行日】2024-11-22
(54)【発明の名称】要約生成方法、要約生成システム、及びコンピュータープログラム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20241115BHJP
   G06F 40/44 20200101ALI20241115BHJP
   G06F 40/56 20200101ALI20241115BHJP
   G10L 15/22 20060101ALI20241115BHJP
【FI】
G06F40/279
G06F40/44
G06F40/56
G10L15/22 453
【請求項の数】 9
(21)【出願番号】P 2023125438
(22)【出願日】2023-08-01
【審査請求日】2023-08-01
(31)【優先権主張番号】112117305
(32)【優先日】2023-05-10
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】522502026
【氏名又は名称】犀動智能科技股▲ふん▼有限公司
(74)【代理人】
【識別番号】100124039
【弁理士】
【氏名又は名称】立花 顕治
(74)【代理人】
【識別番号】100210251
【弁理士】
【氏名又は名称】大古場 ゆう子
(72)【発明者】
【氏名】馬 世英
(72)【発明者】
【氏名】李 坤霖
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2018-005324(JP,A)
【文献】特開2005-258676(JP,A)
【文献】特開2020-067987(JP,A)
【文献】中国特許出願公開第118227771(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/56
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
ユーザ側装置に電気的に接続する要約生成システムにより実行される要約生成方法であって、前記要約生成システムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、前記要約生成方法は、
A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、
B)前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記対象のテキストデータを前記フロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、前記プリ処理されたテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記プリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、前記第1の要約結果を前記ユーザ側装置に送信して出力させるステップと、
C)前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記対象のテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、前記第2の要約結果を前記ユーザ側装置に送信して出力させるステップと、を含む、
要約生成方法。
【請求項2】
ステップB)において、前記要約生成システムは、前記対象のテキストデータと共に、言語モデルにより予測されたソフトプロンプトをさらに、前記フロントエンド言語モデルに入力する、請求項1に記載の要約生成方法。
【請求項3】
ステップA)の前に、D)前記ユーザ側装置から音声データを受信し、前記音声データが表す音声に基づいて、前記対象のテキストデータを生成するステップ、をさらに含む、請求項2に記載の要約生成方法。
【請求項4】
ステップD)においては、前記音声データが、単一の話者の音声を表す単一話者型、または、複数の話者の音声を表す複数話者型に属するかをさらに判断し、
生成された前記対象のテキストデータは、該音声データが前記複数話者型に属すると判断される場合においては、それぞれ前記複数の話者のうちの1つに対応する複数の発話部分を含み、
ステップB)において、前記フロントエンド言語モデルに入力された前記ソフトプロンプトは、前記音声データが前記単一話者型に属する場合においては、前記単一話者型に対応する第1のソフトプロンプトであり、前記音声データが前記複数話者型に属する場合においては、前記複数話者型に対応すると共に前記第1のソフトプロンプトとは異なる第2のソフトプロンプトである、請求項3に記載の要約生成方法。
【請求項5】
ユーザ側装置に電気的に接続する処理ユニットと、
前記処理ユニットに電気的に接続する記憶ユニットと、を含み、
前記記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、
前記処理ユニットは、
対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、
前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記対象のテキストデータを前記フロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、前記プリ処理されたテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記プリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、前記第1の要約結果を前記ユーザ側装置に送信して出力させ、
前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記対象のテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、前記第2の要約結果を前記ユーザ側装置に送信して出力させるように構成される、
要約生成システム。
【請求項6】
前記処理ユニットは、前記対象のテキストデータと共に、言語モデルにより予測されたソフトプロンプトをさらに、前記フロントエンド言語モデルに入力する、請求項5に記載の要約生成システム。
【請求項7】
前記処理ユニットは、前記ユーザ側装置から音声データを受信し、前記音声データが表す音声に基づいて、前記対象のテキストデータを生成するようにさらに構成される、請求項6に記載の要約生成システム。
【請求項8】
前記処理ユニットは、前記音声データが、単一の話者の音声を表す単一話者型、または、複数の話者の音声を表す複数話者型に属するかを判断するようにさらに構成され、
生成された前記対象のテキストデータは、該音声データが前記複数話者型に属すると判断される場合においては、それぞれ前記複数の話者のうちの1つに対応する複数の発話部分を含み、
前記フロントエンド言語モデルに入力された前記ソフトプロンプトは、前記音声データが前記単一話者型に属する場合においては、前記単一話者型に対応する第1のソフトプロンプトであり、前記音声データが前記複数話者型に属する場合においては、前記複数話者型に対応すると共に前記第1のソフトプロンプトとは異なる第2のソフトプロンプトである、請求項7に記載の要約生成システム。
【請求項9】
コンピューターシステムにより実行されると、前記コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、請求項1から4のいずれか一項に記載の要約生成方法を実行させる、コンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、要約生成方法に関し、特に、テキストデータに適用する要約生成方法に関する。本発明はさらに、テキストデータに適用する要約生成システム及びコンピュータープログラムに関する。
【背景技術】
【0002】
自然言語は、人間がコミュニケーションをする際に、自分の考えを表現する主な言語である。従って、自然言語処理は、幅広い適用範囲を持ち、例えば、音声識別、機械翻訳、テキスト分類、質問応答システムなどの具体的な適用例が挙げられる。
機械学習技術の発展に伴い、人工知能分野では自然言語処理が人気の研究方向となっている。そのため、近年、言語モデルは、種類が豊富になっただけでなく、性能も継続的に向上している。しかしながら、言語モデルの性能の発揮はその使用方法に密接的に関係しており、言語モデルをより効果的に利用し利用効率を向上させることが、新たな研究方向になっている。
【先行技術文献】
【特許文献】
【0003】
【文献】中国特許出願公開第114647720号明細書
【文献】中国特許出願公開第115577096号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
従って、本発明の目的は、言語モデルをより効果的に利用する要約生成方法、要約生成システム、及びそのコンピュータープログラムを提供することにある。
【課題を解決するための手段】
【0005】
要約生成方法は、ユーザ側装置に電気的に接続する要約生成システムにより実行される。要約生成システムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
要約生成方法は、A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、B)分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、第1の要約結果をユーザ側装置に送信して出力させるステップと、C)分割されたトークンの数が所定の閾値以上でないと判断される場合において、対象のテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、第2の要約結果をユーザ側装置に送信して出力させるステップと、を含む。
要約生成システムは、ユーザ側装置に電気的に接続する処理ユニットと、処理ユニットに電気的に接続する記憶ユニットと、を含む。
記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
処理ユニットは、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、第1の要約結果をユーザ側装置に送信して出力させ、分割されたトークンの数が所定の閾値以上でないと判断される場合において、対象のテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、第2の要約結果をユーザ側装置に送信して出力させるように構成される。
コンピュータープログラムは、コンピューターシステムにより実行されると、コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、前述の要約生成方法を実行させる。
【発明の効果】
【0006】
本発明に係る要約生成方法を実行することにより、要約生成システムは、対象のテキストデータの分割されたトークンの数が所定の閾値以上であると判断される(すなわち、対象のテキストデータのキャラクター数が比較的に多い)場合において、対象のテキストデータを、フロントエンド言語モデルに入力しプリ処理されたテキストデータを得てから、入力されたテキストデータをバックエンド言語モデルに入力して要約結果を得る。これによって、バックエンド言語モデルに入力キャラクター数の制限が設けられている場合において、本発明は、バックエンド言語モデルの応用範囲を広げ、汎用性のより高い要約生成機能を提供することができる。また、フロントエンド言語モデルは、生成的手法により、プリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法よりも、対象のテキストデータの内容をまとめることができ、バックエンド言語モデルに入力される情報密度の高いプリ処理されたテキストデータを生成することができる。
本発明の他の特徴及び利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になる。
【図面の簡単な説明】
【0007】
図1】本発明の一実施形態の要約生成システム及びそれに適用するユーザ側装置が例示的に示されるブロック図である。
図2】該実施形態の要約生成方法が例示的に示されるフローチャートである。
【発明を実施するための形態】
【0008】
本発明をより詳細に説明する前に、特に明記しない限り、本明細書における「電気的に接続する」という用語は、コンピューターハードウェア(例えば、電子システム、設備、装置、ユニット、部品など)の間の結合関係を説明するために使用され、複数のコンピューターハードウェアが、導体または半導体材料を介して物理的に接続する「有線電気接続」、または、無線通信技術(例えば、無線ネットワーク、ブルートゥース(登録商標)、電気誘導など)を利用して無線データ伝送を実現する「無線電気接続」を示す。一方、特に明記しない限り、本明細書における「電気的に接続する」という用語はさらに、複数のコンピューターハードウェアが、互いに直接に結合する「直接電気接続」、または、他のコンピューターハードウェアを介して互いに結合する「間接電気接続」を示す。
【0009】
本発明の要約生成システム1は、ネットワークを介して、複数のユーザ側装置5に電気的に接続するように構成される。ユーザ側装置5は、ユーザによって使用されるスマートフォン、タブレットコンピューター、ノート型コンピューター、またはデスクトップコンピューターである。説明の便宜上、以下では、図1に示されるように、1つのユーザ側装置5のみに電気的に接続する要約生成システム1について説明する。
【0010】
本実施形態において、要約生成システム1は、サーバ設備であり、要約生成システム1は、処理ユニット11と、処理ユニット11に電気的に接続する記憶ユニット12と、を含む。処理ユニット11は、ネットワークを介して、ユーザ側装置5に電気的に接続する。
【0011】
より具体的には、本実施形態において、処理ユニット11は、集積回路によって実現され、命令送受信及びデータ演算の機能を有するプロセッサであり、記憶ユニット12は、デジタルデータを格納するデータ記憶装置(例えば、ハードディスク、ハードディスクアレイ、または他の種類のコンピューター読み取り可能な記憶媒体)である。また、同様の実施形態において、処理ユニット11は、プロセッサを有する処理回路であってもよく、記憶ユニット12は、同一または異なる種類の複数の記憶装置の集合体であってもよい。さらに、他の実施形態において、要約生成システム1は、互いに電気的に接続する複数のサーバ設備であってもよく、この場合において、処理ユニット11は、複数のサーバ設備それぞれが有するプロセッサまたは処理回路の集合体であり、記憶ユニット12は、複数のサーバ設備それぞれが有するデータ記憶装置の集合体である。従って、要約生成システム1のコンピューターハードウェアの実現は、本実施形態に限定されない。
【0012】
記憶ユニット12には、音声処理モデルM0と、フロントエンド言語モデルLM1と、バックエンド言語モデルLM2と、を含む。
【0013】
音声処理モデルM0は、入力となる音声データに対して、出力となる音声データに対応するテキストデータを生成する。より具体的には、該音声データが単一の話者の音声を表す単一話者型、または複数の話者の音声を表す複数話者型に属するかを判断し、音声データが複数話者型に属すると判断される場合において、さらに、声紋認識に基づく話者分離を用いて、話者を認識し、音声データの音声を話者ごとに分離してから、音声テキスト化(Speech-to-Text)を利用して、該音声データが表す音声に基づいて、対応のテキストデータを生成する。従って、音声データが複数話者型に属する場合において、出力のテキストデータは、それぞれ複数の話者のうちの1つに対応し、対応の話者の一回の発話内容を示す複数の発話部分を含み、各話者の発話順序及び毎回の発話内容を示すことができる。また、音声処理モデルM0は、例えば、単一話者型及び複数話者型の録音ファイルである音声データをトレーニングデータとして、機械学習によって実現される。なお、音声処理モデルM0のトレーニングは、従来技術によって実現することができ、本発明のポイントではないため、詳しく説明しない。
【0014】
フロントエンド言語モデルLM1は、入力となるテキストデータに対して、自然言語処理を利用した生成的手法により、出力となるテキストデータを生成する。出力のテキストデータは、自然言語で表現され、キャラクター数が入力のテキストデータのキャラクター数より少ない入力のテキストデータの要約である。
【0015】
バックエンド言語モデルLM2は、入力となるテキストデータに対して、自然言語処理を利用した生成的手法により、出力となるテキストデータを生成する。出力のテキストデータは、自然言語で表現され、キャラクター数が入力のテキストデータのキャラクター数より少ない入力のテキストデータの要約である。
【0016】
フロントエンド言語モデルLM1及びバックエンド言語モデルLM2は、例えば、文章や会話の文字記録であるテキストデータをトレーニングデータとして、機械学習によって実現された事前にトレーニングされた言語モデル(Pre-trained language model)である。より具体的には、本実施形態において、フロントエンド言語モデルLM1は、BLOOMZであることが1つの好ましい例であるが、BLOOM、MT0、GPT-2、またはT5などの自然言語で表現されるテキストを生成することができる事前にトレーニングされた言語モデルであってもよい。一方、本実施形態において、バックエンド言語モデルLM2は、GPT-3であることが1つの好ましい例であるが、GPT-4、GPT-3.5、またはGPT-2などの自然言語で表現されるテキストを生成することができる事前にトレーニングされた言語モデルであってもよい。
【0017】
なお、本明細書における「生成的(Abstractive、「抽象的」とも呼ばれる)」とは、自然言語生成の技術を利用して、言語モデルが、入力のテキストデータに基づいて、出力のテキストデータを生成することである。また、本発明の属する技術分野における通常の知識を有す者が知る通り、「生成的」とは、言語モデルが、入力のテキストデータを理解してから、自然言語生成の技術を用いて、新しい文書の出力のテキストデータを生成するため、出力のテキストデータには、入力のテキストデータに含まれていない表現が含まれることがあり、例えば、入力のテキストデータに含まれていない単語や文が含まれたり、入力のテキストデータの内容をより簡潔に表現したり、入力のテキストデータの内容を箇条書きにしたりまたは表にまとめたりする。上記により、本明細書における「生成的」手法は、入力のテキストデータに含まれる単語や文を抽出してそれらを組み合わせて出力のテキストデータにする「抽出的(Extractive)」手法とは異なる。
【0018】
図2を参照すると、本実施形態の要約生成システム1によって実行される要約生成方法が示される。
【0019】
ステップS1において、処理ユニット11は、ユーザ側装置5から音声データを受信する。具体的には、例えば、ユーザ側装置5がユーザの操作に応じてネットワークを介して音声データを処理ユニット11に送信し、言い換えると、音声データを要約生成システム1にアップロードする。音声データは、例えば、演説やインタビューなどの動画の音声部分、または、一人喋りまたは複数人が参加する会議の録音ファイルでってもよい。
【0020】
ステップS2において、処理ユニット11は、受信した音声データを、音声処理モデルM0に入力し、対応のテキストデータを得る。より具体的には、処理ユニット11は、音声処理モデルM0を用いて、受信した音声データに対して、受信した音声データが単一話者型または複数話者型に属するかを判断してから、対応のテキストデータを生成する。テキストデータは、例えば、音声処理モデルM0に入力された録音ファイルに対応する逐語録である。
【0021】
ステップS3において、処理ユニット11は、ステップS2で得られたテキストデータ(以下、対象のテキストデータと呼称する)に対して、トークン分割(Tokenize)を実行し、複数の分割されたトークンを得る。本実施形態において、分割されたトークンはそれぞれ、対象のテキストデータから分割された1つのキャラクターまたは複数のキャラクターの組み合わせであり、すなわち、トークンである。また、処理ユニット11は、記憶ユニット12に予め格納されているトークン表に基づいて、トークン分割を実行する。例えば、本実施形態において、処理ユニット11は、トークン表に基づいて、「自然言語」のテキストデータを、「自然」、「言語」の2つのトークンに分割する。他の実施形態において、処理ユニット11は、「自然言語」のテキストデータを、「自」、「然」、「言」、「語」の4つのトークンに分割してもよく、本実施形態に限定されない。
【0022】
ステップS4において、処理ユニット11は、分割されたトークンの数が所定の閾値以上であるかどうかを判断する。所定の閾値は、例えば、2000に設定してもよいが、実際の状況やニーズに応じて自由に設定・調整することができ、一定の数値に限定されない。分割されたトークンの数が所定の数値以上であると判断される場合において、フローはステップS5へ進み、分割されたトークンの数が所定の数値より小さいと判断される場合において、フローはステップS8へ進む。
【0023】
分割されたトークンの数が所定の閾値以上であると判断される場合において、ステップS5において、分割されたトークンの数が所定の閾値以上であることは対象のテキストデータのキャラクター数が比較的に多いことを表すため、処理ユニット11は、対象のテキストデータとソフトプロンプトを、フロントエンド言語モデルLM1に入力し、出力のプリ処理されたテキストデータを得る。
【0024】
ソフトプロンプトは、言語モデル(例えば、フロントエンド言語モデルLM1であってもよいが、これに限定されない)が、プロンプトエンジニアリングのプロンプト学習の技術を利用して、事前に予測されたものである。プロンプト学習は、プレフィックスチューニング、離散プロンプトで初期化されたチューニング(Tuning initialized with discrete prompts)、またはハードプロンプト及びソフトプロンプトのハイブリッドチューニング(Hard-soft prompt hybrid tuning)であってもよいが、これらに限定されない。ソフトプロンプト(「連続プロンプト」とも呼ばれる)は、ベクトルで表現され、または他の非自然言語の数値で表現される。フロントエンド言語モデルLM1は、ソフトプロンプトにより、入力のテキストデータの意味を理解してから、それ自身のアテンション(Attention、注意機構)を用いて、入力のテキストデータの文脈と関連性の高い部分について(すなわち、関連性の低いまたは無関係の部分を無視する)、出力のテキストデータを生成する。アテンションは、フロントエンド言語モデルLM1が、トレーニング段階で、最急降下法を用いて実現された。また、アテンションは、従来技術であるため、本明細書では詳しく説明しない。
【0025】
なお、対象のテキストデータが対応する音声データが単一話者型に属する(対象のテキストデータが複数の発話部分を含まない)場合において、入力されたソフトプロンプトが単一話者型に対応する第1のソフトプロンプトであることによって、フロントエンド言語モデルLM1は単一話者型に応じて、プリ処理されたテキストデータを生成する。一方、対象のテキストデータが対応する音声データが複数話者型に属する(対象のテキストデータが複数の発話部分を含む)場合において、入力されたソフトプロンプトが複数話者型に対応すると共に第1のソフトプロンプトとは異なる第2のソフトプロンプトであることによって、フロントエンド言語モデルLM1は複数話者型に応じて、プリ処理されたテキストデータを生成する。なお、ソフトプロンプトは、ハードプロンプトと違って、入力のわずかな違いによって、言語モデルの出力が大きく異なる状況を効果的に避けることができる。言い換えると、ソフトプロンプトは、言語モデルの安定性と信頼性を向上させることができる。従って、単一話者型または複数話者型の音声データに対応するテキストデータに応じて、異なるソフトプロンプトを使用する方が、異なるハードプロンプトを使用するよりよい。
【0026】
フロントエンド言語モデルLM1は、対象のテキストデータの文脈と関連性の低い部分を無視して、関連性の高い部分について、プリ処理されたテキストデータを生成するため、対象のテキストデータのキャラクター数が比較的に多い場合において、対象のテキストデータを簡潔化する効果が得られる。また、フロントエンド言語モデルLM1は、生成的手法によってプリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法と比べて、本発明は、対象のテキストデータの内容をよりよくまとめることができ、情報密度の高いプリ処理されたテキストデータを生成するできる。
【0027】
ステップS6において、処理ユニット11は、プリ処理されたテキストデータとハードプロンプトとをバックエンド言語モデルLM2に入力して、出力の第1の要約結果を得る。ハードプロンプトは、予め設定され、要約生成システム1に格納されている。バックエンド言語モデルLM2は、ハードプロンプトにより、より流暢なテキストデータを生成し、フロントエンド言語モデルLM1により生成されたテキストデータより人間可読性がよい。
【0028】
ステップS7において、処理ユニット11は、第1の要約結果をユーザ側装置5に送信し、ユーザ側装置5に該第1の要約結果を表示して出力させる。
【0029】
分割されたトークンの数が所定の閾値以上でないと判断される場合において、ステップS8において、処理ユニット11は、対象のテキストデータとハードプロンプトをバックエンド言語モデルLM2に入力して、出力の第2の要約結果を得る。
【0030】
ステップS9において、処理ユニット11は、第2の要約結果をユーザ側装置5に送信し、ユーザ側装置5に該第2の要約結果を表示して出力させる。
【0031】
すなわち、対象のテキストデータのキャラクター数が比較的に少ない場合において、処理ユニット11は、フロントエンド言語モデルLM1を使用せず、バックエンド言語モデルLM2のみを使用する。
【0032】
なお、ステップS1からステップS9は、本発明の要約生成方法を例示的に示すものに過ぎないことを理解されたい。ステップS1からステップS9を組み合わせたり、分割したり、順序を変えたりしても、本実施形態と実質的に同一の方法で同一の効果を得ることができれば、本発明の要約生成方法の実施形態に該当し、本発明の権利範囲に含まれるべきである。従って、ステップS1からステップS9は、本発明を限定するものではない。
【0033】
本実施形態において、コンピュータープログラムは、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0を含む。本実施形態のコンピュータープログラムが、コンピューターシステム(例えば、1台のコンピューター装置またはサーバ装置、または複数台のコンピューター装置またはサーバ装置の組み合わせ)により実行されると、該コンピューターシステムが要約生成システム1となり、該コンピューターシステムに、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0を用いて、要約生成方法を実行させる。また、他の実施形態において、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0は、リモートサーバに格納されてもよい。コンピュータープログラムは、コンピューターシステムにより実行されると、該コンピューターシステムにネットワークを介して、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0にアクセスさせる。
【0034】
要約すると、本発明は、要約生成方法を実行することにより、要約生成システム1は、対象のテキストデータの分割されたトークンの数が所定の閾値以上であると判断される(すなわち、対象のテキストデータのキャラクター数が比較的に多い)場合において、対象のテキストデータをフロントエンド言語モデルLM1を用いて処理してから、バックエンド言語モデルLM2を用いて要約結果を得る。これによって、バックエンド言語モデルLM2に入力キャラクター数制限が設けられている場合において、本発明は、バックエンド言語モデルLM2の応用範囲を広げ、汎用性のより高い要約生成機能を提供することができる。また、フロントエンド言語モデルLM1は、生成的手法により、プリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法より、対象のテキストデータの内容をまとめることができ、バックエンド言語モデルLM2に入力される情報密度の高いプリ処理されたテキストデータを生成するできる。従って、本発明は、2つの生成的手法を利用する言語モデルを用いて、汎用性のより高い要約生成システム1を実現し、バックエンド言語モデルLM2の性能を向上し、本発明の目的を確実に実現する。
【0035】
上記の説明では、説明の目的のために、実施形態の完全な理解を提供するために多数の特定の詳細が述べられた。しかしながら、当業者であれば、一又はそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一実施形態」「一つの実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本明細書において、時には複数の変化例が一つの実施形態、図面、又はこれらの説明に組み込まれているが、これは本明細書を合理化させるためのもので、本発明の多面性が理解されることを目的としたものであり、また、一実施形態における一又はそれ以上の特徴あるいは特定の具体例は、適切な場合には、本発明の実施において、他の実施形態における一またはそれ以上の特徴あるいは特定の具体例と共に実施され得る。
【0036】
以上、本発明の実施形態および変化例を説明したが、本発明はこれらに限定されるものではなく、最も広い解釈の精神および範囲内に含まれる様々な構成として、全ての修飾および均等な構成を包含するものとする。
【符号の説明】
【0037】
1 要約生成システム
11 処理ユニット
12 記憶ユニット
M0 音声処理モデル
LM1 フロントエンド言語モデル
LM2 バックエンド言語モデル
5 ユーザ側装置
S1-S9 ステップ
【要約】
【課題】言語モデルの性能を向上し、汎用性のより高い要約生成機能を提供する。
【解決手段】要約生成方法は、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、要約結果を得て、要約結果をユーザ側装置に送信して出力させる。
【選択図】図2
図1
図2