(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162950
(43)【公開日】2024-11-21
(54)【発明の名称】やることをまとめる方法、やることをまとめるシステム、及びコンピュータープログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20241114BHJP
G10L 15/00 20130101ALI20241114BHJP
【FI】
G06F40/279
G10L15/00 200U
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023125439
(22)【出願日】2023-08-01
(31)【優先権主張番号】112117306
(32)【優先日】2023-05-10
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】522502026
【氏名又は名称】犀動智能科技股▲ふん▼有限公司
(74)【代理人】
【識別番号】100124039
【弁理士】
【氏名又は名称】立花 顕治
(74)【代理人】
【識別番号】100207217
【弁理士】
【氏名又は名称】樋口 智夫
(72)【発明者】
【氏名】馬 世英
(72)【発明者】
【氏名】李 坤霖
(57)【要約】
【課題】議論データからやることをまとめる方法を提供する。
【解決手段】やることをまとめる方法は、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上である場合において、フロントエンド言語モデルを用いて、対象のテキストデータに基づいて、自然言語で表現され、キャラクター数のより少ない、プリ処理されたテキストデータを生成してから、バックエンド言語モデルを用いて、プリ処理されたテキストデータから、プリ処理されたテキストデータが示すN個の意味を識別して、N個の意味に基づいて、N個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すN個の任務メッセージを含むまとめ結果を生成して出力し、Nは1以上の整数であるステップと、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
やることをまとめるシステムにより実行されるやることをまとめる方法であって、
該やることをまとめるシステムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、前記やることをまとめる方法には、
A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、
B)前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記フロントエンド言語モデルを用いて、前記対象のテキストデータに基づいて、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを生成してから、前記バックエンド言語モデルを用いて、前記プリ処理されたテキストデータから、前記プリ処理されたテキストデータが示すN個の意味を識別して、前記N個の意味に基づいて、前記N個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すN個の任務メッセージを含む第1のまとめ結果を生成して出力し、Nは1以上の整数であるステップと、
C)前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記バックエンド言語モデルを用いて、前記対象のテキストデータから、前記対象のテキストデータが示すM個の意味を識別して、前記M個の意味に基づいて、前記M個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すM個の任務メッセージを含む第2のまとめ結果を生成して出力し、Mは1以上の整数であるステップと、を含む、
やることをまとめる方法。
【請求項2】
ステップB)において、前記フロントエンド言語モデルを用いて、生成的手法により、前記プリ処理されたテキストデータを生成してから、前記バックエンド言語モデルを用いて、生成的手法により、前記第1のまとめ結果を生成し、
ステップC)において、前記バックエンド言語モデルを用いて、生成的手法により、前記第2のまとめ結果を生成する、請求項1に記載のやることをまとめる方法。
【請求項3】
ステップB)において、前記対象のテキストデータと言語モデルにより予測されたソフトプロンプトとを前記フロントエンド言語モデルに入力することにより、前記フロントエンド言語モデルを用いて、前記プリ処理されたテキストデータを生成する、請求項2に記載のやることをまとめる方法。
【請求項4】
ステップA)の前に、D)音声データを受信し、複数の話者の音声を表す前記音声データに基づいて、前記複数の話者のうちの1つにそれぞれ対応する複数の発話部分を含む前記対象のテキストデータを生成するステップ、をさらに含む、請求項1に記載のやることをまとめる方法。
【請求項5】
処理ユニットと、
前記処理ユニットに電気的に接続する記憶ユニットと、を含み、
前記記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、
前記処理ユニットは、
対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、
前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記フロントエンド言語モデルを用いて、前記対象のテキストデータに基づいて、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを生成してから、前記バックエンド言語モデルを用いて、前記プリ処理されたテキストデータから、前記プリ処理されたテキストデータが示すN個の意味を識別して、前記N個の意味に基づいて、前記N個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すN個の任務メッセージを含む第1のまとめ結果を生成して出力し、Nは1以上の整数であり、
前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記バックエンド言語モデルを用いて、前記対象のテキストデータから、前記対象のテキストデータが示すM個の意味を識別して、前記M個の意味に基づいて、前記M個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すM個の任務メッセージを含む第2のまとめ結果を生成して出力し、Mは1以上の整数であるように構成される、
やることをまとめるシステム。
【請求項6】
前記処理ユニットは、
前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記フロントエンド言語モデルを用いて、生成的手法により、前記プリ処理されたテキストデータを生成してから、前記バックエンド言語モデルを用いて、生成的手法により、前記第1のまとめ結果を生成し、
前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記バックエンド言語モデルを用いて、生成的手法により、前記第2のまとめ結果を生成するように構成される請求項5に記載のやることをまとめるシステム。
【請求項7】
前記処理ユニットは、前記対象のテキストデータと言語モデルにより予測されたソフトプロンプトとを前記フロントエンド言語モデルに入力することにより、前記フロントエンド言語モデルを用いて、前記プリ処理されたテキストデータを生成するように構成される、請求項6に記載のやることをまとめるシステム。
【請求項8】
前記処理ユニットは、音声データを受信し、複数の話者の音声を表す前記音声データに基づいて、前記複数の話者のうちの1つにそれぞれ対応する複数の発話部分を含む前記対象のテキストデータを生成するようにさらに構成される、請求項5に記載のやることをまとめるシステム。
【請求項9】
コンピューターシステムにより実行されると、前記コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、請求項1から4のいずれか一項に記載のやることをまとめる方法を実行させる、コンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、やることをまとめる方法に関し、特に、テキストデータに適用するやることをまとめる方法に関する。本発明はさらに、テキストデータに適用するやることをまとめるシステム、及びコンピュータープログラムに関する。
【背景技術】
【0002】
多くのチームにおいて、チームの共通目標を達成するため、メンバーたちが会議で話し合い、複数の段階的なタスク(やること)を立てる。しかしながら、実際には、会議が長引いて、話し合った結果のタスクの内容が複雑で細かく、タスクをまとめるために多くの時間が費やされる場合が多くある。従って、現代技術を使ってタスクのまとめを手助けすることは、本発明の解決しようとする課題である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】中国特許出願公開第111277589号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
従って、本発明の目的は、議論データからやることをまとめることができる、やることをまとめる方法、やることをまとめるシステム、及びコンピュータープログラムを提供することにある。
【課題を解決するための手段】
【0005】
やることをまとめる方法は、やることをまとめるシステムにより実行される。やることをまとめるシステムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
【0006】
やることをまとめる方法には、A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、B)分割されたトークンの数が所定の閾値以上であると判断される場合において、フロントエンド言語モデルを用いて、対象のテキストデータに基づいて、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを生成してから、バックエンド言語モデルを用いて、プリ処理されたテキストデータから、プリ処理されたテキストデータが示すN個の意味を識別して、N個の意味に基づいて、N個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すN個の任務メッセージを含む第1のまとめ結果を生成して出力し、Nは1以上の整数であるステップと、C)分割されたトークンの数が所定の閾値以上でないと判断される場合において、バックエンド言語モデルを用いて、対象のテキストデータから、対象のテキストデータが示すM個の意味を識別して、M個の意味に基づいて、M個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すM個の任務メッセージを含む第2のまとめ結果を生成して出力し、Mは1以上の整数であるステップと、を含む。
【0007】
やることをまとめるシステムは、処理ユニットと、処理ユニットに電気的に接続する記憶ユニットと、を含む。
【0008】
記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
【0009】
処理ユニットは、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、分割されたトークンの数が所定の閾値以上であると判断される場合において、フロントエンド言語モデルを用いて、対象のテキストデータに基づいて、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを生成してから、バックエンド言語モデルを用いて、プリ処理されたテキストデータから、プリ処理されたテキストデータが示すN個の意味を識別して、N個の意味に基づいて、N個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すN個の任務メッセージを含む第1のまとめ結果を生成して出力し、Nは1以上の整数であり、分割されたトークンの数が所定の閾値以上でないと判断される場合において、バックエンド言語モデルを用いて、対象のテキストデータから、対象のテキストデータが示すM個の意味を識別して、M個の意味に基づいて、M個の意味にそれぞれ対応し、自然言語で表現され、やることをそれぞれ示すM個の任務メッセージを含む第2のまとめ結果を生成して出力し、Mは1以上の整数であるように構成される。
【0010】
コンピュータープログラムは、コンピューターシステムにより実行されると、コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、前述のやることをまとめる方法を実行させる。
【発明の効果】
【0011】
本発明に係るやることをまとめる方法を実行することにより、やることをまとめるシステムは、対象のテキストデータの分割されたトークンの数が所定の閾値以上であると判断される(すなわち、対象のテキストデータのキャラクター数が比較的に多い)場合において、対象のテキストデータを、フロントエンド言語モデルに入力しプリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力してまとめる結果を得る。これによって、バックエンド言語モデルに入力キャラクター数の制限が設けられている場合において、本発明は、バックエンド言語モデルの応用範囲を広げ、汎用性のより高いやることをまとめる機能を提供することができる。本発明は、2つの言語モデルを用いて、汎用性のより高いやることをまとめるシステムを実現し、例えば会議などの複数人による議論の録音ファイルまたはその文字記録からやることをまとめることができる。
【0012】
本発明の他の特徴及び利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態のやることをまとめるシステム及びそれに適用するユーザ側装置が例示的に示されるブロック図である。
【
図2】該実施形態のやることをまとめる方法が例示的に示されるフローチャートである。
【発明を実施するための形態】
【0014】
本発明をより詳細に説明する前に、特に明記しない限り、本明細書における「電気的に接続する」という用語は、コンピューターハードウェア(例えば、電子システム、設備、装置、ユニット、部品など)の間の結合関係を説明するために使用され、複数のコンピューターハードウェアが、導体または半導体材料を介して物理的に接続する「有線電気接続」、または、無線通信技術(例えば、無線ネットワーク、ブルートゥース(登録商標)、電気誘導など)を利用して無線データ伝送を実現する「無線電気接続」を示す。一方、特に明記しない限り、本明細書における「電気的に接続する」という用語はさらに、複数のコンピューターハードウェアが、互いに直接に結合する「直接電気接続」、または、他のコンピューターハードウェアを介して互いに結合する「間接電気接続」を示す。
【0015】
図1を参照すると、本発明のやることをまとめるシステム1は、ユーザ側装置5に電気的に接続するように構成される。ユーザ側装置5は、例えば、ユーザによって使用されるスマートフォン、タブレットコンピューター、ノート型コンピューター、またはデスクトップコンピューターである。
【0016】
やることをまとめるシステム1は、ユーザ側装置5に電気的に接続する処理ユニット11と、処理ユニット11に電気的に接続する記憶ユニット12と、を含む。より具体的には、本実施形態においてやることをまとめるシステム1は、例えば、コンピュータ設備であるが、サーバ設備であってもよい。処理ユニット11は、集積回路によって実現され、命令送受信及びデータ演算の機能を有するプロセッサであり、記憶ユニット12は、デジタルデータを格納するデータ記憶装置(例えば、ハードディスク、ハードディスクアレイ、または他の種類のコンピューター読み取り可能な記憶媒体)である。また、同様の実施形態において、処理ユニット11は、プロセッサを有する処理回路であってもよく、記憶ユニット12は、同一または異なる種類の複数の記憶装置の集合体であってもよい。さらに、他の実施形態において、やることをまとめるシステム1は、互いに電気的に接続する複数のコンピューターまたはサーバ設備であってもよく、この場合において、処理ユニット11は、複数のコンピューターまたはサーバ設備それぞれが有するプロセッサまたは処理回路の集合体であり、記憶ユニット12は、複数のコンピューターまたはサーバ設備それぞれが有するデータ記憶装置の集合体である。従って、やることをまとめるシステム1のコンピューターハードウェアの実現は、本実施形態に限定されない。
【0017】
記憶ユニット12には、音声処理モデルM0と、フロントエンド言語モデルLM1と、バックエンド言語モデルLM2と、が格納されている。
【0018】
音声処理モデルM0は、例えば、複数の話者の音声を表す録音ファイルである音声データをトレーニングデータとして、機械学習によって実現される。これによって、音声処理モデルM0は、複数の話者の音声を表す音声データに対して、声紋認識に基づく話者分離を用いて、話者を認識し、音声データの音声を話者ごとに分離し、各話者の発話内容を区別することができる。また、音声処理モデルM0は、音声テキスト化(Speech-to-Text)も利用して、該音声データが表す音声に基づいて、対応のテキストデータを生成することもできる。なお、音声処理モデルM0のトレーニングは、従来技術によって実現することができ、本発明のポイントではないため、詳しく説明しない。
【0019】
フロントエンド言語モデルLM1及びバックエンド言語モデルLM2は、例えば、複数人の会話内容を示す文字記録であるテキストデータをトレーニングデータとして、機械学習によって実現された事前にトレーニングされた言語モデル(Pre-trained language model)である。これにより、入力されたテキストデータに対して、生成的手法により、自然言語処理を行うことができる。より具体的には、本実施形態において、フロントエンド言語モデルLM1は、BLOOMZであることが1つの好ましい例であるが、BLOOM、MT0、GPT-2、またはT5などの自然言語で表現されるテキストを生成することができる事前にトレーニングされた言語モデルであってもよい。一方、本実施形態において、バックエンド言語モデルLM2は、GPT-3であることが1つの好ましい例であるが、GPT-4、GPT-3.5、またはGPT-2などの自然言語で表現されるテキストを生成することができる事前にトレーニングされた言語モデルであってもよい。
【0020】
なお、本明細書における「生成的(Abstractive、「抽象的」とも呼ばれる)」とは、自然言語生成の技術を利用して、言語モデルが、入力のテキストデータに基づいて、出力のテキストデータを生成することである。また、本発明の属する技術分野における通常の知識を有す者が知る通り、「生成的」とは、言語モデルが、入力のテキストデータを理解してから、自然言語生成の技術を用いて、新しい文書の出力のテキストデータを生成するため、出力のテキストデータには、入力のテキストデータに含まれていない表現が含まれることがあり、例えば、入力のテキストデータに含まれていない単語や文が含まれたり、入力のテキストデータの内容をより簡潔に表現したり、入力のテキストデータの内容を箇条書きにしたりまたは表にまとめたりする。上記により、本明細書における「生成的」手法は、入力のテキストデータに含まれる単語や文を抽出してそれらを組み合わせて出力のテキストデータにする「抽出的(Extractive)」手法とは異なる。
【0021】
図2を参照すると、本実施形態のやることをまとめるシステム1により実行されるやることをまとめる方法が示される。
【0022】
ステップS1において、やることをまとめるシステム1の処理ユニット11は、複数の話者の音声を表す音声データを得てから、音声処理モデルM0を用いて、該音声データに基づいて、対応のテキストデータを生成する。
【0023】
より具体的には、処理ユニット11は、音声処理モデルM0を用いて、話者分離及び音声テキスト化の技術により、対応のテキストデータを生成する。これにより、対応のテキストデータは、複数の話者のうちの1つにそれぞれ対応する複数の発話部分を含み、発話部分は、各話者の発話順序及び毎回の発話内容を示すことができる。
【0024】
また、本実施形態において、音声データは、例えば、ユーザの手動操作によりユーザ側装置5から処理ユニット11に送信される。本実施形態において、音声データは、例えば、対面会議またはオンライン会議の録音ファイルである。他の実施形態において、処理ユニット11は外部記憶装置(例えば、USBフラッシュドライブ)に格納されている音声データを読み取り、または、音声入力装置(例えば、マイクロフォン)から音声データを受信してもよく、処理ユニット11の音声データを得る手段は本実施形態に限定されない。
【0025】
ステップS2において、処理ユニット11は、ステップ1で生成されたテキストデータ(以下、対象のテキストデータと称する)に対して、トークン分割を実行し、複数の分割されたトークンを得る。本実施形態において、分割されたトークンはそれぞれ、対象のテキストデータから分割された1つのキャラクターまたは複数のキャラクターの組み合わせであり、すなわち、トークンである。また、処理ユニット11は、記憶ユニット12に予め格納されているトークン表に基づいて、トークン分割を実行する。例えば、本実施形態において、処理ユニット11は、トークン表に基づいて、「自然言語」のテキストデータを、「自然」、「言語」の2つのトークンに分割する。他の実施形態において、処理ユニット11は、「自然言語」のテキストデータを、「自」、「然」、「言」、「語」の4つのトークンに分割してもよく、本実施形態に限定されない。
【0026】
ステップS3において、処理ユニット11は、分割されたトークンの数が所定の閾値以上であるかどうかを判断する。所定の閾値は、例えば、2000に設定されてもよいが、実際の状況やニーズに応じて自由に設定・調整することができ、一定の数値に限定されない。分割されたトークンの数が所定の数値以上であると判断される場合において、フローはステップS4へ進み、分割されたトークンの数が所定の数値より小さいと判断される場合において、フローはステップS7へ進む。
【0027】
分割されたトークンの数が所定の閾値以上であると判断される場合において、ステップS4において、分割されたトークンの数が所定の閾値以上であることは対象のテキストデータのキャラクター数が比較的に多いことを表すため、処理ユニット11は、対象のテキストデータをフロントエンド言語モデルLM1に入力し、フロントエンド言語モデルLM1を用いて、対象のテキストデータに基づいて、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ないプリ処理されたテキストデータを、生成的手法により生成する。プリ処理されたテキストデータは、対象のテキストデータの要約である。
【0028】
より具体的には、本実施形態において、処理ユニット11は、対象のテキストデータと「複数話者」のテキストデータに対応するソフトプロンプトとを、フロントエンド言語モデルLM1に入力する。ソフトプロンプト(「連続プロンプト」とも呼ばれる)は、言語モデル(例えば、フロントエンド言語モデルLM1であってもよいが、これに限定されない)が、プロンプトエンジニアリングのプロンプト学習の技術を利用して、事前に予測されたものである。プロンプト学習は、プレフィックスチューニング、離散プロンプトで初期化されたチューニング(Tuning initialized with discrete prompts)、またはハードプロンプト及びソフトプロンプトのハイブリッドチューニング(Hard-soft prompt hybrid tuning)であってもよいが、これらに限定されない。ソフトプロンプトは、ベクトルで表現され、または他の非自然言語の数値で表現される。フロントエンド言語モデルLM1は、ソフトプロンプトにより、「複数話者」の入力のテキストデータ(すなわち、対象のテキストデータ)の全体の意味を理解して1つまたは複数の議論テーマをまとめてから、それ自身のアテンション(Attention、注意機構)を用いて、入力のテキストデータの議論テーマと関連性の高い部分について(すなわち、関連性の低いまたは無関係の部分を無視する)、出力のテキストデータを生成する。アテンションは、フロントエンド言語モデルLM1が、トレーニング段階で、最急降下法を用いて実現される。なお、アテンションは、従来技術であるため、本明細書では詳しく説明しない。
【0029】
なお、ソフトプロンプトは、ハードプロンプト(「離散プロンプト」とも呼ばれる)と違って、入力のわずかな違いによって、言語モデルの出力が大きく異なる状況を効果的に避けることができる。言い換えると、ソフトプロンプトは、言語モデルの安定性と信頼性を向上させることができる。従って、フロントエンド言語モデルLM1に複数の話者を示すテキストデータの特性に応じて特定の要約生成策略を使用させる場合には、ソフトプロンプトを使用する方が、ハードプロンプトを使用するより効果がよい。複数の話者を示すテキストデータの特性に応じて特定の要約生成策略を使用させることは、例えば、「問答」を含むテキストデータに対して「問答」の応答に該当する部分のみについて要約を生成し、或いは、「意味矛盾の対話」を含むテキストデータに対して合意を得ている議論の結果(すなわち、拒否または反論されなかった発言)に該当する部分のみについて要約を生成する。なお、フロントエンド言語モデルLM1は、機械学習により、前述の特性を有するテキストデータに対して理解することができ(自然言語理解)、特定の要約生成策略を使って要約を生成することができる(自然言語生成)。また、フロントエンド言語モデルLM1のトレーニング及び具体的な動作は、本明細書のポイントではないため、詳しく説明しない。
【0030】
これにより、フロントエンド言語モデルLM1は、対象のテキストデータの文脈と関連性の低い部分を無視して、関連性の高い部分について、プリ処理されたテキストデータを生成できるため、対象のテキストデータのキャラクター数が比較的に多い場合において、対象のテキストデータを簡潔化する効果が得られる。また、フロントエンド言語モデルLM1は、生成的手法によってプリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法と比べて、本発明は、対象のテキストデータの内容をよりよくまとめることができ、情報密度の高いプリ処理されたテキストデータを生成するできる。
【0031】
ステップS5において、処理ユニット11は、プリ処理されたテキストデータをバックエンド言語モデルLM2に入力し、バックエンド言語モデルLM2を用いて、プリ処理されたテキストデータから、該プリ処理されたテキストデータが示すN個の意味を識別して、N個の意味に基づいて、第1のまとめ結果を生成的手法により生成する。Nは1以上の整数である。プリ処理されたテキストデータが示す意味は、例えば、「○○ことをする予定」や「○○ことをしなければならない」などの予定を表す文または命令的な文で表現され、バックエンド言語モデルLM2により識別される。一方、第1のまとめ結果は、例えば、テキストファイルとして実現され、さらに、第1のまとめ結果は、N個の意味にそれぞれ対応するN個の任務メッセージを含む。各任務メッセージは、自然言語で表現され、対応の意味が示すやることを示し、例えば、特定の資料を収集して特定の日までに提出して、特定の時間帯に特定のクライアントを訪問して、特定の作業の進捗状況を定期的に報告するべきことなどを示してもよいが、これらに限定されない。
【0032】
ステップS6において、処理ユニット11は、第1のまとめ結果を出力する。より具体的には、本実施形態において、処理ユニット11は、第1のまとめ結果をユーザ側装置5に送信して、ユーザ側装置5に第1のまとめ結果をユーザに対して表示させる。他の実施形態において、処理ユニット11は、第1のまとめ結果を処理ユニット11に電気的に接続する表示装置(図示せず)に送信して表示させ、或いは、第1のまとめ結果を予め設定された1つまたは複数の電子メールアドレスに送信してもよく、本実施形態に限定されない。
【0033】
分割されたトークンの数が所定の閾値より小さいと判断される場合において、ステップS7において、分割されたトークンの数が所定の閾値より小さいことは対象のテキストデータのキャラクター数が比較的に少ないことを表すため、処理ユニット11は、対象のテキストデータをバックエンド言語モデルLM2に入力し、バックエンド言語モデルLM2を用いて、対象のテキストデータから、対象のテキストデータが示すM個の意味を識別して、M個の意味に基づいて、第2のまとめ結果を生成的手法により生成する。Mは1以上の整数である。第2のまとめ結果は、第1のまとめ結果と同様に、例えば、テキストファイルとして実現され、さらに、第2のまとめ結果は、M個の意味にそれぞれ対応するM個の任務メッセージを含む。各任務メッセージは、自然言語で表現され、対応の意味が示すやることを示し、例えば、資料収集、クライアント訪問、進捗報告などを示してもよいが、これらに限定されない。
【0034】
ステップS8において、処理ユニット11は、第2のまとめ結果を出力する。より具体的には、本実施形態において、ステップS6と同様に、処理ユニット11は、第2のまとめ結果をユーザ側装置5に送信して、ユーザ側装置5に第2のまとめ結果をユーザに対して表示させる。他の実施形態において、ステップS6と同様に、処理ユニット11は、第2のまとめ結果を処理ユニット11に電気的に接続する表示装置に送信して表示させ、或いは、第2のまとめ結果を予め設定された1つまたは複数の電子メールアドレスに送信してもよく、本実施形態に限定されない。
【0035】
なお、
図2及びステップS1からステップS8は、本発明のやることをまとめる方法を例示的に示すものに過ぎないことを理解されたい。ステップS1からステップS8を組み合わせたり、分割したり、順序を変えたりしても、本実施形態と実質的に同一の方法で同一の効果を得ることができれば、本発明のやることをまとめる方法の実施形態に該当し、本発明の権利範囲に含まれるべきである。従って、
図2及び上記ステップS1からステップS8は、本発明を限定するものではない。
【0036】
本実施形態において、コンピュータープログラムは、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0を含む。本実施形態のコンピュータープログラムが、コンピューターシステム(例えば、1台のコンピューター装置またはサーバ装置、または複数台のコンピューター装置またはサーバ装置の組み合わせ)により実行されると、該コンピューターシステムが前述のやることをまとめるシステム1となり、該コンピューターシステムに、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0を用いて、やることをまとめる方法を実行させる。また、他の実施形態において、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0は、リモートサーバに格納されてもよい。コンピュータープログラムは、コンピューターシステムにより実行されると、該コンピューターシステムにネットワークを介して、フロントエンド言語モデルLM1、バックエンド言語モデルLM2、及び音声処理モデルM0にアクセスさせる。
【0037】
本発明において、やることをまとめる方法を実行することにより、やることをまとめるシステム1は、対象のテキストデータの分割されたトークンの数が所定の閾値以上であると判断される(すなわち、対象のテキストデータのキャラクター数が比較的に多い)場合において、フロントエンド言語モデルLM1を用いて対象のテキストデータに基づいて、キャラクター数のより少ないプリ処理されたテキストデータを得てから、バックエンド言語モデルLM2を用いてプリ処理されたテキストデータから第1のまとめ結果を生成する。これによって、バックエンド言語モデルLM2に入力キャラクター数制限が設けられている場合において、本発明は、バックエンド言語モデルLM2の応用範囲を広げ、汎用性のより高いやることをまとめる機能を提供することができる。また、フロントエンド言語モデルLM1は、生成的手法により、プリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法より、対象のテキストデータの内容をまとめることができ、バックエンド言語モデルLM2に入力される情報密度の高いプリ処理されたテキストデータを生成するできる。従って、本発明は、2つの生成的手法を利用する言語モデルを用いて、汎用性のより高いやることをまとめるシステム1を実現し、例えば会議などの議論の録音ファイルまたはその文字記録からやることをまとめることができ、本発明の目的を確実に実現する。
【0038】
上記の説明では、説明の目的のために、実施形態の完全な理解を提供するために多数の特定の詳細が述べられた。しかしながら、当業者であれば、一又はそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一実施形態」「一つの実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本明細書において、時には複数の変化例が一つの実施形態、図面、又はこれらの説明に組み込まれているが、これは本明細書を合理化させるためのもので、本発明の多面性が理解されることを目的としたものであり、また、一実施形態における一又はそれ以上の特徴あるいは特定の具体例は、適切な場合には、本発明の実施において、他の実施形態における一またはそれ以上の特徴あるいは特定の具体例と共に実施され得る。
【0039】
以上、本発明の実施形態および変化例を説明したが、本発明はこれらに限定されるものではなく、最も広い解釈の精神および範囲内に含まれる様々な構成として、全ての修飾および均等な構成を包含するものとする。
【符号の説明】
【0040】
1 やることをまとめるシステム
11 処理ユニット
12 記憶ユニット
M0 音声処理モデル
LM1 フロントエンド言語モデル
LM2 バックエンド言語モデル
5 ユーザ側装置
S1-S8 ステップ