IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

特開2023-93346テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体
<>
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図1
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図2
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図3
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図4
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図5
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図6
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図7
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図8
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図9
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図10
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図11
  • 特開-テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023093346
(43)【公開日】2023-07-04
(54)【発明の名称】テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06F 40/279 20200101AFI20230627BHJP
【FI】
G06F40/279
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022191690
(22)【出願日】2022-11-30
(31)【優先権主張番号】202111579819.4
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100158528
【弁理士】
【氏名又は名称】守屋 芳隆
(74)【代理人】
【識別番号】100137903
【弁理士】
【氏名又は名称】菅野 亨
(72)【発明者】
【氏名】グオ シーホン
(72)【発明者】
【氏名】中村 一成
(72)【発明者】
【氏名】リ アンシン
(72)【発明者】
【氏名】藤本 拓
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA21
(57)【要約】
【課題】圧縮結果のテキスト流暢性、冗長性などの問題を回避する、テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体を提供する。
【解決手段】テキスト処理方法は、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む。
【選択図】図4
【特許請求の範囲】
【請求項1】
複数の入力語句を受信するステップと、
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む、
ことを特徴とするテキスト処理方法。
【請求項2】
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップは、
前記複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断するステップと、
前記入力語句の長さが第1の所定の長さ以下である場合、前記入力語句を分割せず、分割されていない入力語句をそのまま前記分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップ、又は
前記入力語句の長さが前記第1の所定の長さより長い場合、前記入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、を含む、
ことを特徴とする請求項1に記載のテキスト処理方法。
【請求項3】
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、
前記複数の入力語句の配列順序である第1の順序に基づいて、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の相対距離を取得するステップと、
前記相対距離と前記第1の相関性とに基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む、
ことを特徴とする請求項2に記載のテキスト処理方法。
【請求項4】
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、
予め指定された第1の特定単語又は第1の特定文と、前記第1の相関性とに基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップを含む、
ことを特徴とする請求項1に記載のテキスト処理方法。
【請求項5】
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、
第1の所定の圧縮長さと前記第1の相関性とに基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップを含む、
ことを特徴とする請求項1に記載のテキスト処理方法。
【請求項6】
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、
トレーニング済みの第1の分割モデルによって、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、
前記第1の分割モデルは、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの複数の読点又はカンマ又はセミコロンのうち、第1の読点又はカンマ又はセミコロンの前に含まれるすべての単語間の組み合わせ確率と、前記第1の読点又はカンマ又はセミコロンの後に含まれるすべての単語間の組み合わせ確率とを算出して、前記各入力語句を異なる2つの部分に分割し、
前記入力語句に複数の読点又はカンマ又はセミコロンが含まれていない場合、前記第1の分割モデルは、入力語句に含まれるすべての単語間の組み合わせ確率を算出して、前記各入力語句を異なる2つの部分に分割する、
ことを特徴とする請求項1から4のいずれかに記載のテキスト処理方法。
【請求項7】
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、
トレーニング済みの第2の分割モデルによって、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、
前記第2の分割モデルは、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの第1の所定の分割位置の前に含まれるすべての単語間の組み合わせ確率と、前記第1の所定の分割位置の後に含まれるすべての単語間の組み合わせ確率とを算出して、前記各入力語句を異なる2つの部分に分割する、
ことを特徴とする請求項1から4のいずれかに記載のテキスト処理方法。
【請求項8】
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、
トレーニング済みの第3の分割モデルによって、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、
前記第3の分割モデルは、完全な新規語句につなぎ合わせた正のサンプルデータ及び負のサンプルデータを使用してトレーニングして得られたもので、前記正のサンプルデータ及び前記負のサンプルデータは、それぞれ1つ又は複数の完全な語句を含む、
ことを特徴とする請求項1から4のいずれかに記載のテキスト処理方法。
【請求項9】
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれに対する総文字数、名詞が占める中位、句読点、ランダム分割のうちの1つに基づいて、前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含む、
ことを特徴とする請求項1から4のいずれかに記載のテキスト処理方法。
【請求項10】
複数の入力語句を受信する受信部と、
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する分割部と、
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する選択部と、を含む、
ことを特徴とするテキスト処理装置。
【請求項11】
前記分割部は、さらに、
前記複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断し、
前記入力語句の長さが第1の所定の長さ以下である場合、前記入力語句を分割せず、分割されていない入力語句をそのまま前記分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得し、又は
前記入力語句の長さが前記第1の所定の長さより長い場合、前記入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する、
ことを特徴とする請求項10に記載のテキスト処理装置。
【請求項12】
前記選択部は、
前記複数の入力語句の配列順序である第1の順序に基づいて、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の相対距離を取得し、
前記相対距離と前記第1の相関性とに基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する、
ことを特徴とする請求項11に記載のテキスト処理装置。
【請求項13】
前記選択部は、
予め指定された第1の特定単語又は第1の特定文と、前記第1の相関性とに基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する、
ことを特徴とする請求項10に記載のテキスト処理装置。
【請求項14】
プロセッサと、
コンピュータ読み取り可能な命令を記憶するメモリと、を含み、
前記コンピュータ読み取り可能な命令が前記プロセッサによって実行される場合、テキスト処理方法が実行され、前記テキスト処理方法は、
複数の入力語句を受信するステップと、
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む、
ことを特徴とするテキスト処理デバイス。
【請求項15】
コンピュータ読み取り可能なプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
前記プログラムによりコンピュータにテキスト処理方法が実行され、前記テキスト処理方法は、
複数の入力語句を受信するステップと、
前記複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、
前記複数の選択対象語句間の第1の相関性に基づいて、前記複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキスト処理の分野に関し、具体的には、テキスト処理装置、テキスト処理方法、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
近年、コンピュータ処理技術の急速な発展に伴い、テキスト中の重要な情報をより精練かつ迅速にキャプチャすることが可能になっている。文の圧縮は、冗長な文を洗練された簡潔な文に変換する方法である。当該技術は、主題の自動的な取得、要約の生成、質疑応答システムなどの技術に広く用いられている。
【0003】
既存の文圧縮方法は、文に関する文法ツリーを構築し、文法ツリーの分岐全体を削減することで圧縮文を生成するか、又はニューラルネットワークに基づく圧縮モデルをトレーニングすることで文を圧縮する方法がある。比較的長いテキストに対して、圧縮時に直接的に圧縮すると、流暢性が悪くなる、テキストが冗長的になる、などの問題が発生する可能性がある。したがって、比較的長いテキストについては、初期圧縮を行ってストーリーラインを取り出してから、そのストーリーラインを圧縮することで、流暢性、冗長性などの問題を回避することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
以上の問題に鑑みて、本開示は、テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含むテキスト処理方法を提供する。
【0006】
一例では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップは、複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断するステップと、入力語句の長さが第1の所定の長さ以下である場合、入力語句を分割せず、分割されていない入力語句をそのまま分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップ、又は、入力語句の長さが第1の所定の長さより長い場合、入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、を含む。
【0007】
一例では、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、第1の順序に基づいて、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の相対距離を取得するステップであって、第1の順序は、複数の入力語句の配列順序であるステップと、相対距離と第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含む。
【0008】
一例では、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、予め指定された第1の特定単語又は第1の特定文と、第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップを含む。
【0009】
一例では、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、第1の所定の圧縮長さと第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップを含む。
【0010】
一例では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、トレーニング済みの第1の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、第1の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの複数の読点又はカンマ又はセミコロンのうち、第1の読点又はカンマ又はセミコロンの前に含まれるすべての単語間の組み合わせ確率と、第1の読点又はカンマ又はセミコロンの後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割し、入力語句に複数の読点又はカンマ又はセミコロンが含まれていない場合、第1の分割モデルは、入力語句に含まれるすべての単語間の組み合わせ確率を算出することによって、各入力語句を異なる2つの部分に分割する。
【0011】
一例では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、トレーニング済みの第2の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、第2の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの第1の所定の分割位置の前に含まれるすべての単語間の組み合わせ確率と、第1の所定の分割位置の後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割する。
【0012】
一例では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、トレーニング済みの第3の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含み、第3の分割モデルは、完全な新規語句につなぎ合わせた正のサンプルデータ及び負のサンプルデータを使用してトレーニングして得られたものであり、正のサンプルデータ及び負のサンプルデータは、それぞれ1つ又は複数の完全な語句を含む。
【0013】
一例では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれに対する総文字数、名詞が占める中位(中央位置、Median)、句読点、ランダム分割のうちの1つに基づいて、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割するステップを含む。
【0014】
本開示の一態様によれば、複数の入力語句を受信する受信部と、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する分割部と、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する選択部と、を含むテキスト処理装置を提供する。
【0015】
一例では、分割部は、さらに、複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断し、入力語句の長さが第1の所定の長さ以下である場合、入力語句を分割せず、分割されていない入力語句をそのまま分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得し、又は、入力語句の長さが第1の所定の長さより長い場合、入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する。
【0016】
一例では、選択部は、複数の入力語句の配列順序である第1の順序に基づいて、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の相対距離を取得し、相対距離と第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0017】
一例では、選択部は、予め指定された第1の特定単語又は第1の特定文と、第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0018】
一例では、選択部は、予め指定された第1の特定単語又は第1の特定文と、第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0019】
一例では、選択部は、第1の所定の圧縮長さと第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0020】
一例では、分割部は、トレーニング済みの第1の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割し、第1の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの複数の読点又はカンマ又はセミコロンのうち、第1の読点又はカンマ又はセミコロンの前に含まれるすべての単語間の組み合わせ確率と、第1の読点又はカンマ又はセミコロンの後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割し、入力語句に複数の読点又はカンマ又はセミコロンが含まれていない場合、第1の分割モデルは、入力語句に含まれるすべての単語間の組み合わせ確率を算出して、各入力語句を異なる2つの部分に分割する。
【0021】
一例では、分割部は、トレーニング済みの第2の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割し、第2の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの第1の所定の分割位置の前に含まれるすべての単語間の組み合わせ確率と、第1の所定の分割位置の後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割する。
【0022】
一例では、分割部は、トレーニング済みの第3の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割し、第3の分割モデルは、完全な新規語句につなぎ合わせた正のサンプルデータ及び負のサンプルデータを使用してトレーニングして得られたもので、正のサンプルデータ及び負のサンプルデータは、それぞれ1つ又は複数の完全な語句を含む。
【0023】
一例では、分割部は、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれに対する総文字数、名詞が占める中位(中央位置、Median)、句読点、ランダム分割のうちの1つに基づいて、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割する。
【0024】
本開示の一態様によれば、テキスト処理デバイスを提供し、プロセッサと、コンピュータ読み取り可能な命令を記憶するメモリと、を含み、コンピュータ読み取り可能な命令がプロセッサによって実行される場合、テキスト処理方法が実行され、テキスト処理方法は、複数の入力語句を受信し、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得し、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0025】
本開示の一態様によれば、コンピュータ読み取り可能なプログラムを記憶するコンピュータ読み取り可能な記憶媒体を提供し、プログラムによりコンピュータにテキスト処理方法が実行され、テキスト処理方法は、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得し、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0026】
本開示から提供するテキスト処理方法により、まず、テキストにおける長文に対して分割し、次に、分割後の文間の相関性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0027】
本開示の上記及び他の目的、特徴、及び利点は、図面を組み合わせて本開示の実施例をより詳細に説明することにより、より明らかになる。図面は、本開示の実施例のさらなる理解を提供するために使用され、本開示の説明の一部を構成し、本開示の実施例とともに本開示を説明するために使用され、本開示の制限を構成するものではない。図面では、同じ参照符号は、通常、同じ部品又はステップを表す。
【図面の簡単な説明】
【0028】
図1】本開示の実施例によるテキスト処理方法のフローチャートを示す。
図2】本開示の実施例による語句を分割する方法のフローチャートを示す。
図3】本開示の実施例による圧縮結果を取得する方法のフローチャートを示す。
図4】本開示の実施例によるテキスト処理方法のフローチャートを示す。
図5】本開示の実施例による第1の類似度モデルをトレーニングする概略図を示す。
図6】本開示の実施例による圧縮結果を取得する方法のフローチャートを示す。
図7】本開示の実施例によるテキスト処理方法のフローチャートを示す。
図8】本開示の実施例によるテキスト処理装置の概略図を示す。
図9】本開示の実施例によるテキスト処理装置の概略図を示す。
図10】本開示の実施例によるテキスト処理装置の概略図を示す。
図11】本開示の実施例によるテキスト処理デバイスの概略図を示す。
図12】本開示の実施例に係る電子機器のハードウェア構造の一例の図である。
【発明を実施するための形態】
【0029】
以下、本開示の実施例における図面を組み合わせて、本開示の実施例における技術的解決手段を明確かつ完全に説明する。明らかに、説明された実施例は、すべての実施例ではなく、本開示の一部の実施例にすぎない。本開示における実施例に基づいて、当業者が創造的な労力を必要とせずに取得した他のすべての実施例は、すべて本開示の保護の範囲に属する。
【0030】
本願では、本願の実施形態による方法のステップを説明するためのフローチャートが使用される。前又は後のステップが必ずしも順序に従って正確に行われるとは限らないことを理解すべきである。逆に、様々なステップは、順序を逆にして、又は同時に処理することができる。また、他の操作をこれらのプロセスに追加したり、又は1ステップ又は数ステップを除去したりすることもできる。
【0031】
本開示テキスト処理方法を提供し、比較的長いテキストについて、まず、圧縮して圧縮結果(すなわちストーリーライン)を抽出し、その後、当該圧縮結果をなおさら圧縮して最終的な圧縮結果を取得して、比較的長いテキストを直接に最終的な圧縮結果に圧縮することによる流暢性、冗長性などの問題を回避することができる。
【0032】
図1は本開示の実施例によるテキスト処理方法100のフローチャートを示す。例えば、比較的長いテキストについて、まず、テキストにおける長文を分割し、その後、分割された文間の相関性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果としてもよく、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得してもよい。
【0033】
例えば、要約を抽出するには、比較的長いテキストを圧縮してストーリーラインを圧縮結果として抽出することができ、その後、継続的に当該圧縮結果に対して要約を抽出して所望の要約を取得してもよく、又は当該圧縮結果をそのまま所望の要約としてもよい。本開示のテキスト処理方法により、テキスト流暢性、冗長性などの問題を回避することができる。
【0034】
図1に示すテキスト処理方法100は、コンピュータなどによって自動的に完了できる。例えば、当該方法は、テキストを圧縮することができる。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらを任意に組み合わせる方式で実現することができ、例えば、携帯電話、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバなどの機器におけるプロセッサによってロードされて実行される。
【0035】
図1に示すように、当該テキスト処理方法100は、以下のステップS101からS103を含む。テキスト処理方法100は、テキストに含まれるストーリーラインを圧縮結果として抽出することができる。
【0036】
ステップS101では、複数の入力語句を受信する。
【0037】
ステップS102では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する。
【0038】
ステップS103では、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0039】
例えば、ステップS101について、複数の入力語句は、1つのテキストに含まれる全部の入力語句、又は要約を抽出するために選択された一部の入力語句であってもよい。
【0040】
次に、図2を参照して、ステップS102を説明する。図2は、本開示の実施例による語句を分割する方法200のフローチャートを示す。
【0041】
図2に示すように、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップは、複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断するステップと(S201)、入力語句の長さが第1の所定の長さ以下である場合、入力語句を分割せず、分割されていない入力語句をそのまま分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップ(S203)と、又は入力語句の長さが第1の所定の長さより長い場合、入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップ(S202)と、を含むことができる。なお、第1の所定の長さはニーズに応じて予め設定することができ、ここでは制限しない。
【0042】
なお、ステップS202及びS203は、並列処理してもよいし(例えばS202及びS203を同時に処理する)、直列処理してもよいが(例えば、まずS202を処理し、次にS203を処理するか、又は、まずS203を処理し、次に、S202を処理することができる)、ここでは制限しない。
【0043】
以下では、6つの実施形態で複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割することを説明する。
【0044】
第1の実施形態では、各入力語句の総文字数に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。
【0045】
【表1】
【0046】
第2の実施形態では、各入力語句のうち名詞が占める中位に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。
【0047】
【表2】
【0048】
第3の実施形態では、句読点に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。例えば、入力語句に含まれる中国語読点又は中国語カンマ(comma)又はセミコロン(semicolon)に基づいて入力語句を異なる2つの部分に分割することができる。
【0049】
一例として、入力語句に1つの中国語読点又は中国語カンマ又はセミコロンのみ含まれている場合、読点又はカンマ又はセミコロンの前の語句を当該入力語句の上部のサブ文とし、読点又はカンマ又はセミコロンの後の語句を当該入力語句の下部のサブ文としてもよい。別の例として、入力語句に複数の読点又はカンマ又はセミコロンが含まれている場合、中位に位置する読点又はカンマ又はセミコロンを分割線とし、中位に位置する読点又はカンマ又はセミコロンの前の語句を当該入力語句の上部のサブ文とし、中位に位置する読点又はカンマ又はセミコロンの後の語句を当該入力語句の下部のサブ文としてもよい。
【0050】
第4の実施形態では、トレーニング済みの第1の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。第1の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの複数の読点又はカンマ又はセミコロンのうち、第1の読点又はカンマ又はセミコロンの前に含まれるすべての単語間の組み合わせ確率と、第1の読点又はカンマ又はセミコロンの後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割することができる。また、入力語句に複数の読点又はカンマ又はセミコロンが含まれていない場合、第1の分割モデルは、入力語句に含まれるすべての単語間の組み合わせ確率を算出することによって各入力語句を異なる2つの部分に分割することができる。
【0051】
【表3】
【0052】
第5の実施形態では、トレーニング済みの第2の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。第2の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの第1の所定の分割位置の前に含まれるすべての単語間の組み合わせ確率と、第1の所定の分割位置の後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割することができる。
【0053】
【表4】
【0054】
第6の実施形態では、トレーニング済みの第3の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割することができる。当該第3の分割モデルは、1つの完全な新規語句の正のサンプルデータを負のサンプルデータにつなぎ合わせてトレーニングして取得することができ、正のサンプルデータ及び負のサンプルデータは、それぞれ1つ又は複数の完全な語句を含む。
【0055】
【表5】
【0056】
以上、6つの実施形態について、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれをどのように異なる2つの部分に分割するかを説明した。なお、本開示は、上記の6つの実施形態のうちの1つの又はその組み合わせを使用して入力語句を分割することができる。上記の6つの実施形態は単なる例として説明したものであり、本開示は、既存(例えば、ランダム分割)又は将来の他の分割方式を使用して入力語句を分割することもでき、ここでは制限しない。
【0057】
図1に戻り、ステップS103について、上部(上半部)のサブ文と下部(下半部)のサブ文とする複数の選択対象語句を取得してから、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0058】
例えば、複数の選択対象語句間の第1の相関性は、上記の第1の分割モデルを使用して各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率を算出することによって体現することができ、その組み合わせ確率が高いほど、第1の相関性が強くなる。
【0059】
以下では、4つの実施形態で複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することを説明する。
【0060】
第1の実施形態では、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率のうち、確率の高い組み合わせに対応する選択対象語句を直接選択して圧縮結果を構成することができる。
【0061】
本開示では、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の第1の相関性が強いほど、この2つの入力語句がリンク文である確率が高く、すなわちストーリーラインを構成する確率が高くなるとみなす。
【0062】
表1は、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率(第1の相関性)を示す。表2は、1つ又は複数の選択対象語句で構成される候補経路の経路確率を示す。
【0063】
【表6】
表1に示すように、垂直の第1の列は、各入力語句の下部のサブ文を表し、水平の第1の行は、各入力語句の上部のサブ文を表す。表1から分かるように、入力語句が第1の順序(1)(2)(3)(4)(5)で配列された5つの文である場合、第(1)の入力語句の下部のサブ文とその後に配列された第(2)の入力語句の上部のサブ文との間の組み合わせ確率は0.08であり、第(1)の入力語句の下部のサブ文とその後に配列された第(3)の入力語句の上部のサブ文との間の組み合わせ確率は0.2であり、第(2)の入力語句の下部のサブ文とその後に配列された第(4)の入力語句の上部のサブ文との間の組み合わせ確率は0.4であり、このように類推する。本開示では各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率のみを取得する必要があるため、各入力語句の下部のサブ文とその前に配列された他の入力語句の上部のサブ文と、及びそれ自体間の組み合わせ確率は、表においてグレースケールで充填される。
【0064】
【表7】
表2に示すように、各候補経路をトラバーサルして、各候補経路の経路確率を取得することができる。表1から分かるように、候補経路(1)(3)(5)を選択する経路確率は0.004であり(すなわち、第(1)の入力語句の下部のサブ文と第(3)の入力語句の上部のサブ文の組み合わせ確率×第(3)の入力語句の下部のサブ文と第(5)の入力語句の上部のサブ文の組み合わせ確率=0.004)、それに対応する複数の選択対象語句が(1)(3)(5)=(第(1)の入力語句の下部のサブ文、第(3)の入力語句の上部のサブ文)+(第(3)の入力語句の下部のサブ文、第(5)の入力語句の上部のサブ文)であり、候補経路(1)(2)(4)(5)を選択する経路確率は0.0224であり(すなわち、第(1)の入力語句の下部のサブ文と第(2)の入力語句の上部のサブ文の組み合わせ確率×第(2)の入力語句の下部のサブ文と第(4)の入力語句の上部のサブ文の組み合わせ確率×第(4)の入力語句の下部のサブ文と第(5)の入力語句の上部のサブ文の組み合わせ確率=0.0224)、それに対応する複数の選択対象語句が(1)(2)(4)(5)=(第(1)の入力語句の下部のサブ文、第(2)の入力語句の上部のサブ文)+(第(2)の入力語句の下部のサブ文、第(4)の入力語句の上部のサブ文)+(第(4)の入力語句の下部のサブ文、第(5)の入力語句の上部のサブ文)であり、このように類推する。
【0065】
例えば、表2から経路確率の最も高い候補経路に対応する複数の選択対象語句を圧縮結果として選択することができる。
【0066】
また、図1のステップS202で入力語句を分割しない場合について、分割されていない入力語句をそのまま分割されていない入力語句自体の上部のサブ文と下部のサブ文とするため、複数の選択対象語句を選択してからに選択された選択対象語句に対して冗長性検査を行って、重複する語句を除去することができる。例えば、入力語句(3)が分割されていない場合、候補経路(1)(3)(5)に対応する複数の選択対象語句が(1)(3)(5)=(第(1)の入力語句の下部のサブ文、第(3)の入力語句)+(第(3)の入力語句、第(5)の入力語句の上部のサブ文)であり、この時2つの「第(3)の入力語句」が存在し、当該候補経路(1)(3)(5)に対応する複数の選択対象語句に対して冗長性検査を行って、重複する語句を除去して、複数の選択対象語句(例えば、(第(1)の入力語句の下部のサブ文、第(3)の入力語句)+(第(5)の入力語句の上部のサブ文))を圧縮結果として取得することができる。
【0067】
第2の実施形態では、図3によって説明された方法に基づいて圧縮結果を取得することができる。図3は本開示の実施例による圧縮結果を取得する方法300のフローチャートを示す。
【0068】
図3に示すように、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップは、第1の順序に基づいて、各入力語句の下部のサブ文と、その後に配列された他の入力語句の上部のサブ文との間の相対距離を取得するステップであって、第1の順序は、複数の入力語句の配列順序であるステップと(S301)、相対距離と第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する(S302)ステップと、を含むことができる。
【0069】
例えば、i番目の入力語句の下部のサブ文とその後に配列されたj番目の入力語句の上部のサブ文との間の相対距離がHi,jであると仮定すると、上記の第1の分割モデルを使用して取得されたi番目の入力語句の下部のサブ文とその後に配列されたj番目の入力語句の上部のサブ文との間の第1の相関性がCi,jである場合、相対距離Hi,jと第1の相関性Ci,jに基づく第1の重み付け相関性Wi,jは、以下に表すことができ、
【数1】
次に、当該第1の重み付け相関性Wi,jを使用して候補経路の経路確率を取得し、経路確率の高い候補経路に対応する1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0070】
第3の実施形態では、予め指定された第1の特定単語又は第1の特定文及び第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0071】
例えば、i番目の入力語句の下部のサブ文又はその後に配列されたj番目の入力語句の上部のサブ文が第1の特定単語又は第1の特定文を含む場合、重みTi,j(Ti,j>1)に付与されると、予め指定された第1の特定単語又は第1の特定文と第1の相関性Ci,jに基づく第2の重み付け相関性Ei,jは、以下に表すことができ、
【数2】
表3は第1の特定単語又は第1の特定文に基づく各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率を示す。
【0072】
【表8】
表3に示すように、第(3)の入力語句の上部のサブ文が第1の特定単語又は第1の特定文を含む場合、重み2が付与されると、第(1)の入力語句の下部のサブ文とその後に配列された第(3)の入力語句の上部のサブ文との間の組み合わせ確率が0.2×2であり、第(2)の入力語句の下部のサブ文とその後に配列された第(3)の入力語句の上部のサブ文との間の組み合わせ確率が0.03×2である。
【0073】
次に、当該第2の重み付け相関性Ei,jを使用して候補経路の経路確率を取得し、経路確率の高い候補経路に対応する1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0074】
第4の実施形態では、第1の所定の圧縮長さ及び第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0075】
例えば、所望の最終圧縮結果を表す第1の所定の圧縮長さがxであり、現在の候補経路のテキスト長さがx2である場合、第3の重み付け相関性F(圧縮長さペナルティとも呼ばれる)は、以下に表すことができ、
【数3】
表4は、第1の所定の圧縮長さに基づく候補経路の経路確率を示す。
【0076】
【表9】
表4に示すように、第1の所定の圧縮長さが120である場合、経路長さが第1の所定の圧縮長さ以上である場合、圧縮長さペナルティがペナルティ力を増加し、経路長さが第1の所定の圧縮長さより短い場合、圧縮長さペナルティは、経路長さと第1の所定の圧縮長さの差に基づいてペナルティ力を緩慢に増加させる。
【0077】
次に、当該第3の重み付け相関性又は圧縮長さペナルティFを使用して候補経路の経路確率を取得し、経路確率の高い候補経路に対応する1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0078】
また、一例では、直接に入力語句の最初の文から開始し、現在の入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との組み合わせ確率の最も高い1つの組み合わせ確率に対応する入力語句を、毎回選択して、圧縮経路を構成し、その後、すべての候補経路をトラバーサルすることなく、選択された入力語句を圧縮結果としてもよい。
【0079】
別の例では、直接に入力語句の最初の文から開始し、現在の入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との組み合わせ確率の最も高い2つの組み合わせ確率に対応する入力語句を、毎回選択して、候補経路を構成し、その後、すべての候補経路をトラバーサルすることなく、経路確率の最も高い候補経路に対応する1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0080】
なお、上記の第1の重み付け相関性と、第2の重み付け相関性と、第3の重み付け相関性を使用して候補経路の経路確率を取得することは単なる例であり、他の方式を使用して第1の重み付け相関性と、第2の重み付け相関性と、第3の重み付け相関性とに基づいて候補経路の経路確率を取得することもできるが、ここでは詳しく説明しない。
【0081】
本開示の実施例のテキスト処理方法により、まず、テキストにおける長文を分割し、その後、分割された文間の相関性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0082】
図4は、本開示の実施例によるテキスト処理方法400のフローチャートをさらに示す。
【0083】
例えば、比較的長いテキストについて、まず、入力語句間の類似性/連続性に基づいてストーリーラインを圧縮結果として抽出する。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得することもできる。
【0084】
例えば、要約を抽出するには、比較的長いテキストを圧縮してストーリーラインを圧縮結果として抽出することができ、その後、継続的に当該圧縮結果に対して要約を抽出して所望の要約を取得することができ、又は当該圧縮結果をそのまま所望の要約としてもよい。本開示のテキスト処理方法により、テキスト流暢性、冗長性などの問題を回避することができる。
【0085】
図4に示すテキスト処理方法400は、コンピュータなどによって自動的に完了できる。例えば、当該方法はテキストを圧縮することができる。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらを任意に組み合わせる方式で実現することができ、例えば、携帯電話、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバなどの機器におけるプロセッサによってロードされて実行される。
【0086】
図4に示すように、当該テキスト処理方法400は、以下のステップS401からS404を含む。
【0087】
ステップS401では、複数の入力語句を受信する。
【0088】
ステップS402では、第1の類似度モデルによって複数の入力語句間の第1の類似度を取得し、第1の類似度は、語句類似度と主題類似度の少なくとも1つを含む。
【0089】
ステップS403では、第1の連続性モデルによって複数の入力語句間の第1の連続性を取得する。
【0090】
ステップS404では、第1の類似度及び/又は第1の連続性に基づいて、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成する。
【0091】
なお、ステップS402及びS403は、並列処理してもよいし(例えば、S402及びS403を同時に処理する)、直列処理してもよいが(例えば、まず、S402を処理し、次にS403を処理するか、又は、まずS403を処理し、次に、S402を処理することができる)、ここでは制限しない。
【0092】
本開示では、2つの入力語句間の第1の類似度及び/又は第1の連続性が高いほど、この2つの入力語句がリンク文である確率が高く、すなわちストーリーラインを構成する確率が高くなるとみなす。
【0093】
一例では、第1の類似度モデルは、各入力語句間の単語(例えば、名詞、動詞など)の重複度を直接判断して、複数の入力語句間の第1の類似度を取得することができる。
【0094】
別の例では、第1の類似度モデルは、各入力語句に対応する単語ベクトル(又はセマンティック空間表現)を取得し、その後、各入力語句間の単語(例えば、名詞、動詞など)ベクトルの重複度を判断して、複数の入力語句間の第1の類似度を取得することもできる。
【0095】
また、第1の類似度モデルは、セマンティック相関性、含意関係などに基づいて、入力語句からセマンティック意味が一致するが、表現が一致しない名詞及び/又は代名詞を取得して候補語集合を構成することもできる。その後、当該候補語集合に基づいて各入力語句間の単語(例えば、名詞、動詞など)ベクトルの重複度を判断して、複数の入力語句間の第1の類似度を取得する。
【0096】
もう1つの例では、第1の類似度モデルは、トレーニング済みのニューラルネットワークモデルであってもよい。例えば、第1の類似度モデルは、語句類似度の割合を出力することができる。
【0097】
例えば、以下の方法で当該第1の類似度モデルをトレーニングすることができ、1つの入力語句の異なる単語を削除して異なる語句a1、a2、a3…、anを含むトレーニングデータA={a1、a2、a3…、an}を形成し、当該トレーニングデータA={a1、a2、a3…、an}を使用して第1の類似度モデルをトレーニングして、「語句a1、a2、a3…、an類似及び各語句間に対応する語句類似度の割合」の結果として出力する。トレーニング済みの第1の類似度モデルは複数の入力語句間の語句類似度を取得することができる。
【0098】
また、第1の類似度モデルは、主題類似度の割合を出力することもできる。
【0099】
例えば、以下の方法で当該第1の類似度モデルをトレーニングすることもでき、1つの入力語句の異なる単語を削除して異なる語句a1、a2、a3…、anを含むトレーニングデータA={a1、a2、a3…、an}を形成し、1つの入力語句の異なる単語を削除して異なる語句b1、b2、b3…、bmを含むトレーニングデータB={b1、b2、b3…、bm}を形成し、当該トレーニングデータA={a1、a2、a3…、an}と入力語句と異なる主題からのトレーニングデータB={b1、b2、b3…、bm}を使用して第1の類似度モデルをトレーニングし、上記の語句の類似度結果を出力する以外、「語句a1、a2、a3…、anと語句b1、b2、b3…、bmが異なる主題に属し、及び各語句間に対応する主題類似度の割合」の結果として出力することもできる。トレーニング済みの第1の類似度モデルは、複数の入力語句間の主題類似度を取得することができる。第1の類似度モデルをトレーニングするプロセスで主題情報を導入し、語句が特徴次元上で近づけたり遠ざけたりする際に、同じ主題と異なる主題を同時に考慮することができる。
【0100】
図5(a)及び(b)は本開示の実施例による第1の類似度モデルをトレーニングする概略図である。
【0101】
図5(a)に示すように、語句(1)と語句(2)はいずれも同じ全文(1)に含まれているが、異なる入力語句に属しており、同じ全文からの語句(1)と語句(2)を使用して第1の類似度モデルをトレーニングして、その出力は「語句(1)と語句(2)の語句が似ていなく、語句(1)と語句(2)の主題が似ている」であってもよい。
【0102】
図5(b)に示すように、語句(1)が全文(1)に含まれ、語句(2)が全文(1)と異なる全文(2)に含まれ、異なる全文からの語句(1)と語句(2)を使用して第1の類似度モデルをトレーニングして、その出力は「語句(1)と語句(2)の語句は似ていなく、語句(1)と語句(2)の主題は似ていない」であってもよい。
【0103】
ステップS403について、一例では、第1の連続性モデルは、トレーニング済みのニューラルネットワークモデルであってもよい。例えば、第1の連続性モデルは、語句連続性の割合を出力することができる。
【0104】
例えば、以下の方法で当該第1の連続性モデルをトレーニングすることができる。同じテキストの中の連続する2つの入力語句C及びDを正のサンプルデータとし、非連続の複数の入力語句E、F、Gを負のサンプルデータとし、当該第1の連続性モデルをトレーニングして、「語句C及びDは連続しており、その連続性の割合は100%であり、入力語句E及び入力語句Cは非連続であり、その連続性の割合は10%であり、入力語句E及び入力語句Dは非連続であり、その連続性の割合は13%であり、入力語句F及び入力語句Cは非連続であり、その連続性の割合は12%であり、入力語句F及び入力語句Dは非連続であり、その連続性の割合は13%であり、入力語句G及び入力語句Cは非連続であり、その連続性の割合は17%であり、入力語句G及び入力語句Dは非連続であり、その連続性の割合は23%である」の結果を出力するようにする。トレーニング済みの第1の連続性モデルは、複数の入力語句間の第1の連続性を取得することができる。
【0105】
なお、上記の第1の連続性モデルは単なる例であり、他のモデルを使用して語句の連続性の割合を生成することもできるが、ここでは詳しく説明しない。
【0106】
次に、図4に戻り、ステップS404について、複数の入力語句間の第1の類似度と第1の連続性を取得してから、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成することができる。
【0107】
以下では、5つの実施形態で、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成することを説明する。
【0108】
本開示では、各入力語句の第1の類似度及び/又は第1の連続性が大きいほど、この2つの入力語句がリンク文である確率が高く、すなわちストーリーラインを構成する確率が高くなるとみなす。
【0109】
第1の実施形態では、第1の類似度又は第1の連続性が高い一部の入力語句を直接選択して圧縮結果を構成することができる。
【0110】
例えば、各候補経路をトラバーサルし、候補経路から第1の類似度又は第1の連続性が高い一部の入力語句を選択して圧縮結果を構成することができる。
【0111】
表5は、一部の入力語句で構成された候補経路の経路確率を示す。
【0112】
【表10】
第2の実施形態では、第1の類似度及び第1の連続性の組み合わせに基づいて複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成することができる。
【0113】
一例として、すべての入力語句間に対して同じ第1の類似度の重み及び第1の連続性の重みを設定することができ、例えば、すべての入力語句について、第1の類似度の重み及び第1の連続性の重みがそれぞれMとNとすると、入力語句Aと入力語句Bとの間のスコアは以下であり、
A-B=M*(AとBとの間の第1の類似度)+N*(AとBとの間の第1の連続性)
式(4)
入力語句Aと入力語句Bとの間のスコアが高いほど、入力語句Aと入力語句Bがリンク文である確率が大きく、すなわちストーリーラインを構成する確率が大きくなる。
【0114】
別の例として、すべての入力語句間に異なる第1の類似度の重み及び第1の連続性の重みを設定することができると、入力語句Aと入力語句Bとの間のスコアは以下であり、
【数4】
ただし、Mは、上記で取得された類似度割合を表し、Nは、上記で取得された連続性の割合を表す。
【0115】
次に、各入力語句間のスコアを使用して候補経路の経路確率を取得し、経路確率の最も高い候補経路に対応する一部の入力語句を選択して圧縮結果を構成することができる。
【0116】
第3の実施形態では、図6で説明された方法に基づいて圧縮結果を取得することができる。図6は、本開示の実施例による圧縮結果を取得する方法600のフローチャートを示す。
【0117】
図6に示すように、第1の類似度及び/又は第1の連続性に基づいて、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成するステップは、第1の順序に基づいて、各入力語句間の相対距離を算出するステップであって、第1の順序は、複数の入力語句の配列順序であるステップ(S601)と、相対距離と、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成するステップ(S602)と、を含むことができる。
【0118】
例えば、i番目の入力語句とj番目の入力語句との間の相対距離がHi,jであり、上記の第1の類似度モデルと第1の連続性モデルを使用して取得されたi番目の入力語句の下部のサブ文とその後に配列されたj番目の入力語句の上部のサブ文との間の第1の類似度及び/又は第1の連続性がCi,jであると仮定すると、相対距離Hi,jと第1の類似度及び/又は第1の連続性Ci,jに基づく第1の重み付け相関性Wi,jは、以下に表すことができ、
【数5】
次に、当該第1の重み付け相関性Wi,jを使用して、候補経路の経路確率を取得し、経路確率の高い候補経路に対応する一部の入力語句を選択して圧縮結果を構成することができる。
【0119】
第4の実施形態では、予め指定された第1の特定単語又は第1の特定文と、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成することができる。
【0120】
例えば、i番目の入力語句又はj番目の入力語句が第1の特定単語又は第1の特定文を含む場合、重みTi,j(Ti,j>1)が付与されたと仮定すると、予め指定された第1の特定単語又は第1の特定文と、第1の類似度及び/又は第1の連続性Ci,jとに基づく第2の重み付け相関性Ei,jは、以下に表すことができ、
【数6】
次に、当該第2の重み付け相関性Ei,jを使用して候補経路の経路確率を取得し、経路確率の高い候補経路に対応する一部の入力語句を選択して圧縮結果を構成することができる。
【0121】
第5の実施形態では、第1の所定の圧縮長さと、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうちの一部の入力語句を選択して圧縮結果を構成することができる。
【0122】
例えば、所望の最終圧縮結果を表す第1の所定の圧縮長さがxであり、現在の候補経路のテキスト長さがxであると仮定すると、第3の重み付け相関性F(圧縮長さペナルティとも呼ばれる)は、以下に表すことができ、
【数7】
経路長さが第1の所定の圧縮長さ以上である場合、圧縮長さペナルティがペナルティ力を増加し、経路長さが第1の所定の圧縮長さより短い場合、圧縮長さペナルティは、経路長さと第1の所定の圧縮長さとの差に基づいてペナルティ力を緩慢に増加させる。
【0123】
次に、当該第3の重み付け相関性又は圧縮長さペナルティFを使用して候補経路の経路確率を取得し、経路確率の高い候補経路に対応する一部の入力語句を選択して圧縮結果を構成することができる。
【0124】
また、一例では、直接に入力語句の最初の文から開始し、現在の入力語句とその後に配列された他の入力語句の組み合わせ確率の最も高い1つの組み合わせ確率に対応する入力語句を毎回選択して、圧縮経路を構成し、その後、すべての候補経路をトラバーサルすることなく、選択された入力語句を圧縮結果としてもよい。
【0125】
別の例では、直接に入力語句の最初の文から開始し、現在の入力語句とその後に配列された他の入力語句の組み合わせ確率の最も高い2つの組み合わせ確率に対応する入力語句を毎回選択し、候補経路を構成し、その後、すべての候補経路をトラバーサルすることなく、経路確率の最も高い候補経路に対応する1つ又は複数の入力選択語句を選択して圧縮結果を構成することができる。
【0126】
なお、上記の第1の重み付け相関性と、第2の重み付け相関性と、第3の重み付け相関性を使用して候補経路の経路確率を取得することは単なる例であり、他の方式を使用して第1の重み付け相関性と、第2の重み付け相関性と、第3の重み付け相関性とに基づいて候補経路の経路確率を取得することもできるが、ここでは詳しく説明しない。
【0127】
本開示の実施例のテキスト処理方法により、まず、入力語句間の類似性/連続性に基づいてテキストにおける長文に対してストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0128】
図7は、本開示の実施例によるテキスト処理方法700のフローチャートをさらに示す。
【0129】
例えば、比較的長いテキストについて、まず、テキストにおける長文を分割し、その後、分割された文間の相関性/類似性/連続性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得することもできる。
【0130】
例えば、要約を抽出するには、比較的長いテキストを圧縮してストーリーラインを圧縮結果として抽出することができ、その後、継続的に当該圧縮結果に対して要約を抽出して所望の要約を取得することができ、又は当該圧縮結果をそのまま所望の要約としてもよい。本開示のテキスト処理方法により、テキスト流暢性、冗長性などの問題を回避することができる。
【0131】
図7に示すテキスト処理方法700は、コンピュータなどによって自動的に完了できる。例えば、当該方法は、テキストを圧縮することができる。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらを任意に組み合わせる方式で実現することができ、例えば、携帯電話、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバなどの機器におけるプロセッサによってロードされて実行される。
【0132】
図7に示すように、当該テキスト処理方法700は、以下のステップS701からS703を含む。
【0133】
ステップS701では、複数の入力語句を受信する。
【0134】
ステップS702では、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得する。
【0135】
ステップS703では、複数の選択対象語句間の第1の相関性及び/又は第1の類似度及び/又は第1の連続性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成する。
【0136】
ステップS702について、上記の実施例と類似する方式を使用して、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割することができるが、ここでは詳しく説明しない。
【0137】
ステップS703について、上記の実施例と類似する方式を使用して、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができるが、ここでは詳しく説明しない。
【0138】
本開示の実施例のテキスト処理方法により、まず、テキストにおける長文を分割し、その後、分割された文間の相関性/類似性/連続性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0139】
表6は本開示の実施例(図7に示す方法700)による効果の例である。本開示の実施例のアルゴリズム、TextRankアルゴリズム、及びクラスタリングアルゴリズムを比較する。ここで、TextRankは、入力語句の重要度をソートするアルゴリズムであり、その後、ソートされた入力語句の前のN個の語句を出力結果として抽出する。クラスタリングアルゴリズムは、入力語句に対して類似語句クラスタリングを行い、その後、語句数が最も多いカテゴリを出力結果として選択する。
【0140】
【表11】
【0141】
Rouge-2は、アルゴリズムによって生成された結果と正解結果に共通に含まれる同じ2つの文字の数とアルゴリズムによって生成された結果に含まれるシングル文字の総数との間の割合、及びアルゴリズムによって生成された結果と正解結果に共通に含まれる同じ2つの文字の数と正解結果に含まれるシングル文字の総数との間の割合間の重み付け平均を表す。
【0142】
【表12】
【0143】
本開示は、Rouge-1、Rouge-2とRouge-Lを含むF値で本開示の実施例の効果を体現する。表6から分かるように、本開示の実施例のアルゴリズムはTextRankアルゴリズムとクラスタリングアルゴリズムと比較し、出力結果は正解との類似度がより高い。
【0144】
本開示は、1つの入力語句の下部のサブ文とその後に配列された別の入力語句の上部のサブ文との間の相関性/類似性/連続性によって当該2つの入力語句間関係を定義し、すなわち1つの入力語句の下部のサブ文とその後に配列された別の入力語句の上部のサブ文との間の相関性/類似性/連続性が高いほど、当該2つの入力語句がリンク文である確率(又はストーリーラインを構成する確率)が高くなるとみなす。なお、本開示は、さらに、1つの入力語句の上部のサブ文とその後に配列された別の入力語句の上部のサブ文との間の相関性/類似性/連続性で当該2つの入力語句間関係を定義し、すなわち1つの入力語句の上部のサブ文とその後に配列された別の入力語句の上部のサブ文との間の相関性/類似性/連続性が高いほど、当該2つの入力語句が並列文である確率が大きくなるとみなす。例えば、リンク文の確率と並列文の確率同時に判断して、重み付け組み合わせで最終のストーリーラインを取得することができるが、ここでは詳しく説明しない。
【0145】
なお、本開示の第1の分割モデル、第2の分割モデル、第3の分割モデル、第1の類似度モデル、第1の連続性モデルは、ニューラルネットワークモデルであってもよく、畳み込みニューラルネットワーク(CNN)(含むGoogLeNet、AlexNet、VGGネットワークなどの)、畳み込みニューラルネットワークを備える領域(R-CNN)、領域提案ネットワーク(RPN)、循環ニューラルネットワーク(RNN)、スタックベースの深さニューラルネットワーク(S-DNN)、深さ信念ネットワーク(DBN)、制限付きボルツマンマシン(RBM)、完全畳み込みニネットワーク、長短期間記憶(LSTM)ネットワーク、分類ネットワークとの様々なニューラルネットワークモデルを含むが、これに限定されない。また、1つのタスクを実行するニューラルネットワークモデルは、サブニューラルネットワークを含むことができ、当該サブニューラルネットワークは、不均一なニューラルネットワークを含むことができ、不均一なニューラルネットワークモデルを使用して実現することができる。
【0146】
以下、図8を参照して、本開示の実施例によるテキスト処理装置を説明する。図8は本開示の実施例によるテキスト処理装置の概略図である。本実施例のテキスト処理装置の機能は、上述の図1を参照して説明した方法の詳細と同じであるため、ここでは簡略化のために、同じ内容の詳細な説明を省略する。
【0147】
図8に示すように、テキスト処理装置1000は、受信部1001と、分割部1002と、選択部1003と、を含む。なお、図8のテキスト処理装置1000は、これら3つの部のみを含むように示されているが、これは単なる例示であり、テキスト処理装置1000は1つ又は複数の他の部を含むこともできる。ただし、それらの部は発明のアイデアとは何の関係もないため、ここでは省略する。
【0148】
受信部1001は、複数の入力語句を受信することができる。
【0149】
分割部1002は、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得することができる。
【0150】
例えば、分割部1002は、以下の処理で、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割する。複数の入力語句における各入力語句の長さが第1の所定の長さより長いか否かを判断し、入力語句の長さが第1の所定の長さ以下である場合、入力語句を分割せず、分割されていない入力語句をそのまま分割されていない入力語句自体の上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得し、又は入力語句の長さが第1の所定の長さより長い場合、入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得することができる。
【0151】
例えば、分割部1002は、各入力語句の総文字数に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。
【0152】
例えば、分割部1002は、各入力語句のうち名詞が占める中位に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。
【0153】
例えば、分割部1002は、句読点に基づいて入力語句を異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。例えば、入力語句に含まれる読点又はカンマ又はセミコロンに基づいて入力語句を異なる2つの部分に分割することができる。
【0154】
例えば、分割部1002は、トレーニング済みの第1の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。第1の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの複数の読点又はカンマ又はセミコロンのうち、第1の読点又はカンマ又はセミコロンの前に含まれるすべての単語間の組み合わせ確率と、第1の読点又はカンマ又はセミコロンの後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割することができる。また、入力語句に複数の読点又はカンマ又はセミコロンが含まれていない場合、第1の分割モデルは、入力語句に含まれるすべての単語間の組み合わせ確率を算出することによって各入力語句を異なる2つの部分に分割することができる。
【0155】
例えば、分割部1002は、トレーニング済みの第2の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文としてもよい。第2の分割モデルは、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれの第1の所定の分割位置の前に含まれるすべての単語間の組み合わせ確率と、第1の所定の分割位置の後に含まれるすべての単語間の組み合わせ確率とを算出して、各入力語句を異なる2つの部分に分割することができる。
【0156】
例えば、分割部1002は、トレーニング済みの第3の分割モデルによって複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割することができる。当該第3の分割モデルは、1つの完全な新規語句につなぎ合わせる正のサンプルデータ及び負のサンプルデータを使用してトレーニングして取得し、正のサンプルデータ及び負のサンプルデータは、それぞれ1つ又は複数の完全な語句を含む。
【0157】
選択部1003は、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0158】
例えば、選択部1003は、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の組み合わせ確率のうち確率の高い組み合わせに対応する選択対象語句を直接選択して圧縮結果を構成することができる。
【0159】
本開示では、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の第1の相関性が高いほど、この2つの入力語句がリンクされる文である確率が高く、すなわちストーリーラインを構成する確率が高くなるとみなす。
【0160】
例えば、選択部1003は、複数の入力語句の配列順序である第1の順序に基づいて、各入力語句の下部のサブ文とその後に配列された他の入力語句の上部のサブ文との間の相対距離を取得し、その後、相対距離と第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0161】
例えば、選択部1003は、予め指定された第1の特定単語又は第1の特定文と第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0162】
例えば、選択部1003は、第1の所定の圧縮長さと第1の相関性とに基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0163】
本開示の実施例のテキスト処理装置は、まず、テキストにおける長文を分割し、その後、分割された文間の相関性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0164】
以下、図9を参照して本開示の実施例による別のテキスト処理装置を説明する。図9は本開示の実施例によるテキスト処理装置の概略図である。本実施例のテキスト処理装置の機能は上述の図4を参照して説明した方法の詳細と同じであるため、ここでは簡略化のために、同じ内容の詳細な説明を省略する。
【0165】
図9に示すように、テキスト処理装置1100は、受信部1004と、第1の類似度取得部1005と、第1の連続性取得部1006と、選択部1007と、を含む。なお、図9のテキスト処理装置1100は、4つの部のみを含むように示されているが、これは単なる例示であり、テキスト処理装置1100はさらに1つ又は複数の他の部を含むことができる。ただし、それらの部は発明のアイデアとは何の関係もないため、ここでは省略する。
【0166】
受信部1004は、複数の入力語句を受信することができる。
【0167】
第1の類似度取得部1005は、第1の類似度モデルによって複数の入力語句間の第1の類似度を取得することができ、第1の類似度は、語句類似度と主題類似度の少なくとも1つを含む。
【0168】
一例では、第1の類似度モデルは、各入力語句間の単語(例えば、名詞、動詞など)の重複度を直接判断して、複数の入力語句間の第1の類似度を取得することができる。
【0169】
別の例では、第1の類似度モデルは、各入力語句に対応する単語ベクトル(又はセマンティック空間表現)を取得し、その後、各入力語句間の単語(例えば、名詞、動詞など)ベクトルの重複度を判断して、複数の入力語句間の第1の類似度を取得することもできる。
【0170】
また、第1の類似度モデルは、セマンティック相関性、含意関係などに基づいて、入力語句からセマンティック意味が一致するが、表現が一致しない名詞及び/又は代名詞を取得して候補語集合を構成することもできる。その後、当該候補語集合に基づいて各入力語句間の単語(例えば、名詞、動詞など)ベクトルの重複度を判断して、複数の入力語句間の第1の類似度を取得する。
【0171】
もう1つの例では、第1の類似度モデルは、トレーニング済みのニューラルネットワークモデルであってもよい。例えば、第1の類似度モデルは、語句類似度の割合と主題類似度の割合を出力することができる。
【0172】
第1の連続性取得部1006は、第1の連続性モデルによって複数の入力語句間の第1の連続性を取得することができる。
【0173】
第1の連続性モデルは、トレーニング済みのニューラルネットワークモデルであってもよい。例えば、第1の連続性モデルは、語句連続性の割合を出力することができる。なお、上記の第1の連続性モデルは単なる例であり、他のモデルを使用して語句の連続性の割合を生成することもできるが、ここでは詳しく説明しない。
【0174】
選択部1007は、第1の類似度及び/又は第1の連続性に基づいて、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することができる。
【0175】
例えば、選択部1007は、第1の類似度又は第1の連続性が高い一部の入力語句を直接選択して圧縮結果を構成することができる。
【0176】
例えば、選択部1007は、各候補経路をトラバーサルし、候補経路から第1の類似度又は第1の連続性が高い一部の入力語句を選択して圧縮結果を構成することができる。
【0177】
例えば、選択部1007は、第1の類似度と第1の連続性との組み合わせに基づいて複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することができる。
【0178】
例えば、選択部1007は、複数の入力語句の配列順序である第1の順序に基づいて、各入力語句間の相対距離を算出することと、相対距離と、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することで、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することができる。
【0179】
例えば、選択部1007は、予め指定された第1の特定単語又は第1の特定文と、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することができる。
【0180】
例えば、選択部1007は、第1の所定の圧縮長さと、第1の類似度及び/又は第1の連続性とに基づいて、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成することができる。
【0181】
本開示の実施例のテキスト処理装置は、まず、入力語句間の類似性/連続性に基づいてテキストにおける長文に対してストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0182】
以下、図10を参照して本開示の実施例によるもう1つのテキスト処理装置を説明する。図10は本開示の実施例によるテキスト処理装置の概略図である。本実施例のテキスト処理装置の機能は上述の図7を参照して説明した方法の詳細と同じであるため、ここでは簡略化のために、同じ内容の詳細な説明を省略する。
【0183】
図10に示すように、テキスト処理装置1200は、受信部1008と、分割部1009と、選択部1010と、を含む。なお、図10のテキスト処理装置1200は3つの部のみを含むように示されているが、これは単なる例示であり、テキスト処理装置1200は1つ又は複数の他の部を含むこともできる。ただし、それらの部は発明のアイデアとは何の関係もないため、ここでは省略する。
【0184】
受信部1008は、複数の入力語句を受信することができる。
【0185】
分割部1009は、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得することができる。
【0186】
選択部1010は、複数の選択対象語句間の第1の相関性及び/又は第1の類似度及び/又は第1の連続性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成することができる。
【0187】
分割部1009の機能は上述の図8を参照して説明した分割部1002の機能と同じであるため、ここでは簡略化のために、同じ内容の詳細な説明を省略する。
【0188】
選択部1010の機能は、上述の図8図9を参照して説明した選択部1003及び選択部1007の機能と同じであるため、ここでは簡略化のために、同じ内容の詳細な説明を省略する。
【0189】
本開示の実施例のテキスト処理装置は、まず、テキストにおける長文を分割し、その後、分割された文間の相関性/類似性/連続性に基づいてストーリーラインを圧縮結果として抽出することができる。次に、当該圧縮結果をそのまま所望の最終圧縮結果とすることができ、当該圧縮結果をさらに圧縮して、最終圧縮結果を取得して、最終圧縮結果のテキスト流暢性、冗長性などの問題を回避することもできる。
【0190】
以下では、図11を参照して本開示の実施例によるテキスト処理デバイスを説明する。図11は本開示の実施例によるテキスト処理デバイス2000の概略図である。
【0191】
図11に示すように、テキスト処理デバイス2000は、プロセッサ2001とメモリ2002を含む。なお、図11のテキスト処理デバイス2000は、2つの機器のみを含むように示されているが、これは単なる例示であり、テキスト処理デバイス2000は、1つ又は複数の他のデバイス機器を含むこともでき、これらのデバイス機器は発明のアイデアとは何の関係もないため、ここでは省略する。
【0192】
本開示のテキスト処理デバイス2000は、プロセッサ2001と、コンピュータ読み取り可能な命令が記憶されているメモリ2002と、を含むことができ、コンピュータ読み取り可能な命令がプロセッサ2001によって実行される場合、テキスト処理方法が実行され、前記方法は、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、複数の選択対象語句間の第1の相関性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含むことができる。
【0193】
本開示のテキスト処理デバイス2000は、プロセッサ2001と、コンピュータ読み取り可能な命令が記憶されているメモリ2002と、を含むことができ、コンピュータ読み取り可能な命令がプロセッサ2001によって実行される場合、テキスト処理方法が実行され、前記方法は、さらに、複数の入力語句を受信するステップと、第1の類似度モデルによって複数の入力語句間の第1の類似度を取得するステップであって、第1の類似度は、語句類似度及び主題類似度の少なくとも1つを含むステップと、第1の連続性モデルによって複数の入力語句間の第1の連続性を取得するステップと、第1の類似度及び/又は第1の連続性に基づいて、複数の入力語句のうち一部の入力語句を選択して圧縮結果を構成するステップと、を含むことができる。
【0194】
本開示のテキスト処理デバイス2000は、プロセッサ2001と、コンピュータ読み取り可能な命令が記憶されているメモリ2002と、を含むことができ、コンピュータ読み取り可能な命令がプロセッサ2001によって実行される場合、テキスト処理方法が実行され、前記方法は、さらに、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、複数の選択対象語句間の第1の相関性及び/又は第1の類似度及び/又は第1の連続性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、を含むことができる。
【0195】
異なる実施例のテキスト処理装置1000、1100、1200、及びテキスト処理デバイス2000に対する技術的効果は、本開示の実施例により提供されるテキスト処理方法の技術的効果を参照することができるが、ここでは詳しく説明しない。
【0196】
テキスト処理装置1000、1100、1200、及びテキスト処理デバイス2000は、さまざまな適切な電子機器に用いられることができる。
【0197】
本開示は、コンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記憶媒体をさらに含み、当該コンピュータ読み取り可能な命令がコンピュータによって実行される場合、コンピュータテキスト処理方法が実行され、複数の入力語句を受信するステップと、複数の入力語句のうちの1つ又は複数の入力語句のそれぞれを異なる2つの部分に分割して、それぞれ上部のサブ文と下部のサブ文とし、複数の選択対象語句を取得するステップと、複数の選択対象語句間の第1の相関性及び/又は第1の類似度及び/又は第1の連続性に基づいて、複数の選択対象語句のうちの1つ又は複数の選択対象語句を選択して圧縮結果を構成するステップと、含む。
【0198】
<ハードウェア構造>
また、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構造部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合された1つの装置を用いて実現されてもよいし、物理的及び/又は論理的に分離された2つ以上の装置を直接的及び/又は間接的に(例えば、有線、無線を用いて)接続して、上述の複数の装置を用いて実現されてもよい。
【0199】
例えば、本発明の一実施形態の電子機器は、本発明のテキスト処理方法の処理を行うコンピュータとして機能してもよい。図12は、本発明の一実施形態に係る電子機器のハードウェア構造の一例を示す図である。上記の電子機器10は、物理的には、プロセッサ3001、メモリ3002、ストレージ3003、通信装置3004、入力装置3005、出力装置3006、バス3007などを含むコンピュータ装置として構成されてもよい。
【0200】
また、以下の説明では、「装置」という用語は、回路、デバイス、部(section)などに読み替えることもできる。電子機器10のハードウェア構造は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0201】
例えば、プロセッサ3001は1つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、1つのプロセッサによって実行されてもよく、処理が同時に、逐次、又はその他の手法を用いて、1つ以上のプロセッサによって実行されてもよい。また、プロセッサ3001は、1つ以上のチップによって実装されてもよい。
【0202】
電子機器10の各機能は、例えば、プロセッサ3001、メモリ3002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ3001が演算を行い、通信装置3004を介する通信を制御したり、メモリ3002及びストレージ3003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
【0203】
プロセッサ3001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ3001は、周辺装置とのインタフェース、制御装置、演算装置、レジスタなどを含む中央プロセッサ(Central Processing Unit(CPU))で構成されてもよい。
【0204】
また、プロセッサ3001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどをストレージ3003及び通信装置3004の少なくとも一方からメモリ3002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態おいて説明した動作の少なくとも一部のプログラムをコンピュータに実行させるプログラムが用いられる。例えば、電子機器10の制御部は、メモリ3002に格納され、プロセッサ3001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。
【0205】
メモリ3002は、コンピュータ読み取り可能な記録媒体であり、例えば、読み取り専用メモリ(Read Only Memory(ROM))、プログラマブル読み取り専用メモリ(Erasable Programmable ROM(EPROM))、電気プログラマブル読み取り専用メモリ(Electrically EPROM(EEPROM))、ランダムアクセスメモリ(Random Access Memory(RAM))、その他の適切な記憶媒体の少なくとも1つによって構成されてもよい。メモリ3002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などとも呼ばれてもよい。メモリ3002は、本発明の一実施形態に係る無線通信方法を実施するために実行可能プログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0206】
ストレージ3003は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク(flexible disk)、フロッピー(登録商標)ディスク(floppy disk)、光磁気ディスク(例えば、コンパクトディスク(CD-ROM(Compact Disc ROM)など)、デジタル多用途ディスク、ブルーレイ(Blu-ray(登録商標))ディスク)、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック(stick)、キードライブ(key driver))、磁気ストリップ、データベース、サーバ、その他の適切な記憶媒体の少なくとも1つによって構成されてもよい。ストレージ3003は、補助記憶装置とも呼ばれてもよい。
【0207】
通信装置3004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0208】
入力装置3005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置3006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、発光ダイオード(Light Emitting Diode(LED))ランプなど)である。また、入力装置3005及び出力装置3006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0209】
また、プロセッサ3001、メモリ3002などの各装置は、情報を通信するためのバス3007によって接続される。バス3007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
【0210】
また、電子機器10は、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor(DSP))、特定用途向け集積回路(Application Specific Integrated Circuit(ASIC))、プログラマブルロジックデバイス(Programmable Logic Device(PLD))、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアを用いて各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ3001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
【0211】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0212】
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(Digital Subscriber Line(DSL))など)及び無線技術(赤外線、マイクロ波など)の少なとくも一法を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
【0213】
本明細書で説明した各態様/実施形態は、単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。なお、本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0214】
本明細書において使用する「基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」に「に少なくとも基づいて」の両方を意味する。
【0215】
本明細書において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、これらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書において使用され得る。したがって、第1及び第2の要素の参照は、2つの要素のみが採用され得ること又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0216】
本明細書又は請求項において「含む(including)」、「含む(comprising)」、及びそれらの変形が使用されている場合、これらの用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書又は請求項において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0217】
当業者は、本出願の様々な態様を、任意の新規かつ有用な工程、機械、製品又は物質の組み合わせ、又はそれらの任意の新規かつ有用な改良を含む特許可能性のあるいくつかの種類又は状況を説明及び説明できることを理解することができる。したがって、本願のさまざまな態様は、ハードウェアによって完全に実行されてもよく、ソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)によって完全に実行されてもよく、ハードウェアとソフトウェアの組み合わせによって実行されてもよい。これらのハードウェア又はソフトウェアは、「データブロック」、「モジュール」、「エンジン」、「ユニット」、「コンポーネント」、又は「システム」と呼ぶことができる。さらに、本願の態様は、コンピュータ読み取り可能なプログラム符号化を含む1つ又は複数のコンピュータ読み取り可能な媒体に存在するコンピュータ製品として表現されることができる。
【0218】
本願は、本願の実施形態を説明するために特定の語を使用する。例えば、「一実施例」、「一実施形態」、及び/又は「いくつかの実施形態」は、本願の少なくとも1つの実施形態に関連する特徴、構造、又は特性を意味する。したがって、本明細書において異なる位置で2回以上言及される「一実施形態」又は「一実施形態」又は「候補的な実施形態」は、必ずしも同じ実施形態を指すものではないことを強調し、留意すべきである。さらに、本願の1つ又は複数の実施形態のいくつかの特徴、構造、又は特性を適切に組み合わせることができる。
【0219】
特に定義がない限り、本明細書で使用されるすべての用語(技術及び科学用語を含む)は、本開示が属する当業者に共通して理解されるものと同じ意味を有する。通常の辞書で定義されるような用語は、本明細書で明示的にそう定義されない限り、関連技術の文脈におけるそれらの意味と一致する意味を持つと解釈されるべきであることも理解することができる。
【0220】
以上、本発明について詳細に説明したが、当業者にとっては、本発明は本明細書中に説明した実施形態に限定されないことが明らかである。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら限定的な意味をもたらさない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12