【課題】口語体のチャットテキストをセグメンテーションした結果、精度が低く、情報の損失を招いていたので、それらを改善した複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするシステム及び方法を提供する。
【解決手段】経時的連続性の制約に従い拡張される情報ボトルネック法を使用し、情報損失を減少させるために、2つの連続した投稿間の時間と投稿内での人々への言及等の重要な非テキストの手掛りを利用し、情報ボトルネックアプローチにおいて、入力テキスト投稿からの全てのテキスト情報と非テキスト情報の融合を使用することで、よりよいセグメンテーションを達成するために、会話に関わるテキストと併せて非テキスト情報を集合的に活用可能にする。
前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項1に記載のプロセッサ実装方法。
前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項4に記載のシステム。
1つ又は複数のハードウェアプロセッサによって実行される際に、複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法を引起す1つ又は複数の命令を含む1つ又は複数の非一時的な機械可読な情報記憶媒体であって、前記方法は:
複数のユーザに関係する複数の入力テキスト投稿を入手するステップ;
(i)前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第1評価基準、(ii)少なくとも2つの連続する入力テキスト投稿間の時差を示す第2評価基準、及び(iii)前記複数のユーザから1人又は複数のユーザを示す第3評価基準、を含む1つ又は複数の評価基準のための距離値を演算するステップ;
前記1つ又は複数の評価基準のために演算された前記各距離値に加重を割り当てるステップ;
前記割り当てられた加重に基づいて加重和を演算するステップ;及び
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記1つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること;及び
前記2つ以上の隣接する入力テキスト投稿、前記時差、及び前記1人又は複数のユーザのそれぞれに関連付けられる前記距離値を更新すること
を実行するステップ
を含む、1つ又は複数の非一時的な機械可読な情報記憶媒体。
前記第2評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項7に記載の1つ又は複数の非一時的な機械可読な情報記憶媒体。
前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項7に記載の1つ又は複数の非一時的な機械可読な情報記憶媒体。
【発明を実施するための形態】
【0016】
例示的実施形態は、添付図を参照して記載される。図面では、参照番号の最も左側の桁(複数可)は、参照番号が最初に出現した図を特定している。便宜上、同じ参照番号は、同じ又は同様な部品を指すために、全図面を通して使用される。開示された原理の実施例及び特徴が本明細書に記載されるが、開示された実施形態の精神及び範囲から逸脱しない範囲で、変形、適合、及び他の実装が可能である。以下の詳細な記載は、例示のみと見なされると共に、以下のクレームによって真の範囲及び精神が示されるものとする。
【0017】
テキストセグメンテーションに関する研究は、僅かな初期の試みにまで遡る長い歴史がある。それ以来、TextTiling、語義埋込みに基づく表現学習、及びトピックモデルを含むが、それらに限定されない、多くの方法が提示されてきた。にもかかわらず、口語体のチャットテキストをセグメンテーションするためには、研究努力が殆ど提案されておらず、その結果、精度が低く、情報の損失を招いていた。
【0018】
情報ボトルネック(IB)法は、以前に、自然言語処理(NLP:Natural Language Processing)ドメインにおいてクラスタリングするのに適用されたことがある。具体的には、IBは、目的変数をクラスタリングする際に、目的変数と観測された関連変数との結合確率分布を所与として、精度と圧縮(又は複雑さ)間でトレードオフのバランスをとろうとする。クラスタリングと同様に、提案された本開示及び本開示の実施形態では、テキストセグメンテーションのタスクを、連続したテキスト断片のみを一群にできるという制約を伴う圧縮タスクとして、解釈する。本開示の焦点は、IBフレームワークを利用する対話セッションテキストのセグメンテーションのためのシステム及び方法を提供することである。該プロセスでは、提案された本開示は、テキストセグメンテーションのタスクに対してIBから着想を得た目的関数を導入する。提案された開示は、凝集型アルゴリズムを実装して、提案された目的関数を最適化し、該関数は、テキストセグメンテーションに対する必要な経時的連続性の制約にも配慮し、対話セッション(チャット)テキストに対するセグメンテーションに対応し、非テキストの手掛りを組込む。
【0019】
IB法は、元々、関連変数についての情報の保存と目的変数の歪み間のトレードオフのバランスをとるレート歪み理論の一般論として導入された。その後、この作業と同様に、貪欲法のボトムアップ型(凝集型)IBに基づくアプローチが、文書クラスタリング等のNLPタスクに上手く適用された。
【0020】
更に、IB法は、スピーチダイアライゼーション、画像セグメンテーション、画像クラスタリング、及び可視化を含むが、これらに限定されない複数の機械学習タスクのために広く研究されてきた。特に、画像セグメンテーションは、セグメンテーションをIBに基づく方法の圧縮部分と見なした。しかしながら、画像セグメンテーションは、連続性の制約を適用すると、画像内の類似性の活用を無効にする場合があるため、そうした制約を伴わない。また、情報理論用語を目的(IBアプローチの第1項だけ)として利用する更に別の同様な試みが、テキストセグメンテーション及び整列のタスクのために行われた。
【0021】
概して、典型的なテキストセグメンテーション法は:(a)独立したテキスト断片毎にテキスト表現を費やす、及び(b)セグメンテーションの目的を最適化しながら、セグメンテーション境界に対する調査手順を適用する方法を含む。ここで、本開示は、これらを、それらの焦点に基づいて3つのカテゴリ:カテゴリ1−(a)、カテゴリ2−(b)、及びカテゴリ3−(a)と(b)の両方、に体系付けることによって、テキストセグメンテーションを再検討し、考察する。
【0022】
カテゴリ1のアプローチは、自然言語テキストで会話をモデル化できるロバストなトピックモデルを開発するのに注がれた多くの努力を利用する、又はそうした努力から利益を享受する。階層ベイズモデルは、教師なしトピックセグメンテーションに対して提案されたものであり、該セグメンテーションは、ベイズセグメンテーションで使用される点別境界サンプリングアルゴリズムを、構造化された(順序に基づく)トピックモデルに統合する。
【0023】
カテゴリ2のアプローチは、分割型階層的クラスタリング、動的計画法、及びグラフに基づくクラスタリングを含むが、これらに限定されない、テキストセグメンテーションのタスクのために提案された異なる調査手順を含む。この作業は、凝集型IBに基づく階層的クラスタリングアルゴリズムを提案する。このアルゴリズムは、このカテゴリに入るアプローチの集積(arsenal)に、新たに加わるものだ。
【0024】
提案された方法と同様に、カテゴリ3は、上記紹介されたセグメンテーションの両特質を包含する。また、単語意味埋込み及び緩和された動的計画法手順の使用も、研究者らによって以前に提案された。本開示では、実施形態、システム及び方法は、チャットの手掛りを利用して、経時的連続性の制約に従って拡張されるIBに基づくアプローチを導入する。
【0025】
上記カテゴリ化の域を超えて、かなりの研究努力が、テキストセグメンテーション用評価尺度の研究につぎ込まれてきた。これらの方法は、提案された方法と似て見えるが、これらの方法は、スレッドコミュニティ内における議論のトピックレベル観点に関してスレッド構造を回復するよう試みるため、異なる。
【0026】
この作業に対する研究に最も類似する方向は、会話ツリー及びチャット会話を解きほぐすことにある。これらの方向はいずれも、独立した投稿をクラスタ化して、これら投稿のトピック標識とセグメンテーションを同時にもたらす。これらの方法には経時的連続性の制約がなく、遠距離の投稿間でも語句の類似性を考慮する点に注目することが重要である。その上、これらの方法がセグメンテーションだけに適用されるならば、これらの方法は、比較的ごく短い期間のセグメントを生成する可能性が極めて高い。このことは、対応して公開されたデータセットのグラウンドトルース注釈に反映されている。
【0027】
本開示の実施形態は、経時的連続性の制約に従い拡張される情報ボトルネック法を使用して対話セッションテキストをセグメンテーションするシステム及び方法を提供する。更に、本開示とその実施形態は、2つの連続した投稿間の時間と投稿内での人々への言及等の重要な非テキストの手掛りを利用する。本開示の提案された方法の有効性を確認するために、データが、公開の会話と配備された私有プラットフォームから収集された。実験では、提案された方法が、3.23%(11.25%)の絶対的(相対的)改善をもたらしたことを実証した。
【0028】
次に、図面、特に
図1〜
図7を参照すると、全図面を通して一貫して、同様な参照文字は、対応する特徴を指し、好適な実施形態が示されており、これらの実施形態については、以下の例示的なシステム及び、又は方法のいずれかに関連して記載される。
【0029】
図1は、本開示の実施形態による情報ボトルネック(IB)技術を使用して対話セッションテキストをセグメンテーションするシステム100の例示的なブロック図を示す。一実施形態では、システム100は、1つ又は複数のプロセッサ104、通信インタフェース装置(複数可)又は入力/出力(I/O)インタフェース(複数可)106、及び1つ又は複数のプロセッサ104に動作可能に結合される1つ又は複数のデータ記憶装置若しくはメモリ102を含む。1つ又は複数のプロセッサ104は、1つ又は複数のソフトウェア処理モジュール及び、又はハードウェアプロセッサのいずれかとしてもよい。一実施形態では、1つ又は複数のハードウェアプロセッサは、1つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央演算処理装置、状態機械、論理回路及び、又は動作命令に基づいて信号を操作する任意の装置のいずれかとして、実装できる。他の能力の中では、プロセッサ(複数可)は、メモリに保存されたコンピュータ可読な命令をフェッチし、実行するように構成される。一実施形態では、装置100は、ラップトップコンピュータ、ノート型パソコン、携帯端末、ワークステーション、メインフレームコンピュータ、サーバ、及びネットワーククラウド等、様々なコンピューティングシステムで実装できる。
【0030】
I/Oインタフェース装置(複数可)106は、例えば、ウェブインタフェース、及びグラフィカルユーザインタフェース等といった様々なソフトウェア及びハードウェアインタフェースを含むことができ、例えば、LANケーブル等の有線ネットワーク、及びWLAN、セルラ又は衛星等の無線ネットワークを含む、多種多様のネットワークN/W及びプロトコルタイプ内で、複数の通信を促進できる。一実施形態では、I/Oインタフェース装置(複数可)は、多数の装置同士を接続する又は多数の装置を別のサーバに接続するための1つ又は複数のポートを含むことができる。
【0031】
メモリ102は、従来技術で既知の任意のコンピュータ可読な媒体を含んでもよく、該媒体は、例えば、スタティックRAM(SRAM)及びダイナミックRAM(DRAM)等の揮発性メモリ及び、又は読出し専用メモリ(ROM:read only memory)や、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、及び磁気テープ等の非揮発性メモリのいずれかを含む。一実施形態では、データベース108は、メモリ102に記憶でき、その場合データベース108は、テキストに関係する情報又は複数のユーザに関係する投稿、2つ以上の隣接する投稿間の距離値、チャットを投稿するユーザの数、及び1つ又は複数の特定のチャットテキストで言及されたユーザの数等を含んでもよいが、これらに限定されない。一実施形態では、メモリ102は、上記情報を記憶してもよく、該情報は、本明細書で記載された方法論を実行するために、1つ又は複数のハードウェアプロセッサ104によって(又はシステム100によって)利用される。
【0032】
図1を参照して、
図2は、本開示の一実施形態による
図1のシステム100によって実装される情報ボトルネック(IB)技術を使用して対話セッションテキストをセグメンテーションする方法の例示的なフロー図を示す。一実施形態では、システム(複数可)100は、1つ又は複数のハードウェアプロセッサ104と動作可能に結合された1つ又は複数のデータ記憶装置又はメモリ102を含み、1つ又は複数のプロセッ104によって本方法のステップを実行するための命令を記憶するように構成される。次に、本開示の方法のステップについて、
図1で図示されたシステム100の構成要素、及び
図2のフロー図を参照して、説明される。本開示の一実施形態では、ステップ202で、1つ又は複数のハードウェアプロセッサ104は、複数のユーザに関係する複数の入力テキスト投稿を入手する。本開示の一実施形態では、複数の入力テキスト投稿は、対話セッションテキストに含まれてもよい。別の実施形態では、複数の入力テキスト投稿は、リアルタイム(又は略リアルタイム)で入手されてもよく、その場合提案された方法は、リアルタイム(又は略リアルタイム)でシステム100によって実装及び、又は実行されてもよい。
【0033】
本開示の一実施形態では、ステップ202で、1つ又は複数のハードウェアプロセッサ104は、1つ又は複数の評価基準用の距離値を演算する。一実施形態では、1つ又は複数の評価基準は、(i)複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第1評価基準、(ii)少なくとも2つの連続する入力テキスト投稿間の時差を示す第2評価基準、及び(iii)複数のユーザからの1人又は複数のユーザを示す第3評価基準、を含む。つまり、距離値は、(i)複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿、(ii)少なくとも2つの連続する入力テキスト投稿間の時差、及び(iii)複数のユーザからの1人又は複数のユーザに基づいて、複数の入力テキスト投稿に対して演算される。一例示実施形態では、1人又は複数のユーザは、(i)1つ又は複数の入力テキスト投稿を投稿するユーザ数、及び(ii)複数の入力テキスト投稿の少なくとも1つのサブセットに言及された1人又は複数のユーザ、の少なくとも一方を含む。一例示実施形態では、第2評価基準用の距離値は、入力テキスト投稿間の時差が所定の閾値未満のときに、得られる。一例示実施形態では、第1評価基準は、第1レベルのセグメンテーションに関係し、第2評価基準は、第2レベルのセグメンテーションに関係し、第3評価基準は、第3レベルのセグメンテーションに関係する。
【0034】
本開示の一実施形態では、ステップ206で、1つ又は複数のハードウェアプロセッサ104は、1つ又は複数の評価基準用に演算される各距離値に加重を割り当てる。本開示の一実施形態では、ステップ208で、1つ又は複数のハードウェアプロセッサ104は、割り当てられた加重に基づいて加重和を演算する。
【0035】
本開示の一実施形態では、ステップ210で、1つ又は複数のハードウェアプロセッサ104は、1つ又は複数の評価基準に基づいて、加重和から得た対応する距離値を使用して、複数の入力テキスト投稿から、セグメンテーションされた対話セッションテキストを生成する。本開示の一実施形態では、加重和に最も対応していない距離値が、複数の入力テキスト投稿からのセグメンテーションされた対話セッションテキストの生成に利用される。本開示の一実施形態では、ステップ212で、1つ又は複数のハードウェアプロセッサ104は、(i)2つ以上の隣接する入力テキスト投稿それぞれと関連付けられる距離値、(ii)時差、及び(iii)1人又は複数のユーザを更新する。本開示の一実施形態では、ステップ210及び212は、複数の入力テキスト投稿における情報損失が所定の閾値(後のセクションで記述される)に達するまで、遂行及び、又は実行される。
【0036】
以下で示されるものが、本システムによって提案される方法論である。
【0037】
(subsequence)は、C
a:b={c
a,…,c
b}として表すことができる。Cのセグメンテーションは、セグメント列S={s
1,…,s
p}として規定されるが、但し、s
j=C
aj:bjであり、b
j+1=a
j+1である。入力テキスト列Cを考えると、セグメンテーションは、最も可能性が高いセグメント列Sを求めるタスクとして規定される。
【0038】
提案されたIBから着想を得た方法は、チャットシナリオで発生する重要な非テキストの手掛りを組込むために拡張される。より具体的には、2つの連続する投稿間の時間と該投稿中での人々への言及が、テキストセグメンテーションタスクのための提案されたIBから着想を得たアプローチに統合される。
【0039】
IBは、データ点を圧縮しながら、Cに関する有意な情報をカプセル化する1組の関連変数Rを導入する。同様に、本開示のシステム100及び実施形態は、セグメント列Sが、Rについての出来るだけ多くの情報を含有し(即ち、I(R;S)を最大化し)、SとC間の相互情報によって制約される(即ち、I(S;C)を最小化する)べきことを提案する。ここで、Cは、チャットテキスト列であり、前のセクションで導入された表記に従う。IBの目的は、以下を最大化することによって、達成できる。
【0041】
つまり、上記のIB目的関数は、Rの最も情報を提供するセグメンテーションと、Cの最もコンパクトな表現とのトレードオフでバランスをとるようにする;但し、βは、相対的な重要性を制御するために、定数パラメータとする。
【0042】
Rは、単語クラスタとしてモデル化され、以下のアルゴリズム1で説明されたように、Fを凝集型で最適化する。簡単に言えば、Fの最大化は、結局のところ、dの最小値に対応する隣接する投稿対を凝集的にマージするということになる。アルゴリズム1では、
【0044】
ここで、JSDは、ジャンセン−シャノン−ダイバージェンス(Jensen−Shannon−Divergence)を示す。R及びp(R,C)の演算については、以下のセクションで説明される。アルゴリズム1の停止基準は、SC>θであり、但し、SCは、以下のように演算される。
【0046】
SCの値は、より異なるクラスタがマージされる際に、I(R,S)の値の比較的大きい下落(dip)により、減少すると予想される。そのため、SCは、提案されたIBアプローチを終了するために強力な手掛りを提供する。SCに関するこの特定の演算の背後にある着想は、話者ダイアライゼーションの同様なタスクで実験された際に、安定した結果が出たことから、来たものである。θの値は、他のハイパーパラメータのように検証データセットに対する性能を最適化することによって調整される。
【0047】
アルゴリズム1:対話セッションテキストのIBから着想を得たセグメンテーション:
入力: 結合分布:p(R,C)、トレードオフパラメータβ
出力: セグメンテーション列:S
初期設定: S←C
【0048】
IBから着想を得たテキストセグメンテーションアルゴリズム(アルゴリズム1)は、Fの最適化中に、隣接する対のみをマージすることを考えるため、経時的連続性制約を順守する(アルゴリズム1のステップ2、3、及び4を参照)。よって、凝集型IBクラスタリングとは異なる。この結果として、提案されたIBに基づくアプローチは、限られた数の関連演算、より正確には、テキスト断片の数に関する線形計算を必要とする。
非テキストの手掛りを組込むこと:
【0049】
上述したように、非テキストの手掛り/非テキスト情報(2つの連続する投稿間の時間や該投稿間の人々への言及等)は、チャットテキストをセグメンテーションするのに
【0051】
演算される。w
1、w
2、w
3は、3つの異なる手掛り全てに対して演算された距離項の相対的重要性を示す重みである。方程式/式(4)にある||.||は、ユークリッドノルムを示す。
【0054】
ここで、方程式(5)で言及されたG(S)及びH(S)は、以下のように演算される。
【0057】
方程式/式(5)中のSCにおける第1項は、アルゴリズム1の停止基準から取得され、残りの第2及び第3項も、同様に導出される。第2項と第3項の両項は、Sの基数が減少するに従い減少し、類似の振る舞いを、2つの導入された重要な手掛りに反映する。第1項は、RについてのSに含有される情報の部分を演算し、RについてのCに含有される情報によって正規化される;同様に、第2項は、チャットテキスト列の総持続時間によって正規化されたセグメント間の持続時間の部分(即ち、1−総持続時間によって正規化された全セグメントの持続時間の部分)を演算し、第3項は、同様な項の最大距離(即ち、各投稿が1セグメントである場合)によって投稿者情報に関するセグメント間距離の合計を演算する。
実験:
【0058】
データセットは、後のセクションで考察される現実世界での会話プラットフォームから収集されたもので、利用された評価尺度は、実験から説明される。また、本開示は、提案されたIBアプローチとの公平な比較のために開発された有意な基準値についても記載する。また、考察されるのは、収集されたデータセットの両方について提案されたアプローチによって達成される性能である。最後に、パラメータβ及びθに関する提案されたIBアプローチの安定性が、分析される。
データセットの記載:
【0059】
対話セッションテキストのデータセット、例えば、第1データセット及び第2データセットが、収集され、テキストセグメンテーションタスクのために(手入力で)注釈付けされた。施された注釈は、合意(consensus)によって解決された、問題ある事例で利用された。データセットの統計が、一例として、以下で表1に示される。
【0061】
表1で表されたように、収集された生データは、後でセグメントに分割されるスレッドの形であった。更に、各文書が元のスレッドからのN個の連続したセグメントを含有する複数の文書が、作成された。Nは、5から15の間でランダムに選択された。これらの文書の60%は、重み(w
1,w
2,w
3)、θ及びβを含むハイパーパラメータを調整するのに使用され;残りは、試験に使用された。
【0062】
第1データセットからの文書の1つのごく一部が、
図3A〜
図3Cに表されている。ここでは、手入力の注釈が、黒の太横線で記されており、また、1)、2)、及び3)として列挙されている。各テキスト行は、会話中に第1データセットのプラットフォームで、ユーザの一人によってなされた投稿である。上述したように、チャットシナリオでは、各投稿は、次の3つの不可欠な構成要素を有する:
1.投稿者(
図3A〜
図3Cにおいて対応するIDによって示される、最初から‘−=[*says’まで)
2.タイムスタンプ(‘−=[*’と‘*]=−’との間)、及び
3.テキスト内容(‘*]=−:::’の後から終わりまで)。
【0063】
収集されたチャットデータセットと従来のデータセットとの相違点を実証するために、システム100は、
図4に示されたように、所与の単語頻度より少ない頻度で発生する単語の部分を演算した。特に、
図1〜
図3Fを参照して、
図4は、本開示の一例示実施形態による所与の単語頻度より少ない単語の部分について表すグラフ表示を示している。
図4から、チャットセグメンテーションのデータセットは、従来のテキストセグメンテーションのデータセットと比較して、それほど頻繁でない単語の割合がかなり高いことが、全く明白である。多量の低頻度の単語が存在すると、語彙単語から外れる割合が増加するため、テキスト類似度法を成功させるのが困難になる。そのため、チャットテキストの処理中に非テキストの手掛りを利用することが、更に重要になる。
評価及びセットアップ:
【0064】
性能評価のために、本開示の実施形態は、テキストセグメンテーションタスクを評価するのに広く利用されているP
k尺度を採用した。固定サイズk(通常、文書における全セグメント長の平均の半分)のスライディングウィンドウは、文書全体に亘り上から下までスライドする。kだけ離間した投稿全てに関するセグメント間とセグメント内両方の誤りは、推測された境界と注釈された境界とを比較することによって演算される。
【0065】
関連変数Rのセットは、投稿が関連変数として扱われる凝集型IBに基づく文書クラスタリング技術(複数可)を利用することによって推定される単語クラスタとして、モデル化される。その結果、Rは、投稿について情報を提供する(informative)単語クラスタを含む。従って、マトリクスp(R;C)における各エントリp(r
i;c
j)は、投稿c
jにおいて単語クラスタr
iを得る結合確率を表す。p(r
i;c
j)は、r
i及びc
jにおける共通の単語を計数し、その後正規化することによって簡単に計算される。
基準値アプローチ:
【0066】
比較のために、複数の基準値が開発された。ランダム(Random)では、5〜15の境界が、ランダムに挿入される。無境界(No Boundary)の場合には、文書全体が、1つのセグメントとして標識される。次に、テキストセグメンテーションタスク用の古典的なベンチマークである、C−99及び動的計画法が実装された。別の極めて単純でしかも効果的な基準値である平均時間(Average Time)が、準備され、その際、境界は、固定時間が経過した後に、挿入される。固定時間は、注釈されたデータセットの特定の分離部分から計算される。
【0067】
本開示で行われた実験で利用された次の基準値は、エンコーダ−デコーダ距離である。このアプローチでは、sequence−to−sequenceのRNNエンコーダ−デコーダは、標識部分を除いた公的に使用可能なデータセット(例えば、第1データセット)から150万の投稿を利用して訓練された。ネットワークは、2つの隠れ層を含み、隠れ状態の次元は、各層に対して256に設定された。符号化表現が、利用され、ユークリッド距離を使用して凝集的に貪欲にマージされた。このアプローチのための停止基準は、投稿者情報に対応する方程式/式(5)における第3項と同様であった。エンコーダ−デコーダ距離と同様に、表現が100のトピックを有するトピックモデルから来たLDA距離が、開発された。
定量結果:
【0068】
第1データセットと第2データセットの両方についてのIBの準備された全基準値及び変数の結果は、例として以下で示される表2で言及される:
【0070】
表2で示されたように、第1データセットと第2データセットの両方に関して、IBの複数の変数は、全ての開発された基準値と比較すると、優れた性能をもたらす。より正確には、第1データセットに関して、提案されたIBに基づく方法の4つの異なる変数は、基準値と比較すると、3.23%の絶対的改善、及び11.25%の相対的改善を伴う高性能を達成する。第2データセットの場合、提案された方法の3つの異なる変数は、優れた性能を達成するが、絶対P
k値に関しては、第2データセットに対するほどの優れた性能は達成しない。かかる振る舞いは、第1データセット(9000/900=10)と比較して、第2データセット(5000/800=6.25)に対する1セグメント当りの投稿値が少ないためである可能性があるという仮説が立てられる。また、IBフレームワークにおける時間の手掛りだけが、第2データセットに関して最良の性能を発揮するが、これにより、時間の手掛りの相対的な重要性が、セグメント長が短い(即ち、1セグメント当りの投稿値が低い)データセットに関しては、より高くなることが示される点に留意されたい。提案された仮説を更に実証するために、セグメント長(1セグメント当りの投稿数)の正規化された頻度分布が、
図5に示されるように、両データセットに対して推定された。特に、
図1〜
図4を参照して、
図5は、本開示の実施形態による第1データセットと第2データセットの両方に関するセグメント長の正規化された頻度分布について表すグラフ表示を示している。
【0071】
得られた経験結果が、提案された方法論の主要な仮説を裏付ける点は、注目に値する。というのも、IBの変数は、両データセットに優れた性能をもたらすからである。また、個別の非テキストの手掛りを組込む際に、3.23%と7.32%の優れた改善が、テキストからテキスト+時差で、第1及び第2データセットそれぞれに関して観測されており;同様に、テキストからテキスト+投稿者で、4.43%と3.79%の改善が、第1及び第2データセットそれぞれに関して観測される。更に、最高の性能は、両方の非テキストの手掛りを融合する際に両データセットに関して達成され、これは、手掛りが相補的でもあることを示している。
定性的結果:
【0072】
図3A、
図3B、
図3Cの一部分にあるごく一部のチャットテキストに対応する、複数のアプローチ、即ち、平均時間(Average Time)、IB:時差、及びIB:テキスト+時差+投稿者に関して得られた結果は、
図3D、
図3E、
図3Fの一部分において提示される。特に、
図3A〜
図3Cは、
図1〜
図2を参照して、本開示の一例示実施形態による公開の会話(第1データセットの会話)に関して手入力で作成されたグラウンドトゥルースを表している。
図3A〜
図3Cにある実線は、セグメンテーション境界を表している。
図3D〜
図3Fは、
図1〜
図3Cを参照して、本開示の一実施形態による複数のアプローチに関して得られた結果を表している。平均時間基準値(平均時間で示される)は、3境界を見つけることができたが、該境界の1つは、かなり離れており、これは、固定された持続時間の制約による可能性がある。
【0073】
同様に、次のIB:時差のアプローチも、正確に最初の2つの境界を見つけられるが、3番目の境界を回復していない。結果は、時間の手掛りが、セグメント長が文書中で大いに異なる場合、それ程効果的にはセグメンテーション境界を再構築できないことを示しているようである。興味深いことには、IB:テキスト+時差+投稿者のアプローチで発生するような3つの手掛り全ての組合せは、グランドトゥルースにおける3セグメンテーション境界全てが高精度で回復されたため、最高の結果をもたらした。従って、本開示は、非テキストの手掛りの組込みが、セグメントチャットテキストに優れた結果を得るのに重要であると考える。
パラメータの効果:
【0074】
提案されたIBに基づく方法の振る舞いを分析するために、IB:テキストの平均性能尺度P
kは、第1データセットのテストセット間で、β及びθに関して、演算された。また、結果の再現を容易にするために、全パラメータの最適値が、表3で提案されたIBアプローチの全変数について言及された。特に、表3は、表2のIB変数によって得られた結果に対応するパラメータの最適値を表す。
【0076】
図1〜
図5を参照して、
図6は、本開示の一例示実施形態によるハイパーパラメータβに関する第1データセットの試験セット間の、性能評価尺度P
kの平均の振る舞いについて表すグラフ表示を示している。先にも述べたように、パラメータβは、保存される情報量と圧縮レベルとのトレードオフを表している。βの最適値が、両極端に存在しないことが、はっきりと観察でき、これは、提案されるIB法の両項(方程式(1)にあるように)の
【0077】
ハイパーパラメータθに関する第1データセットの試験セット間の平均性能評価尺度P
kが、
図7に表されている。特に、
図1〜
図6を参照して、
図7は、本開示の一例示実施形態によるハイパーパラメータθに関する第1データセット間の平均評価尺度P
kのグラフ表示を示している。
図7は、停止基準の妥当性を明確にしている。初めに、P
k値の平均は、より一貫性のある投稿がマージされるほど減少し、特定のθ値未満になるまで減少し続ける。その後、P
k値の平均は、より異なるセグメントのマージにより、増加し始める可能性がある。θの最適値は、変数間でかなり変動し、表3で言及されたように、本開示で提案された全IB変数に関して、検証データセットに亘り強制的に調整する必要がある。
【0078】
本開示は、特にテキストセグメンテーションのために、チャットテキストを処理するための効率的な方法の重要性が高まっていることを強調する。システム100は、テキストセグメンテーションのためのデータセットを収集し、導入した。チャットテキストデータセットの導入により、システム100は、チャットテキストに特有のセグメンテーションアプローチについて調査可能になった。更に、本開示で提供された結果は、提案されたIB法が、3.23%もの絶対的改善をもたらすことを実証している。また、大幅な性能の向上(3.79%〜7.32%)が、非テキストの手掛りの組込みで観測されており、これは、そうした手掛りの重要度(criticality)を示している。
【0079】
本明細書は、全ての当業者が実施形態を作製及び使用できるように、本明細書における主題を記載する。主題の実施形態の範囲は、クレームで規定され、当業者が着想する他の変形例を含んでもよい。かかる他の変形例は、クレームの文言と異ならない同様の要素を有するならば、又はクレームの文言とごく僅かな相違点を有する同等な要素を含むならば、クレームの範囲内にあるものとする。
【0080】
保護の範囲は、かかるプログラム、更にそこにメッセージを有するコンピュータ可読な手段に拡大されると理解されるべきである;かかるコンピュータ可読な記憶手段は、プログラムがサーバ又はモバイル装置又は任意の適当なプログラム可能装置上で動く際に、本方法の1ステップ又は複数のステップを実装するためのプログラム−コード手段を含有する。ハードウェア装置は、例えばサーバ又はパーソナルコンピュータ等のような任意の種類のコンピュータ、又はそれらの組合せを含む、プログラムできる任意の種類の装置とすることができる。また、該装置は、例えば、特定用途向け集積回路(ASIC:application−specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA)といった例えばハードウェア手段、或いは、例えばASICとFPGA、又は少なくとも1つのマイクロプロセッサと内部にソフトウェアモジュールが配置された少なくとも1つのメモリといったハードウェアとソフトウェア手段の組合せでありうる手段を含んでもよい。従って、これらの手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書に記載された方法の実施形態は、ハードウェア及びソフトウェアに実装し得る。また、装置は、ソフトウェア手段を含んでもよい。或いは、実施形態は、例えば複数のCPUを使用して、異なるハードウェア装置上に実装されてもよい。
【0081】
本明細書中の実施形態は、ハードウェア要素及びソフトウェア要素を含むことができる。ソフトウェアに実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されない。本明細書に記載された様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組合せにおいて実装されてもよい。本明細書の目的のために、コンピュータ使用可能な又はコンピュータ可読な媒体は、命令実行システム、機器、若しくは装置によって、又はそれらと接続して使用するプログラムを、含む、記憶する、通信する、伝搬する、又は移植できる任意の機器とすることができる。
【0082】
解説されたステップは、図示された例示実施形態について説明するために提示されたもので、現在進行中の技術開発が、特定の機能の実行される様式を変化させるであろうことは、見込まれるべきである。これらの実施例は、限定ではなく、説明目的で本明細書に提示されている。更に、機能を構築する各ブロックの境界は、記載の便宜上、本明細書では恣意的に規定されている。代替的境界は、本明細書で記述された機能及び関係が適切に実行される限りにおいて、規定され得る。代替手段(本明細書に記載されたものの、同等物、拡張物、変形物、仕様変更物(deviation)等を含む)は、本明細書に含有される教示に基づいて、関連技術の当業者には明らかであろう。かかる代替手段は、開示された実施形態の範囲及び精神の範囲内にある。また、単語「含む(comprising)」、「有する(having)」、「含有する(containing)」及び「含む(including)」、及び他の同様な形は、意味において同等であり、これらの単語のいずれか1つに続く一項目又は複数の項目が、かかる項目若しくは複数の項目の総記を意味せず、又は列記された項目若しくは複数の項目だけに限定されることを意味しない点で、オープンエンドであると意図される。また、本明細書及び付記されるクレームで使用される単数形の「a」、「an」、及び「the」は、その文脈で別段明記していない限り、複数の参照物も含むことにも、注意されねばならない。
【0083】
更に、1つ又は複数のコンピュータ可読な記憶媒体が、本開示に沿った実施形態を実装する際に利用されてもよい。コンピュータ可読な記憶媒体は、プロセッサによって可読な情報又はデータが記憶されてもよいあらゆる種類の物理的なメモリを指す。従って、コンピュータ可読な記憶媒体は、本明細書に記載された実施形態に沿ったステップ又は段階をプロセッサに実行させる命令を含む、1つ又は複数のプロセッサによって実行する命令を記憶してもよい。用語「コンピュータ可読な媒体」は、有形なアイテムを含み、搬送波及び過渡信号を除外する、即ち非一時的なものと理解されるべきである。実施例は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、ブルーレイ、フラッシュドライブ、ディスク、及びあらゆる他の既知の物理的記憶媒体を含む。
【0084】
本開示及び実施例は、例示のみと見なされ、開示された実施形態の真の範囲及び精神は、以下のクレームによって示されるものとする。