(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-06
(54)【発明の名称】講演用原稿の品質評価方法及び装置
(51)【国際特許分類】
G06F 40/253 20200101AFI20241129BHJP
【FI】
G06F40/253
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577907
(86)(22)【出願日】2023-04-19
(85)【翻訳文提出日】2023-12-14
(86)【国際出願番号】 CN2023089229
(87)【国際公開番号】W WO2024108885
(87)【国際公開日】2024-05-30
(31)【優先権主張番号】202211491162.0
(32)【優先日】2022-11-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】516097402
【氏名又は名称】北京優幕科技有限責任公司
【氏名又は名称原語表記】BEIJING UMU TECHNOLOGY CO., LTD.
【住所又は居所原語表記】05-609, 8th Floor, NO.18,Zhongguancun Street, Haidian District Beijing 100190, China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】楊 柳▲い▼
(72)【発明者】
【氏名】李 東朔
(57)【要約】
本願は講演用原稿の品質評価方法及び装置を提供し、前記方法は、講演用原稿及び所定の要点序列を取得し、前記所定の要点序列が複数の要点内容を含むことと、前記講演用原稿を複数のテキストユニットに分割することと、ニューラルネットワークモデルにより前記複数のテキストユニットを語義識別して、各前記要点内容の前記講演用原稿でのヒット位置を決定することと、前記ヒット位置及び前記複数の要点内容の順序に基づいて前記講演用原稿の評価結果を計算することと、を含む。
【特許請求の範囲】
【請求項1】
講演用原稿の品質評価方法であって、
講演用原稿及び所定の要点序列を取得し、前記所定の要点序列が複数の要点内容を含むことと、
前記講演用原稿を複数のテキストユニットに分割することと、
ニューラルネットワークモデルにより前記複数のテキストユニットを語義識別して、各前記要点内容の前記講演用原稿でのヒット位置を決定することと、
前記ヒット位置及び前記複数の要点内容の順序に基づいて前記講演用原稿の評価結果を計算することと、を含むことを特徴とする講演用原稿の品質評価方法。
【請求項2】
ニューラルネットワークモデルにより前記複数のテキストユニットを語義識別して、各前記要点内容の前記講演用原稿でのヒット位置を決定することは具体的に、
前記ニューラルネットワークモデルが各前記要点内容にマッチングする前記テキストユニットをそれぞれ識別することと、
各前記要点内容にマッチングする前記テキストユニットの番号を取得することと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記ヒット位置に基づいて前記講演用原稿の評価結果を決定することは具体的に、
1番目の前記要点内容及び最終番目の前記要点内容にマッチングするテキストユニットの番号に基づいて、有効内容の長さを決定することと、
前記要点内容の数及び前記有効内容の長さに基づいて各前記要点内容の所望位置を決定することと、
各前記要点内容の前記ヒット位置が前記所望位置と一致するかどうかをそれぞれ判断することと、
全ての判断結果に基づいて前記講演用原稿の評価結果を計算することと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記有効内容の長さはend-startであり、但し、startが1番目の前記要点内容にマッチングするテキストユニットの番号であり、endが最終番目の前記要点内容にマッチングするテキストユニットの番号であることを特徴とする請求項3に記載の方法。
【請求項5】
前記要点内容の所望位置は前記要点内容の数、前記有効内容の長さ及び各要点内容の番号に基づいて決定した所望区間であることを特徴とする請求項3に記載の方法。
【請求項6】
i番目の前記要点内容の所望区間は[start+(i-1)
*(end-start)/n,start+i
*(end-start)/n]であり、但し、startが1番目の前記要点内容にマッチングするテキストユニットの番号であり、endが最終番目の前記要点内容にマッチングするテキストユニットの番号であり、nが前記要点内容の数であることを特徴とする請求項5に記載の方法。
【請求項7】
手動で入力された、任意の前記要点内容の前記所望区間を調整するための前記所望区間の関与命令を取得することを更に含むことを特徴とする請求項5又は6に記載の方法。
【請求項8】
各前記要点内容の前記ヒット位置が前記所望位置と一致するかどうかをそれぞれ判断することは具体的に、
i番目の前記要点内容に対応する前記テキストユニットの番号が前記区間内にあるかどうかを判断することと、
i番目の前記要点内容に対応する前記テキストユニットの番号が前記区間内にある場合、ヒット位置が所望位置と一致することを判定することと、を含むことを特徴とする請求項5又は6に記載の方法。
【請求項9】
全ての判断結果に基づいて前記講演用原稿の評価結果を計算することは具体的に、
結論が一致しない判断結果の場合、前記ヒット位置の前記所望位置からの逸脱程度に基づいて懲罰量を決定することと、
全ての懲罰量に基づいて前記講演用原稿の評価結果を計算することと、を含むことを特徴とする請求項3に記載の方法。
【請求項10】
講演用原稿の品質評価装置であって、
プロセッサと、前記プロセッサに接続されるメモリとを備え、前記メモリには前記プロセッサにより実行され得る命令が記憶され、前記命令が前記プロセッサにより実行されることで、前記プロセッサに請求項1~9のいずれか1項に記載の講演用原稿の品質評価方法を実行させることを特徴とする講演用原稿の品質評価装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は自然言語処理の分野に関し、具体的に講演用原稿の品質評価方法及び装置に関する。
【背景技術】
【0002】
講演とは、公共の場で音声言語を主な手段とし、ボディランゲージを補助の手段として、ある具体的な問題に対してその見解及び主張をはっきりと完全に発表して、事理を説明したり、感情を表したりして、宣伝・扇動する言語コミュニケーション活動である。講演用原稿は講演の根拠であり、その中に必ず決められたいくつかの要点内容が存在しなければならない。
【0003】
講演用原稿は常に配列法や概括してから詳述する方法などによって表現しようとする要点をある順序で順次表現し、このような順序は該講演用原稿の品質の優劣を評価する指標とされてもよい。講演用原稿の品質を手動で評価することは、効率が比較的低くて、評価者の主観的な要素から影響を受けやすいことが明らかである。
【0004】
中国特許文献CN113361275Aに講演用原稿の論理構造評価方法が開示されており、該方法は講演用原稿に出現した接続詞及びその分布状態を識別することにより全体の論理構造を評価する。該解決手段は講演用原稿の論理性をより正確に評価できるが、講演用原稿が表現しようとする内容を無視してしまい、1編の講演用原稿は接続詞を合理的に利用するだけでその品質が比較的高いことを十分に示すことができない。
【発明の概要】
【課題を解決するための手段】
【0005】
これに鑑みて、本発明は講演用原稿の品質評価方法を提供し、講演用原稿及び所定の要点序列を取得し、前記所定の要点序列が複数の要点内容を含むことと、前記講演用原稿を複数のテキストユニットに分割することと、ニューラルネットワークモデルにより前記複数のテキストユニットを語義識別して、各前記要点内容の前記講演用原稿でのヒット位置を決定することと、前記ヒット位置及び前記複数の要点内容の順序に基づいて前記講演用原稿の評価結果を計算することと、を含む。
【0006】
選択肢として、ニューラルネットワークモデルにより前記複数のテキストユニットを語義識別して、各前記要点内容の前記講演用原稿でのヒット位置を決定することは具体的に、前記ニューラルネットワークモデルが各前記要点内容にマッチングする前記テキストユニットをそれぞれ識別することと、各前記要点内容にマッチングする前記テキストユニットの番号を取得することと、を含む。
【0007】
選択肢として、前記ヒット位置に基づいて前記講演用原稿の評価結果を決定することは具体的に、1番目の前記要点内容及び最終番目の前記要点内容にマッチングするテキストユニットの番号に基づいて、有効内容の長さを決定することと、前記要点内容の数及び前記有効内容の長さに基づいて各前記要点内容の所望位置を決定することと、各前記要点内容の前記ヒット位置が前記所望位置と一致するかどうかをそれぞれ判断することと、全ての判断結果に基づいて前記講演用原稿の評価結果を計算することと、を含む。
【0008】
選択肢として、前記有効内容の長さはend-startであり、但し、startが1番目の前記要点内容にマッチングするテキストユニットの番号であり、endが最終番目の前記要点内容にマッチングするテキストユニットの番号である。
【0009】
選択肢として、前記要点内容の所望位置は前記要点内容の数、前記有効内容の長さ及び各要点内容の番号に基づいて決定した所望区間である。
【0010】
選択肢として、i番目の前記要点内容の所望区間は[start+(i-1)*(end-start)/n,start+i*(end-start)/n]であり、但し、startが1番目の前記要点内容にマッチングするテキストユニットの番号であり、endが最終番目の前記要点内容にマッチングするテキストユニットの番号であり、nが前記要点内容の数である。
【0011】
選択肢として、前記方法は、手動で入力された、任意の前記要点内容の前記所望区間を調整するための前記所望区間の関与命令を取得することを更に含む。
【0012】
選択肢として、各前記要点内容の前記ヒット位置が前記所望位置と一致するかどうかをそれぞれ判断することは具体的に、i番目の前記要点内容に対応する前記テキストユニットの番号が前記区間内にあるかどうかを判断することと、i番目の前記要点内容に対応する前記テキストユニットの番号が前記区間内にある場合、ヒット位置が所望位置と一致することを判定することと、を含む。
【0013】
選択肢として、全ての判断結果に基づいて前記講演用原稿の評価結果を計算することは具体的に、結論が一致しない判断結果の場合、前記ヒット位置の前記所望位置からの逸脱程度に基づいて懲罰量を決定することと、全ての懲罰量に基づいて前記講演用原稿の評価結果を計算することと、を含む。
【0014】
本発明は講演用原稿の品質評価装置を更に提供し、プロセッサと、前記プロセッサに接続されるメモリとを備え、前記メモリには前記プロセッサにより実行され得る命令が記憶され、前記命令が前記プロセッサにより実行されることで、前記プロセッサに上記講演用原稿の品質評価方法を実行させる。
【発明の効果】
【0015】
本発明の実施例に係る講演用原稿の品質評価方法及び装置によれば、まず評価者がその予測した講演用原稿における講演すべき要点を提供することが許容され、本解決手段はニューラルネットワークモデルにより各要点が評価された講演用原稿に言及された位置を順次判断し、要点の順序及びその言及された位置の順序によって講演用原稿の論理構造が適切であるかどうか及び全ての講演すべき要点に関わるかどうかを評価し、講演用原稿が表現しようとする内容を主な判断根拠とし、講演用原稿の品質を正確に評価することができる。且つ、本解決手段は大規模の専門分野の言語材料によりニューラルネットワークモデルを訓練する必要がなく、汎用分野のオープンソースデータにより訓練された語義識別可能なモデルを用いれば、要点内容のヒット位置の識別を実現でき、より高い拡張性及び実用性を有する。
【図面の簡単な説明】
【0016】
本発明の具体的な実施形態又は従来技術の技術案をより明確に説明するために、以下に具体的な実施形態又は従来技術の記述に必要な図面を簡単に説明するが、明らかに、以下に記載する図面は本発明の実施形態の一例であって、当業者であれば、創造的な労力を要することなく、更にこれらの図面に基づいて他の図面を取得することができる。
【
図1】本発明の実施例に係る講演用原稿の品質評価方法を示すフローチャートである。
【
図2】発明の実施例に係るニューラルネットワークモデルによるデータの識別を示す模式図である。
【
図3】本発明の実施例に係る要点内容のヒット状況を示す模式図である。
【発明を実施するための形態】
【0017】
以下、図面を参照しながら本発明の技術案を明確且つ完全に説明する。無論、説明される実施例は本発明の実施例の一部であり、実施例の全部ではない。本発明の実施例に基づいて、当業者が進歩性のある労働を必要とせずに取得する他の実施例は、いずれも本発明の保護範囲に属する。
【0018】
本発明の実施例は講演用原稿の品質評価方法を提供し、該方法はコンピュータ及びサーバなどの電子機器により実行されてもよく、
図1に示すように、該方法は下記ステップS1~S4を含む。
【0019】
S1 講演用原稿及び所定の要点序列を取得し、所定の要点序列が複数の要点内容を含む。これらの要点内容は秩序あるものであり、この講演用原稿が予想された表現しようとする内容のまとめであり、例えば、一言、連語又は単語であってもよい。
【0020】
評価者は講演用原稿の主題及び受け手などの要素に基づいて複数の要点内容を設定することができ、例えば、n個の要点内容がある場合には、評価者は評価された講演用原稿にこのn個の要点内容に関わる文字内容が含まれるように期待されていることを示す。
【0021】
S2 講演用原稿を複数のテキストユニットに分割する。CN113361275Aに記載された方式を参照して分割してもよく、より簡単な方式で分割してもよく、例えば、句点、疑問符、感嘆符などの一言の終了を示す句読符号で分割し、テキストユニットが一言である。
【0022】
S3 ニューラルネットワークモデルにより複数のテキストユニットを語義識別して、各要点内容の講演用原稿でのヒット位置を決定する。本解決手段におけるニューラルネットワークモデルは各言葉で表現される内容が各所定の要点と一致するかどうかを識別すべきであり、具体的なアルゴリズムがゼロリソース分類モデル、類似度判断モデルなどのアルゴリズムを用いてもよい。所定の要点内容は汎用のものであり、講演用原稿から手動で抽出した初期文字ではない。例として、例えば、評価しようとする講演用原稿が電子製品の推奨に関わる場合、1つの所定の要点は「電子製品のハードウェア性能」であってもよく、そうすると、ニューラルネットワークモデルは講演用原稿にこの一言が存在するかどうかを識別するのではなく、各テキストユニットを識別して、その意味が電子製品のハードウェア性能にマッチングするかどうかを判断すべきである。
【0023】
m個のテキストユニット及びn個の要点内容があると仮定すれば、ニューラルネットワークモデルは各要点が講演用原稿にヒットされる位置を順次判断する。
図2に示すように、例えば、i番目の要点内容については、ニューラルネットワークモデルはm個のテキストユニットのうちのテキストユニットm
i…テキストユニットm
jで表現される内容がi番目の要点内容にマッチングすることを識別した場合、テキストユニットm
i…テキストユニットm
jの講演用原稿全体での位置がi番目の要点内容の講演用原稿でのヒット位置である。
【0024】
なお、1編の講演用原稿におけるある要点内容を説明するテキストユニットの数が1つ又は複数であってもよく、且つ該要点内容を説明するテキストユニットが識別されない恐れもあり、即ち講演用原稿全体に該要点内容を表現する文字がない。
【0025】
S4 ヒット位置及び複数の要点内容の順序に基づいて講演用原稿の評価結果を計算する。本解決手段のコア構想は、高品質の講演用原稿が、所定の要点の順序と講演用原稿におけるヒット要点の順序とが線形相関を有する要件に適合すべきであり、例えば、i番目の要点内容のヒット位置がi+1番目の要点内容のヒット位置の前且つi-1番目の要点内容のヒット位置の後にあるべきであり、全ての要点内容のヒット位置がいずれも上記関係に適合すれば、より良い評価結果を取得し、それとは逆に、上記関係に適合せず、又はいくつかの要点内容がヒット位置を有しなければ、より悪い評価結果を取得する、ということである。
【0026】
評価結果は点数値であってもよく、優、良、可、悪のような分類結果であってもよく、具体的な実現論理が様々あり、上記線形関係に適合しない場合が多ければ多いほど、ギャップが大きくなり、及びヒットしないなどのネガティブ状況が多くなり、そうすると、点数が低くなり、又は分類結果が悪くなり、逆の場合に、点数が高くなり、又は分類結果が良くなり、従って、ネガティブ状況に対して懲罰を計算し、又はポジティブ状況に対して激励を計算して、懲罰又は激励に基づいて評価結果を取得することができる。
【0027】
好適な実施例では、ステップS3において、ニューラルネットワークモデルが各要点内容にマッチングするテキストユニットをそれぞれ識別し、更に各要点内容にマッチングするテキストユニットの番号を取得する。1編の講演用原稿がm個の言葉に分割されると仮定すれば、m個のテキストユニットの番号が取得され、i番目の要点内容にマッチングするテキストユニットの番号がi番目の要点内容のヒット位置である。
【0028】
更に、ステップS4において、1番目の要点内容及び最終番目の要点内容にマッチングするテキストユニットの番号に基づいて、有効内容の長さを決定する。講演用原稿の始め及び終わりが一般的に全ての要点内容に関わらない文字であるので、各要点内容のヒット位置の分布が均一であるかどうかを正確に評価するために、ここにまず有効内容の長さを決定し、1番目の要点内容にマッチングするテキストユニットの番号をstartとして記し、最終番目の要点内容にマッチングするテキストユニットの番号をendとして記し、そうすると、有効内容の長さがend-startとなる。
【0029】
要点内容の数及び有効内容の長さに基づいて各要点内容の所望位置を決定する。ヒット位置が均一に分布しているかどうかを決定するために、所定の要点内容の総数と組み合わせて所望位置を決定する必要がある。例を挙げると、所定の要点の数が比較的少なく、例えば3つだけある場合、1番目の所定の要点のヒット位置が講演用原稿の有効内容の上位3分の1にあることは合理的であり、有効内容の上位3分の1が1番目の所定の要点の所望位置であり、同様に、2番目の所定の要点の所望位置が有効内容の中央3分の1であり、3番目の所定の要点の所望位置が有効内容の最後3分の1であり、所定の要点が比較的多く、例えば10個ある場合、所定の要点の所望位置も対応して調整される。
【0030】
各要点内容のヒット位置が所望位置と一致するかどうかをそれぞれ判断して、全ての判断結果に基づいて講演用原稿の評価結果を計算する。ヒット位置がその所期位置に位置しない状況はネガティブ状況であり、所期位置から遠く逸脱すればするほど、該要点内容に対する判断結果が悪くなり、懲罰値が高くなるように具現されてもよく、全ての要点内容のヒット位置の判断結果をまとめれば、総合評価結果を算出することができる。
【0031】
更に、上記要点内容の所望位置は要点内容の数、有効内容の長さ及び各要点内容の番号に基づいて決定した所望区間である。各所定の要点の所望区間の長さが(end-start)/nと示されてもよく、i番目の要点内容の所望区間は[start+(i-1)*(end-start)/n,start+i*(end-start)/n]であり、但し、startが1番目の要点内容にマッチングするテキストユニットの番号であり、endが最終番目の要点内容にマッチングするテキストユニットの番号であり、nが要点内容の数である。
【0032】
上記好適な解決手段により本方法を実行する装置は、講演用原稿及び所定の要点内容の実際の状況に応じて各要点内容の所望区間を自動的に決定することができる。選択可能な実施例では、上記所望区間を手動で調整することも許容され得る。
【0033】
例えば、いくつかの要点内容が他の要点内容よりも重要又はそれほど重要ではない場合、講演用原稿におけるより重要な要点内容を表現する内容がより長いものであるべきであり、従って、その所望区間がより長くなるべきであり、逆の場合に、所望区間がより短くなるべきである。そして、上記自動的に決定された所望区間の長さは平均したものであり、より正確な評価結果を取得するために、好適な実施例では、まず全ての要点内容の所望区間を自動的に取得し、次に手動で入力された、任意の要点内容の所望区間を調整して両端へ発散させるための所望区間の関与命令を取得してもよく、任意の所望区間を必要に応じて短縮又は延長することがいずれも実現可能である。
【0034】
各要点内容の所望区間を取得した後、i番目の要点内容に対応するテキストユニットの番号が区間内にあるかどうかを判断し、i番目の要点内容に対応するテキストユニットの番号が区間内にある場合、ヒット位置が所望位置と一致することを判定する。例えば、i番目の要点内容に対応するテキストユニットの番号がmi…mjである場合、mi…mj∈[start+(i-1)*(end-start)/n,start+i*(end-start)/n]が成り立つかどうかを判断する。
【0035】
結論が一致しない判断結果の場合、即ち上記条件が成り立たない場合、ヒット位置の所望位置からの逸脱程度に基づいて懲罰量を決定し、ヒット位置が所期区間から遠く逸脱すればするほど、懲罰量が大きくなり、具体的な実施例では、懲罰量は所望区間から逸脱する長さが有効内容の総長さを占有した百分率として定義される。
【0036】
最後に、全ての懲罰量に基づいて講演用原稿の評価結果を計算する。
図3に1つの具体例を示し、縦座標が上から下へ所定の要点内容1~nを示し、横座標が左から右へテキストユニット1~mを示し、その中の色パッチはテキストユニットにおける要点内容のヒット状況を示し、濃色の色パッチはテキストユニットが要点内容と一致することを示し、薄色の色パッチは一致しないことを示す。ニューラルネットワークモデルによる識別結果が一致程度であり、凡例において色が濃いほど色パッチは一致程度が高くなることを示し、逆の場合に低くなる。点線領域における内容は所定の要点と一致する順序と、講演用原稿における要点にヒットする順序とが線形相関を有することを示すが、点線領域外は要点内容にヒットするテキストユニットの講演用原稿での位置を示し、該位置が要点内容自体の順序と一致しなければ、懲罰量が生成されることとなり、最終的に全ての懲罰量に基づいて最終結果を算出することができる。
【0037】
当業者であれば理解されるように、本発明の実施例は方法、システム又はコンピュータプログラム製品として提供され得る。従って、本発明は完全ハードウェア実施例、完全ソフトウェア実施例、又はソフトウェア及びハードウェアを組み合わせた実施例の形態を採用してもよい。また、本発明は、コンピュータ利用可能プログラムコードを含む1つ又は複数のコンピュータ利用可能記憶媒体(磁気ディスク記憶装置、CD-ROM、光学記憶装置などを含むが、それらに限らない)上で実施されるコンピュータプログラム製品の形態を採用してもよい。
【0038】
本発明は本発明の実施例に係る方法、装置(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明したものである。理解すべきことは、フローチャート及び/又はブロック図における各プロセス及び/又はブロック、並びにフローチャート及び/又はブロック図におけるプロセス及び/又はブロックの組合せをコンピュータプログラム命令によって実現できる。これらのコンピュータプログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ又は他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される命令は、フローチャートにおける1つのプロセス又は複数のプロセス及び/又はブロック図における1つのブロック又は複数のブロックにおいて指定された機能を実現するための装置を創出する。
【0039】
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置を特定の方式で動作させるように指導可能なコンピュータ可読メモリに記憶されてもよく、それによって該コンピュータ可読メモリに記憶された命令は、フローチャートにおける1つのプロセス又は複数のプロセス及び/又はブロック図における1つのブロック又は複数のブロックにおいて指定された機能を実現する命令装置を含む製造品を創出する。
【0040】
これらのコンピュータプログラム命令はコンピュータ又は他のプログラマブルデータ処理装置にロードすることにより、コンピュータ実行処理を生成するように、コンピュータ又は他のプログラマブルデバイスにおいて一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ又は他のプログラマブルデバイスにおいて実行される命令はフローチャートにおける1つのプロセス又は複数のプロセス及び/又はブロック図における1つのブロック又は複数のブロックにおいて指定された機能を実現するためのステップを提供する。
【0041】
明らかに、上記実施例は明確に説明するために挙げた例に過ぎず、実施形態を限定するものではない。当業者であれば、上記説明を基に更に他の異なる形式の変化又は変動を行うことができる。ここでは全ての実施形態を挙げることができず、またその必要もない。そして、これにより派生した明らかな変化又は変動は依然として本発明創造の保護範囲内にある。
【国際調査報告】