(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-05-24
(54)【発明の名称】非支援専門用語の音声テキスト変換
(51)【国際特許分類】
G10L 15/22 20060101AFI20220517BHJP
G06Q 50/10 20120101ALI20220517BHJP
G10L 15/00 20130101ALI20220517BHJP
G10L 13/00 20060101ALI20220517BHJP
G10L 15/14 20060101ALI20220517BHJP
【FI】
G10L15/22 453
G06Q50/10
G10L15/00 200T
G10L13/00 100Z
G10L15/14 200Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022504328
(86)(22)【出願日】2020-03-13
(85)【翻訳文提出日】2021-10-11
(86)【国際出願番号】 EP2020056960
(87)【国際公開番号】W WO2020187787
(87)【国際公開日】2020-09-24
(32)【優先日】2019-03-18
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】519414848
【氏名又は名称】エボニック オペレーションズ ゲーエムベーハー
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】クロール、オリヴァー
(72)【発明者】
【氏名】ブランダ、ガエタノ
(72)【発明者】
【氏名】シルバー、ステファン
(72)【発明者】
【氏名】フセン、インガ
(72)【発明者】
【氏名】バルダス、マイケル
(72)【発明者】
【氏名】ランゲ、トーマス
(72)【発明者】
【氏名】シェーネベルク、ウルフ
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC11
(57)【要約】
【要約】
【解決手段】 本発明は、音声をテキストに変換するためのコンピュータ実施方法に関する。当該方法は、
・一般用語および専門用語を含む音声信号(206)を受信する工程(102)と、
・専門用語を含まない標的語彙(234)へ標的音声信号を変換するのを支援するのみの音声テキスト変換システム(226)へ、受信した音声信号を入力する工程(104)と、
・音声信号から音声テキスト変換システムによって生成されたテキスト(208)を受信する工程(106)と、
・受信したテキストに含まれる標的語彙からの用語および表現を、割り当て表(238)に従って専門用語で自動的に置き換えることにより、修正されたテキスト(210)を生成する工程(108)であって、音声テキスト変換システムによって誤って認識された標的語彙からの少なくとも1つの用語または1つの表現を、複数の専門用語の各々へ割り当てるものである工程と、
・機能を実行するために、修正されたテキストをユーザーまたはソフトウェアおよび/またはハードウェアコンポーネントへ出力する工程(110)とを有するものである。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音声をテキストに変換するためのコンピュータ実施方法であって、
ユーザー(202)の音声信号(206)を端末装置(212)によって受信する工程(102)であって、前記音声信号は、一般的用語と前記ユーザーによって話される専門用語とを含むものである工程と、
前記受信した音声信号を音声テキスト変換システム(226)に入力する工程(104)であって、前記音声テキスト変換システムは、前記専門用語に含まれない音声信号を標的語彙(234)へ変換するのを支援するのみである工程と、
前記音声信号から前記音声テキスト変換システムによって生成されたテキスト(208)を前記音声テキスト変換システムから受信する工程(106)と、
テキスト形式の用語の割り当て表(238)に基づき、前記受信したテキストに含まれる前記標的語彙からの用語および表現を専門用語で自動的に置き換えることによって、修正されたテキスト(210)を生成する工程(108)であって、前記割り当て表は、前記標的語彙からの少なくとも1つの用語を複数の専門用語の各々へ割り当てるものであり、1つの専門用語に割り当てられる、前記標的語彙からの少なくとも1つの用語は、この専門用語が音声信号形式で記入される際に、前記音声テキスト変換システムが誤って認識する用語または表現である工程と、
前記修正されたテキストを前記ユーザーおよび/またはソフトウェア(528/240)および/またはハードウェアコンポーネント(506~516、240)へ出力する工程(110)であって、前記ソフトウェアまたはハードウェアコンポーネントは、前記修正されたテキストの情報に従って機能を実行するように構成されているものである工程とを有するものである
コンピュータ実施方法。
【請求項2】
請求項1に記載のコンピュータ実施方法において、修正されたテキストの生成は修正システムによって実行されるものであり、前記修正システムは、前記端末装置(212)、またはネットワークを通して前記端末装置に動作可能に接続されている修正コンピュータシステム(314、402)であるコンピュータ実施方法。
【請求項3】
請求項1または2に記載のコンピュータ実施方法において、
・ 前記標的語彙は、大量の一般用語を有している、
・ 前記標的語彙は大量の一般用語およびそれから導かれる用語を有している、あるいは
・ 前記標的語彙は、一般用語から導かれる用語によって補足される大量の一般用語、および/または認識された音節の組み合わせによって形成される用語によって補足される大量の一般用語を有するものであるコンピュータ実施方法。
【請求項4】
請求項1~3のいずれか一項に記載のコンピュータ実施方法において、前記専門用語は、以下のカテゴリ、すなわち、
・ 化学物質、特に塗料および漆、または塗料および漆の添加物の名前、
・ 化学物質の物理的、化学的、機械的、光学的、または触覚的特性、
・ 化学産業における実験装置および機器の名前、
・ 実験消耗品および実験供給物の名前、および
・ 塗料および漆の商品名、のうちの1つからの用語であるコンピュータ実施方法。
【請求項5】
請求項1~4のいずれか一項に記載のコンピュータ実施方法において、
・ 頻度情報を受信または計算する工程であって、前記音声信号から前記音声テキスト変換システムによって生成された前記テキストの用語の少なくともいくつかに関する前記頻度情報は、斯かる用語の発生がどの程度の頻度で統計学的に期待されるかを示すものである工程と、
・ 前記修正されたテキストの生成中、統計的に予想される発生頻度が、前記受信した頻度情報に基づいて所定の閾値未満である、前記受信したテキスト内の前記標的語彙の用語だけが、前記割り当て表に従って専門用語で置き換えられるものである工程を更に有するものであるコンピュータ実施方法。
【請求項6】
請求項5に記載のコンピュータ実施方法において、頻度情報の計算は、隠れマルコフモデルによって実行されるものであるコンピュータ実施方法。
【請求項7】
請求項1~6のいずれか一項に記載のコンピュータ実施方法において、前記音声信号から前記音声テキスト変換システムによって生成された前記テキストの用語の少なくともいくつかに関し、品詞タグ(POSタグ)を受信する工程であって、前記POSタグは少なくとも名詞、形容詞、および動詞のタグを含む工程を更に有し、前記割り当て表の専門用語は、前記専門用語の品詞タグと一緒に記憶され、前記修正されたテキストの生成中、前記受信したテキスト内の標的語彙の用語のみが、前記割り当て表に従って、POSタグが一致する専門用語によって置き換えられるものであるコンピュータ実施方法。
【請求項8】
請求項1~7のいずれか一項に記載のコンピュータ実施方法において、
・ 複数の専門用語の各々に関して、少なくとも1人の話し手によって、斯かる専門用語を選択的に再生する少なくとも1つの参照音声信号を記録する工程と、
・ 前記参照音声信号を前記音声テキスト変換システムに入力する工程と、
・ 前記入力された参照音声信号から前記音声テキスト変換システムによって生成された前記標的語彙の少なくとも1つの用語を、前記音声テキスト変換システムから受信する工程であって、前記音声テキスト変換システムの前記標的語彙は前記専門用語を支持しないので、前記受信した標的語彙の用語の各々は誤った変換を示すものである工程を更に有し、
前記割り当て表は、斯かる専門用語を含む前記参照音声信号から前記音声テキスト変換システムによってそれぞれ生成された、テキスト形式の前記標的語彙の少なくとも1つの用語を、少なくとも1つの参照音声信号が記録されている前記専門用語および表現の各々へ割り当てるものであるコンピュータ実施方法。
【請求項9】
請求項8に記載のコンピュータ実施方法において、前記専門用語の少なくともいくつかに関して、複数の参照音声信号が異なる話し手によってそれぞれ話され、記録され、前記複数の参照音声信号は、斯かる専門用語を再生し、前記割り当て表は、テキスト形式の前記標的語彙の複数の用語を、前記専門用語の少なくともいくつかの各々に割り当て、前記標的語彙の複数の用語は、前記音声テキスト変換システムが音声に基づいて異なる話し手用に生成した誤った変換を示すものであるコンピュータ実施方法。
【請求項10】
請求項1~9のいずれか一項に記載のコンピュータ実施方法において、前記修正されたテキストを前記ユーザーへ出力する工程が実行され、前記工程は、前記修正されたテキストを前記端末装置の画面(218)に表示する工程と、前記修正されたテキストを、音声テキストインターフェースおよび前記端末装置のスピーカーを通して出力する工程とを有するものであるコンピュータ実施方法。
【請求項11】
請求項1~10のいずれか一項に記載のコンピュータ実施方法において、前記修正されたテキストの出力は前記ソフトウェアへ向けて実行され、前記ソフトウェアは、
・ 化学物質データベースであって、前記修正されたテキストを検索入力として解釈し、前記検索入力に関する情報を決定し、前記化学物質データベースへ戻すように設計されている、化学物質データベースと、
・ インターネット検索エンジンであって、前記修正されたテキストを検索入力として解釈し、前記検索入力に関連するインターネットからの情報を決定し、戻すように設計されているインターネット検索エンジンと、
・ シミュレーションソフトウェアであって、所定の処方に基づいて化学製品の特性、特に漆および塗料の特性をシミュレーションするように設計されており、前記修正されたテキストを、特性シミュレーション対象の製品の処方明細として解釈するように設計されているシミュレーションソフトウェアと、
・ 物質混合物、とくに塗料および漆の混合物の化学的合成および/または生成を制御するための制御ソフトウェアであって、前記修正されたテキストを、前記化学的合成または前記物質混合物のコンポーネントの明細として解釈するように設計されている制御ソフトウェアとから成る群から選択されるものであるコンピュータ実施方法。
【請求項12】
請求項1~11のいずれか一項に記載のコンピュータ実施方法において、前記ソフトウェアまたはハードウェアによる前記機能の実行の結果を、前記端末装置のスピーカーまたは画面を通して出力する工程を更に有するものであるコンピュータ実施方法。
【請求項13】
請求項1~12のいずれか一項に記載のコンピュータ実施方法において、前記修正されたテキストの出力は、前記ハードウェアコンポーネントへ向けて実行され、前記ハードウェアコンポーネントは、化学分析、化学合成を実行するためのシステム、および/または物質混合物、特に塗料および漆の混合物を生成するためのシステムであり、前記システムは、前記修正されたテキストが、前記化学合成または前記物質混合物のコンポーネントの明細として、あるいは前記化学分析の明細として更に解釈されるように設計されているものであるコンピュータ実施方法。
【請求項14】
請求項1~13のいずれか一項に記載のコンピュータ実施方法において、前記音声テキスト変換システムは、インターネットを通して、複数の端末装置へ提供されるサービスとして実施されるものであり、前記端末装置は、デスクトップコンピュータ、ノートブックコンピュータ、スマートフォン、実験装置と一体化されたコンピュータ、構内で実験装置に連結されているコンピュータ、またはシングルボードコンピュータ(ラズベリーパイ)であるコンピュータ実施方法。
【請求項15】
端末装置(212)であって、
・ ユーザーの音声信号(206)を受信するためのマイクロフォン(214)であって、前記音声信号が、一般用語およびユーザーによって話される専門用語を含んでいるものであるマイクロフォンと、
・ 音声テキスト変換システム(226)へのインターフェース(224)であって、前記インターフェースは、前記受信した音声信号を前記音声テキスト変換システムに入力するように設計されており、前記音声テキスト変換システムは、前記専門用語を含まない標的語彙(234)へ音声信号を変換するのを支援するのみであり、更に前記インターフェースは、前記音声信号から前記音声テキスト変換システムによって生成されたテキスト(208)を受信するように設計されているインターフェースと、
・ テキスト形式の用語の割り当て表(238)を有するデータ記憶装置(220)であって、前記割り当て表は、前記標的語彙からの少なくとも1つの用語を複数の専門用語の各々へ割り当てるものであり、専門用語に割り当てられる、前記標的語彙からの少なくとも1つの用語は、この専門用語が音声信号形式で記入される際に、前記音声テキスト変換システムが誤って認識する用語または表現であるデータ記憶装置と、
・ 修正プログラム(222)であって、前記受信したテキストの前記標的語彙の用語および表現を、前記割り当て表に従って専門用語で自動的に置き換えることによって、修正されたテキスト(210)を生成するように設計されている修正プログラムと、
・ 前記修正されたテキストを前記ユーザーおよび/またはソフトウェア(528/240)および/またはハードウェアコンポーネント(506~516、240)へ出力する(110)ための出力インターフェース(218)であって、前記ソフトウェアまたはハードウェアコンポーネントは、前記修正されたテキストの情報に従って機能を実行するように構成されているものである出力インターフェースとを有するものである
端末装置。
【請求項16】
請求項15記載の1つ以上の端末装置(212)を有するシステムであって、
音声テキスト変換システム(226)を更に有し、前記音声テキスト変換システムは、1つ以上の端末装置の各々から音声信号(206)を受信するためのインターフェース(224')と、受信した音声信号(206)からテキスト(208)を生成するための自動音声認識プロセッサ(232)であって、専門用語を含まない標的語彙(234)へ音声信号を変換するのを支援するのみである自動音声認識プロセッサとを有しており、前記インターフェースは、前記受信した音声信号から生成される前記テキスト(208)を、前記音声信号を送信した前記端末装置へ戻すように設計されているものである
システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声テキスト変換、特に化学産業の専門用語を音声テキスト変換するための、コンピュータ実施方法に関する。
【背景技術】
【0002】
化学実験室において、物質および装置に起因する種々のリスクの故に、安全な作業条件を保証するために複数の規則が適用される。実験室のタイプ、そこで行われる活動、および使用される物質にもよるが、以下の安全ガイドライン、すなわち、実験着の他に、安全眼鏡、保護マスク、安全手袋などを含む個人用の保護具を着用しなければならないというガイドラインが特に適用される。飲食物の持ち込みおよび摂取は一般的に許されてはおらず、汚染を防ぐため、実験室の作業領域、オフィス領域、机、マニュアル、紙形式の作成文書、コンピュータワークステーション、およびインターネットアクセスは、空間的に相互に分離されている。空間的分離を行うため、オフィス領域と実験室領域との間の移動は、安全エアロックを通してのみ可能であるかもしれない。安全着は実験室を出る際には脱がなければならないと規定されているかもしれない。
【0003】
安全規則は、作業プロセスを極めて困難にする場合がある。インターネットおよび/またはデータベースアクセスを有するコンピュータがオフィス領域でのみ利用可能な場合、各操作工程において安全着は脱がなければならず、実験室に入る際には再びそれを着用しなければならない。キーボードおよびインターネットアクセスを有するコンピュータが実験室領域内で利用可能な場合でも、キーボードは手袋を着用したままでは操作できない場合が多い。手袋は取らなければならないし、必要ならば廃棄しなければならない。コンピュータでの作業が終了したら、実験室での作業を継続するため、手袋を再び着用しなければならない。
【0004】
個々の例では、手袋を着用したままで入力し易いようにする、特に大きいキーボード、例えば、大型タッチスクリーン形式のキーボードを有する実験装置が存在する。しかし、斯かるハードウェアは高価であり、全ての実験装置で利用可能な訳ではない。特に、標準のコンピュータおよび標準のノートブックコンピュータは、斯かるタイプの「手袋着用可能な」キーボードを有してはいない。
【0005】
実験室で現在使用される装置は極めて入り組んでおり、テキストベースの複雑な入力を柔軟に解釈するように設計されている場合もある。例えば、非特許文献1(通常の言語テキスト入力を自動的に分析および解釈し、斯かる通常の言語テキストの命令に基づいて化学合成を実行するように訓練されている自動実験室システム)を参照。しかし、斯かるシステムにおいてさえも、ユーザーは、テキストを入力するのにユーザーインターフェースを手動で操作しなければならず、従って、この場合も手袋は取らなければならない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】M. Hummel, D. Porcincula, and E. Sapper describe in the European Coatings Journal (01.02.2019) in the Artice "NATURAL LANGUAGE PROCESSING. A semantic framework for coatings science - robots reading recipes"
【発明の概要】
【発明が解決しようとする課題】
【0007】
すなわち、化学または生物学実験室における、コンピュータまたはコンピュータ制御マシンおよび実験装置の使用または操作で現在利用可能な可能性は極めて制限されており、効率が悪いものである。
【課題を解決するための手段】
【0008】
本発明の目的は、独立請求項に記載されている改善された方法および端末装置を提供することであり、実験室におけるソフトウェアおよびハードウェアコンポーネントの制御改善を促進することである。本発明の実施形態は従属請求項に明記されている。本発明の実施形態は、相互に排除し合うものでない限り、お互いに自由に組み合わせることができる。
【0009】
1つの態様において、本発明は、音声テキスト変換用のコンピュータ実施方法に関すものである。当該方法は、以下の工程、すなわち、
・ ユーザーの音声信号を端末装置によって受信する工程であって、音声信号は、一般的用語とユーザーによって話される専門用語とを含むものである工程と、
・ 受信した音声信号を音声テキスト変換システムに入力する工程であって、音声テキスト変換システムは、専門用語に含まれない音声信号を標的語彙へ変換するのを支援するのみである工程と、
・ 音声信号から音声テキスト変換システムによって生成されたテキストを音声テキスト変換システムから受信する工程と、
・ 割り当て表に従って、受信したテキストに含まれる標的語彙の用語および表現を専門用語で自動的に置き換えることによって、修正されたテキストを生成する工程であって、割り当て表は、テキスト形式の用語を相互に割り当てるものであり、割り当て表は、音声テキスト変換システムによって誤って認識された、標的語彙からの少なくとも1つの用語または表現を、複数の専門用語の各々に割り当てるものである工程と、
・ 修正されたテキストの情報に従って機能を実行するように構成されているソフトウェアおよび/またはハードウェアコンポーネントへ、修正されたテキストを出力する工程とを有するものである。
【0010】
本発明の実施形態は、生物および化学実験室での使用に特に適しているが、それは背景技術で掲げられた不便さを有していないからである。音声ベースの入力は、実験室ワークステーションを出たり、手袋を取ったり、あるいは作業を完全に中断したりすることなく、マイクロフォンが配置されている任意の場所、従って、実験室領域内で、情報を音声データとして端末装置へ送信することが可能である。
【0011】
コンピュータシステムにおける音声ベースコマンド入力用の安価な端末装置および強力なアプリケーション、例えば、Alexa(アマゾン)、Cortana(マイクロソフト)、グーグルアシスタント、Siri(アップル)などが市販されているのは事実である。しかし、斯かる製品は、買い物、ラジオプログラムの選択、ホテルの予約などの日常活動中にエンドユーザーを支援するものである。従って、列挙された端末装置およびアプリケーションは、日々の活動用のものであり、しかも一般的な用語しかサポートしない。個々の専門用語(「専門用語」)が支援されている場合であっても、列挙されたシステムにおける認識正確度はとてつもなく低いものである。しかし、生物学、特に化学産業においては、一般言語では用いられない複数の専門用語が実験室内で使用されるものである。特に化学実験室においては、音声認識の高正確度が特に重要である。日常会話における小さい誤りはそのまま認識可能であり、ユーザーや受信システムによって誤りとして認識できるものであり、容易に修正され、補足されるものである(例えば、単数/複数形の誤った認識があったとしても、それは、対応するインターネット検索エンジンへの入力によって、実質的に異なる結果がもたらされることを意味するものではない)が、化学合成においては、ほんの僅かな違い(例えば、「tris」の代わりに「bis」)であったとしても、発言者が実際に意味するものとは全く異なる物質が「認識され」、結果的に得られる製品は使用不可能であるか、あるいは不正確な物質の使用により、職員の健康または安全な実験作業にリスクを及ぼす可能性すら生じるものである。従って、列挙された日常使用目的の音声テキスト変換システムは、対応するリスクを有する生物学的および化学的実験での使用には適していない。
【0012】
特に特定の分野の関心および語彙用に設計された音声テキスト変換システムも部分的には存在する。例えば、Nuanceと言う会社は、弁護士用に、日常使用される語彙に加えて、法律専門用語を含む「Dragon Legal」と呼ばれるソフトウェアを提供している。しかし、特定の実験室、例えば、塗料および漆の製造および分析分野で必要とされる語彙は極めて特異的でありダイナミックに変化するし、物質の商品名が実験室では使用されるので、標準の化学教科書から集められる化学用語は、化学産業の特定の会社または特定の部門では実際には不適切である場合が多い。斯かる商品名は変化するし、関連する製品に関して複数の新しい商品名が毎年追加される。特に、塗料および漆を製造するのに使用される複数の追加製品および製品の別形が、新しい商品名を伴って毎年市場へ送られる。グーグルまたはアップルの日常会話システムの正確度を達成し、しかも重要な化学用語を含む音声テキスト変換システムがたとえ存在したとしても(そういうのは存在しないが)、化学実験室、特に塗料および漆の製造において実際的な役割を演じる動的変化および複数の名前の故に、しかも実用面で関連性のある用語はほとんど支援されておらず、少なくとも数年経つと語彙は完全に廃語となってしまうので、斯かるシステムは実際の使用には適さないであろう。
【0013】
本発明の実施形態によると、斯かる問題は、関連専門用語を支援しない音声テキスト変換システムを用いることにより解決される。極めて小さい市場分野しかカバーしない高価で複雑な特別な開発、従って、一般用語(一般用語も通常考慮され、化学用語に加えて、音声入力で正確に認識されなければならないものであるが)に関して、アマゾン、グーグル、またはアップルによる大規模な既存の変換システムの認識正確度を達成することは恐らくない、高価で複雑な特別な開発は、最初から試みようとはしていない。その代わり、本発明の実施形態は、一般用語用の既存のサービスプロバイダによる既に極めて高度な認識正確度を活用し、認識されたテキストを出力する前に、修正を実行するものである。修正コース中に、誤って認識された用語は、割り当て表に基づいて専門用語によって置き換えられるので、修正されたテキストが作成され、最終的に出力される。極めて特別な専門用語は、ソフトウェアの有用性を維持するため、専門分野、市場参加者、製品、および対応する製品名の動的変化に基づいて、絶えず更新されなければならないものであるが、最終的には割り当て表に見出されるものである。これは僅かな努力で更新できるであろう。
【0014】
各例において、割り当て表は、専門用語について誤って認識された1つ以上の標的語彙と一緒に、新しい専門用語によって補足されるものであるから、新しい専門用語は簡単に追加可能である。従って、技術面から考えると、専門用語の記憶および更新は、実際の音声認識論理から完全に切り離されたものである。その結果、特定の音声認識サービスベンダーへの依存性が回避できるので、これは追加の恩恵をもたらすものである。音声認識分野はまだ年期が浅く、認識正確度および/または価格に関して、長期的に見て、複数の並列解のうちのいずれが最善の解決策であるかは、まだ予測できるものではない。本発明の実施形態によれば、特定の音声テキスト変換システムへのリンクが実行されるだけであり、受信した音声信号は、まず斯かる変換システムへ送信され、(欠陥のある)テキストが受信される。加えて、割り当て表は、間違って認識された標的語彙の用語を含んではいるが、それは、特定の専門用語に関して、斯かる特定の変換システムによって(誤って)戻されたものである。しかし、(間違った)テキストを生成するのに異なる音声テキスト変換システムが使用され、斯かる目的のために、割り当て表が、斯かる異なる変換システムによって新しく作成されるので、両者は容易に変更できる。構文解析系および/またはニューラルネットワークなどの論理への複雑な変更は必要ではない。
【0015】
本発明の実施形態による方法によれば、販売担当従業員は、仕事関連の活動中、コンピュータまたは少なくともスマートフォンを既に使用している場合が多く、キーボードを用いたテキスト入力と比べ、アプリまたはブラウザプラグインとして構成された修正ソフトウェアへの音声入力によって、顧客や仕事面で気が散らされることが少なくなるので、化学産業または化学製造分野の彼らにとっても有利となるであろう。
【0016】
本発明の実施形態によれば、端末装置は音声信号を記録し、テキストを修正し、修正されたテキストに基づいてソフトウェア機能および/またはハードウェア機能の実行結果を出力するだけであると言う別の特長も有している。従って、計算的にはるかに集約的な工程である、音声信号を実際にテキストへ音声テキスト変換するのは、音声テキスト変換システムによって実行される。音声テキスト変換システムは、例えば、ネットワーク(例えばインターネット)を通して端末装置に接続されているサーバーであってもよい。従って、長くて複雑な音声入力の変換には、低処理力の端末装置、例えばスマートフォンやシングルボードコンピュータが使用できる。
【0017】
1つの実施形態によれば、音声テキスト変換システムによって生成されるテキストは、端末装置が受信する。端末装置は次にテキスト修正を行うが、追加のデータ処理工程、例えば、用語および表現の置き換え中に、割り当て表に基づいてテキスト内の個々の用語の発生確率を考慮するため、その確率の計算または受信を端末装置が実行してもよい。斯かる実施の別形は、実験室領域で比較的強力な端末装置、例えばデスクトップコンピュータを使用する場合、特に有利である。例えば、端末装置は、音声入力を受信し、斯かる音声入力を音声テキストインターフェースを通して音声テキスト変換システムへ送信し、斯かる変換システムからテキストを受信し、割り当て表に基づいてテキストを修正し、修正されたテキストをソフトウェアベースおよび/またはハードウェアベースの実行システムへ出力するためのソフトウェアプログラムを有していてもよい。ソフトウェアベースおよび/またはハードウェアベースの実行システムは、修正されたテキストに含まれる情報に従って機能を実行し、好ましくは実行の結果を戻すように構成されたソフトウェア、ハードウェア、またはその両方である。その結果はテキスト形式で戻されるのが好ましい。端末装置のソフトウェアプログラムは、例えば、音声テキスト変換システムと共同操作が可能なブラウザプラグイン、ブラウザアドオン、またはスタンドアロン型ソフトウェアアプリケーションとして設計されてもよい。
【0018】
1つの代替実施形態によれば、音声テキスト変換システムによって生成されたテキストは、同様に、端末装置によって受信される。しかし、端末装置は、その後、テキストの修正をそれ自体では実行せず、代わりにテキストをインターネットを通して修正ソフトウェアを有する制御コンピュータへ送信し、制御コンピュータが上述したような割り当て表に基づいてテキスト修正を実行し、修正されたテキストを実行システムへの入力として転送する。実行システムは、ソフトウェアおよび/またはハードウェアを有し、修正テキスト入力に従って機能を実行するように設計されている。実行システムは、例えば、実験ソフトウェアまたは実験装置であってもよい。本発明の実施形態によれば、実行システムは、修正されたテキストの結果を制御コンピュータへ戻す。斯かる結果は同様にテキスト形式である。機能の実行結果は、制御コンピュータによって端末装置へ戻される、および/または他の装置を通して出力されるのが好ましい。次に端末装置は、修正されたテキストに従って機能の実行結果を出力する。制御コンピュータは、例えばクラウドサーバーとして実施されてもよいし、あるいは個々のサーバー上で実施されてもよい。斯かる実施の別形は、個々の実験装置と一体化された、または化学物質の分析および/または合成用のシステムにおける、スマートフォンや制御モジュールなどの平均的性能を有する端末装置にとって有利であろう。この場合、端末装置は、データ入力、音声テキスト変換システムとのデータ交換、および制御コンピュータとの制御交換の調整を行う。任意に、端末装置は、修正されたテキストに従って機能の実行結果を出力してもよい。斯かる実施形態においては、制御コンピュータはテキスト修正機能は実行せず、代わりに音声テキスト変換システムからの受信テキストをネットワークを通して修正コンピュータへ送信し、そこで上述したように表を用いてテキスト修正が実行される。制御コンピュータは修正されたテキストを受信し、それをネットワークを通して実行システムへ送信し、修正されたテキストの情報に従って、そこでソフトウェア機能またはハードウェア機能が実行される。制御コンピュータの機能およびデータへのアクセス権と、修正コンピュータのそれとの間のより良い分離が可能なので、斯かる実施形態は有利であろう。テキスト修正が分離したクラウドシステムで実行されるならば、表の更新の際、例えば、実行システム(実験装置など)を制御する制御コンピュータの要注意データへのアクセス許可を得ることなしに、ユーザへのアクセスが許可されるかもしれない。
【0019】
従って、本発明の実施形態によれば、音声テキスト変換システムとのデータ交換、テキスト修正、および修正されたテキストの実行システムへの送信は、制御コンピュータによって完全に実行される、あるいは組織化および調整される。従って、本方法のいくつかの実施形態によれば、端末装置は、本質的には、マイクロフォンおよび修正テキスト実行結果用の任意の出力インターフェースを有する装置である。端末装置は、例えば、制御コンピュータとのデータ交換用に予め構成されているスピーカーおよびクライアントソフトウェアを有していてもよい。すなわち、端末装置のクライアントソフトウェアは音声信号をネットワークを通して制御コンピュータへ送信し、それに応答して、制御コンピュータから修正されたテキストの実行結果を受信するように構成されている。端末装置は、携帯用の端末装置として設計されているのが好ましい。例えば、端末装置は、シングルボードコンピュータ、例えば、ラズベリーパイである。例えば、端末装置が受信する音声信号が制御コンピュータへ送信されるように構成された、ソフトウェア「ラズベリーパイ上のグーグルアシスタント」がこれに設置されてもよい。従って、制御コンピュータのアドレスは特定され、端末装置に記憶される。データ処理装置/サービスとの簡単な相互関係目的で、実験室内に携帯用の極めて安価な端末装置が提供できるので、斯かる方法は有利であろう。更に、斯かるタイプの端末装置を実験室空間の任意の場所に配置することもできる。ユーザーは端末装置を実験室の他の空間へ運ぶこともできるし、大きい実験室は、費用を余りかけずに、いくつかの端末装置を備え付けることもできる。
【0020】
本発明の実施形態によれば、標的語彙は大量の一般用語を有している。
【0021】
本発明の他の実施形態によれば、標的語彙は大量の一般用語およびそれから導かれる用語を有している。斯かる誘導された用語は、例えば、ダイナミックに作成された2つ以上の一般用語の連結であってもよい。例えば、ドイツ語においては、多くの単語、特に名詞が、いくつかの他の名詞と組み合わされて形成される。例えば、「Schiffsschraube」(プロペラ)と言う用語は、極めて一般的な単語なので、ほとんどの一般用語の辞書に載っている。対照的に、余り使用されない用語「Befestigungsschraube」(締め付けねじ)と言う用語は、最も一般的な辞書には載っていない。しかし、個々のコンポーネントである「Befestigung」(締め付け)および「Schraube」(ねじ)が標的語彙の一部であれば多くの音声テキスト変換システムは、ヒューリスティックおよび/またはニューラルネットワークによって、「Befestigungsschraube」(締め付けねじ)のような用語を認識するかもしれない。斯かる意味において、「Befestigungsschraube」(締め付けねじ)と言う用語も、このタイプの音声テキスト変換システムの標的語彙に属する。
【0022】
本発明の他の実施形態によれば、標的語彙は、認識された音節の組み合わせによって形成される用語によって補足される、大量の一般用語を有する。従って、認識は個々の単語だけでなく、少なくとも個々の音節レベルで実行されるので、斯かる音声テキスト変換システムは、どの用語が認識されるかに関して、より柔軟性を有している。しかし、音節ベースの認識は、既知の辞書に存在しない単語を誤って認識するリスクが特に高いので、誤り易い傾向にある。支持されている音節または既知の音節の量の有限性、および通常の単語の長さに起因する組み合わされた音節の量の制限に基づけば、音節ベースで生成可能な標的単語も有限である。従って、音節ベースの用語生成を支持する音声テキスト変換システムも、その大きい柔軟性にも拘わらず、有限の標的語彙を有するものである。斯かるシステムは、その柔軟性の故に、既知の辞書に含まれていない多くの化学用語を理論的にはダイナミックに認識できるはずであっても、実際には認識正確度は低いので、実際的なアプリケーションに関しては、斯かるシステムは、最終的に、斯かる化学用語を含まないまたは支持しない標的語彙を有することになる。
【0023】
本発明のいくつかの実施形態において、標的語彙は、一般用語から導かれる用語によって補足される大量の一般用語、および/または認識された音節の組み合わせによって形成される用語によって補足される大量の一般用語を有する。斯かる変換システムも、専門用語を含まない標的語彙、または実際の使用で専門用語を十分な正確度を持って認識せず、代わりに、他の用語(通常一般用語)を誤って認識する標的語彙に基づいており、それらをテキストに変換するものである。
【0024】
従って、複数の異なる現在利用可能な音声テキスト変換システムが、本質的に日常用語(すなわち、正確に認識でき、それを十分な正確度を持ってテキストに変換できる用語)を「支援」しているに過ぎないものであっても、それは、本発明の実施形態による方法において使用できるものである。修正ソフトウェアは特定の変換システムに固定されているものではない。特定の技術的アプローチが特に正確で信頼できるものであることが経時的に証明された場合には、端末装置側のソースコードの重要コンポーネントを再プログラムすることなく、それが使用できる。
【0025】
本発明の実施形態によれば、専門用語は以下のカテゴリー、すなわち、
・化学物質、特に塗料および漆、または塗料および漆の添加物の名前(特に、名前は、化学名変換による、例えばIUPAC命名法による化学名に関係している)、
・化学物質の物理的、化学的、機械的、光学的、または触覚的特性、
・化学産業における実験装置および機器の名前(例えば、実験室の実験装置のユーザーによって割り当てられた商品名または適切な名前)、
・実験消耗品および実験供給物の名前、および
・塗料および漆の商品名、のうちの1つからの用語である。
【0026】
本発明の実施形態によれば、専門用語は、化学分野、特に化学産業、特に塗料および漆の化学からの用語である。
【0027】
本発明の実施形態によれば、テキスト修正を実行する装置またはコンピュータシステム、従って、例えば端末装置、制御コンピュータ、または別の制御コンピュータは、音声テキスト変換システムによって音声信号から生成されたテキストの用語の少なくともいくつかに関して、頻度情報を受信または計算する。各頻度情報は、テキストの用語について、その用語の発生がどの程度の頻度で統計学的に期待できるかを示すものである。
【0028】
修正されたテキストの生成中、統計学的に期待される発生頻度が受信した頻度情報に基づいて所定の閾値未満である、受信テキスト内の標的語彙の用語だけが、割り当て表に基づく専門用語によって選択的に置き換えられる。
【0029】
ユーザーの音声入力は、一般的に、一般用語と専門用語の混合体を含むので、斯かる方法は有利であろう。従って、割り当て表で専門用語に割り当てられており、通常置き換えられるであろう標的語彙の用語が、変換システムからの受信テキストに含まれている場合もある。例えば、戻されたテキストは「ポリマー革新」と言う表現を含んでいるかもしれない。「ポリマー革新」と言う表現は割り当て表で専門用語「重合」に割り当てられているので、通常、テキスト修正中に、「重合」によって置き換えられる。しかし、「ポリマー革新」と言う表現が、高発生確率を示す頻度情報に割り当てられている場合、この用語が割り当て表の専門用語に割り当てられていたとしても、修正ソフトウェアは、斯かる発生頻度に基づいて、「ポリマー革新」と言う表現は正しいと推測し、その結果、「ポリマー革新」と言う表現をテキストにそのまま残す。例えば、文章内または全音声入力内の用語の文脈分析が、例えば、テキストが、特定のポリマー製品の特長を述べている販売員からのものなので、「革新」と言う用語はテキスト内に単独で頻繁に生じている、と判断するかもしれない。斯かる文脈において、「ポリマー革新」と言う表現は、正しく認識された表現を示しているかもしれない。ポリマーも革新も単独では述べられていない文脈においては、その確率は減少する。用語は、文脈とは無関係に、既に異なる発生確率を有している。
【0030】
受信テキストの用語の発生確率機能として、割り当て表に基づいて用語を置き換えるやり方は、数少ない個々の例においてであるが、各テキスト文脈で高発生確率を有する標的語彙の用語が専門用語によって誤って置き換えられ、斯かる置き換えによって、修正の代わりに誤りが生成されるという事態が生じ得るが、それが防止できるので、有利であろう。
【0031】
1つの実施形態によれば、テキストの用語の発生頻度は、音声テキスト変換システムによって計算され、テキストと一緒に、音声テキスト変換システムによって端末装置または制御コンピュータへ戻される。例えば、音声テキスト変換システムは、文章の文脈内の特定の用語の発生確率を計算するのに、隠れマルコフモデル(HMMs)を使用してもよい。加えてまたはその代わりに、音声テキスト変換システムは、用語の発生頻度を、大規模な参照集成内にある当該用語の発生頻度と同等視してもよい。例えば、数年に及ぶ新聞のテキスト全体または他の大規模なテキストデータセットが、参照集成として機能してもよい。参照集成内の全単語数に対する参照集成内の用語の計算数の比率が、斯かる参照集成で観察される斯かる用語の発生頻度である。テキスト修正が本発明による別の修正コンピュータによって実行される場合、制御コンピュータが音声テキスト変換システムから受信する頻度情報は、修正コンピュータへ送信される。
【0032】
別の実施形態によれば、テキストの用語の発生頻度は、テキスト受信後、端末装置によって計算される。既に上述したように、個々の用語または表現の発生確率の計算は、用語のテキスト文脈を考慮しつつ、あるいは参照集成内の用語の頻度に基づいて、HMMsによって行われてもよい。例えば、端末装置または制御コンピュータが音声テキスト変換システムから以前に受信したテキスト全体が、参照集成として使用されてもよい。
【0033】
従って、実施形態によれば、頻度情報の計算は、(例えば、端末装置または修正サービスにより)隠れマルコフモデルを用いて実行される。例えば、予期される発生頻度、従って、発生確率は、例えば B. Cestnik "Estimating probabilities: A crucial task in machine learning"In: Proceedings of the Ninth European Conference on Artificial Intelligence, pages 147-150, Stockholm, Sweden, 1990に記載されているように、語系列の個々の用語の放出確率からの積として計算されてもよい。
【0034】
本発明の実施形態によれば、端末装置または制御コンピュータは、音声テキスト変換システムによって音声信号から生成されるテキストの用語の少なくともいくつかに関して、テキストに加え、品詞タグ(POSタグ)も受信する。POSタグは音声テキスト変換システムから受信され、少なくとも名詞、形容詞、および動詞のタグを含んでいる。POSタグは、追加タイプとして構文タグまたは意味論的タグを含んでいてもよい。POSタグの考慮されるべき正確な構成は、言語によって異なるであろう。専門用語は、そのPOSタグと一緒に、割り当て表に記憶される。修正されたテキストの生成中、受信したテキスト内の標的語彙の用語の中で、割り当て表に基づいてPOSタグが一致する用語のみが専門用語によって置き換えられる。
【0035】
それによって、テキスト修正工程の正確度が向上するので、斯かるやり方は有利であろう。表の入力は半自動的に生成されるので、すなわち、1人以上の話し手が専門用語または専門表現をマイクロフォンに入力し、それによって生じる音声信号が音声テキスト変換システムによって標的語彙の(誤った)用語または(誤った)表現に変換され、斯かる誤った用語または誤った表現が専門用語とリンクされて割り当て表に記憶されるので、割り当て表のPOSタグは正確であると推定されてよい。専門用語が何を意味するのか、並びにそれが例えば名詞、動詞、または形容詞であるのか否かは既知であるので、表を生成または更新する際に、専門用語は、やはり正確なPOSタグにリンクされて記憶されるであろう。テキスト内の特定の用語および特定の表現が、割り当て表に従って、専門用語に置き換えられなければならないが、置き換えられる対象のテキストのPOSタグが、専門用語のPOSタグと一致しない場合、テキスト内の対応する用語が正しいであろうことをこれは意味している。POSタグの認識率は比較的高いので、修正工程の質は斯かる手段により向上するであろう。例えば、専門用語は、商品名「Platilon(登録)」であってもよい。それはコベストロ社の熱可塑性ポリウレタンフィルムを意味する。表において、この専門用語には、「名詞」の品詞タグが割り当てられている。音声テキスト変換システムは、話し言葉「Platilon」を標的語彙の用語「Platin」(プラチナ)に誤って変換する場合が多く、従って、標的語彙の用語「Platin」(プラチナ)は、割り当て表の専門用語「Platilon」に割り当てられることが知られている。しかし、ユーザーの現在の音声入力では、この用語は形容詞的に、「プラチナまたは亜鉛ベースの触媒添加(...)」として使用されている。この場合、必要ならば、変換システムによって戻されるテキストの「Platin」(プラチナ)のPOSタグに基き、単語「Platin」(プラチナ)は正確であり、「Platilon」によって置き換えられるべきではないと認識できる。
【0036】
本発明の実施形態によれば、本方法は、割り当て表の生成工程を有している。複数の専門用語の各々に関して、斯かる専門用語を選択的に再生する少なくとも1つの参照音声信号が記録される。参照音声信号は、少なくとも1人の話し手に由来する。専門表現に関しても、斯かる専門表現を選択的に再生する少なくとも1つの参照音声信号が少なくとも1人の話し手によって話され、記録されてもよい。用語および表現に関する追加工程は実質的に同一であり、従って、その後専門用語が考察される際には、専門表現もそれに含まれていると理解されたい。記録された参照音声信号の各々は、音声テキスト変換システムへ入力される。入力は、特に、ネットワーク(例えば、インターネット)を通して実行されてもよい。入力された参照音声信号の各々に関して、参照信号を入力した装置は、入力された参照音声信号から音声テキスト変換システムによって生成された標的語彙の少なくとも1つの用語を受信する。斯かる装置は、例えば端末装置であってもよい。参照音声信号の記録および標的語彙の(誤った)用語または表現は、最終的に割り当て表を生成または拡張するように機能するものであるが、音声テキスト変換システムにネットワーク接続する任意の他の装置によって実行されてもよい。参照音声信号の入力は、構成および雑音源の位置に関して端末装置に最も類似した装置を通して実行されるのが好ましいが、それは、同一のエラーが再生可能的に生成されることを、最高レベルの類似性を持って保証するためである。音声テキスト変換システムの標的語彙は専門用語を支援しないので、専門用語の各々に関して受信される標的語彙の少なくとも1つの用語(表現であってもよい)は、誤った変換を示すものである。最後に、割り当て表が表として生成されるが、その表は、テキスト形式の標的語彙の少なくとも1つの用語(各々、音声テキスト変換システムによって、専門用語を含む参照音声信号から生成されたものである)を、少なくとも1つの参照音声信号を記録する各専門用語に割り当てる。
【0037】
ソースコードを変更したり、プログラムを再コンパイルしたり、ニューラルネットワークを確保したりすることなく、表を容易に修正および補足できるので、斯かる方法は有利であろう。異なる音声テキスト変換システムが使用される場合でも、対応するクライアントインターフェースを調整し、表の専門表現をマイクロフォンを通して1人以上の話し手によって再度入力し、それを新しい音声テキスト変換システムへ送信するだけでよい。斯かる新しいシステムによって戻される標的語彙の誤った用語および表現が、新しい割り当て表の基礎を形成する。従って、綿密な変更または複雑な変更なしに、言語ソフトウェアを確保することなく、日常用語の任意の音声テキスト変換システムを機能的に拡張することが可能であり、従って、専門用語および表現を有する音声テキストも正確にテキストに変換できる。割り当て表は、例えば、比較データベースの表、タブ区切りテキストファイル、または別の機能的に匹敵するデータ構造として記憶されてもよい。
【0038】
本発明の実施形態によれば、各例において、専門用語(または専門表現)の少なくともいくつかの各々に関して、異なる話し手からの複数の参照音声信号が記録される。複数の参照音声信号は、斯かる専門用語(または専門表現)を再生する。割り当て表は、テキスト形式の標的語彙の複数の用語(または表現)を、専門用語(または表現)の少なくともいくつかの各々に割り当てる。標的語彙の複数の用語(または表現)は、音声テキスト変換システムが音声に基づいて異なる話し手用に生成した誤った変換を示す。
【0039】
例えば、「1,2-メチレンジオキシベンゼン」などの特定の専門用語が、100人によって声を出して読まれ、各例において、参照音声信号として、マイクロフォンを用いて記録される。彼らは、化学表現の発音に慣れている人達であるのが好ましい。従って、この1つの物質名に関して、100の参照音声信号が利用可能となる。100の参照音声信号の各々が音声テキスト変換システムへ送信され、それに応答して、標的語彙の用語および表現が100戻されるが、その全てが実際の専門用語名を正確に再生するものではない。100の戻された用語は同一である場合が多いが、必ずしもそうとは限らない。音声は人によって異なっている、すなわち、音声入力は、強調、音量、ピッチ、および明瞭度の点で異なっている。従って、ある音声テキスト変換システムは、複数の誤った用語または表現を戻すことになり、1つの特定の専門用語(または1つの特定の専門表現)用に、それらが全て入力されることになる可能性がある。
【0040】
割り当て表を生成するのに多くの人の音声入力を含む方法は、人間の音声の多様性がより良く考慮されるし、誤り修正率が改善されるので、有利であろう。
【0041】
本発明のいくつかの実施形態によれば、テキスト修正を実行する端末装置またはコンピュータシステムは、修正されたテキストをスピーカーおよび/または表示器を通してユーザーへ出力するように構成されている。ユーザーは修正されたテキストの正確度を検査する機会を再度得ることになるので、斯かる方法は優れている。
【0042】
本発明のいくつかの実施形態によれば、テキスト修正を実行する端末装置またはコンピュータシステムは、実行システムによって提供される修正テキストの実行結果をユーザーへ出力するように構成されている。出力は、例えば、結果が端末装置の画面にテキスト形式で表示されるようなやり方で実行されてもよい。加えてまたはその代わりに、修正されたテキストの実行結果は、音声テキストインターフェースおよび端末装置のスピーカーを通して出力されてもよい。
【0043】
1つの実施形態によれば、修正されたテキストに基づいて機能を実行する実行システムはソフトウェアである。
【0044】
ソフトウェアは、例えば、化学物質データベースであってもよい。特に、斯かるソフトウェアは、データベース管理システム(DBMS)および/またはDBMSとの共同操作が可能な外部のソフトウェアプログラムであってもよい(その場合、DBMSは化学データベースを有し、それを管理する)。ソフトウェアは、修正されたテキストを検索入力として解釈し、検索入力に関する情報を決定し、それをデータベースへ戻すように構成されている。物質データベースは、例えば、HTEシステムなどの化学システムのコンポーネントであってもよい。
【0045】
加えてまたはその代わりに、ソフトウェアは、修正されたテキストを検索入力として解釈し、検索入力に関するインターネットからの情報を決定および戻すように構成された、インターネット検索エンジンであってもよい。
【0046】
加えてまたはその代わりに、ソフトウェアはシミュレーションソフトウェアであってもよい。シミュレーションソフトウェアは、製品を生成するための所定の処方に基づいて、化学製品、特に漆および塗料の特性をシミュレーションするように設計されている。その場合、シミュレーションソフトウェアは、修正されたテキストを、特性シミュレーション対象の製品の処方明細として、および/または製品の特性の明細として解釈する。
【0047】
加えてまたはその代わりに、ソフトウェアは、化学合成を制御するための、および/または物質混合物、特に塗料と漆の混合物を生成するための制御ソフトウェアであってもよい。制御ソフトウェアは、修正されたテキストを、合成の明細または物質混合物のコンポーネントの明細として解釈するように設計されている。
【0048】
本発明の追加の実施形態によれば、修正されたテキストの出力は、端末装置を用いて、ハードウェアコンポーネントに向けて実行される。ハードウェアコンポーネントは、特に、化学分析、化学合成のためのシステム、および/または物質混合物、特に塗料と漆の混合物を生成するためのシステムであってもよい。システムは、修正されたテキストを、合成の明細または物質混合物のコンポーネントの明細として、あるいは実行されるべき分析の明細として解釈するように設計されている。システムは、塗料および漆を分析および製造するための大量処理環境システム(HTEシステム)であってもよい。例えば、HTEシステムは、WO 2017/072351 A2に記載されているような、化学製品を自動的に試験し、自動的に製造するためのシステムであってもよい。
【0049】
修正されたテキストをソフトウェアコンポーネントおよび/またはハードウェアコンポーネントへ出力するやり方は、例えば、ユーザーが手袋を取らなくても、または実験室を出なくても、音声入力が技術システムへ直接送られ、そこで正確に解釈されるように処理されるので、特に生物学または化学実験室においては、極めて有利であろう。例えば、ハードウェアコンポーネントは、化学または生物学実験室内の装置または装置モジュール、あるいはコンピュータシステムであってもよい。例えば、ハードウェアコンポーネントは、化学分析を実行するための、または塗料および漆を製造するための自動システムまたは半自動システムであってもよい。
【0050】
化学製品、特に塗料および漆の分析および/または合成のシステムも、HTEシステムであってよい。
【0051】
化学製品の分析および/または合成のシステムは、例えば、以下の作業工程、すなわち、
・物質および物質混合物の流動学的分析、
・特に液体物質混合物中の不均一性および沈殿傾向に基づく、物質および物質混合物の貯蔵寿命の測定(例えば、斯かる分析は、標本抽出後のキュベット内の光学測定に基づいて実行されてもよい)、
・物質および物質混合物のpH値測定、
・物質および物質混合物の泡立ち試験、特に消泡効果の測定および泡崩壊の動力学的測定、
・物質および物質混合物の粘度測定(粘度は希釈溶液において容易に確認可能なので、粘度測定は、極めて粘性の高い物質または混合物における自動希釈工程を含んでいてもよい。最初の物質または物質混合物の粘度は、希釈溶液の粘度に基づいて計算される)、
・物質または物質混合物、特に最終製品のこすり取り性能(摩耗試験)の測定、
・光散乱(いわゆるL-A-B値)、濁り、および光沢を併用する、分光光度計を用いた、物質および物質混合物の明度測定、
・異なる規定パラメーター(温度、空気中の湿度、平面の表面仕上げなど)の下に、平面上に適用された物質および物質混合物の被覆厚さ測定、
・特に、物質表面の特徴付け(例えば、塗料および漆の量、サイズ、および気泡の分散またはかき傷)を行うための、物質および物質混合物の画像の画像分析法、のうちの1つ以上を、修正されたテキストの入力に応答して、マシンマシンインターフェースを通し、完全自動で実行するように設計されていてもよい。
【0052】
物質および物質混合物は、特に、塗料および漆を製造するために機能する物質および物質混合物であってもよい。加えて、物質および物質混合物は、最終製品、例えば、液体および乾燥形式の塗料および漆、並びに中間製品、例えば、使用される色素濃縮物、研削用樹脂、色素ペースト、および溶媒であってもよい。
【0053】
本発明の実施形態によれば、音声テキスト変換システムは、インターネットを通して複数の端末装置へ提供されるサービスとして実施される。例えば、音声テキスト変換システムは、グーグルの「Speech-to-Text」クラウドサービスであってもよい。機能的に強力はAPIクライアントライブラリが、例えば、.NET用に利用可能なので、斯かる方法は有利であろう。
【0054】
音声信号をテキストに変換する計算的に集約的な変換プロセスが端末装置では実行されず、代わりに、端末装置よりも強力な計算力を有し、複数の音声信号を認識テキストへ迅速かつ並列的に変換するように設計されたサーバー、好ましくはクラウドサーバーで実行されるので、斯かる方法は有利であろう。
【0055】
端末装置は、例えば、デスクトップコンピュータ、ノートブックコンピュータ、スマートフォン、タブレットコンピュータ、実験装置と一体化されたコンピュータ、構内で実験装置に連結されているコンピュータ、またはシングルボードコンピュータ(ラズベリーパイ)、特に、マイクロフォンおよびスピーカー(「スマートスピーカー」)を有するシングルボードコンピュータであってもよい。本発明の実施形態による方法を実施するソフトウェア論理は、端末装置専用または端末装置分散型、および1つ以上の追加コンピュータで実施されてもよい。ソフトウェア論理は、装置独立型、好ましくは端末装置のオペレーティングシステムから独立したソフトウェアであるのが好ましい。
【0056】
端末装置は、実験室空間内に位置する装置、あるいは少なくとも実験室空間内のマイクロフォンに動作可能に接続されている装置であるのが好ましい。
【0057】
本発明の別の態様では、本発明は端末装置に関する。端末装置は、以下を有している。すなわち、
・ユーザーの音声信号を受信するためのマイクロフォンであって、音声信号が、一般用語およびユーザーによって話される専門用語を含んでいるものであるマイクロフォン。
・音声テキスト変換システムへのインターフェース。このインターフェースは、受信した音声信号を音声テキスト変換システムに入力するように設計されている。音声テキスト変換システムは、専門用語を含まない標的語彙へ音声信号を変換するのを支援するのみである。更にインターフェースは、音声信号から音声テキスト変換システムによって生成されたテキストを受信するように設計されている。
・テキスト形式の用語の割り当て表を有するデータ記憶装置。割り当て表は、標的語彙からの少なくとも1つの用語を複数の専門用語または専門表現の各々へ割り当てるものである。少なくとも1つの用語は、専門用語または表現、あるいは標的語彙の多くの用語および表現に割り当てられる用語であってもよい。専門用語に割り当てられる、標的語彙からの少なくとも1つの用語は、この専門用語が音声信号形式で記入される際に、音声テキスト変換システムが誤って認識する(並びに、割り当て表の生成中に誤って認識した)用語または表現である。
・修正プログラムであって、受信したテキストの標的語彙の用語および表現を、割り当て表に従って専門用語で自動的に置き換えることによって、修正されたテキストを生成するように設計されている修正プログラム。および
・修正されたテキストをユーザーおよび/または実行システムへ出力するための出力インターフェース。実行システムは、ソフトウェアコンポーネントおよび/またはハードウェアコンポーネントであり、修正されたテキストの情報に従って機能を実行するように構成されている。
【0058】
端末装置は、斯かるインターフェースまたは別のインターフェースを通して、ソフトエアまたはハードウェアから実行結果を受信するように構成されているのが好ましい。
【0059】
端末装置は、出力インターフェース、例えば、音響インターフェース、例えばスピーカー、または光学インターフェース、例えば表示装置に表されるGUI(グラフィックユーザーインターフェース)を更に有しているのが好ましい。テキストデータを特定の実験室装置と交換するための別のインターフェース、例えば、所有権を主張できるデータフォーマットが存在してもよい。
【0060】
別の態様において、本発明は、本明細書記載の実施形態の1つに基づく、1つ以上の端末装置を有するシステムに関する。斯かるシステムは音声テキスト変換システムを更に有する。音声テキスト変換システムは、以下を有する。すなわち、
・1つ以上の端末装置の各々から音声信号を受信するためのインターフェース。
・受信した音声信号からテキストを生成するための自動音声認識プロセッサ。音声認識プロセッサは、専門用語を含まない標的語彙へ音声信号を変換するのを支援するのみである。音声テキスト変換システムの上記インターフェースは、受信した音声信号から生成されるテキストを、音声信号を送信した端末装置へ戻すように設計されている。
【0061】
いくつかの実施形態によれば、特に、テキスト修正が端末装置ではなく、代わりに、制御コンピュータまたは修正コンピュータによって実行される場合、システムは、制御コンピュータおよび/または修正コンピュータも有する。
【0062】
本発明の実施形態によれば、システムは、修正されたテキストに従って機能を実行するソフトウェアまたはハードウェアコンポーネントを更に有する。
【0063】
本明細書において、「語彙」は、言語領域として、従って、実体、例えば、音声テキスト変換システムが活用する大量の用語として理解されたい。
【0064】
本明細書において、「用語」は、特定の語彙内に表現され、独立の言語単位を示す、一貫した順序の記号として理解されたい、自然言語においては、音声または音節とは対照的に、固有の意味を有する。
【0065】
本明細書において、「表現」は、2つ以上の用語から成る言語単位として理解されたい。
【0066】
本明細書において、「専門用語」は、専門的語彙の中の用語として理解されたい。専門用語は標的語彙の一部ではなく、通常、一般言語の語彙の一部でもない。
【0067】
音声テキスト変換システムは音声信号を標的語彙に変換するのを支援するのみであると言う表現は、別の語彙からの用語はテキストには全く変換されない、あるいは極めて高い誤り率でしかテキストに変換されないことを意味しており、その場合、誤り率は、変換対象の用語または表現当たりの誤り率閾値(音声をテキストに機能的に変換するのに許容可能な最大値と見なされるべき値)を超えた値である。例えば、斯かる閾値は、用語または表現当たりの誤り確率が50%を超えたものであり、既に10%を超えているのが好ましい。
【0068】
本明細書において、POSタグ(または品詞タグ)は、テキスト集成の各用語がそれぞれのテキスト文脈で示す音声の一部および他の文法的カテゴリ、例えば、時制、数(単数/複数)、大文字/小文字を示すため、斯かる用語に割り当てられる特定のラベルであると理解されたい。集成で使用される1組の全POSタグはタグセットとして表される。タグセットは言語によって異なるのが一般的である。基本的なタグセットは、最も一般的な言語コンポーネント(例えば、名詞用のN、動詞用のV、形容詞用のAなど)を含む。
【0069】
「仮想実験助手」は、実験室に置かれた1つ以上の実験装置および/またはソフトウェアプログラムに動作可能に接続されたソフトウェアまたはソフトウェアルーチンであり、情報を斯かる実験装置および実験室のソフトウェアプログラムから受信し、機能を実行するコマンドが実験助手から実験装置および実験室のソフトウェアプログラムへ送信されるようになっている。従って、実験助手は、1つ以上の実験装置および実験室のソフトウェアプログラムとデータを交換し、それらを制御するためのインターフェースを有している。実験助手は、ユーザーへのインターフェースを更に有しており、斯かるインターフェースを通して、ユーザーのために、使用し易さ、モニタリング、および/または実験装置および実験室のソフトウェアプログラムの制御を促進するように構成されている。例えば、ユーザーへのインターフェースは、音響インターフェースまたは自然言語テキストインターフェースとして設計されてもよい。
【0070】
本明細書において、「端末装置」は、データ処理装置(例えば、特に、PC、ノートブックコンピュータ、タブレットコンピュータ、シングルボードコンピュータシステム、ラズベリーパイ、スマートフォンなど)であると理解されたい。端末装置は、ネットワーク接続に接続されているのが好ましい。
【0071】
本発明の実施形態による、「参照音声信号」は、マイクロフォンによって捕捉され、音声入力に基づいている音声信号であり、ソフトウェアまたはハードウェアを操作するためではなく、割り当て表の作成または補足を可能にするため、話し手によってマイクロフォンに入力されたものである。音声入力は、対応する音声信号を音声テキスト変換システムへ送信し、これに応答して、誤った変換に基づく、変換システムからの標的語彙の用語または表現を取得するために記録される、話された専門用語または話された専門表現である。
【図面の簡単な説明】
【0072】
本発明の実施形態は、以下の図面の例に従って、更に詳細に説明される。
【0073】
【
図1】
図1は、専門用語を有するテキストの、音声テキスト変換方法のフローチャートを示すものである。
【
図2】
図2は、専門用語を有するテキストの、音声テキスト変換用分散システムのブロック図を示すものである。
【
図3】
図3は、音声テキスト変換用の別の分散システムのブロック図を示すものである。
【
図4】
図4は、音声テキスト変換用の別の分散システムのブロック図を示すものである。
【
図5】
図5は、実験室における、音声テキスト変換用の別の分散システムのブロック図を示すものである。
【発明を実施するための形態】
【0074】
図1は、専門用語を有するテキストの、音声テキスト変換方法のフローチャートを示すものである。本方法の特長は、本変換システムが専門用語の語彙を支援しない場合でも、専門用語を有するテキストの認識および変換に、既存の音声テキスト変換システムが使用できることである。本方法は、端末装置だけで、または端末装置および追加のデータ処理装置、例えば、制御コンピュータおよび/またはネットワークを通して修正サービスを提供するコンピュータによって実行できる。本発明の実施形態による方法を実施するための、分散型および非分散型データ処理システムの可能な構造のいくつかが
図2、3、および4に示される。斯かる図において、
図1のフローチャートの説明が部分的になされている。
【0075】
本方法は、一般的に、化学または生物学実験室において使用できる。一連の個々の分析装置および大量処理環境システム(HTEシステム)が実験室には配置されている。HTEシステムは、物質または物質混合物の様々な化学または物理パラメーターを分析および測定し、ユーザーが入力する処方に基づいて複数の様々な化学製品を組み合わせ、合成する複数のユニットおよびモジュールを有している。加えて、端末装置、例えば、ブラウザープラグインの形式で対応するソフトウェアを有する、実験室作業員のノートブックコンピュータが、実験室には配置されている。HTEシステムには、例えば、塗料、漆、およびそれらの原料に関する処方、並びに各物理的、化学的、光学的、および他の特性を記憶する内部データベースが含まれる。加えて、他の関連データ、例えば、特定の物質または製品の分析または合成に関する、物質製造元からの製品データシート、安全データシート、HTEシステムの個々のモジュールの構成に関するパラメーターなどが記憶されていてもよい。HTEシステムは、テキスト形式で入力される処方および命令に基づいて、分析および合成を実行するように設計されている。
【0076】
実験室番号22の実験室内部で頻繁に行われる活動は、例えば、以下の活動、および操作を実行するために、実験室作業員202がソフトウェアまたはハードウェアに指示するであろう関連音声入力に関係している。
・前日に、実験室作業員が流動学的特性に関して特定の漆の分析を開始し、現在、HTEシステムに記憶されている結果を検索したいと考えている。可能な音声入力は、例えば、「制御コンピュータよ、部屋番号22でHTEシステムによって2019年2月24日に行われた流動学的分析の結果を示してください」である。
・実験室作業員は、コストを減らしたい、特定の溶媒(高価な溶媒)を余り高価でない溶媒(安価な溶媒)で置き換えたいと考えている。「安価な溶媒」は製造元の商品名である。しかし、作業員は、安価な溶媒が製造対象の漆に適しているかどうか確信が持てず、安価な溶媒の化学的および物理的特性に関する追加情報を明記した製品データシートを見たいと考えている。可能な音声入力は、例えば、「制御コンピュータよ、(安価な溶媒)に関する製品データシートを表示してください」、または「制御コンピュータよ、部屋番号22のHTEシステムに記憶されている(安価な溶媒)用の製品データシートを表示してください」である。
・溶媒(安価な溶媒)の製品データシートを閲覧した後、斯かる溶媒は、高価な溶媒の代わりに、特定の漆を製造するのに使用できる見込みがあると言う意見を、実験室作業員は持つことになる。しかし、複数のパラメーター、例えば、pH値、流動学的特性、極性、および他のパラメーターが高価な溶媒のパラメーターとは異なっているので、処方は調整する必要があると推定される。斯かる特性は他の特性と相互作用する可能性があるので、処方の必要な調整を手動で確認するのは可能ではない。一連の試験を行うのは労働時間的にもコスト面でも割に合わない。しかし、実験室は、特定の処方に基づいて、化学製品、例えば塗料および漆の特性を予測(シミュレーション)するソフトウェアを有している。シミュレーションは、例えばCNN(畳み込みニューラルネットワーク)に基づいて行われてもよい。実験室作業員は、高価な溶媒を安価な溶媒で置き換えた漆の予測特性を、既知の処方に基づいてシミュレーションするため、斯かるシミュレーションソフトウェアを使用したいと考えている。可能な音声入力は、例えば、「制御コンピュータよ、以下の処方、すなわち、70.2gのナフテン油、4gのメチルn-アミルケトン、1.5gのn-ペンチルプロピオネート、1gのUltrasorb、50gの(安価な溶媒)を有する漆の特性を計算するように、HTEシミュレーションソフトウェアに指示してください」である。
・安価な溶媒は漆の製造には適していないと、シミュレーションが示している。実験室作業員は、コスト削減のために製品の質を落とすことなく、高価な溶媒に置き換わる他の溶媒について、インターネットを検索したいと考える。可能な音声入力は、「制御コンピュータよ、(漆製造用の高粘性溶媒)をインターネットで検索してください」である。
【0077】
本発明の実施形態によれば、各実行システムへの斯かる入力およびコマンドの全てが、ユーザーが実験室を出ることなく、および/または手袋を取ることなく実行できる。
【0078】
第一工程102において、実験室作業員202は、端末装置212、312のマイクロフォン214に音声入力204を行う。例えば、音声入力は、上述の音声コマンドのうちの1つを有していてもよい。音声入力は、一般的に、一般用語と専門用語および表現との両方を有する。従って、例えば、「流動学的な」、「ナフテン油」、「メチルn-アミルケトン」、「n-ペンチルプロピオネート」は化学専門用語であり、(安価な溶媒)は化学製品の商品名である。斯かる用語または表現は、一般的に使用される一般用語音声テキスト変換システムによって支援される語彙(「標的語彙」)には通常含まれていない。
【0079】
マイクロフォン214は、音声入力を電子音声信号206へ変換する。斯かる音声信号は、次に、工程104において、音声テキスト変換システムへ変換される。
【0080】
端末装置は、例えば、
図2にされるように、グーグル、アップル、アマゾン、ニュアンスなどの既知の一般用語音声テキスト変換システム226の1つに対応する、インターフェース(クライアント側)224およびクライアントアプリケーション222を有していてもよい。クライアントアプリケーション222は、音声信号を、インターフェース224を通して、音声テキスト変換システム(クラウドシステム)226へ直接送信する。しかし、他の実施形態においては、音声信号は、1つ以上の中間データ処理装置を通して音声テキスト変換システムへ送信されてもよい。
図3および4に示される本発明の実施形態によれば、音声信号はまず制御コンピュータ314,414へ送信され、次に、ネットワーク236を通して、音声テキスト変換システム226へ送信される。斯かるネットワークは例えばインターネットである。
【0081】
制御コンピュータシステム314、414は、音声信号の管理および処理並びに音声信号によって生成されるテキストの調整および制御活動を実行する。制御コンピュータ314は、それ自体、テキスト修正を実行するデータ処理システムでもある。制御コンピュータ414は、斯かる計算工程を別のデータ処理システムに委託する。
【0082】
音声テキスト変換システム226は、一般用語変換システム、すなわち音声入力204の専門用語を含まない一般用語標的語彙224への音声信号変換を支援するのみである。
【0083】
音声テキスト変換システムは、標的語彙に基づいて、テキストへの音声信号変換を実行する。一般的に、音声テキスト変換システム226は、複数の端末装置の複数の音声信号を並行して処理し、それをネットワークを通して同じ装置へ戻すことができるクラウドサービスである。しかし、音声入力204の用語および表現のうちの少なくともいくつかは専門用語または表現を有しているが、変換システムは専門用語または表現を有さない標的語彙のみを支援するので、生成されたテキストは、音声テキスト変換システムの実施方法の如何に拘わらず、確実に、あるいは高い確率で、誤って認識された用語および表現を含んでいる。
【0084】
工程106において、音声信号206を音声テキスト変換システム226へ送信したデータ処理システムは、その応答として、斯かる信号から音声テキスト変換システムによって生成されるテキスト208を受信する。従って、受信機として機能するデータ処理システム(「受信システム」)は、システム構造次第で、
図3に示されるような端末装置または制御コンピュータ314、あるいは
図4に示されるような制御コンピュータ414であってもよい。
【0085】
別の工程108において、受信したテキストを修正するため、割り当て表238が使用される。テキスト修正を実行するデータ処理システムは、その機能に従って(この例の場合、「修正システム」として)指定されている。それは、実施形態次第であるが、端末装置212、制御コンピュータシステム314、または修正コンピュータシステム402である。受信システムと修正システムが同一でない場合、受信システムが受信するテキスト208は、修正コンピュータシステムへ送信される。
【0086】
割り当て表238において、用語はテキスト形式で相互に割り当てられる。更に正確に表現すると、割り当て表は、標的語彙からの少なくとも1つの用語を、複数の専門用語または専門表現の各々に割り当てる。専門用語(または専門表現)に割り当てられた標的語彙の少なくとも1つの用語は、斯かる用語が音声信号形式で音声テキスト変換システムに入力される際に、音声テキスト変換システムが誤って認識する(並びに、以前、割り当て表の生成中に誤って認識した)用語または表現である。
【0087】
工程108において、修正システム212、314、402は、変換システム226の誤ったテキストから修正されたテキスト210を生成する。修正されたテキストは修正システムによって自動的に生成される、すなわち受信したテキスト208内の標準語彙の用語および表現は、割り当て表238に従って、専門用語で置き換えられる。
【0088】
図4に示されるように、修正システムが修正コンピュータである場合、修正されたテキストは制御コンピュータに戻される。
【0089】
工程110において、端末装置または制御コンピュータは、修正されたテキスト210を直接または間接に実行システム240に入力する。異なる実行システムの例が
図5に示されている。実行システム、ソフトウェアコンポーネント、および/またはハードウェアコンポーネントは、修正されたテキストに従ってソフトウェア機能および/またはハードウェア機能を実行し、結果(修正されたテキスト(テキスト形式)の実行結果)242を戻す。結果は、例えば端末装置へ直接戻されてもよいし、あるいは中間ステーションとしての制御コンピュータを通して端末装置へ戻されてもよい。しかし、あるいはまたはそれに加えて、結果は、異なる端末装置および他のデータ処理システムへ戻されてもよい。
【0090】
図3および4に示される実施形態において、修正システムとして機能する制御コンピュータ314は、修正されたテキストを実行システム240へ送信し、同システムによる実行の結果242を受信し、斯かる結果を端末装置へ送信し、それがユーザー202へ出力される。斯かる結果は、通常、テキスト、例えばデータベースで調査された化学物質合成の処方、文書、例えば、データベースまたはインターネットで特定された物質の製品データシート、修正されたテキストの情報に従って実行された化学分析または合成が成功裏に完了したと言う確証(あるいは、そうでない場合には、対応する誤りメッセージ)である。
【0091】
最後に、端末装置または別のデータ処理システムは、ソフトウェアおよび/またはハードウェアを有する実行システム240による機能実行結果を、ユーザー202へ(送信)してもよい。ソフトウェアおよび/またはハードウェアは、特に実験室内部の作業用に実験室内部で開発されたソフトウェアおよびハードウェア、あるいは少なくとも斯かる目的のために使用可能なソフトウェアおよびハードウェアであるのが好ましい。
【0092】
端末装置212は、例えばスピーカーを有していてもよいし、スピーカーに通信可能に接続され、斯かるスピーカーを通して音響形式で結果を出力するようになっていてもよい。加えてあるいはその代わりに、端末装置は、結果をユーザーへ出力するための画面を有していてもよい。追加の出力インターフェース、例えばブルートゥース(登録商標)ベースのコンポーネントであってもよい。
【0093】
本発明の実施形態の方法は、例えば、音声制御の手段により、電子装置、特に実験機器およびHTEシステムの音声制御を実行するように機能するものであってもよい。実験室で既に実行された分析/合成結果、および実験室の対応データベースの実験室プロトコールおよび製品データシートを調査および出力するのに、並びにインターネットおよびインターネットを通してアクセス可能な公共のデータベースおよび所有権を主張できるデータベースの両方で、音声制御補足探索を実行するのに、音声制御が使用されてもよい。化学物質の特定の商品名、実験装置、または実験消耗品、および/または化学専門用語の名前および形容詞を含む音声コマンドも、テキストへ正確に変換され、従って、実行システムによって正確に解釈できる。従って、本発明の実施形態によれば、化学または生物学実験室、あるいは実験室HTEシステムの極めて一体化された実質的に音声制御された操作が促進される。音声入力における「制御コンピュータ」と言う用語は、例えば、実験装置および/または実験室HTEシステムの音声ベース操作に使用される、仮想助手502の名前を表すものである。日常問題用の仮想助手であるAlexaおよびSiriに似ているが、「制御コンピュータ」(あるいは、人間をもっと想起させる任意の他の名前、例えば「エバ」)と言う用語は、修正されたテキストを評価するように、斯かる実験助手のテキスト評価論理に指示するトリガ信号として機能させてもよい。実験助手は、テキストが斯かる名前および任意に他の主要用語を含んでいるか否かに関して、受信した各テキストをその後検査するように構成されている。それが含まれている場合、修正されたテキストは更に分析され、暗号化されたコマンドの認識および実行が行われる。
【0094】
1つの実施形態によれば、実験装置またはHTEシステムへ入力された修正テキストに基づいて決定された結果データが、実験室内に配置されているスピーカーを通して出力される。例えば、スピーカーは、ユーザーの音声入力を受信する端末装置のコンポーネントであるスピーカーであってもよい。しかし、斯かる端末装置に通信可能に接続された別のスピーカーであってもよい。斯かる方法は、実験室作業員が、化学分析、合成、および製品に関する情報を迅速に見出すのに、例えば、分析結果、製品データシート、または別の内容について、自らの音声で、作業を中断することなくコマンドを入力できるという特長を有している。斯かる音声による検索命令の結果は、スピーカーを通して音響的に出力される。ユーザーは、その聞いた情報を用いて、追加検索コマンドを構成したり、音声出力された検索結果を考慮しながら、マイクロフォンに音声コマンドを伝えて、分析または合成を行ったりしてもよい。斯かる音響的入力および出力のサイクルは、キーボードを用いてデータまたはコマンドを入力する必要なしに、複数回反復できる。しかし、実験室のプロセスは、更にはるかに効果的なものに構成されてもよい。
【0095】
塗料および漆の化学合成において、塗料および漆の製造には多種類の原料が必要であり、斯かる原料の特性は複雑な経路で相互に作用し合い、製品の特性に甚大な影響を及ぼすものなので、化学物質に関して効果的に取得される情報、および実験装置およびHTEシステムにおける音声ベースの制御は、特に有利である。従って、塗料および漆の製造においては、複数の分析、制御工程、および試験が必要である。塗料および漆は20種類またはそれ以上の原料、例えば、溶媒、樹脂、硬化剤、色素、充填剤、および数多くの添加物(分散剤、湿潤剤、接着促進剤、消泡剤、殺生物剤、難燃剤など)の極めて複雑は混合物である。個々のコンポーネントに関する情報および対応する分析および合成システムを制御するための情報の効果的な取得は、製造プロセスおよび製品の質の確保を大幅に促進させるものである。
【0096】
図2は、専門用語を有するテキストの、音声テキスト変換用分散システム200のブロック図を示すものである。
【0097】
システム200のコンポーネントおよびそのコンポーネントの基本的機能は、
図1を参照して既に記載済みである。端末装置212は、例えば、ノートブックコンピュータ、標準コンピュータ、タブレットコンピュータ、またはスマートフォンであってもよい。既存の一般用語音声テキスト変換システム226と共同操作可能であるクライアントソフトウェア222が、端末装置に設置されている。例えば、音声テキスト変換システム226は、対応する音声テキストインターフェース(StTインターフェース)224を通してインターネットサービスとして変換を提供する、クラウドコンピューターシステムである。このサービスは、サーバー側で実行され、機能的に音声認識および音声変換プロセッサに対応するソフトウェアプログラム(音声認識プロセッサ)232である。例えば、ソフトウェアプログラム232は、グーグルの音声テキストクラウドサービスであってもよい。その場合、インターフェース224は、グーグルのクラウドベースのAPIである。
【0098】
図2記載の実施形態において、端末装置は、割り当て表238を有し、その表に基づいて、音声テキスト変換システム226によって生成されるテキスト208の修正を実行する十分な計算力を有している。従って、音声信号206のサーバー226への送信、サーバー226からのテキスト208の受信、およびテキストを修正することによる修正テキスト210の生成は、クライアントプログラム222で実行される。クライアントプログラム222は、例えば、インターネット224を通してサーバーソフトウェア232と共同操作可能であるブラウザプラグイン、またはスタンドアロン型アプリケーションであってもよい。
【0099】
図3は、音声テキスト変換用の別の分散システム300のブロック図を示すものである。
【0100】
システム300およびそのコンポーネントの基本的機能は、
図1および
図2を参照して既に記載されている。システム300のシステム構造は、端末装置312がテキスト修正機能を制御コンピュータ314に委託すると言う点で、システム200の構造とは異なっている。端末装置312に設置され、この場合制御クライアントと呼ばれるクライアントソフトウェア316は、制御コンピュータ314に設置されている対応する制御プログラム320と共同操作可能である。端末装置は、ネットワーク236(例えば、インターネット)を通して、制御コンピュータ314に接続されている。制御インターフェース318は、クライアントソフトウェア(制御クライアント)316と制御プログラム320との間のデータ交換機能を有する。
【0101】
制御コンピュータ314は、例えば、標準コンピューターである。しかし、制御コンピュータは、サーバーまたはクラウドコンピュータシステムであれば有利である。
【0102】
制御コンピュータに設置されている制御プログラム320は、種々のデータ処理装置(端末装置、制御コンピュータ、音声テキスト変換システム)間のデータ(音声信号206、認識されたテキスト208、修正されたテキスト210)交換を調整するため、調整機能322をまず実行する。図示されている実施形態においては、制御プログラム320は、次に、端末装置によってシステム200で実行されるテキスト修正機能(テキスト修正プログラム)324を実施する。修正機能324は、割り当て表238に従って、受信したテキスト208の標的語彙の用語および表現を、専門用語および表現で置き換える機能を有する。加えて、置き換え工程中に、制御コンピュータ314によって計算され、テキスト208と一緒に音声テキスト変換システム226からStTインターフェース224を通して受信される、発生確率および/またはPOSタグが考慮されてもよい。音声クライアント222は、本実施形態では変換システム226とのデータ交換を制御するだけであり、テキスト修正を実行しないが、制御プログラム320のコンポーネントとして実施されてもよい。しかし、制御プログラム320およびクライアント222は、分離され、相互に共同操作可能なプログラムであってもよい。
【0103】
端末装置は、計算的に集約的な操作は何ら実行する必要がないので、
図3に示される構造は有利である。音声信号のテキストへの変換および斯かるテキストの修正の両方が、他のデータ処理システムによって実行される。端末装置312の機能は、音声信号206の受信、既知のアドレスを有する所定の制御コンピュータ314への音声信号の送信、および修正されたテキストに従って機能を実行するため、実行システムから戻される結果を出力する機能に実質的に限定されている。
【0104】
図4は、音声テキスト変換用の別の分散システム400のブロック図を示すものである。
【0105】
システム400およびそのコンポーネントの基本的機能は、
図1、2、および3を参照して既に記載されている。システム400のシステム構造は、制御コンピュータ414がそれ自体ではテキスト修正を行わず、代わりに、本明細書では「修正コンピュータ」または「修正サーバー」402として指定される、別のコンピュータにそれを実行させる(その場合、他のコンピュータ402は、ネットワークおよび固有のインターフェース(テキスト修正プログラムのインターフェース)406を通して、制御コンピュータの制御プログラム320に共同操作可能に接続されている)と言う点で、システム300の構造とは異なっている。
【0106】
クラウドシステムとして設計され得る、分離したコンピュータまたはコンピュータネットワークがテキスト修正に使用されるので、斯かる構造は有利であろう。その結果、アクセス権の分散認可が可能となる。制御コンピュータ414の制御プログラム320は、例えば、HTEシステムを用いて実験室で行われる化学物質および物質混合物の分析および合成中に生成される、種々のそして時には要注意となるデータに関して、総合的なアクセス権を有している。本発明の実施形態によれば、制御コンピュータ414は、修正されたテキストを制御コマンドの形式で実験装置またはHTEシステムへ直接送信するため、あるいは修正されたテキスト210に基づいて、分析、化学合成、または研究を開始するため、例えば、マシンツーマシンインターフェースを有していてもよい。従って、制御コンピュータ414の安全かつ厳格なアクセス保護は特に重要である。
【0107】
システム400の構造においては、修正サーバー(テキスト修正クラウドシステム)402は、音声テキスト変換システム226によって生成されたテキスト208を修正し、それを制御プログラム320へ戻す機能しか有しない。従って、本発明の実施形態によれば、例えば、追加の専門用語及び専門表現で表238を更新および補足する目的で、修正サーバー402へのアクセス権を得るユーザーは、制御コンピュータ414への読み取りおよび/または書き込みアクセス権は一切有しないことになる。従って、要注意の制御論理および実験室のデータベースへの総合的なアクセス権を担当職員に認可することなしに、割り当て表、従ってテキスト修正を、継続的に更新することが可能となる。
【0108】
分散システム300、400の端末装置312は、例えば、コンピュータ、ノートブックコンピュータ、スマートフォンなどである。しかし、計算的に比較的脆弱なシングルボードコンピュータ、例えば、ラズベリーパイシステムであってもよい。
【0109】
良く知られている音声テキストクラウドサービスプロバイダーのハードウェア(スマートスピーカー)は、クラウドプロバイダー自身が開発したサービスを直接コントロールおよび使用するという目的を追求するものである。専門語彙の分野での使用は現在開発されていない、あるいは開発されていたとしても極めて限定された範囲でしかない。
【0110】
本明細書で示されるシステム構造200、300、400、および500の全てにおいて、分散ハードウェアの手段により、クラウドプロバイダーとは独立に、主題特有の音声認識を可能とし、それに基づいて実験装置および実験室の電子検索機能を制御するため、既存の様々なクラウドプロバイダーの音声テキストAPIの使用が可能となる。
【0111】
図5は、実験室における、音声テキスト変換用の別の分散システム500のブロック図を示すものである。実験室は、従来の安全規則を持つ実験室領域504を有している。斯かる領域には、様々な個々の実験装置(スタンドアロン型実験装置)516、例えば、遠心分離機やHTEシステム518などが配置されている。HTEシステムには、コントローラ520によって管理および制御される複数のモジュールおよびハードウェアユニット506~514が含まれる。コントローラは、HTEシステムに含まれる装置の外部モニターおよび制御用の中心インターフェースとして機能する。制御コンピュータ414の制御プログラム320には、仮想実験助手を実施するソフトウェアモジュール502が含まれる。ハードウェアユニット506~514には、分析装置506、分析装置508、ミキサー510、合成ユニット512、合成ユニット514が含まれる。
【0112】
ユーザー202の音声入力204から修正テキスト210を生成する工程は、本発明の実施形態に従って既に記載された方法で実行される。制御プログラム320が修正コンピュータ402から修正テキストを受信した後、制御プログラムはそれを評価し、「制御コンピュータ」、「エバ」のようなキーワードを調査する。修正されたテキストが斯かるキーワードを含んでいる場合、その後、仮想実験助手502は、修正されたテキストがハードウェアまたはソフトウェア機能を実行するためのコマンドを含んでいるか否か、もし含んでいれば、実験助手502によって制御されるいずれのハードウェアまたはソフトウェアが斯かるコマンドを実行すべきかを知るため、修正されたテキストを更に分析するように指示される。例えば、修正されたテキストは、コマンドがいずれの装置またはソフトウェアへ送信されるべきかを特定する装置名または実験室領域名を含んでいてもよい。
【0113】
1つの可能な実施例において、仮想実験助手による修正テキスト210の評価の結果、修正テキスト210に専門用語または表現として明記されている特定の物質を、インターネット検索エンジン528は検索すべきであることが判明する。修正されたテキストまたはその特定部分が、仮想助手502により、インターネットを通して、検索エンジンへ入力される。インターネット検索の結果(修正されたテキスト(テキスト形式)の実行結果)524は助手502へ戻され、ユーザー202の近くの適切な出力装置、例えば、端末装置312へ送信され、そこで、スピーカーまたは画面218を通して出力される。
【0114】
別の可能な実施例において、仮想実験助手による修正テキスト210の評価の結果、実験装置516、(例えば)遠心分離機は、特定の物質を特定の回転速度で小球状にすべきであることが判明する。遠心分離機および物質の名前は専門用語または表現として修正テキスト210に明記されているが、遠心分離機は、物質名に基づいて、内部データベースから、継続時間、回転数などの遠心分離機の使用パラメーターを自動的に読み取るので、それで十分である。修正されたテキストまたはその特定の一部が、仮想助手502によって、インターネットを通して、遠心分離機516へ送信される。遠心分離機は当該物質に関連する遠心分離プログラムを開始し、遠心分離が成功か不成功かに関して、テキストメッセージ522として戻す。結果(修正されたテキスト(テキスト形式)の実行結果)522は助手502へ戻され、助手は、それを適切な出力装置、例えば、端末装置312へ送信し、そこで、スピーカーまたは画面218を通して出力される。
【0115】
別の可能な実施例において、仮想実験助手による修正テキスト210の評価の結果、HTEシステム518は、特定の漆を合成すべきであることが判明する。漆のコンポーネントは、修正されたテキストに同様に明記されており、化学製品の商品名とIUPAC物質名との組み合わせを含んでいる。HTEシステムは、修正されたテキスト210を受信し、合成ユニット514で合成を実行する決定を自動的に行う。合成成功のメッセージまたは誤りメッセージが、結果(修正されたテキスト(テキスト形式)の実行結果)526として合成ユニット514からHTEシステム518のコントローラへ戻され、コントローラは結果526を実験助手502に戻し、実験助手はそれを適切な出力装置、例えば、端末装置312へ送信し、そこで、スピーカーまたは画面218を通して出力される。
【符号の説明】
【0116】
102~110:工程
200:分散システム
202:ユーザー
204:音声入力
206:音声信号
208:認識されたテキスト
210:修正されたテキスト
212:端末装置
214:マイクロフォン
216:プロセッサ(複数も可)
218:画面
220:記憶媒体
222:クライアントプログラム
224:インターフェース(クライアント側)
224':インターフェース(サーバー側)
226:音声テキスト変換システム(クラウドシステム)
228:プロセッサ(複数も可)
230:記憶媒体
232:ソフトウェアプログラム(音声認識プロセッサ)
234:標的語彙
236:ネットワーク
238:割り当て表
240:実行システム(ソフトウェアおよび/またはハードウェア)
242:結果(修正されたテキスト(テキスト形式)の実行結果)
300:分散システム
312:端末装置
316:クライアントソフトウェア(制御クライアント)
318:制御インターフェース
320:制御プログラム
322:調整機能
324:テキスト修正機能(テキスト修正プログラム)
400:分散システム
402:修正サーバー(テキスト修正クラウドシステム)
404:テキスト修正プログラムのクライアントソフトウェア
406:固有のインターフェース(テキスト修正プログラムのインターフェース)
414:制御コンピュータ
500:分散システム
502:仮想実験助手
504:実験室領域
506:分析装置
508:分析装置
510:ミキサー
512:合成ユニット
514:合成ユニット
516:実験装置(スタンドアロン型実験装置)
522:結果(修正されたテキスト(テキスト形式)の実行結果)
524:結果(修正されたテキスト(テキスト形式)の実行結果)
526:結果(修正されたテキスト(テキスト形式)の実行結果)
528:インターネット検索エンジン
【国際調査報告】