(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-12
(45)【発行日】2024-01-22
(54)【発明の名称】画像と文字との混在文章を生成する装置
(51)【国際特許分類】
G06F 40/157 20200101AFI20240115BHJP
G06F 16/532 20190101ALI20240115BHJP
【FI】
G06F40/157
G06F16/532
(21)【出願番号】P 2022566868
(86)(22)【出願日】2021-11-24
(86)【国際出願番号】 JP2021043079
(87)【国際公開番号】W WO2022118720
(87)【国際公開日】2022-06-09
【審査請求日】2022-11-04
(31)【優先権主張番号】P 2020209704
(32)【優先日】2020-12-02
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】513294404
【氏名又は名称】株式会社ADEU.NEK
(74)【代理人】
【識別番号】100105212
【氏名又は名称】保坂 延寿
(72)【発明者】
【氏名】上田 謙一
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2018-077794(JP,A)
【文献】特開2008-287517(JP,A)
【文献】特開2005-176083(JP,A)
【文献】特開2015-036886(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
自然言語文章を入力順に読み込む第1のモジュールと、
変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を
ユーザーの指定に従って特定する第2のモジュールと、
第3のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
前記第3のモジュールと、
を含
み、
前記第2のモジュールは、前記ユーザーが始点と終点を指定した場合に、前記始点から前記終点までを前記変換対象部分として特定する、
画像と文字との混在文章を生成する装置。
【請求項2】
自然言語文章を入力順に読み込む第1のモジュールと、
変換コマンドが入力されるごとに、前記変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分をユーザーの指定に従って特定する第2のモジュールと、
第3のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
前記第3のモジュールと、
を含み、
前記第2のモジュールは、前記ユーザーが前記自然言語文章のうちの1箇所を指定した場合に、その1箇所が含まれる単語、句、又は節を、前記変換対象部分として特定する、
画像と文字との混在文章を生成する装置。
【請求項3】
請求項1
又は請求項2において、
前記第3のモジュールは、
前記自然言語文章において前記変換対象部分が初めて出現した箇所では前記変換対象部分を前記1つの候補画像に置き換えるとともに前記変換対象部分を付記し、
前記自然言語文章において前記変換対象部分が2回目以降に出現した箇所で前記変換対象部分を前記1つの候補画像に置き換える、
画像と文字との混在文章を生成する装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像と文字との混在文章を生成する装置に関する。
【背景技術】
【0002】
今日、パソコンや携帯電話が普及し、これらを用いた電子メールやSNS(social networking service)では、無味乾燥な文字に絵文字を加えることがより親しみ易い表現方法として広く利用されて来ている。また、地図記号、交通標識、電車内の優先座席標識などには、文字ではなく絵が表示されるのが一般的である。
【0003】
一方、インターネットの普及により、世界中の人々がリアルタイムでコミュニケーションをとることが可能になってきている。しかし、言語の違う人々とのコミュニケーションは難しい。従って、コミュニケーションを補助するために、絵やイラストなどを利用したコミュニケーション手段が求められている。
【発明の概要】
【0004】
本発明の1つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を読み込む第1のモジュールと、
前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する変換後の画像を特定し、前記自然言語文章において前記変換対象部分を前記変換後の画像に変換して表示させる第3のモジュールと、
を含む。
【0005】
本発明の他の1つの観点において、画像と文字との混在文章を生成する装置は、
自然言語文章を入力順に読み込む第1のモジュールと、
変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
第3のモジュールであって、
前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
前記第3のモジュールと、
を含む。
【図面の簡単な説明】
【0006】
【
図1】混在文章生成装置20及びその周辺装置のブロック図である。
【
図3A】第1の実施形態に係る混在文章生成装置20のフローチャートである。
【
図3B】変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。
【
図4A】S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。
【
図4B】S120において自然言語文章から抽出された単語を示す。
【
図4C】S120において変換対象部分として特定された単語を示す。
【
図4D】S131において特定された変換後の画像を示す。
【
図4E】S132において生成された画像と文字との混在文章を示す。
【
図5A】S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。
【
図5B】S120において自然言語文章から抽出された単語を示す。
【
図5C】S120において変換対象部分として特定された単語を示す。
【
図5D】S131において特定された変換後の画像を示す。
【
図5E】S132において生成された画像と文字との混在文章を示す。
【
図6A】第2の実施形態に係る混在文章生成装置20のフローチャートである。
【
図6B】変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。
【
図7A】S210において入力順に読み込まれた自然言語文章の一部を示す。
【
図7B】S220において変換コマンドが入力されたときの表示を示す。
【
図7C】S232において表示される複数の候補画像を示す。
【
図7D】S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。
【
図7E】S220において変換コマンドが入力されたときの表示を示す。
【
図7F】S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。
【
図8A】S210において入力順に読み込まれた自然言語文章の一部を示す。
【
図8B】S220において変換コマンドが入力されたときの表示を示す。
【
図8C】S232において表示される複数の候補画像を示す。
【
図8D】S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。
【
図8E】S220において変換コマンドが入力されたときの表示を示す。
【
図8F】S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。
【
図9】第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。
【
図10A】S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
【
図10B】S131aにおいて抽出された要素を示す。
【
図10C】S131bにおいて抽出された画像を示す。
【
図10D】S131cにおいてサイズ変更又は変形された画像を示す。
【
図10E】S131dにおいて合成された画像を示す。
【
図11A】S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
【
図11B】S131aにおいて抽出された要素を示す。
【
図11C】S131bにおいて抽出された画像を示す。
【
図11D】S131cにおいてサイズ変更又は変形された画像を示す。
【
図11E】S131dにおいて合成された画像を示す。
【発明を実施するための形態】
【0007】
以下、本発明の実施形態を、図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明の一例を示すものであって、本発明の内容を限定するものではない。また、各実施形態で説明される構成及び動作のすべてが本発明の構成及び動作として必須であるとは限らない。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
【0008】
<1.実施形態の概要>
第1の実施形態において、混在文章生成装置20は、変換前の自然言語文章を読み込む(S110、
図4A、
図5A)。
混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する(S120、
図4C、
図5C)。
混在文章生成装置20は、画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し(S131、
図4D、
図5D)、自然言語文章において変換対象部分を変換後の画像に変換して表示させる(S132、
図4E、
図5E)。
【0009】
第2の実施形態において、混在文章生成装置20は、変換前の自然言語文章を入力順に読み込む(S210、
図7A、
図8A)。
混在文章生成装置20は、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する(S220、S225、
図7B、
図8B)。
混在文章生成装置20は、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させる(S231~S233、
図7C、
図7D、
図8C、
図8D)。また、変換対象部分と選択された1つの候補画像とを対応付けて記憶する(S234)。
混在文章生成装置20は、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる(S235、
図7F、
図8F)。
【0010】
第3の実施形態は、変換後の画像を特定する構成をさらに発展させたものである。混在文章生成装置20は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する(
図9~
図11E)。
【0011】
<2.構成>
図1は、混在文章生成装置20及びその周辺装置のブロック図である。
図1に示される構成は、第1~第3の実施形態で共通である。
混在文章生成装置20は、入力装置10、画像データベース30、及び表示装置40に接続されている。
【0012】
入力装置10は、例えば、ユーザーが自然言語文章やコマンドを入力するためのキーボード、マウス、あるいはタッチパネルを含む。あるいは、入力装置10は、自然言語文章を図示しない他のコンピュータから受信する通信装置であってもよい。
【0013】
画像データベース30は、画像と概念とを対応付けて記憶したデータベースである。画像には、写真及びイラストが含まれる。あるいは、2次元の画像を生成するための3次元モデルが含まれてもよい。概念とは、画像の内容を言葉で表現したものである。画像データベース30において画像と対応づけられた概念は、上位概念及び下位概念を含む多層構造を構成する。
【0014】
図2は、画像データベース30の一部を示す。画像データベース30は、例えば、「男性」という上位概念に含まれる「少年、男の子」「若者、若い男性」「おじさん、中年の男性」「おじいさん、高齢の男性」といった下位概念ごとに、対応する画像を記憶している。画像に対応づけられる概念は、より詳細なインデックスを含んでもよい。インデックスは、例えば、眼鏡の有無、ひげの有無、喜怒哀楽を示す表情を含む。
【0015】
図1を再び参照し、表示装置40は、例えば、生成された画像と文字との混在文章を表示するディスプレイ装置を含む。表示装置40の代わりに、画像と文字との混在文章を印刷するプリンターや、混在文章を他のコンピュータに送信する通信装置が用いられてもよい。
【0016】
混在文章生成装置20は、図示しないプロセッサ、メモリ、ストレージ等を備えたコンピュータである。混在文章生成装置20は、1台のコンピュータで構成されてもよいし、複数のコンピュータで構成されてもよい。
【0017】
混在文章生成装置20は、文章読み込みモジュール21と、変換対象特定モジュール22と、画像変換モジュール23と、を含む。それぞれのモジュールの機能は、ストレージに記憶されたプログラムがメモリにロードされ、プロセッサによって実行されることにより実現される。
【0018】
文章読み込みモジュール21は本発明における「第1のモジュール」に相当し、変換前の自然言語文章を読み込む。文章読み込みモジュール21は、文章編集のためのアプリケーションソフトウエアで実現されてもよい。
【0019】
変換対象特定モジュール22は本発明における「第2のモジュール」に相当し、自然言語文章のうちの変換対象となる変換対象部分を特定する。
【0020】
画像変換モジュール23は本発明における「第3のモジュール」に相当し、画像データベース30にアクセスして、変換対象部分に対応する変換後の画像を特定する。さらに、画像変換モジュール23は、変換対象部分を変換後の画像に変換し、表示装置40に表示させる。
【0021】
<3.第1の実施形態>
<3-1.動作>
図3Aは、第1の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。
【0022】
S110において、混在文章生成装置20は、入力装置10から入力される自然言語文章を読み込む。あるいは、混在文章生成装置20は入力装置10から入力されるコマンドによって指定された自然言語文章を図示しない記憶装置から読み込んでもよい。
【0023】
S120において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。
変換対象部分は、ユーザーが指定する場合にはその指定に従って特定される。ユーザーは、自然言語文章のうちの画像に変換したい部分に記号などのマーカーを付すことにより、変換対象部分を指定する。
あるいは、変換対象部分は、ユーザーの指定によらず、混在文章生成装置20によって何らかの基準で特定されてもよい。何らかの基準とは、例えば以下の基準である。
【0024】
(1)読み込んだ自然言語文章に含まれる単語のうち、当該文章における主語としての出現頻度が閾値以上の単語を特定する。そのような出現頻度は、主語に限定された索引語頻度(term frequency)ということもできる。主語としての出現頻度を計算するには後述の意味解析が必要である。例えば、当該文章において主語として出現した「ぼくたち」「わたし」等の代名詞以外の単語が「コマ」「マリ」「坊ちゃん」の3種類であって、「コマ」と「マリ」の登場回数が閾値以上で、「坊ちゃん」の登場回数が閾値より少ない場合には、「コマ」と「マリ」が変換対象部分として特定される。
【0025】
(2)読み込んだ自然言語文章に含まれる単語のうち、多数の文書を含む標本文書群において当該単語が出現する文書数が閾値以下の単語を特定する。そのような文書数を文書頻度(document frequency)という。例えば、当該文章において出現した多数の単語のうち、「ぼくたち」「わたし」は多くの文書で登場するありふれた単語であるのに対し、「コマ」「マリ」は閾値以下の少数の文書でしか登場しない単語である場合には、「コマ」と「マリ」が変換対象部分として特定される。
【0026】
混在文章生成装置20によって変換対象部分を特定する基準は、(1)と(2)を組み合わせたものでもよいし、他の基準であってもよい。
【0027】
S130において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
S130の後、混在文章生成装置20は本フローチャートの処理を終了する。
【0028】
図3Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。
図3Bに示される処理は、
図3AのS130のサブルーチンに相当する。
【0029】
S131において、混在文章生成装置20は、S120で特定された変換対象部分に対応する変換後の画像を特定する。例えば、画像データベース30を変換対象部分に含まれる単語で検索することにより、変換後の画像を特定する。検索で複数の画像がヒットした場合には、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、最も一致度の高い画像を変換後の画像として特定する。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
【0030】
S132において、混在文章生成装置20は、当該自然言語文章の全体をスキャンし、変換対象部分を変換後の画像に変換して表示装置40に表示させる。
S132の後、混在文章生成装置20は、本フローチャートの処理を終了して
図3Aに示される処理に戻る。
【0031】
<3-2.具体例>
図4A~
図4Eは、第1の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図5A~
図5Eは、第1の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図4A~
図4Eと
図5A~
図5Eとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
【0032】
図4A及び
図5Aは、S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。
図4A及び
図5Aに示される自然言語文章は、ハンス・クリスチャン・アンデルセン(Hans Christian Andersen)作の「コマとマリ(The Sweethearts)」の一部である。
【0033】
図4B及び
図5Bは、S120において自然言語文章から抽出された単語を示す。単語とは、文章を構成する要素であって、言葉として意味をなす最小の単位をいう。日本語の場合は文節でもよい。
【0034】
単語の抽出は、形態素解析と呼ばれる処理によって行われる。日本語のように単語と単語の区切りが表記上明確でない言語においては、図示しない辞書データベースを参照して区切りを判別することにより単語が抽出される。英語のように単語と単語の区切りが表記上明確である言語においては、その表記ルールに従って単語が抽出される。
【0035】
図4C及び
図5Cは、S120において変換対象部分として特定された単語を示す。ここでは「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の3語が特定されたものとする。変換対象部分は、単語よりも大きい単位で特定されてもよい。例えば、変換対象部分として「男の子」「若い男性」「中年の男性」「高齢の男性」のように修飾語を含んだ名詞句が特定されてもよい。「羽織の若い男性」「犬を連れて散歩する少女」のように、より長い句や節でもよい。
【0036】
図4D及び
図5Dは、S131において特定された変換後の画像を示す。変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々について1つの画像が特定されている。
【0037】
図4E及び
図5Eは、S132において生成された画像と文字との混在文章を示す。
図4A及び
図5Aに示される自然言語文章のうちの変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々が画像に変換されている。
【0038】
図4E及び
図5Eに示されるように、当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」を画像に付記している。
【0039】
当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
【0040】
<3-3.第1の実施形態の効果>
第1の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を読み込む文章読み込みモジュール21と、自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し、自然言語文章において変換対象部分を変換後の画像に変換して表示させる画像変換モジュール23と、を含む(
図1~
図3B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を自動的に生成できる。
【0041】
第1の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに変換対象部分を付記する(
図4E及び
図5E参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を変換後の画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
【0042】
<4.第2の実施形態>
<4-1.動作>
図6Aは、第2の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を入力順に読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。当該変換対象部分が当該自然言語文章において初めて特定されたものである場合は、複数の候補画像を表示させてユーザーが選択できるようにし、当該変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、既に選択された候補画像に変換する。
【0043】
S210において、混在文章生成装置20は、入力装置10から入力される自然言語文章を入力順に読み込む。通常は文章の先頭から順に入力されるが、入力済みの文章を遡って修正する場合もあり得るので必ずしも先頭からとは限らない。
【0044】
S220において、混在文章生成装置20は、変換コマンドが入力されたか否かを判定する。変換コマンドはユーザーによって入力される。変換コマンドが入力されない場合(S220:NO)、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。変換コマンドが入力された場合(S220:YES)、混在文章生成装置20は変換コマンドの入力を受け付け、S225に処理を進める。
【0045】
S225において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。変換対象部分はユーザーによって指定される。例えば、ユーザーが変換対象部分の始点と終点とを指定した場合には、その指定に従って変換対象部分が特定される。あるいは、ユーザーが自然言語文章のうちの任意の1箇所を指定した場合には、その1箇所が含まれる単語が変換対象部分として特定される。あるいは、その1箇所が含まれる句が変換対象部分として特定されるように設定されてもよいし、その1箇所が含まれる節が変換対象部分として特定されるように設定されてもよい。単語を特定する場合にはそのために形態素解析が行われることは上述の通りである。句や節を特定する場合には意味解析が行われる。
【0046】
S230において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
S230の後、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。
【0047】
図6Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。
図6Bに示される処理は、
図6AのS230のサブルーチンに相当する。
【0048】
S231において、混在文章生成装置20は、S225で特定された変換対象部分が当該自然言語文章において初めて特定された部分であるか否かを判定する。変換対象部分が初めて特定された部分である場合(S231:YES)、混在文章生成装置20はS232に処理を進める。
【0049】
S232において、混在文章生成装置20は、変換対象部分に対応する複数の候補画像を表示させる。例えば、「コマ(top)」という変換対象部分を用いた画像データベース30の検索で複数の画像がヒットした場合に、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、一致度の高い順に、複数の候補画像を表示させる。表示される候補画像の数には制限が設けられてもよい。
画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
【0050】
S233において、混在文章生成装置20は、ユーザーによる候補画像の選択を受け付け、変換対象部分を選択された1つの候補画像に変換して、表示装置40に表示させる。
【0051】
S234において、混在文章生成装置20は、変換対象部分と選択された1つの候補画像とを対応付けて図示しないメモリに記憶させる。
S234の後、混在文章生成装置20は、本フローチャートの処理を終了して
図6Aに示される処理に戻る。
【0052】
変換対象部分が当該自然言語文章において2回目以降に特定された部分である場合(S231:NO)、混在文章生成装置20はS235に処理を進める。
S235において、混在文章生成装置20は、変換対象部分をS234で記憶された1つの候補画像に変換して、表示装置40に表示させる。
S235の後、混在文章生成装置20は、本フローチャートの処理を終了して
図6Aに示される処理に戻る。
【0053】
<4-2.具体例>
図7A~
図7Fは、第2の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
図8A~
図8Fは、第2の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
図7A~
図7Fと
図8A~
図8Fとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
【0054】
図7A及び
図8Aは、S210において入力順に読み込まれた自然言語文章の一部を示す。ここでは例として、
図4A及び
図5Aに示される自然言語文章が先頭から入力されている。
【0055】
図7B及び
図8Bは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。
【0056】
図7C及び
図8Cは、S232において表示される複数の候補画像を示す。当該変換対象部分が当該自然言語文章において初めて特定された部分である場合は、例えば「コマ(top)」という単語に対応する候補画像1~3が表示される。
【0057】
図7D及び
図8Dは、S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。例えば、候補画像1~3のうちの候補画像1が選択された場合に、候補画像2及び3の表示は消えて、候補画像1が表示される。「コマ(top)」という単語と候補画像1との対応関係はメモリに記憶される。
【0058】
図7D及び
図8Dに示されるように、当該文章において変換対象部分「コマ(top)」が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」を画像に付記している。但し、
図7D及び
図8Dに示される変換対象部分が初めて出現したことを示す強調の表示は、
図7B及び
図8Bに示される変換対象部分として指定されたことを示す強調の表示とは異なる表示形式が用いられる。
【0059】
図7E及び
図8Eは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。
図7E及び
図8Eに示されるように、「コマ(top)」は
図7B及び
図8Bにおいて一度指定された言葉である。このような場合、一度指定された言葉が再度入力されたことを変換コマンドの入力とみなすことにして、ユーザーによる変換コマンドの入力操作を軽減してもよい。
【0060】
図7F及び
図8Fは、S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
【0061】
<4-3.第2の実施形態の効果>
第2の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を入力順に読み込む文章読み込みモジュール21と、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させ、変換対象部分と選択された1つの候補画像とを対応付けて記憶し、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる画像変換モジュール23と、を含む(
図1、
図2、
図6A及び
図6B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を、ユーザーがタイピングしながら生成できる。変換対象部分が当該自然言語文章において初めて特定されたものである場合は複数の候補画像を表示させて1つの候補画像の選択を受け付けることで、ユーザーが適切な画像を選択できる。変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は変換対象部分を記憶された1つの候補画像に変換することで、ユーザーによる選択操作を軽減でき、1つの自然言語文章の中で同じ変換対象部分については同じ画像に変換することで対応関係を統一できる。
【0062】
第2の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を選択された1つの候補画像に置き換えるとともに変換対象部分を付記する(
図7F及び
図8F参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を選択された1つの候補画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
【0063】
<5.第3の実施形態>
<5-1.動作>
図9は、第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。第3の実施形態においては、変換対象部分に対応する画像が画像データベース30に存在しない場合に、画像データベース30に存在する画像の編集を行って変換対象部分に対応する画像を生成する。
【0064】
図9に示される処理は、
図3BのS131のサブルーチンに相当する。あるいは、
図6BのS232において変換対象部分に対応する複数の候補画像を表示させるために、同様の処理が行われてもよい。
【0065】
S131aにおいて、混在文章生成装置20は、変換対象部分の意味解析を行い、要素を抽出する。ここでいう要素は、単語でもよいし、句でもよい。意味解析は、品詞などの単語の属性と、構文のルールと、に従って、主語及び述語の関係や、修飾及び被修飾の関係などを解析する処理である。
【0066】
S131bにおいて、混在文章生成装置20は、S131aで抽出された要素ごとに画像を抽出する。S131bにおいては、第1及び第2の実施形態と同様に画像データベース30に含まれる画像をそのまま抽出する。
【0067】
S131cにおいて、混在文章生成装置20は、画像のサイズ変更及び画像の変形の一方又は両方を行う。
画像のサイズ変更は、S131dにおいて画像の合成を行う際に縮尺を一致させるための拡大又は縮小の処理である。
画像の変形は、画像データベース30から抽出された画像の一部を加工する処理である。あるいは、画像データベース30が3次元モデルのデータを含む場合に、その3次元モデルの加工や、その3次元モデルから2次元の画像を生成するための視点の変更が行われても良い。
【0068】
S131dにおいて、混在文章生成装置20は、画像の合成を行う。画像の合成は、S131aで複数の要素が抽出された場合に、S131bで抽出された画像、又はS131cでサイズ変更又は変形された画像を合成して、1枚の画像を生成する処理である。
【0069】
S131c及びS131dにおいては、S131aにおいて行われた意味解析の結果に従い、変換対象部分に対応する画像が生成される。そのような画像を生成するシステムとして、深層学習(deep learning)を用いた敵対的生成ネットワーク(generative adversarial networks)が知られている。敵対的生成ネットワークは、多数の画像を生成する学習モデルである生成ネットワークと、画像の正否を判定する学習モデルである識別ネットワークという2つのニューラルネットワークから構成される。生成ネットワークは識別ネットワークから正判定を得ようと学習し、識別ネットワークはより正確に判定しようと学習する。S131c及びS131dの代わりに、そのような人工知能が用いられてもよい。
【0070】
S131dの後、混在文章生成装置20は、本フローチャートの処理を終了し、
図3Bに示される処理に戻る。
【0071】
【0072】
図10A及び
図11Aは、S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
図10Aにおいては「羽織の若い男性」を変換対象部分としている。「羽織の若い男性」に対応する画像は画像データベース30に存在しないものとする。
図11Aにおいては「犬を連れて散歩する少女」を変換対象部分としている。「犬を連れて散歩する少女」に対応する画像は画像データベース30に存在しないものとする。
【0073】
図10B及び
図11Bは、S131aにおいて抽出された要素を示す。
図10Bにおいては修飾語である「羽織」、修飾語である「若い」、及び主語である「男性」が抽出されている。あるいは、修飾語である「羽織」と、主語である名詞句「若い男性」が抽出されてもよい。
図11Bにおいては修飾語である「犬」、修飾語である「連れて」、修飾語である「散歩する」、及び主語である「少女」が抽出されている。
【0074】
図10C及び
図11Cは、S131bにおいて抽出された画像を示す。
図10Cにおいては「羽織」及び「若い男性」に対応する画像が抽出されている。画像データベース30から「若い男性」に対応する画像を抽出するために、「男性」の複数の画像を抽出した後、さらに「若い」で絞り込んでもよい。
図11Cにおいては「犬」、「連れて」、及び「少女」に対応する画像が抽出されている。「連れて」に対応する画像としては犬用の引綱(dog lead)の画像が抽出されている。「散歩する」に対応する画像は画像データベース30に存在しないものとする。
【0075】
図10D及び
図11Dは、S131cにおいてサイズ変更又は変形された画像を示す。
図10Dにおいては、「羽織」及び「若い男性」に対応する画像の縮尺が一致するようにこれらの画像のサイズが変更されている。
図11Dにおいては、「少女」に対応する画像が「散歩する少女」の画像となるように、「少女」に対応する画像が変形されている。
【0076】
図10E及び
図11Eは、S131dにおいて合成された画像を示す。
図10Eにおいては、「羽織」の上に「若い男性」の顔が位置するようにこれらの画像が組み合わされている。
図11Eにおいては、「犬」の首が引綱の一端に接続され、「少女」の手が引綱の他端を握るような位置関係にこれらの画像が組み合わされている。
【0077】
<5-3.第3の実施形態の効果>
第3の実施形態によれば、画像変換モジュール23は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する。これによれば、変換対象部分に対応する画像が画像データベース30に存在しない場合でも、画像データベース30に存在する画像を編集して適切な画像を生成し、画像と文字との混在文章を生成できる。