(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022038873
(43)【公開日】2022-03-10
(54)【発明の名称】自閉症者支援プログラム及び自閉症者支援システム
(51)【国際特許分類】
A61B 10/00 20060101AFI20220303BHJP
G16H 50/20 20180101ALI20220303BHJP
【FI】
A61B10/00 H
G16H50/20
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2020143574
(22)【出願日】2020-08-27
(71)【出願人】
【識別番号】597039984
【氏名又は名称】学校法人 川崎学園
(74)【代理人】
【識別番号】110003085
【氏名又は名称】特許業務法人森特許事務所
(72)【発明者】
【氏名】宮崎 仁
(72)【発明者】
【氏名】森戸 雅子
(72)【発明者】
【氏名】三上 史哲
(72)【発明者】
【氏名】岩藤 百香
(72)【発明者】
【氏名】小田桐 早苗
(72)【発明者】
【氏名】難波 知子
(72)【発明者】
【氏名】武井 祐子
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA04
(57)【要約】 (修正有)
【課題】自閉症者が過剰な反応を起こした原因を推定することを支援するための手段、又は自閉症者が過剰な反応を起こす前にその原因となる可能性のあるものをユーザーに提示する手段を提供する。
【解決手段】任意の物の画像又は音声を入力する入力手段11と、入力された任意の画像又は音声を認識する認識手段24と、自閉症者が反応した事例がある物又は音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベース21を、認識手段で認識された物又は音声に関する情報で検索する手段と、データベースを検索した結果に基づいて、自閉症者が反応した事例がある物又は音声を示すと共に自閉症者が反応する可能性の程度を出力する手段15として機能させるためのプログラムであって、認識手段は、反応した事例がある物又は音声を学習させた学習済モデル221、222を利用する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータを、
任意の物の画像又は音声を入力する入力手段と、
入力された任意の画像又は音声からそれに含まれる物又は音声を認識する認識手段と、
自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、前記認識手段で認識された物又は音声に関する情報で検索する手段と、
データベースを検索した結果に基づいて、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声を示すと共に自閉症者が反応する可能性の程度を出力する手段として機能させるための自閉症者支援プログラムであり、
前記認識手段は、自閉症者が反応した事例がある物の画像又は自閉症者が反応した事例がある音声を学習させた学習済モデルを利用するものである自閉症者支援プログラム。
【請求項2】
前記認識手段は、認識したものが画像及び音声のいずれであるかを示す情報を出力する請求項1に記載の自閉症者支援プログラム。
【請求項3】
上記の自閉症者支援プログラムは、第1のコンピュータを、前記入力手段、かつ前記出力する手段として機能させ、第2のコンピュータを、前記認識手段かつ、前記検索する手段として機能させ、
第1のコンピュータから第2のコンピュータへと、ネットワークを介して、任意の画像又は音声に関する情報を送信させ、第2のコンピュータにおいて、任意の画像又は音声からそれに含まれる物又は音声を認識し、
前記データベースを、前記認識手段で認識された物又は音声に関する情報で検索し、第2のコンピュータから第1のコンピュータへと、ネットワークを介して、前記データベースを検索した結果を送信させるための請求項1又は2に記載の自閉症者支援プログラム。
【請求項4】
入力部と、記憶部と、演算部と、出力部とを備えており、
入力部により任意の画像又は音声を入力し、学習済モデルを利用して、演算部により、入力部から入力された任意の画像又は音声からそれに含まれる物又は音声を認識すると共に、
自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、認識された物又は音声に関する情報で検索する処理を行い、
出力部により、前記処理により求められた自閉症者が反応した事例のある物又は音声と、自閉症者が反応する可能性の程度とを出力し、学習済モデルは、自閉症者が反応した事例がある対象物の画像又は自閉症者が反応した事例がある音声を学習させたものである自閉症者支援システム。
【請求項5】
ネットワークを介して互いに接続された、第1のコンピュータと、第2のコンピュータとを備えており、
任意の画像又は音声に関する情報は第1のコンピュータで取得され、任意の画像又は音声に関する情報は、ネットワークを介して第1のコンピュータから第2のコンピュータへと送信され、
学習済モデルを利用して、任意の画像又は音声からそれに含まれる物又は音声を認識すると共に、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、認識された物又は音声に関する情報で検索する処理は、第2のコンピュータで実施され、
検索した結果はネットワークを介して、第2のコンピュータから第1のコンピュータへと送信され、自閉症者が反応した事例のある物又は音声と、自閉症者が反応する可能性の程度とは、第1のコンピュータの出力部に出力される請求項4に記載の自閉症者支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自閉症者を支援するためのプログラム、及び自閉症者を支援するためのシステムに関する。
【背景技術】
【0002】
以下の特許文献1に示すように、自閉症スペクトラム症を持つ人々を支援するための手段が提案されている。特許文献1には、自閉症スペクトラム症の評価システムが記載されている。当該評価システムでは、被験者と、被験者とコミュニケーション可能な人とを対面させる。両者の足の下には、動揺計を設置する。この状態で、両被験者には、相手が何を考えているか、どんな人かなどについて考えるように指示をする。動揺計で測定した重心の動揺データ等から積算ノイズ寄与率を求めるとされている。積算ノイズ寄与率と自閉症スペクトラム症の傾向との間には、優位な相関関係があり、ノイズ寄与率(因果的影響量)は、自閉症スペクトラム症の傾向等の診断の支援に使用できるとされている。なお、本明細書において、自閉症スペクトラム症という場合、自閉症、アスペルガー症候群、その他の広汎性発達障害、学習障害、注意欠陥多動性障害その他これに類する脳機能の障害であって、その症状が通常低年齢において発現するものを含むものとする。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1のシステムは、動揺を検出することで自閉症スペクトラム症(以下、単に自閉症と呼ぶことがある。)が疑われるか否かを評価するものにすぎない。自閉症を持つ人々は、感覚の特性(以下、感覚特性という。)が特徴的である。例えば、特定の刺激が好き過ぎて変更が難しかったり、特定の刺激が嫌過ぎてその場から逃げてしまったり、特定の物が目に入ったとき又は特定の音が耳に入ったときに反応し過ぎたり、傷があっても痛みがわからないといったことがある。これらの感覚特性は、感覚過敏、感覚鈍麻などと呼ばれる。
【0005】
自閉症者は、特定の刺激によりパニックなどの過剰な反応を起こすことがある。親、教師などの支援者は、多くの場合、どのような刺激に対して過剰な反応を示したのかがわからず、根本的な対処の仕方がわからないことがある。医師、看護師などの専門家であっても、経験の浅い者の場合は原因を推定することは難しい。このため自閉症者とその保護者は、原因が特定できるまで、何度もつらい経験を重ねる傾向がある。感覚特性は自閉症者によって異なるため、原因の特定をさらに難しくしている。
【0006】
本発明は、経験に富んだ専門家でなくても、自閉症者が過剰な反応を起こした原因を推定することを支援するための手段、又は自閉症者が過剰な反応を起こす前にその原因となる可能性のあるものをユーザーに提示するための手段を提供することを目的とする。
【課題を解決するための手段】
【0007】
コンピュータを、任意の物の画像又は音声を入力する入力手段と、入力された任意の画像又は音声からそれに含まれる物又は音声を認識する認識手段と、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、前記認識手段で認識された物又は音声に関する情報で検索する手段と、データベースを検索した結果に基づいて、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声を示すと共に自閉症者が反応する可能性の程度を出力する手段として機能させるための自閉症者支援プログラムであり、前記認識手段は、自閉症者が反応した事例がある物の画像又は自閉症者が反応した事例がある音声を学習させた学習済モデルを利用するものである自閉症者支援プログラムにより、上記の課題を解決する。この自閉症者支援プログラムをコンピュータで実行すれば、ユーザーが撮影又は録音した写真又は音声であったり、インターネットなどから収集した種々の場面の写真又は音声など、ユーザーが選択した任意の画像又は音声から、自閉症者が過剰な反応を示した(示す)可能性がある物又は音声を検出し、過剰反応を示した(示す)可能性がある物又は音声と過剰反応を示す可能性の程度(大小)をユーザーに提示することができる。
【0008】
上記の自閉症者支援プログラムにおいて、対象物等の認識手段は、認識したものが画像及び音声のいずれであるかを示す情報を出力するものであることが好ましい。この構成によれば、ユーザーは、音声及び画像を区別することなく、自閉症者支援プログラムを導入したコンピュータ等のシステムに画像又は音声を入力して、当該システムに入力されたデータが画像及び音声のうちいずれかを判別させて、自閉症者が反応を示す物又は音声の推定結果と、反応を示す可能性の程度を知ることが可能になる。
【0009】
上記の自閉症者支援プログラムは、第1のコンピュータを、前記入力手段、かつ前記出力する手段として機能させ、第2のコンピュータを、前記認識手段かつ、前記検索する手段として機能させ、第1のコンピュータから第2のコンピュータへと、ネットワークを介して、任意の画像又は音声に関する情報を送信させ、第2のコンピュータにおいて、任意の画像又は音声からそれに含まれる物又は音声を認識し、前記データベースを、前記認識手段で認識された物又は音声に関する情報で検索し、第2のコンピュータから第1のコンピュータへと、ネットワークを介して、前記データベースを検索した結果を送信させるものとすることが好ましい。このようにすれば、第2のコンピュータにおいて、コンピュータに負荷がかかる処理を実行するので、第1のコンピュータが処理能力において劣るものであっても、自閉症者が反応する物又は音声と自閉症者が反応する可能性の程度とをユーザーに提示する処理を、迅速又は円滑に行うことができる。
【0010】
入力部と、記憶部と、演算部と、出力部とを備えており、入力部により任意の画像又は音声を入力し、学習済モデルを利用して、演算部により、入力部から入力された任意の画像又は音声からそれに含まれる物又は音声を認識すると共に、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、認識された物又は音声に関する情報で検索する処理を行い、出力部により、前記処理により求められた自閉症者が反応した事例のある物又は音声と、自閉症者が反応する可能性の程度とを出力し、学習済モデルは、自閉症者が反応した事例がある対象物の画像又は自閉症者が反応した事例がある音声を学習させたものである自閉症者支援システムにより、上記の課題を解決する。この自閉症者支援システムによれば、ユーザーが撮影又は録音した写真又は音声であったり、インターネットなどから収集した種々の場面の写真など、ユーザーが選択した任意の画像又は音声から、自閉症者が過剰な反応を示した(示す)可能性、又は過剰な反応を示した(示す)可能性がある対象物又は音声を検出し、過剰反応を示す物又は音声と過剰反応を示す可能性の程度(大小)をユーザーに提示することができる。
【0011】
上記の自閉症者支援システムは、ネットワークを介して互いに接続された、第1のコンピュータと、第2のコンピュータとを備えており、任意の画像又は音声に関する情報は第1のコンピュータで取得され、任意の画像又は音声に関する情報は、ネットワークを介して第1のコンピュータから第2のコンピュータへと送信され、学習済モデルを利用して、任意の画像又は音声からそれに含まれる物又は音声を認識すると共に、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、認識された物又は音声に関する情報で検索する処理は、第2のコンピュータで実施され、検索した結果はネットワークを介して、第2のコンピュータから第1のコンピュータへと送信され、自閉症者が反応した事例のある物又は音声と、自閉症者が反応する可能性の程度とは、第1のコンピュータの出力部に出力されるものとすることが好ましい。このようにすれば、第2のコンピュータにおいて、コンピュータに負荷がかかる処理を実行するので、第1のコンピュータが処理能力において劣るものであっても、自閉症者が反応した事例のある物又は音声と自閉症者がそれの物又は音声に反応する可能性の程度とを出力する処理を、迅速又は円滑に行うことができる。
【発明の効果】
【0012】
本発明によれば、経験に富んだ専門家でなくても自閉症者が過剰な反応を起こした原因を推定することを支援するための手段、又は自閉症者が過剰な反応を起こす前にその原因となる可能性のあるものをユーザーに提示するための手段を提供することができる。
【図面の簡単な説明】
【0013】
【
図1】自閉症者支援システムの構成例を示すブロック図である。
【
図2】踏切の音声をステレオ録音したものをスペクトログラム画像に変換した例を示す図である。
【
図3】救急車の音声をモノラル録音したものをスペクトログラム画像に変換した例を示す図である。
【
図4】自閉症支援プログラムによる一連の処理の流れを示すフローチャートである。
【
図5】自閉症者支援システムが、自閉症者が反応する可能性がある物を、自閉症者が反応する可能性の程度とともに表示した状態の一例を示す図である。
【
図6】自閉症支援プログラムによる一連の処理の流れを示すフローチャートであり、他の処理の例を示す物である。
【
図7】自閉症支援プログラムの他の構成例を示すブロック図である。
【発明を実施するための形態】
【0014】
以下、本発明の自閉症者支援プログラム、及び自閉症者支援システムの実施形態について説明する。本発明の技術的範囲は例示した実施形態に限定されるものではない。
【0015】
本実施形態の自閉症者支援プログラムは、コンピュータを、任意の物の画像又は音声を入力する入力手段と、入力された任意の画像又は音声から自閉症者が反応した事例がある物の種類又は自閉症者が反応した事例がある音声の種類を認識する認識手段と、自閉症者が反応した事例がある物の種類又は自閉症者が反応した事例がある音声の種類に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、前記認識手段で認識された物の種類又は自閉症者が反応した事例がある音声の種類に関する情報で検索する手段と、データベースを検索した結果に基づいて、自閉症者が反応した事例がある物又は音声を示すと共に自閉症者が反応する可能性の程度を出力する手段として機能させるためのものである。前記認識手段では、自閉症者が反応した事例がある物の画像又は自閉症者が反応した事例がある音声を学習させた学習済モデルを利用する。
【0016】
コンピュータとしては、例えば、デスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレット型コンピュータ、スマートフォンなどの公知の電子計算機が挙げられる。コンピュータは、1台のコンピュータであってもよいし、複数台のコンピュータをネットワーク(インターネット)で接続したものであってもよい。
【0017】
上記の自閉症者支援プログラムを、例えば、コンピュータの記憶部に格納し、演算部により実行することで、コンピュータを自閉症者を支援するためのシステムとして機能させることができる。具体的には、当該システムにより、自閉症者が過剰な反応を起こした原因を推定して、ユーザーに過剰な反応を起こした原因となる物又は音声の推定結果を提示すると共に、自閉症者が反応する可能性の大小、すなわち程度を提示することができる。同様に当該システムによれば、自閉症者が過剰な反応を起こす前にその原因となる可能性のあるものを支援者に提示することも可能である。
【0018】
図1に自閉症者支援システム(以下、単にシステムと称することがある。)の構成例を示す。
図1のシステムは、ユーザーが選択した任意の画像又は音声を入力する入力部11と、後述するデータベース21、学習済モデル22、自閉症者支援プログラム23、推論プログラム24、及び演算部における演算結果等を記憶する記憶部12と、記憶部12に記憶させた学習済モデル22と推論プログラム24を利用して、入力部11から入力された任意の画像又は音に含まれる情報から自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声を認識すると共に、自閉症者が反応した事例がある物の種類又は自閉症者が反応した事例がある音声の種類に関する情報と自閉症者がその物又はその音声に反応する可能性の程度に関する情報とを対にして予め記録したデータベースを、認識された物の種類又は音声の種類に関する情報で検索する処理等を行う演算部14と、前記処理により求められた自閉症者が反応した事例のある物又は音声と、自閉症者が反応する可能性の程度とを表示する出力部15とを備える。本実施形態のシステムでは、学習済モデルは、後述するように画像用学習済モデル221と音声用学習済モデル222とを含む。
【0019】
入力部11としては、例えば、カメラ、マイク、データの受信部などが挙げられる。カメラ、マイクについては、システムとは別体に構成されており、システムに対して接続されるものであってもよいし、システムと一体に構成されたものであってもよい。例えば、スマートフォンのカメラ又はマイクは、システムと一体に構成されている。データの受信部とは、例えば、有線によるインターネット接続、無線によるインターネット接続、赤外線通信、ブルートゥース(登録商標)による通信、USBメモリなどの記憶媒体の接続などにより、データを受信する部分のことである。カメラ又はマイクは、自閉症者が反応を示した、あるいは反応を示すと予測される場面を事前に撮影又は録音してシステムに入力することができるので利便性が高い。データの受信部の利用方法としては、例えば、インターネットを利用して、自閉症者が訪れる予定の場所又は反応を示した場所の写真又は音声をダウンロードし、これをシステムに読み込ませるといった利用法がある。また、自閉症者が訪れる予定の場所又は反応を示した場所の写真又は音声をデジタルカメラで撮影し、これをコンピュータに接続することにより、画像又は音声をシステムに読み込ませるといった利用法がある。
【0020】
上記のカメラとしては、360度カメラを使用することが好ましい。360°カメラであれば、撮影者を中心に360°の画像が得られるため、自閉症者が過剰反応する対象物を漏れなく検出することができる。
【0021】
演算部14としては、例えば、中央演算処理装置(CPU)が挙げられる。
【0022】
図1の構成例では、記憶部12は、主記憶装置121と、補助記憶装置122とを含む。主記憶装置121は、DRAM、SRAMなど比較的高速で読み書きを行うことができる記憶装置が挙げられる。補助記憶装置122としては、SSD、HDD、eMMC、若しくはUFSなど、又はSDカード等の外部記憶装置など比較的低速で読み書きを行う記憶装置が挙げられる。不揮発性で高速で読み書きを行うことができる記憶装置があれば、記憶部はそのような記憶装置で構成してもよい。その場合、記憶部は主記憶装置のみで構成され、補助記憶装置は必要ない。
【0023】
出力部15としては、ディスプレイ、プリンタ、スピーカー、又はプロジェクターなどが挙げられる。プリンタの場合は、システムによる推定結果は紙などの媒体に印刷される。スピーカーの場合は、システムによる推定結果は音声で出力される。
【0024】
学習済モデルは、自閉症者が過剰な反応を示す物の画像又は音声の学習済パラメータが組み込まれたものである。学習済モデルは、自閉症者が過剰な反応を示した事例がある物のみ又は音声のみを学習させたものであってもよいし、自閉症者が過剰な反応を示した事例があるものと、自閉症者が過剰な反応を示した事例のないものとの両方を学習させたものであってもよい。本実施形態のシステムでは、自閉症者が過剰な反応を示した事例がある物のみ又は音声のみを学習させた。このため、前記学習済モデルを利用すると、原則として、自閉症者が反応を示したものだけが検知される。
【0025】
学習済モデルの作製は、公知のディープラーニングによる方法を採用してもよいし、公知の機械学習による方法を採用してもよい。これらの公知の方法により、自閉症者が過剰な反応を示した物の画像又は音声を学習させるとよい。本実施形態のシステムでは、画像認識用の学習済モデルと、音声認識用の学習済モデルの二つを使用する。
【0026】
学習済モデルを作製するに際しては、自閉症者が過剰反応を示した物又は音声に関する事例が記載されている科学論文、当事者の手記、自閉症者の家族へのアンケート結果、自閉症者の家族への調査結果から抽出することにより、情報収集を行えばよい。例えば、単色のピーマンのようなどこから見ても色が同じ単色のものは脳が酸欠起こしそうなほど嫌うといった事例があれば、単色のピーマンの画像を学習対象とする。学習に際しては、ピーマンの画像を、角度を変えて複数枚撮影する。そして、後述するように、撮影した写真を学習プログラムに読み込ませて学習を行い、学習結果を画像用学習済モデルとして出力する。それとともに、ピーマンに対して過剰反応を示した事例数をカウントして、以下の表1に示すように、表形式のデータベースにまとめる。
【0027】
音声についても同様に、自閉症者が過剰反応を示したことがある音声に関する事例を科学論文、当事者の手記、自閉症者の家族へのアンケート結果、自閉症者の家族への調査結果から抽出することにより、情報収集を行えばよい。例えば、踏切の音を聞くとパニックを起こすという事例であれば、カンカンと鳴る踏切の音を学習対象とする。学習に際しては、録音する踏切を変えて後述の複数枚スペクトログラムを用意する。そして、後述するように、作製した複数枚のスペクトログラム画像を学習プログラムに読み込ませて、学習を行い、学習結果を音声用学習済モデルとして出力する。それとともに、踏切の音に対して過剰反応を示した事例数をカウントして、以下の表1に示す表形式のデータベースを作製する。
【0028】
【0029】
表1の例では、科学論文等から単色のピーマンを見た自閉症者が当該ピーマンに対して過剰反応を示した例が3事例見つかったことを示す。また、×印を見た自閉症者が当該×印に過剰反応を示した事例が5事例見つかったことを示す。また、救急車の音を聞いた自閉症者が救急車の音に過剰反応を示した事例が12事例見つかったことを示す。また、踏切の音を聞いた自閉症者が踏切の音に過剰反応を示した事例が15事例見つかったことを示す。
【0030】
データベースを作製するに際しては、反応した事例がある物又は反応した事例がある音声を、物の画像そのもの、又は音声そのものによって記録してもよい。そして、データベースの検索に際しては、学習済モデルによって認識された物の画像そのもの、又は学習済モデルによって認識された音声若しくは音声を変換した画像そのものによって、検索してもよい。しかしながら、この場合は、データベースの容量、演算部によって処理すべき情報量が大きくなる。
【0031】
上記の表1のように、データベースを作成するに際して、反応した事例がある物又は反応した事例がある音声をそれらの種類を示す情報にして記録すれば、データベースの容量を小さくすることができるし、検索を行う際の処理速度の向上につながるので好ましい。画像又は音声の種類を示す情報としては、例えば、表1のように反応した物又は音声の名前を含むテキスト情報としてもよいし、反応した物又は音声の名前のみとしてもよい。
【0032】
画像用学習済モデルを作製するに際しては、例えば、公開されているTensorflowを利用することができる。Tensorflowは、学習プログラム、推論プログラムなどの複数のプログラム群を包含するプラットフォーム(開発環境を提供する手段)である。Tensorflowが備える学習プログラムに、教師データを読み込ませて、学習済モデルを作製し出力することができる。
【0033】
本実施形態のシステムでは、Tensorflowに対して、表1に示したように、調査した事例から判明している自閉症者が過剰な反応を示した物の画像のみを教師データとして学習させた。学習に際しては、自閉症者が過剰な反応を示した物の画像を複数枚用意した。物の画像は角度を変えて撮影した。複数枚の画像すべてについて、背景をトリミングして対象物のみが含まれるようにした。背景を削除した複数枚の画像データを、学習データと、バリデーションデータと、テストデータとに分けて、画像データをTensorflowに学習させた。なお、学習させる物の画像の内容や枚数は、上記の情報収集の結果に基づいて、適宜変更することができる。物には、ヒト、動物などの生物も含まれる。
【0034】
Tensorflowは、転移学習に対応している。公開されているFaster RCNN、又はSSD mobilenetといった画像用の学習済モデルのニューラルネットワークの重みづけを転移学習させることにより、既に構築されたニューラルネットワークを再利用することができる。Faster RCNN、又はSSD mobilenetといった学習済モデルは、スーパーコンピュータを用いて高機能に学習されたニューラルネットワークを備える。転移学習を利用すれば、ゼロから学習済モデルを構築するよりも、より少ない労力で高精度な学習済モデルを構築することができる。
【0035】
音声用学習済モデルを作製するに際しては、公開されているKerasを利用することができる。Kerasは、Tensorflowを内包し、学習プログラムとして公開されている画像用の畳み込みニューラルネットワークであるCNN(Convolutional Neural Network)を利用している。音声を認識する手法として、録音された音声からスペクトログラム画像を作製し、この画像に対して画像認識手法の一つであるクラス分類を適用した。スペクトログラム画像は、周波数ごとの強さを画像に変換したものであり、音声ごとに固有の画像が得られる。例えば、
図2に、救急車のサイレンの音をスペクトログラム画像に変換した例を示す。また、
図3に、踏切の音をスペクトログラム画像に変換した例を示す。いずれもグレースケールの画像で示すが、本来は、カラーの画像である。音声のデータは、例えば、モノラルであってもよいし、ステレオ等の多チャンネルの音声であってもよい。
図2の踏切のサイレンの音声はステレオであり、
図3の救急車の音声はモノラルである。多チャンネルの音声は、モノラルの音声に変換してスペクトログラム画像に変換してもよい。
【0036】
本実施形態のシステムでは、KerasのCNNに対して、表1に示したように、調査した事例から判明している自閉症者が過剰な反応を示した音声のスペクトログラム画像のみを学習させて、音声用学習済モデルを作製して出力する。スペクトログラム画像は物の画像とは比べると画像の特徴が大きく異なるため、学習に際しては、転移学習は利用せず、複数枚のスペクトログラム画像を読み込ませる。
【0037】
画像用学習済モデルについては、学習に使用していない学習済モデルにとっては未知のテストデータを使用して、学習済モデルを読み込ませた推論プログラムが正しく対象物を検出できるかテストを行う。音声用学習済モデルについては、実際の音、例えば、踏切の音をマイクから入力して、クラス分類した結果がその音を正しくラベル付けできているかどうかを確認することによりテストを行う。精度に問題があれば、情報収集、物に係る画像又は音声に係るスペクトログラム画像の準備、物の画像の背景のトリミング、及び教師データによる学習をやり直す。なお、学習プログラムに学習させる物の画像又は音声のスペクトログラム画像には、自閉症者が過剰反応を示した物以外の画像又は音声が含まれていてもよい。この場合は、データベースにその物又は音声が、自閉症者が反応を示す可能性が無いことを登録し、出力部には自閉症者が反応を示す可能性が無いことを出力させればよい。しかしながら、過剰反応を示した物以外の画像又は音声が含まれると処理が遅延したり、データ容量が大きくなったりすることがある。このため教師データには、自閉症者が過剰反応を示した物以外の画像又は音声が含まれないようにすることが好ましい。
【0038】
図1に示したように、本実施形態のシステムでは、上記の画像用学習済モデル221と、上記の音声用学習済モデル222と、表形式のデータベース21と、自閉症者支援プログラム23とを、補助記憶装置122に格納する。これらに加えて、補助記憶装置122には、推論プログラム24も格納しておく。推論プログラム24に、画像用学習済モデル221、及び音声用学習済モデル222を読み込ませると、推論プログラム24によって、入力部から入力された画像又は音声に含まれる物又は音声が認識される。推論プログラム24によって認識された結果を用いて、自閉症者支援プログラム23は、データベース21を検索し、検索結果に基づいて、自閉症者が過剰反応した事例がある画像又は自閉症者が反応した事例がある音声を示すと共に自閉症者が反応する可能性の程度とを出力する。これにより、コンピュータが自閉症者支援システムとして機能する。本実施形態のシステムでは、推論プログラムとして、Tensorflowを利用した。上記の通り、Tensorflowは推論プログラム24も内包しているため、画像用学習済モデル又は音声用学習済モデルを読み込ませることで、画像又は音声の推論を実行することができる。
【0039】
学習済モデル、又は推論プログラムは、上記に挙げた例に限定されず、公開されているその他の学習済モデル、又は推論プログラムを利用してもよい。上記の推論プログラムでは、検出結果は物又は音声の種類を示すテキストとして出力される。例えば、システムに読み込ませた画像に複数の物が含まれていた場合に、学習させた物の種類を含むテキストが出力される。出力形式はテキストに限定されず、例えば、検出された画像のデータ、検出された音声のデータを抽出して出力するものであってもよい。
【0040】
上記の実施形態のシステムでは、学習済モデルは、自閉症者が過剰な反応を示した事例がある物又は音声のみを学習したものにしたが、自閉症者が過剰な反応を示した事例があるものと、自閉症者が過剰な反応を示した事例がないものとの両方を学習させたものであってもよい。自閉症者が過剰な反応を示した事例がないものとの両方を学習させた場合は、自閉症者が反応を示した事例のないその他の物又は音声も学習済モデルを読み込ませた推論プログラムによって検出されるが、例えば、検出結果と、自閉症者が反応した事例がある物又は自閉症者が反応した事例がある音声とを記録したデータベースとを照合することで、自閉症者が反応する物又は音声と、反応を示さない物又は音声とを区別して、出力することが可能である。
【0041】
学習済モデルを、自閉症者が過剰な反応を示した事例があるものとないものとの両方を学習させたものとした場合は、認識手段は、入力手段で入力された任意の画像又は音声から自閉症者が反応した事例がある物の種類又は音声の種類を認識するものとして機能せず、単に入力手段で入力された任意の画像又は音声からそこに含まれる物又は音声を認識する手段として機能する。この場合は、例えば、学習している物又は音声の数が多い公開された学習済モデルがあれば、それを「自閉症者が反応した事例がある物の画像又は自閉症者が反応した事例がある音声を学習させた学習済モデル」として利用してもよい。多数の物又は音声が学習されていれば、その中には自閉症者が反応する物又は音声が何かしら含まれるからである。
【0042】
学習済モデルに自閉症者が過剰な反応を示した事例がある物又は音声のみを学習させる場合は、自閉症者が過剰な反応を示す画像又は音声の教師データを準備して学習済モデルを作製する手間が必要である。しかしながら、自閉症者が過剰な反応を示した事例がある物又は自閉症者が過剰な反応を示した事例がある音声のみが検出され、その検出された物又は音声でデータベースを検索することになる。自閉症者が反応した事例のない物又は音声によっては、検索する処理を行わないので、検索時に演算する情報量が小さくなり、検索処理が軽くなる。
【0043】
上記の実施形態に係るシステムでは、音声の認識は、音声を基にスペクトログラム画像に変換することに行った。これにより、音を画像化することによって、音の認識に比べて精度が比較的に高い画像認識の技術を利用することができる。
【0044】
上記の実施形態では、画像用学習済モデルと、音声用学習済モデルとの二つを利用した。画像用と音声用とを兼用させて、一つの学習済モデルとしてもよい。
【0045】
以下、自閉症者支援プログラム(以下、単にプログラムという。)がコンピュータを自閉症者支援システムとして動作させる一連の流れの一例について説明する。
【0046】
図4に示したように、自閉症者支援プログラムは、入力部11によりユーザーが撮影又はインターネットなどで取得した任意の画像又は音声を取得させる。自閉症者支援プログラム自体がカメラ又はマイクなどの入力部を制御して画像又は音声のデータを取得するようにしてもよいし、自閉症者支援プログラムがブラウザ、写真撮影用のプログラム、又は録音用のその他のプログラムと連携して、画像又は音声のデータを受け取るように構成してもよい。
図4の例では、ユーザーに対象とする場面の画像又は音声を入力させる。対象とする場面とは、自閉症者が過剰な反応を示した現場の画像若しくは音声、その環境に近似する場所の画像若しくは音声、自閉症者が将来訪れる場所の画像若しくは音声、その環境に近似する場所の画像若しくは音声などである。
【0047】
プログラムは、入力部11により取得した画像又は音声を、主記憶装置121を介して補助記憶装置122に格納させる。なお、音声の場合は、プログラムは、上述のように、音声データを基にスペクトログラム画像を生成させる。次いでプログラムは、補助記憶装置122に格納されている音声用学習済モデル222及び画像用学習済モデル221を読み込ませた推論プログラム24を主記憶装置121に呼び出す。次いで、プログラムは、演算部14により前記推論プログラム24を実行し、画像そのもの又はスペクトログラム画像について画像認識処理を行う。次いで、プログラムは、演算部14に認識した物又は音声が存在するか判断させる。学習済モデル22によって認識された物又は音声が存在しない場合は、入力部11により画像又は音声を取得する最初のステップに戻り、入力部11から新たな画像又は音声が入力されるまで処理を中断する。推論プログラム24により認識された物又は音声が存在する場合は、推論プログラム24は、認識した物又は音声の種類と、物(画像)又は音声の別とを、テキストデータで対にしたラベルを主記憶装置121に格納する。ラベルの内容は、例えば、「物の画像,単色のピーマン」又は「音声,踏切の音」といったように、認識した物又は音声の種類と、物(画像)又は音声の別とがテキストデータなどで対として記録されたものである。対として記録するには、例えば、CSVやTSVを利用することができる。次いで、プログラムは、補助記憶装置122に予め格納されているデータベース21にアクセスする。
【0048】
なお、入力部11から画像が入力された場合は、推論プログラム24は、検出された物に矩形等のマーカーを付す際に使用する座標情報をラベルとして出力する。この座標情報は、前記の認識した物又は音声の種類と、物(画像)又は音声の別とを示す情報に付加される。
【0049】
上述のラベルにおいて、画像又は音声の別を示すテキストデータを付加する際には、例えば、以下のようにして画像データと音声データの別を判別させる。画像を取得させる際に使用する関数と、音声を取得する際に使用する関数とは、相違する。どちらの関数でデータを取得したかによって、音声のデータと画像のデータの別を判別することができる。
【0050】
プログラムは、演算部14に、ラベルに含まれる物又は音声の種類を示すテキストデータで表形式のデータベース21を検索させる。プログラムは、データベース21を検索した結果、すなわち自閉症者が反応する可能性を示す程度に関する情報を、前記ラベルに付加して、主記憶装置121に格納させる。例えば、データベース21が表1に記載の内容であり、かつ検出された物が単色のピーマンであれば、「物の画像,単色のピーマン,白色」のように記録し、検出された物が×印であれば、「物の画像,×印,黄色」のように記録する。検出された音声が踏切の音であれば、「音声,踏切の音,赤色」のように記録する。検出された音声が救急車の音であれば、「音声,救急車の音,赤色」のように記録する。この例では、自閉症者が反応する可能性を示す程度は、文字の色彩で表現され、ラベルの末尾に付加された「・・・色」の部分が程度に関する情報である。
【0051】
上記の例では、事例数が5件未満の場合は、自閉症者が反応する可能性は低いと判断し、白色の文字で「単色のピーマン」の表示を出力部であるディスプレイ等に表示する。事例数が5件以上かつ10件未満であれば、自閉症者が反応する可能性は中程度であると判断し、黄色の文字で「×印」の表示を出力部であるディスプレイ等に表示する。事例数が10件以上であれば、自閉症者が反応する可能性がダイであると判断し、赤色の文字で「踏切の音」又は「救急車の音」との表示を出力部であるディスプレイ等に表示させる。程度を示す表示を切り替える閾値、すなわち事例数の値は、一例であり、適宜変更することができる。
【0052】
プログラムは、主記憶装置121に格納された「物の画像,単色のピーマン,白色」などのラベルを参照して、ラベルが物の画像を示すものであれば、演算部14により、検出した物を矩形等で囲んで明示するマーカーと、矩形の近くに認識した物の種類を示すテキストと、自閉症者が反応する程度を示す情報とを入力された画像に付加した画像を作製させる。この例であれば、検出された単色のピーマンを矩形のマーカーで囲み、マーカーの近くに、自閉症者が反応を示す可能性が低いことを示す白色の文字で「単色のピーマン」と表示した画像が作製される。プログラムは、作製した上記の画像を主記憶装置121を介してディスプレイなどの出力部15に出力して、プロセスを終了する。なお、マーカーの形態は、矩形に限定されず、任意のものとすることができる。
【0053】
プログラムは、主記憶装置に格納されたラベルを参照して、「音声,踏切の音,赤色」などのように、ラベルが音声であることを示すものであれば、演算部14により、検出した音声の種類を示すテキストと、自閉症者が反応する程度を示す情報とを合成した画像を作製させる。この例であれば、検出された踏切の音を、自閉症者が反応を示す可能性が高いことを示す赤色の文字で「踏切の音」と表示した画像が作製される。プログラムは、作製した上記の画像を主記憶装置121を介してディスプレイなどの出力部15に出力して、プロセスを終了する。
【0054】
プログラムは、主記憶装置に格納されたラベルを参照して、ラベルに含まれる情報が画像でも音声でもない場合は、エラー処理を実行する。本来、画像でも音声でもない場合は、想定されない。しかしながら、プログラムが意図しない動作をした際に、エラー処理を実行させてログを残すようにしておけば、バグの原因を特定する際に役立つ可能性がある。
【0055】
自閉症者が反応する可能性を示す程度の提示方法は、色による表示に限定されず、例えば、「可能性大」などのテキスト表示若しくは音声による読み上げ、反応を示した自閉症者数÷(反応を示した自閉症者数+反応を示さなかった自閉症者数)×100によって求めた反応率(%)を示すテキスト表示若しくは音声による読み上げ、事例数そのものの値を示すテキスト表示若しくは音声による読み上げ、マーカー自体の着色などが挙げられる。
図5には、入力した画像に含まれる物のうち眼鏡と、牛乳パックと、ジュースのパックに表示されたりんごとに対する反応率がそれぞれ90%、50%、70%であることを示す画像例を示す。自閉症者が反応する確率が90%と判断された眼鏡では、赤色の矩形の枠で囲まれており、自閉症者が反応する確率が70%であると判断されたジュースのパックのりんごは、黄色の矩形の枠で囲まれており、自閉症者が反応する確率が50%であると判断された牛乳パックは白色の矩形の枠で囲まれており、検出された対象物であることが明示されている。マーカーである矩形の枠の近傍には、眼鏡、牛乳、りんごの文字が、マーカーと同じ色彩の文字で表示される。
【0056】
上記の例では、認識した物又は音声の別を「物の画像」、「音」などのテキストデータで管理した。認識した物又は音声の別は、「1」、「0」の数値など他の手段により管理してもよい。
【0057】
上記の例では、学習済モデルで物を認識した場合は、マーカーと程度の表示とを付した物の画像と共に、認識した物の名称を示すテキストを出力するようにした。出力の形態はこれに限定されるものではない。例えば、「単一色のピーマン」などの物の種類を示すテキストと、「可能性小」などの程度を示すテキストとをディスプレイに表示したり、スピーカーを利用してこれらの情報を読み上げたりしてもよい。また、例えば、単一色のピーマンなどの検出した物の画像を白色の枠で構成したマーカーで明示するなどの方法により検出したものと程度とを示すようにしてもよい。この場合は、白色の枠の色彩が反応する程度が小さいことを示すことを、ユーザーに説明する注意書きなどを設けることが好ましい。学習済モデルで音声を認識した場合も、同様に結果をスピーカーを利用して読み上げてもよい。
【0058】
上記の例では、データベースは表形式のものとした。データベースは、自閉症者が反応した事例がある物又は音声に関する情報と、自閉症者がその物又は音声に反応する可能性の程度に関する情報とを対にして予め記録されており、前記認識手段で認識された物又は音声に関する情報で検索することができるものであればよい。例えば、自閉症者が反応した事例がある物又は音声に関する情報と自閉症者がその物又は音声に反応する可能性の程度に関する情報とを対にしてCSV又はTSVなどで記録したものであってもよい。
【0059】
ユーザーは、任意の物の画像又は音声をシステムに入力し、ディスプレイなどの出力部に表示された推定結果を参照することによって、自閉症者が反応した可能性がある対象物又は音声を絞り込むことができる。結果には、自閉症者が反応した可能性の程度が合わせて表示されている。ユーザーは自閉症者が反応した対象物を絞り込む際に上記の程度を参照することで、効率的に対象物又は音声を絞り込むことが可能になる。自閉症者が過剰反応を示す場面を何度かシステムに入力し、過剰反応を示した対象物又は音声と上記の程度を表示させていくうちに、高い精度で過剰反応を示した原因を特定することが可能になる。
【0060】
ユーザーは、自閉症者が将来訪れる場所の写真を撮影したり、インターネットを用いて自閉症者が将来訪れる場所の写真をダウンロードしたり、自閉症者が将来訪れる場所の環境音を録音したりすることにより、任意の画像又は音声を入手し、システムに入力することができる。また、自閉症者が過剰な反応を示したその場で、写真を撮影したり、環境音を録音したりすることによっても、任意の写真又は音声を入手することができる。そのようにして入手した任意の画像又は音声をシステムに読み込ませれば、推定結果を簡単に得ることができる。
【0061】
上記のシステム、プログラムにおいては、物の画像と音声との両方に対応したものである。
図6に示したフローチャートのように、音声にのみ対応したシステム、プログラムとしてもよい。
図6に示す一連の処理では、音声のみが入力されることを想定している。このため、学習済モデルから出力されるラベルが画像のものであるか、音声のものであるかを、判断するプロセスが省略されている。同様に、画像にのみ対応したシステム、プログラムとしてもよい。
【0062】
上記の実施形態に係るシステム、プログラムにおいては、スマートフォン、又はタブレットコンピュータなど1台のコンピュータの記憶部にプログラムを格納して、一連の処理を1台のコンピュータで実行するものである。
図7に示したように、システムは、複数のコンピュータにより構成してもよい。
図7の例では、システムは、クライアント側のコンピュータと、サーバ側のコンピュータと、両コンピュータを接続するネットワークとを有する。なお、クライアント側コンピュータとサーバ側コンピュータは、それぞれ演算部を備えるが、省略して示した。
【0063】
図7に示したシステムでは、学習済モデル22とデータベース21と推論プログラム24とはサーバ側コンピュータの記憶部に格納した。推論プログラム24による物又は音声の検出処理、データベースの検索には、比較的に高い演算能力と記憶部には比較的に大きな記憶容量とが必要とされる。一方、対象物の画像又は音声の入力、検出した物又は音声の出力と、自閉症者が反応する程度を示す情報との出力とは、比較的に低い演算能力と比較的に小さな記憶容量で足りる。
図7のシステムでは、比較的に高い演算能力と比較的に大きな記憶容量が必要な処理はサーバ側コンピュータで行い、比較的に低い演算能力と比較的に小さな記憶容量で足りる処理はクライアント側コンピュータで行うように構成してある。なお、クライアント側コンピュータとサーバ側コンピュータには、図示は省略するが、それぞれのコンピュータに処理を実行させるクライアント側自閉症者支援プログラムとサーバ側自閉症者支援プログラムとがそれぞれ格納されている。
【0064】
図7のシステムにおける一連の処理を、順に説明する。クライアント側のプログラムは、クライアント側コンピュータの入力部により、ユーザーが選択した任意の画像又は音声を取得して記憶部に格納させる。クライアント側のプログラムは、記憶部に格納されている画像又は音声のデータをネットワーク(インターネット)を介してサーバ側コンピュータに送信させる。サーバ側のプログラムは、画像又は音声を受け取った旨の通知(リプライ)を、ネットワークを介して、クライアント側コンピュータに送信する。
【0065】
サーバ側プログラムは、受け取った画像又は音声のデータを記憶部に格納させると共に、学習済モデル22を読み込ませた推論プログラム24により画像又は音声の認識処理を実行させて、認識された物又は音声の種類と、物又は音声の別とをテキストデータで対にしたラベルを記憶部に格納させる。サーバ側プログラムは、当該ラベルで予め記録しておいたデータベース21を検索させて、認識された物又は音声の種類と、物又は音声の別と、自閉症者が反応を示す可能性の程度に関する情報とを対にして、検索結果として、記憶部に格納する。サーバ側プログラムは、前記検索結果を、ネットワークを介して、クライアント側コンピュータに送信する。
【0066】
クライアント側プログラムは、サーバ側コンピュータから受け取った検索結果を記憶部に格納し、検出した物を示す矩形などのマーカー又は物若しくは音声を示すテキストと、自閉症者が反応する程度を示す情報とを合成した画像を作製し、記憶部を介して出力部に出力させる。なお、第2のコンピュータから第1のコンピュータへと送信される検索結果は、検出した物を示す矩形などのマーカー又は物若しくは音声を示すテキストと、自閉症者が反応する程度を示す情報とを合成した画像又はこれらの情報を含む音声データとしてもよい。
【0067】
図7に示したシステムにおいて、クライアント側コンピュータとサーバ側コンピュータとの間におけるデータの送受信は、チャットボットを介して行うことができる。この場合、チャットボットを作動させるプログラムをクライアント側コンピュータとサーバ側コンピュータの双方に格納しておけばよい。このようにすれば、ユーザーは、チャット形式で、自閉症者が反応した可能性がある物の画像又は音声を送信し、反応した原因の推定結果と程度に関する情報を受け取ることができるため、利便性が高い。
【0068】
図7に示したシステムは、入力部、出力部、演算部、記憶部を備えているものの、演算部と記憶部の能力が比較的に制限されているスマートフォンなどの携帯型コンピュータとサーバとの組み合わせに好適に実装することができる。
【0069】
画像には、静止画の他、動画も含まれる。動画の場合は、カメラなどの入力部から入力された動画に推定結果を付加して、ディスプレイなどの出力部に推定結果を付加した動画を表示するようにしてもよい。これにより、ユーザーは、カメラ等の入力部で撮影した動画を基に、リアルタイムで、推定結果を知ることができる。
【符号の説明】
【0070】
23 自閉症者支援プログラム
11 入力部
12 記憶部
14 演算部
15 出力部