視覚障がい者のiPhone(VoiceOver)教室テキスト

5-1-2 Envision AIアプリ:書類のテキスト化と人・物を見つける

姫路デジタルサポート
2022年11月8日
PDF版

目次

1 はじめに

近年、AI技術を利用することで、文字やモノ、風景の認識精度が飛躍的に向上し、さまざまな視覚支援アプリが登場しています。代表的なアプリとしてSeeing AIやSullivan+、Enviosn AIなどを挙げることができます。特に、文字の認識率が高いと言われていたEnvisonAIは有料で高価なため、これまで利用者は限られていましたが、2022年7月から無料化され、多くのユーザーに普及が進んでいます。このテキストでは、Envision AIの使い方について説明します。

Envision AIアプリは、「読み上げ」「識別する」「見つける」の機能があり、「すぐに読み上げる」「スキャンテキスト」「風景を説明する」「色を検出する」「バーコードをスキャンする」「人を見つける」「物を見つける」の7つのモードがあります。

Seeing AIなどのアプリと共通するものも多いのですが、「見つける」はEnvisionAIだけが持つ機能です。例えば、「人を見つける」モードでは、カメラを見回し、移動させながら人を見つけることができ、つまり、リアルタイムで人を検出するところが特徴です。一方、Seeing AIでは、シャッターを切ってからその写真を詳しく解析した後、人や物の情報について知らせてくれます。

また、EnvisionAIとSeeingAIには自動シャッターの機能がありますが、書類がカメラのファインダーに収まるまでの音声案内はSeeingAIの方が使いやすいと思われます。

それぞれのアプリを利用して、それぞれの特徴を理解して、目的によってアプリを使い分けることが大切と思います。

2 事前準備

(1) アプリのインストール

Envision AIアプリのアイコン
Envision AIアプリのアイコン

Envision AIアプリをインストールします。

  • ・アプリ名:Envision AI
  • ・アプリリンク:
  •  https://apps.apple.com/jp/app/envision-ai/id1268632314?itsct=apps_box_link&itscg=30200
□ インストールの操作

上記リンクをダブルタップすると、App Storeが起動し、Envision AIアプリをダウンロードする状態になります。

  • ・右スワイプで「入手」ボタンに進み、ダブルタップします。
  •  なお、「開く」ボタンがあれば、すでにインストールがされています。
  • ・新しいウィンドウが開きますので、右スワイプで進み、「インストール」ボタンをダブルタップします。
  • ・パスコードを設定していない場合は、そのままインストールが開始されます。
  • ・Touch IDを設定している場合は、次のとおりです。
    • – 右スワイプで進むと、アプリ名、アカウントを読み上げた後、「Touch IDでインストール」と読み上げます。そこで、指紋を登録した指をホームボタンにかざします。なお、ホームボタンを押すとインストール処理が取り消されますので、強く押さないことが大切です。
    • – この前後にApple IDのパスワードの入力を求められる場合もあります。
    •  その場合は、そのテキストフィールドをダブルタップしてから入力します。

(2) サインイン(ログイン)

Envision AIアプリを初めて使用する時は、サインインが要求されますが、「Apple IDでサインイン」を使用すると、Apple IDの入力を省略でき、Touch IDを登録していると、パスワードの入力も必要がなくなり、非常に便利です。

Envision AIアプリを起動すると、「Envisionへようこそ」画面が表示されます。右スワイプで進んでいくと、Envisionの特徴が説明されます。さらに、右スワイプで「続ける」ボタンまで進み、ダブルタップすると、サインイン(ログイン)画面が現れます。

アプリ起動後のEnvisionへようこそ画面
図 アプリ起動後のEnvisionへようこそ画面
ログイン画面:「Appleでサインイン」を選択する
図 ログイン画面:「Appleでサインイン」を選択する

サインインの手続きは次のとおりです。

  • ・Appleサインインの選択
  •  「ログインしてください」との読み上げがあるので、右スワイプで「Appleでサインイン」ボタンまで進み、ダブルタップをします。
  • ・Touch IDを登録している場合
  •  右スワイプで進み、「Touch IDで続ける」と読み上げると、指紋認証に登録した指をホームボタンにかざします。
  • ・Touch IDを登録していない場合
    • – 右スワイプで「パスワードで続ける」ボタンまで進み、ダブルタップします。
    • -「セキュリティ保護されたテキストフィールド編集中」との読み上げがあるので、AppleIDのパスワードをキーボードから入力します。
    • – 入力の後、「続ける」ボタンをダブルタップします。
  • ・「ログイン中」との音声があります。
カメラへのアクセスや通知への許可画面
図 カメラへのアクセスや通知への許可画面

次に、カメラと通知について許可や同意を求められます。

  • ・「カメラへのアクセスを求めています」との読み上げに対して、右スワイプで「OK」ボタンまで進み、ダブルタップします。
  • ・続いて、「Envisionは通知を送信します」との読み上げに対して、右スワイプで「許可」ボタンまで進み、ダブルタップします。
  • ・次に「改善に協力ください」との読み上げに対して、右スワイプで「私は同意します」ボタンまで進み、ダブルタップします。
  • ・「新しい読書体験!」画面では、読み上げが日本語になっていれば、「日本語で続ける」ボタンまで右スワイプで進み、ダブルタップします。
  • ・「これでおしまいです」画面では、「エンビジョンを開始」ボタンまで進み、ダブルタップします。
  • ・開始すると読み上げモードになります。

ページのトップへ


3 Envisionの機能と画面の説明

(1) 機能

□ 読み上げ

読み上げ機能には、「すぐに読み上げ」と「スキャンテキスト」の2つのモードがあります。「すぐに読み上げ」モードでは、封筒の差し出し人、加工食品の表示のほか、店鋪の名前、看板など環境の文字を読むのに適しています。一方、「スキャンテキスト」モードは、文書、手紙など詳細に読みたい場合に使用します。

「スキャンテキスト」モードでは、自動でシャッターが切られます。iPhoneを持ち上げると、「四隅すべてが見えました」との案内の後、自動でシャッターが動作します。

□ 識別する

識別する機能には、「風景を説明する」「色を検出」「バーコードをスキャンする」のモードがあります。「風景を説明する」では、カメラで撮ったものが何なのか、可能性の高いものを説明してくれます。

色を教えてくれたり、また、製品のバーコードを検出し、製品名などを教えてくれたりします。

また、iPhoneの写真アルバムの中の写真を解析して、説明を聞いた後、説明付きの写真として保存できます。

□ 見つける

「見つける」機能では、周囲の人と物をそれぞれ見つけてくれます。「人を見つける」では、人がいればビープ音で知らせてくれます。特に、人を登録しておくと、その人の名前も読み上げてくれます。「物を見つける」では、見つけるものを選んでからカメラを見回すとビープ音で知らせてくれます。

(2) 画面の説明

□ 画面全体

「読み上げ」「識別する」「見つける」機能の画面では、最下部2行にタブバーとサブメニューが配置されています。いずれも画面構成はほぼ同じで、画面の下部以外の大部分はカメラのファインダーとなっています。画面上部は選択したモードによって少し異なりますが、「読み上げ機能」では画面上部に拡大などのボタンがありますが、他の2つの機能では画面上部にボタンはありません。

エンビジョンのメイン画面:読み上げ機能
図 エンビジョンのメイン画面:読み上げ機能
□ タブバー

画面最下部には、5つのタブが配置されたタブバーがあり、その中に、右から「読み上げ」タブ、「識別する」タブ、「見つける」タブ、「グラス」タブ、「設定」タブが順に並んでいます。

「読み上げ」「識別する」「見つける」機能では、タブバーの上に3つのサブメニューボタンが並んでいます。例えば、「読み上げ」機能では、サブメニューとして「インスタントテキストすぐに読み上げ」ボタン、「スキャンテキスト・書類を認識」ボタン、「ライブラリー」ボタンが左から順に配置されています。

タブバーは、ダイレクト操作(ホームボタンから上にゆっくりなぞる)によって見つけるのが早いでしょう。タブバーのそれぞれのタブは右、または、左スワイプで移動できます。また、サブメニューのボタンもタブバーからダイレクト操作で見つけるのが早いでしょう。

なお、グラスタブは、Envision Glassと同期させる場合に利用します。

□ 設定タブ

タブバーの右端に「設定」タブがあり、それをダブルタップすると設定画面が現れます。そこには多くの設定項目が並んでいますが、その中で必要と思われる項目を次に挙げます。

・アカウントの詳細

アカウントの確認やログアウトする時に使用します。

・フィードバックを送る

バグの報告や機能の要望などを制作者に送ることができます。

・スピーチ

EnvisionAIでは、VoiceOverとは別に独自の音声を持っており、その読み上げ速度を調整できます。その調整は上下スワイプで行います。また、その音声はいくつかの読み上げ音声から選択することができます。

・色の検出

色モードでは、カメラを向けた物の色を読み上げてくれますが、判別すべき色の種類を30色またはもっと詳細な950色を選びます。デフォルトでは30色に設定されています。

・Siriのショートカット

Siriショートカットを使うと、音声で容易に特定のモードを起動することができます。Siriショートカットを登録したり、音声フレーズを変更したりすることができます。

・Envisionについて

最後の「Envisionについて」では、バージョンの確認や利用規約を読むことができます。

(3) Siriのショートカット

Siriショートカットは、登録しておくと非常に便利です。ショートカットの設定は次の手順で行います。

□ ショートカット画面に移動
  • ・設定タブを探し、ダブルタップをします。
  •  タブバーをダイレクト操作で探し、その右端にある設定タブに移動します。
  • ・2本指上スワイプで画面の最初から自動で読み上げさせます。タブはダブルタップをしても、タブの内容を読み上げはしないので、ユーザーがアクションを起こします。
  • ・適当なところで右スワイプをして、自動読み上げを止めます。右スワイプで「Siriショートカット」ボタンまで移動し、ダブルタップします。
  • ・Siriショートカット画面では、ショートカットの項目が並んでいるので、目的のショートカットを選択します。
  • ・右スワイプで目的の項目まで移動し、ダブルタップをします。例えば、「すぐに読み上げを開始・・・」ボタンをダブルタップします。
□ 音声フレーズの登録

ここでは、「すぐに読み上げ」モードのショートカットを登録します。

  • ・右スワイプで進んでいきます。
  • ・「これを読んで・・・テキストフィールド」と読み上げます。この場合、「これ読んで」がSiriへリクエストするフレーズになります。
  • ・このフレーズで良いなら、右スワイプで次に進みます。このフレーズを編集する場合は、1本指でダブルタップします。音声入力することもできます。
  • ・右スワイプで進み、「完了」ボタンをダブルタップします。
  • ・Siriショートカットは、ショートカットアプリで確認できます。
    • – ショートカットアプリを起動して、右スワイプで移動します。
    • – 最初に読み上げるのが、Siriのフレーズで、次に編み上げるのがEnvisionのモード(機能)です。なお、他のアプリのショートカットも読み上げますが、どのアプリのショートカットであるかについては読み上げませんので、注意が必要です。

「すぐに読み上げを開始」のほか、「スキャンテキスト」「人を見つける」「ものを見つける」などのモードもショートカットとして登録しておくと便利です。

エンビジョンの設定画面と設定項目
図 エンビジョンの設定画面と設定項目
Siriのショートカット一覧
図 Siriのショートカット一覧
Siriショートカットと音声フレーズの設定画面
図 Siriショートカットと音声フレーズ

□ ショートカットのフレーズ一覧

ショートカットとして標準のフレーズを登録したときは、機能とフレーズは次のとおりです。

  • ・「すぐに読み上げ開始」のフレーズ:”これを読んで”
  • ・「スキャンテキスト」のフレーズ:”スキャンテキストを開く”
  • ・「風景を説明する」のフレーズ:”これを説明して”
  • ・「色を検出する」:”この色は何?”
  • ・「人を見つける」:”周りにだれがいる?”
  • ・「物を見つける」:”物を見つけて”

ページのトップへ


4 各機能の使い方

(1) 読み上げ

(1-1) すぐに読む

読み上げ機能の「すぐに読む」を使って食品の商品名を読み上げている様子
図 読み上げ機能の「すぐに読む」を使って:食品の商品名を読み上げている様子

「すぐに読む」モードを起動すると、カメラを向けた対象にテキストがあれば、すぐに読み上げます。封筒の差出人、加工食品の表示のほか、店鋪の名前、看板など環境のテキストを読むのに適しています。

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”これを読んで”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、左側の「読み上げ」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「すぐに・・」ボタンを探し、ダブルタップします。
□ 読み上げなど
  • ・画面上部に拡大ボタン等がありますが、ほとんど操作する必要はありません。
  • ・一度カメラに入った情報については、Envision独自の音声エンジンで最後まで読み続けます。読み上げを止めるには、「すぐに・・・」ボタンをダブルタップして、そのモードを終了させます。
  • ・封筒などが横向きや逆向きでも認識するので、安心です。
  • ・エアコンのリモコンの液晶表示は、ほとんどの場合読み上げません。
  • ・新聞や広報紙など縦書き、段組みのあるものは、文字列に変換され、読み上げられますが、意味不明の部分が多いのが実情です。

(1-2) スキャンする

iPhoneのカメラを引き上げ、書類がファインダーに収まっている様子
図 iPhoneのカメラを引き上げ、書類がファインダーに収まっている様子

A4版の文書などを机に置き、カメラで撮影した後、文字認識の処理がされ、ドキュメント画面にテキストが表示されます。VoiceOverがオンの場合は、右スワイプまたは2本指上スワイプで読み上げます。

そのテキストをメールで送ったり、ファイルに保存をしたりすることができます。また、原稿が複数ページの場合、最初に連続して全てのページを読み込み、その後、テキストへの変換処理を行うこともできます。その場合、「一括」ボタンを用います。

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”スキャンテキストを開く”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、左側の「読み上げ」タブに移動し、ダブルタップします。- その後、ダイレクト操作でタブバーの上の「スキャンテキスト書類を認識・・」ボタンを探し、ダブルタップします。
□ 撮影の方法

「スキャンテキスト」モードでは、例えばA4の文書全体をカメラのファイダーの中に収めることが大切になります。文書や書類がファイダーに収まると、その旨を知らせてくれ、自動でシャッターが切られます。その手順を次に記します。

  • ・茶や黒の机を準備し、読ませるべき文書をおき、それ以外のものは文書から遠ざけます。
  • ・まず、iPhoneのカメラが文書の中央に来るように、文書の上に置きます。なお、カメラはiPhoneの上部の右端にあることに留意します。
  • ・そこから、両手でiPhoneを両手に持ち、ゆっくりと真上に引き上げます。この時、指がカメラに入らないように、また、水平に持つことが大切です。
  • ・「角が見えないところがあります」との読み上げは、まだ、ファイダーに文書が収まっていないことを意味しますので、さらに、iPhoneを持ち上げます。
  • ・A4の文書では、立ってiPhoneを持つ程度まで引き上げます。「四隅すべてが見えました」との音声案内の後、自動でシャッターが動作します。
  • ・その後、テキスト認識処理がされます。
ドキュメント画面に表示されたテキストとエキスポートオプションボタン
図 ドキュメント画面に表示されたテキスト

なお、一括処理の場合は、画面の下部の「一括」ボタンをダブルタップします。

□ テキストの読み上げ

テキスト認識処理が終われば、自動で認識されたテキストが「スキャンしたドキュメント」画面に表示されます。

  • ・VoiceOverをオンにしている場合は、右スワイプまたは2本指上スワイプで読み上げることができます。
  • ・縦書き、段組みの場合は、「すぐに読む」モードと同様に実用的なレベルに達していません。その他の認識特性も、「すぐに読む」モードと同程度です。
□ その他

認識したテキストをメールで送付したり、ファイルに保存したりするには「スキャンしたドキュメント」画面の最下部の「エキスポートオプション」ボタンをダブルタップします。ポップアップウィンドウの希望するオプションを選びます。

ページのトップへ

(2) 識別する

識別するには、「風景を説明する」「色を検出する」「バーコードをスキャンする」の3つのモードがあります。

(2-1) 風景を説明する

カメラで撮った風景に何があるか、また、どのような様子なのかを知ることができます。また、カメラロールに保存することもできます。

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”これを説明して”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、「識別する」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「風景を説明する」ボタンを探し、ダブルタップします。
  • ・このモードは、起動と同時にシャッターが自動で切られます。そのため、知りたい風景にカメラを向けてから、Siriにリクエストまたはダブルタップすることが大切です。
「風景を説明する」画面と説明テキスト
図 「風景を説明する」画面と説明テキスト
□ 説明

シャッターが切られると、音響が流れ、しばらくすると、Envisionの音声で説明が読み上げられます。再度、聞きたい場合は、左スワイプで進むと、VoiceOverの音声で説明を読み上げることができます。

その説明は、詳細ではないので、どのような場面で利用できるかについて検討が必要でしょう。

また、この写真は説明付きでカメラロールに保存することができます。「説明を保存します」ボタンを探し、ダブルタップします。

(2-2) 色を検出する

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”この色は何?”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、左側の「識別する」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「色を検出する」ボタンを探し、ダブルタップします。
□ 読み上げ 

iPhoneのカメラをかざした先の物の色を読み上げます。カメラを移動させると移動先の色を読み上げます。

(2-3) バーコードをスキャンする

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”製品をスキャンして”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、「識別する」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「バーコードをスキャンする」ボタンを探し、ダブルタップします。
□ 検出方法 

「バーコードをスキャンする」モードを起動して、認識したい製品にカメラを向けます。製品をゆっくり移動したり、回転させます。バーコードが検出されると、振動とビープ音が聞こえます。ビープ音と振動の回数が多くなる方向に近づけていくと、「チン」という音がして、バーコードを認識します。その後、商品名などを読み上げます。

ただ、現状では国産の製品では、「商品が見つかりません」と読み上げます。日本製品のデータベースには接続されていないものと思われます。

ページのトップへ

(3) 見つける

見つける機能には、「人を見つける」と「物を見つける」の2つのモードがあります。

(3-1) 人を見つける

□ 起動方法
  • ・Siriのショートカット
  •  Siriに”周りにだれがいる?”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、「見つける」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「人を見つける」ボタンを探しダブルタップします。
□ 人の見つけ方

カメラで周囲をゆっくりと見回すと、人がいると振動とビープ音で知らせてくれます。ビープ音のする方向に人がいることを示しています。人がいる方向とビープ音がする方向とが少しずれることがあるので、カメラをゆっくりと見回すことが大切です。また、人の顔がカメラに入らなくても認識してくれます。

人の顔を学習させておけば、ビープ音とともに名前が読み上げられます。会議などでは役に立ちそうです。

(3-2) 物を見つける
□ 起動方法
  • ・Siriのショートカット
  •  Siriに” 物を見つけて”とリクエストします。
  • ・ジェスチャーを使って
    • – タブバーを探し、「見つける」タブに移動し、ダブルタップします。
    • – その後、ダイレクト操作でタブバーの上の「物を見つける」ボタンを探し、ダブルタップします。
  • ・起動すると、「探す物」のリスト画面が表示されます。右スワイプで目的の物まで進み、ダブルタップして選択します。
□ 物の見つけ方

カメラで周囲をゆっくりと見回すと、その物がある方向でビープ音と振動があります。その方向に物があることを示していますが、カメラを早く見回すとビープ音の方向と物のある方向にずれが生じますので、ゆっくり見回すことが大切です。

物を見つける画面と関連するボタン
図 物を見つける画面と関連するボタン
見つける物のリスト:見つけたい物を選ぶ
図 見つける物のリスト


ページのトップへ

サイト運営者:姫路デジタルサポート(ボランティア団体) ICTサポート活動 ボランティア募集 ニュースレター お問い合せ サイトマップ