視覚障がい者のiPhone(VoiceOver)教室テキスト
5-1-2 Envision AIアプリ:書類のテキスト化と人・物を見つける
姫路デジタルサポート
2022年11月8日
PDF版
目次
1 はじめに
近年、AI技術を利用することで、文字やモノ、風景の認識精度が飛躍的に向上し、さまざまな視覚支援アプリが登場しています。代表的なアプリとしてSeeing AIやSullivan+、Enviosn AIなどを挙げることができます。特に、文字の認識率が高いと言われていたEnvisonAIは有料で高価なため、これまで利用者は限られていましたが、2022年7月から無料化され、多くのユーザーに普及が進んでいます。このテキストでは、Envision AIの使い方について説明します。
Envision AIアプリは、「読み上げ」「識別する」「見つける」の機能があり、「すぐに読み上げる」「スキャンテキスト」「風景を説明する」「色を検出する」「バーコードをスキャンする」「人を見つける」「物を見つける」の7つのモードがあります。
Seeing AIなどのアプリと共通するものも多いのですが、「見つける」はEnvisionAIだけが持つ機能です。例えば、「人を見つける」モードでは、カメラを見回し、移動させながら人を見つけることができ、つまり、リアルタイムで人を検出するところが特徴です。一方、Seeing AIでは、シャッターを切ってからその写真を詳しく解析した後、人や物の情報について知らせてくれます。
また、EnvisionAIとSeeingAIには自動シャッターの機能がありますが、書類がカメラのファインダーに収まるまでの音声案内はSeeingAIの方が使いやすいと思われます。
それぞれのアプリを利用して、それぞれの特徴を理解して、目的によってアプリを使い分けることが大切と思います。
2 事前準備
(1) アプリのインストール
Envision AIアプリをインストールします。
- ・アプリ名:Envision AI
- ・アプリリンク:
- https://apps.apple.com/jp/app/envision-ai/id1268632314?itsct=apps_box_link&itscg=30200
□ インストールの操作
上記リンクをダブルタップすると、App Storeが起動し、Envision AIアプリをダウンロードする状態になります。
- ・右スワイプで「入手」ボタンに進み、ダブルタップします。
- なお、「開く」ボタンがあれば、すでにインストールがされています。
- ・新しいウィンドウが開きますので、右スワイプで進み、「インストール」ボタンをダブルタップします。
- ・パスコードを設定していない場合は、そのままインストールが開始されます。
- ・Touch IDを設定している場合は、次のとおりです。
- – 右スワイプで進むと、アプリ名、アカウントを読み上げた後、「Touch IDでインストール」と読み上げます。そこで、指紋を登録した指をホームボタンにかざします。なお、ホームボタンを押すとインストール処理が取り消されますので、強く押さないことが大切です。
- – この前後にApple IDのパスワードの入力を求められる場合もあります。
- その場合は、そのテキストフィールドをダブルタップしてから入力します。
(2) サインイン(ログイン)
Envision AIアプリを初めて使用する時は、サインインが要求されますが、「Apple IDでサインイン」を使用すると、Apple IDの入力を省略でき、Touch IDを登録していると、パスワードの入力も必要がなくなり、非常に便利です。
Envision AIアプリを起動すると、「Envisionへようこそ」画面が表示されます。右スワイプで進んでいくと、Envisionの特徴が説明されます。さらに、右スワイプで「続ける」ボタンまで進み、ダブルタップすると、サインイン(ログイン)画面が現れます。
サインインの手続きは次のとおりです。
- ・Appleサインインの選択
- 「ログインしてください」との読み上げがあるので、右スワイプで「Appleでサインイン」ボタンまで進み、ダブルタップをします。
- ・Touch IDを登録している場合
- 右スワイプで進み、「Touch IDで続ける」と読み上げると、指紋認証に登録した指をホームボタンにかざします。
- ・Touch IDを登録していない場合
- – 右スワイプで「パスワードで続ける」ボタンまで進み、ダブルタップします。
- -「セキュリティ保護されたテキストフィールド編集中」との読み上げがあるので、AppleIDのパスワードをキーボードから入力します。
- – 入力の後、「続ける」ボタンをダブルタップします。
- ・「ログイン中」との音声があります。
次に、カメラと通知について許可や同意を求められます。
- ・「カメラへのアクセスを求めています」との読み上げに対して、右スワイプで「OK」ボタンまで進み、ダブルタップします。
- ・続いて、「Envisionは通知を送信します」との読み上げに対して、右スワイプで「許可」ボタンまで進み、ダブルタップします。
- ・次に「改善に協力ください」との読み上げに対して、右スワイプで「私は同意します」ボタンまで進み、ダブルタップします。
- ・「新しい読書体験!」画面では、読み上げが日本語になっていれば、「日本語で続ける」ボタンまで右スワイプで進み、ダブルタップします。
- ・「これでおしまいです」画面では、「エンビジョンを開始」ボタンまで進み、ダブルタップします。
- ・開始すると読み上げモードになります。
3 Envisionの機能と画面の説明
(1) 機能
□ 読み上げ
読み上げ機能には、「すぐに読み上げ」と「スキャンテキスト」の2つのモードがあります。「すぐに読み上げ」モードでは、封筒の差し出し人、加工食品の表示のほか、店鋪の名前、看板など環境の文字を読むのに適しています。一方、「スキャンテキスト」モードは、文書、手紙など詳細に読みたい場合に使用します。
「スキャンテキスト」モードでは、自動でシャッターが切られます。iPhoneを持ち上げると、「四隅すべてが見えました」との案内の後、自動でシャッターが動作します。
□ 識別する
識別する機能には、「風景を説明する」「色を検出」「バーコードをスキャンする」のモードがあります。「風景を説明する」では、カメラで撮ったものが何なのか、可能性の高いものを説明してくれます。
色を教えてくれたり、また、製品のバーコードを検出し、製品名などを教えてくれたりします。
また、iPhoneの写真アルバムの中の写真を解析して、説明を聞いた後、説明付きの写真として保存できます。
□ 見つける
「見つける」機能では、周囲の人と物をそれぞれ見つけてくれます。「人を見つける」では、人がいればビープ音で知らせてくれます。特に、人を登録しておくと、その人の名前も読み上げてくれます。「物を見つける」では、見つけるものを選んでからカメラを見回すとビープ音で知らせてくれます。
(2) 画面の説明
□ 画面全体
「読み上げ」「識別する」「見つける」機能の画面では、最下部2行にタブバーとサブメニューが配置されています。いずれも画面構成はほぼ同じで、画面の下部以外の大部分はカメラのファインダーとなっています。画面上部は選択したモードによって少し異なりますが、「読み上げ機能」では画面上部に拡大などのボタンがありますが、他の2つの機能では画面上部にボタンはありません。
□ タブバー
画面最下部には、5つのタブが配置されたタブバーがあり、その中に、右から「読み上げ」タブ、「識別する」タブ、「見つける」タブ、「グラス」タブ、「設定」タブが順に並んでいます。
「読み上げ」「識別する」「見つける」機能では、タブバーの上に3つのサブメニューボタンが並んでいます。例えば、「読み上げ」機能では、サブメニューとして「インスタントテキストすぐに読み上げ」ボタン、「スキャンテキスト・書類を認識」ボタン、「ライブラリー」ボタンが左から順に配置されています。
タブバーは、ダイレクト操作(ホームボタンから上にゆっくりなぞる)によって見つけるのが早いでしょう。タブバーのそれぞれのタブは右、または、左スワイプで移動できます。また、サブメニューのボタンもタブバーからダイレクト操作で見つけるのが早いでしょう。
なお、グラスタブは、Envision Glassと同期させる場合に利用します。
□ 設定タブ
タブバーの右端に「設定」タブがあり、それをダブルタップすると設定画面が現れます。そこには多くの設定項目が並んでいますが、その中で必要と思われる項目を次に挙げます。
・アカウントの詳細
アカウントの確認やログアウトする時に使用します。
・フィードバックを送る
バグの報告や機能の要望などを制作者に送ることができます。
・スピーチ
EnvisionAIでは、VoiceOverとは別に独自の音声を持っており、その読み上げ速度を調整できます。その調整は上下スワイプで行います。また、その音声はいくつかの読み上げ音声から選択することができます。
・色の検出
色モードでは、カメラを向けた物の色を読み上げてくれますが、判別すべき色の種類を30色またはもっと詳細な950色を選びます。デフォルトでは30色に設定されています。
・Siriのショートカット
Siriショートカットを使うと、音声で容易に特定のモードを起動することができます。Siriショートカットを登録したり、音声フレーズを変更したりすることができます。
・Envisionについて
最後の「Envisionについて」では、バージョンの確認や利用規約を読むことができます。
(3) Siriのショートカット
Siriショートカットは、登録しておくと非常に便利です。ショートカットの設定は次の手順で行います。
□ ショートカット画面に移動
- ・設定タブを探し、ダブルタップをします。
- タブバーをダイレクト操作で探し、その右端にある設定タブに移動します。
- ・2本指上スワイプで画面の最初から自動で読み上げさせます。タブはダブルタップをしても、タブの内容を読み上げはしないので、ユーザーがアクションを起こします。
- ・適当なところで右スワイプをして、自動読み上げを止めます。右スワイプで「Siriショートカット」ボタンまで移動し、ダブルタップします。
- ・Siriショートカット画面では、ショートカットの項目が並んでいるので、目的のショートカットを選択します。
- ・右スワイプで目的の項目まで移動し、ダブルタップをします。例えば、「すぐに読み上げを開始・・・」ボタンをダブルタップします。
□ 音声フレーズの登録
ここでは、「すぐに読み上げ」モードのショートカットを登録します。
- ・右スワイプで進んでいきます。
- ・「これを読んで・・・テキストフィールド」と読み上げます。この場合、「これ読んで」がSiriへリクエストするフレーズになります。
- ・このフレーズで良いなら、右スワイプで次に進みます。このフレーズを編集する場合は、1本指でダブルタップします。音声入力することもできます。
- ・右スワイプで進み、「完了」ボタンをダブルタップします。
- ・Siriショートカットは、ショートカットアプリで確認できます。
- – ショートカットアプリを起動して、右スワイプで移動します。
- – 最初に読み上げるのが、Siriのフレーズで、次に編み上げるのがEnvisionのモード(機能)です。なお、他のアプリのショートカットも読み上げますが、どのアプリのショートカットであるかについては読み上げませんので、注意が必要です。
「すぐに読み上げを開始」のほか、「スキャンテキスト」「人を見つける」「ものを見つける」などのモードもショートカットとして登録しておくと便利です。
□ ショートカットのフレーズ一覧
ショートカットとして標準のフレーズを登録したときは、機能とフレーズは次のとおりです。
- ・「すぐに読み上げ開始」のフレーズ:”これを読んで”
- ・「スキャンテキスト」のフレーズ:”スキャンテキストを開く”
- ・「風景を説明する」のフレーズ:”これを説明して”
- ・「色を検出する」:”この色は何?”
- ・「人を見つける」:”周りにだれがいる?”
- ・「物を見つける」:”物を見つけて”
4 各機能の使い方
(1) 読み上げ
(1-1) すぐに読む
「すぐに読む」モードを起動すると、カメラを向けた対象にテキストがあれば、すぐに読み上げます。封筒の差出人、加工食品の表示のほか、店鋪の名前、看板など環境のテキストを読むのに適しています。
□ 起動方法
- ・Siriのショートカット
- Siriに”これを読んで”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、左側の「読み上げ」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「すぐに・・」ボタンを探し、ダブルタップします。
□ 読み上げなど
- ・画面上部に拡大ボタン等がありますが、ほとんど操作する必要はありません。
- ・一度カメラに入った情報については、Envision独自の音声エンジンで最後まで読み続けます。読み上げを止めるには、「すぐに・・・」ボタンをダブルタップして、そのモードを終了させます。
- ・封筒などが横向きや逆向きでも認識するので、安心です。
- ・エアコンのリモコンの液晶表示は、ほとんどの場合読み上げません。
- ・新聞や広報紙など縦書き、段組みのあるものは、文字列に変換され、読み上げられますが、意味不明の部分が多いのが実情です。
(1-2) スキャンする
A4版の文書などを机に置き、カメラで撮影した後、文字認識の処理がされ、ドキュメント画面にテキストが表示されます。VoiceOverがオンの場合は、右スワイプまたは2本指上スワイプで読み上げます。
そのテキストをメールで送ったり、ファイルに保存をしたりすることができます。また、原稿が複数ページの場合、最初に連続して全てのページを読み込み、その後、テキストへの変換処理を行うこともできます。その場合、「一括」ボタンを用います。
□ 起動方法
- ・Siriのショートカット
- Siriに”スキャンテキストを開く”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、左側の「読み上げ」タブに移動し、ダブルタップします。- その後、ダイレクト操作でタブバーの上の「スキャンテキスト書類を認識・・」ボタンを探し、ダブルタップします。
□ 撮影の方法
「スキャンテキスト」モードでは、例えばA4の文書全体をカメラのファイダーの中に収めることが大切になります。文書や書類がファイダーに収まると、その旨を知らせてくれ、自動でシャッターが切られます。その手順を次に記します。
- ・茶や黒の机を準備し、読ませるべき文書をおき、それ以外のものは文書から遠ざけます。
- ・まず、iPhoneのカメラが文書の中央に来るように、文書の上に置きます。なお、カメラはiPhoneの上部の右端にあることに留意します。
- ・そこから、両手でiPhoneを両手に持ち、ゆっくりと真上に引き上げます。この時、指がカメラに入らないように、また、水平に持つことが大切です。
- ・「角が見えないところがあります」との読み上げは、まだ、ファイダーに文書が収まっていないことを意味しますので、さらに、iPhoneを持ち上げます。
- ・A4の文書では、立ってiPhoneを持つ程度まで引き上げます。「四隅すべてが見えました」との音声案内の後、自動でシャッターが動作します。
- ・その後、テキスト認識処理がされます。
なお、一括処理の場合は、画面の下部の「一括」ボタンをダブルタップします。
□ テキストの読み上げ
テキスト認識処理が終われば、自動で認識されたテキストが「スキャンしたドキュメント」画面に表示されます。
- ・VoiceOverをオンにしている場合は、右スワイプまたは2本指上スワイプで読み上げることができます。
- ・縦書き、段組みの場合は、「すぐに読む」モードと同様に実用的なレベルに達していません。その他の認識特性も、「すぐに読む」モードと同程度です。
□ その他
認識したテキストをメールで送付したり、ファイルに保存したりするには「スキャンしたドキュメント」画面の最下部の「エキスポートオプション」ボタンをダブルタップします。ポップアップウィンドウの希望するオプションを選びます。
(2) 識別する
識別するには、「風景を説明する」「色を検出する」「バーコードをスキャンする」の3つのモードがあります。
(2-1) 風景を説明する
カメラで撮った風景に何があるか、また、どのような様子なのかを知ることができます。また、カメラロールに保存することもできます。
□ 起動方法
- ・Siriのショートカット
- Siriに”これを説明して”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、「識別する」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「風景を説明する」ボタンを探し、ダブルタップします。
- ・このモードは、起動と同時にシャッターが自動で切られます。そのため、知りたい風景にカメラを向けてから、Siriにリクエストまたはダブルタップすることが大切です。
□ 説明
シャッターが切られると、音響が流れ、しばらくすると、Envisionの音声で説明が読み上げられます。再度、聞きたい場合は、左スワイプで進むと、VoiceOverの音声で説明を読み上げることができます。
その説明は、詳細ではないので、どのような場面で利用できるかについて検討が必要でしょう。
また、この写真は説明付きでカメラロールに保存することができます。「説明を保存します」ボタンを探し、ダブルタップします。
(2-2) 色を検出する
□ 起動方法
- ・Siriのショートカット
- Siriに”この色は何?”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、左側の「識別する」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「色を検出する」ボタンを探し、ダブルタップします。
□ 読み上げ
iPhoneのカメラをかざした先の物の色を読み上げます。カメラを移動させると移動先の色を読み上げます。
(2-3) バーコードをスキャンする
□ 起動方法
- ・Siriのショートカット
- Siriに”製品をスキャンして”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、「識別する」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「バーコードをスキャンする」ボタンを探し、ダブルタップします。
□ 検出方法
「バーコードをスキャンする」モードを起動して、認識したい製品にカメラを向けます。製品をゆっくり移動したり、回転させます。バーコードが検出されると、振動とビープ音が聞こえます。ビープ音と振動の回数が多くなる方向に近づけていくと、「チン」という音がして、バーコードを認識します。その後、商品名などを読み上げます。
ただ、現状では国産の製品では、「商品が見つかりません」と読み上げます。日本製品のデータベースには接続されていないものと思われます。
(3) 見つける
見つける機能には、「人を見つける」と「物を見つける」の2つのモードがあります。
(3-1) 人を見つける
□ 起動方法
- ・Siriのショートカット
- Siriに”周りにだれがいる?”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、「見つける」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「人を見つける」ボタンを探しダブルタップします。
□ 人の見つけ方
カメラで周囲をゆっくりと見回すと、人がいると振動とビープ音で知らせてくれます。ビープ音のする方向に人がいることを示しています。人がいる方向とビープ音がする方向とが少しずれることがあるので、カメラをゆっくりと見回すことが大切です。また、人の顔がカメラに入らなくても認識してくれます。
人の顔を学習させておけば、ビープ音とともに名前が読み上げられます。会議などでは役に立ちそうです。
(3-2) 物を見つける
□ 起動方法
- ・Siriのショートカット
- Siriに” 物を見つけて”とリクエストします。
- ・ジェスチャーを使って
- – タブバーを探し、「見つける」タブに移動し、ダブルタップします。
- – その後、ダイレクト操作でタブバーの上の「物を見つける」ボタンを探し、ダブルタップします。
- ・起動すると、「探す物」のリスト画面が表示されます。右スワイプで目的の物まで進み、ダブルタップして選択します。
□ 物の見つけ方
カメラで周囲をゆっくりと見回すと、その物がある方向でビープ音と振動があります。その方向に物があることを示していますが、カメラを早く見回すとビープ音の方向と物のある方向にずれが生じますので、ゆっくり見回すことが大切です。
サイト運営者:姫路デジタルサポート(ボランティア団体) ICTサポート活動 ボランティア募集 ニュースレター お問い合せ サイトマップ