5-1-1 Seeing AIアプリ：活字文字のテキスト化と撮影支援

視覚障害者のiPhone(VoiceOver)教室テキスト

姫路デジタルサポート
2021年11月13日
pdf版

本文

１はじめに

近年、AI技術を利用することで、文字やモノ、風景の認識精度が飛躍的に向上し、さまざまな視覚支援アプリが登場しています。このテキストでは、視覚支援に関する多くの機能を持っているSeeing AIの使い方について説明します。

Seeing AIアプリは、文字を読み上げる、バーコードによる製品認識、人の年齢、性別、感情の認識、シーンの説明、紙幣の読み上げ、色や明るさの通知ななど多くの機能など８つの機能を備えています。さらに、人物やシーンの認識を活用することで、制約はありますが、写真を撮り、写真を整理するなど、撮影支援ツールになり得る可能性が出てきました。

Seeing AIは次のような特徴を持っています。

・文書の写真撮影時に自動でシャッターを切る。
・認識されたモノを、画面上を指でタッチすることでその位置を知ることができる。
・人物やシーンの認識は写真を撮るのに役立つ。

一方、他のアプリと比べて次のようなディメリットがあります。

・印刷文書をテキスト化する「ドキュメント」では、意図しない部分を自動的にシャッターを切ることがある。
・「ドキュメント」では、上下逆に文書を撮影した場合やリモコンの液晶表示を撮影した場合など、文字の認識が弱い。
・製品の認識では、バーコードを認識しない場合が多い。
・通貨の認識では、硬貨の認識ができない。

Seeing AIだけでなく、他の視覚支援アプリも使ってみて、それぞれの特徴を把握し、アプリを使い分けることが大切と考えます。

目次に戻る

２事前準備

□ アプリのインストール

Seeing AIアプリをインストールします。

・アプリ名：Seeing AI
・アプリリンク： https://apps.apple.com/us/app/seeing-ai/id999062298?itsct=apps_box_link&itscg=30200

□ インストールの操作

上記リンクをダブルタップすると、App Storeが起動し、Seeing AIアプリをダウンロードする状態になります。

・右スワイプで「入手」ボタンに進み、ダブルタップします。
　なお、「開く」ボタンがあれば、すでにインストールがされています。
・新しいウィンドウが開きます。右スワイプで進み、「インストール」ボタンをダブルタップします。
・この前後にApple IDのパスワードの入力を求められる場合があります。
　その場合は、そのテキストフィールドをダブルタップしてから入力します。

□ 写真へのアクセスの許可

写真ライブラリの画像のシーンを解析する場合には、Seeing AIのライブラリへのアクセスを許可しなければなりません。

・iPhoneの「設定」->「Seeing AI」->「写真」：ダブルタップします。
・右スワイプで「すべての写真」をダブルタップし、選択します。

目次に戻る

３アプリの概要

(1) チャンネル（機能）

Seeing AIでは、８つの機能がありますが、その機能のことをチャンネルと呼んでいます。

□ 1短いテキスト

カメラをかざし、視野にテキストがあれば自動的に読み上げます。また、新しいテキストが視野に入ると、それも読み上げられます。手紙の差し出し人や商品のラベル・説明文などを一時的に読むのに適しています。

□ 2ドキュメント

カメラを印刷された文書の上にかざして撮影し、テキストが認識されると読み上げます。印刷文書を詳細に読みたい場合に適しています。文書がファインダーにうまく入っているかどうかの案内があり、自動的にシャッターが切られます。

□ 3製品

バーコードの上にカメラをかざすと、製品名が読み上げられます。バーコードが検出されるとビープ音でカメラの位置を案内し、自動的に認識します。

□ 4人物

周囲をスキャンして、周りに何人いるか、どれほど近くにいるか、どんな表情かを調べます。これは、写真を撮影する際にカメラの視野の中央に人物を配置するのに役立ちます。また、人物を認識するよう Seeing AI を学習させることができます。

□ 5通貨 (プレビュー)

カメラを1枚の紙幣にかざすと、推定金額が読み上げられます。なお硬貨は認識しません。

□ 6シーン (プレビュー)

写真を撮影すると、キャプチャしたシーンについて説明します。

□ 7色 (プレビュー)

認識した物の色を読み上げさせるには、このチャンネルを使用します。

□ 8ライト

周囲の光の量を検出し、光が多いほど、高音になります。

(2) 画面の概要

図 Seeing AIの画面とメニューバタン、チャネルボックスの位置 — 図 Seeing AIの画面とメニュボタン、チャネルボックスの位置

アプリの画面は、最上部に「メニュー」ボタンと「クイックヘルプ」ボタンがあります。「クイックヘルプ」は選択されたチャンネルに応じたヘルプが表示されます。一方、最下部に「チャンネル」というチャンネルボックスが配置され、その中に、「短いテキスト」から「ライト」まで８つのチャンネルが配置されています。チャンネルボックスは、Safariなどのツールボックスに似ていますが、チャンネルの移動には上・下スワイプで行います。

最上部と最下部を除く、中央にはカメラで撮影された画面があり、そのカメラ画面には「シャッター」ボタン、「フェースと背面カメラの切り換え」ボタンなどがあります。また、選択されたチャンネルに応じて、カメラ画面内のボタンの種類が異なり、「短いテキスト」「通貨」「シーン」などでは「シャッター」ボタンがありません。

□ メニュー

メニューの中には、「写真の参照」「ヘルプ」「フィードバック」「設定」「バージョン情報」の５つのボタンがあります。

・写真の参照：すでに保存された写真（写真ライブラリー）を「人物」「シーン」で説明させる場合に使用します。「写真の参照」の使い方については、４(9)で説明します。
・ヘルプ：Seeing AI全体の使い方の説明が記載されています。長文ですので、ローターの見出しや垂直スクロールバーを利用して移動するのが便利です。
・フィードバック：アプリの不具合や読み上げないボタンなどについて、アプリ製作者に改善を要請する場合に使用します。メールが起動されていますので、本文に記入の上送信します。
・設定：Seeing AIの設定を行いますが、通常の使用では再設定の必要はありません。
・バージョン情報：パージョン情報を知ることができます。

□ チャンネルの選択（移動）

・チャンネルボックスの位置の確認
　チャンネルボックスは、最下部に配置されていますので、ダイレクト操作（指でなぞる）で探すのが早いです。「ホーム」ボタンに置いた指を、「チャンネル、・・」と読み上げるまで、ゆっくり上にスライドさせます。
・チャンネルの選択（移動）
　チャンネルボックスは、Safariなどのツールボックスに似ていますが、チャンネルの移動には上・下スワイプで行います。

(3) 自動シャッターと自動認識

SeeingAIのチャンネルで、撮影ボタンを押すことが求められるのは、人物とシーンだけです。「短いテキスト」や「製品」「通貨」「色」「ライト」では自動検出または自動認識します。「ドキュメント」では文書の位置について案内が読み上げられ、適切な位置で自動シャッターが動作します。

４各チャンネルの使い方

(1) 短いテキスト

・チャンネルボックスにて、上または下スワイプで「短いテキスト」を選択します。
・iPhone本体のカメラの部分を手で塞いで、左スワイプをし、言語選択ボタンまで移動します。「日本語を認識しています」との読み上げを確認します。日本語になっていない場合は、そのボタンをダブルタップして、左右スワイプで日本語を探し、ダブルタップします。

□ テキストの認識

・読ませたいものにカメラを向けると、視野にテキストがあればすぐに読み始めます。
・例えば、封筒であれば、封筒の中心にカメラを置き、封筒から30cmほど上まで片手で本体を上げいき、読み上げが始まると静止します。新しいテキストが視野に入ると、それも読み上げますので、静止することが大切です。
・縦置き、横置きでも、上下逆でも同じように文字を認識します。
・名刺などは、10cm程度離すのがよいでしょう。空白部を「ピリオド」と読み上げるようです。
・ペットボトルなど、15cm程度離して、ボトルを回転させると、商品名や成分などがわかることもあります。図柄があると、読み上げ内容がわかりにくくなります。
・読み上げられたテキストは、残念ながら、保存したり、転送したりすることはできません。

(2) ドキュメント

「ドキュメント」チャンネルは、文書がカメラ画面の中に収まると、自動でシャッターを切ってくれます。ページの中心にカメラを向け、そこからゆっくり離して微調整する方法が良いでしょう。

・チャンネルボックスで上または下スワイプによって、「ドキュメント」を選択します。

□ 背景の準備

黒い面に置かれた白い文書など、ページと背景のコントラストが高い場合に、自動シャッターが最もよく機能します。濃い茶の机や黒で無地の下敷きなどを使うのがよいでしょう。また、テキストを含んでいるような紙などは対象とする文書から離しておきましょう。

□ カメラの構え方

・iPhoneのカメラは、本体の右側上部にあることを意識します。
・文書の中心にカメラを置きます。
・iPhoneを持つ構え方として、「肘たて両手法」と「片手引き上げ法」の２つがあります。手動でシャッターを切る場合は「肘たて両手法」が適していますが、自動シャッターの場合は、どちらの方法でもよいでしょう。

・両手肘立て法
　iPhoneの構え方としては、まずは原稿上の本体に両手を添えます。そして、原稿を挟むように両ひじをつき、カメラを文書の中心になるように、肘を立てていきます。肘を寝かさず、両手でiPhoneをできるだけ高く持った状態が、A４文書が画面に収まる位置になります。そこで、シャッターを切ります。
・片手引き上げ法
　文章の中心に置いたiPhoneを片手で上げていきます。
・どちらの方法の場合も、iPhone本体を水平に持ち、文書の中心から外れないように上げていくことが大切です。また、iPhoneを持つときに、カメラレンズを遮らないように、指が画面に当たらないように持ちましょう。

□ 位置合わせと自動シャッター

ここでは、「片手引き上げ法」で、文章の中心に置いたカメラを上げていきます。

・本体を引き上げていくと、「端が表示されていません」と読み上げた場合は、文書の４端が画面に入っていないということなので、少しずつ本体を上げてきます。「上と右の端が表示されていません」の場合は、少し本体を右上に移動させます。
・「そのまま」と案内があった場合は、しばらく静止していると、「ガチャ」とシャッターの切れる音がします。
・iPhone本体を高く上げすぎると、音声案内をしなくなりますので、一度下げてから、再度上げます。
・「そのまま」の案内があり、自動でシャッターが切られても、一部の文字が欠損していることも多々あります。撮り漏らしなく文書全体を撮るためには、練習が必要です。
・シャッターが切られると、自動でテキスト化を始め、「戻る」との読み上げがあると、テキスト化が終了し、スキャン結果画面になります。

□ テキストの読み上げとテキストの共有

スキャン結果画面は、右スワイプで進んでいくとテキストを読み上げます。また、２本指で下スワイプすると、そこから全体を読み上げます。

このテキストをメールで送付する、または、メモに保存する、ファイルに保存するなどができ、このテキストをさまざまな場面で利用できるようになります。例えば、メールで送付する場合、次の手順で行います。

・「共有」ボタンの位置
　「共有」ボタンは、スキャン結果画面の最下部には、左から「再生」ボタン、「停止」ボタン、「フォントサイズの拡大」ボタン、「フォントサイズの縮小」ボタン、「共有」ボタンが配置されています。「共有」ボタンは、最下部の右端にあります。
・共有ボタンを探します
２つの方法があります。
- -ダイレクト操作
- 　指をiPhone本体の画面の右下端に指を置き、「共有」ボタンと読み上げるまで、ゆっくりとなぞって行きます。
- -４本指タッチ
- 　画面の下半分で４本指１回タップをすると、「共有」ボタンに移動します。
・「共有」ボタンをダブルタップ、さらに、「テキストの共有」ボタンをダブルタップします。
・右スワイプで「メール」ボタンまで進み、ダブルタップします。
・テキストが添付されたメール編集画面が起動しますので、宛先を入力した後、送信ボタンを実行します。
・なお、受信したメールに添付されたテキストはhtmlファイルになっていますので、ダウンロードした後、Safariアプリで読みます。

□ 画像の共有

自動シャッターで撮った文書の画像も、メールで送付する、または、ファイルに保存するなどができます。この画像を他のOCRアプリで分析することもできます。

画像の共有は、テキストの共有と同じ方法でメールで送付したり、ファイルに保存したりします。

□ 撮影台の利用

毎日のルーティンとしてドキュメントを利用される方は、専用の撮影台を利用することも一つの選択肢です。なお、iPhoneの機種が変われば、文書とカメラとの適正な距離もかわりますので、調整できるものがよいでしょう。

参考までに、iPhone用撮影台は、ISC-100（アメディア）、あいあいさぽーたー２などが販売されています。

・ISC-100（アメディア：http://www.amedia.co.jp/product/smartphone/goods/ICS-100.html
・あいあいさぽーたー２： https://eyeeye.net/

(3) 製品

製品チャンネルでは、バーコードの上にカメラをかざすと、自動検出され、製品名が読み上げられます。Seeing AI では、バーコードが検出されるまでカメラの位置をビープ音で案内します。

・バーコードが近くにあることを示すビープ音が聞こえるまで、製品を回転させます。遠くから始めて、徐々に近づけるのがベストです。
・ビープ音が速いほど、バーコードに近づいていることを示しています。
・バーコードが検出されると、自動で製品名を読み上げます。
・製品認識画面の最下部には、「共有」ボタンと「詳細」ボタンがあります。製品に関する追加情報が利用できる場合は、[詳細] ボタンが使用できるようになります。

残念なことに、製品のバーコードを自動検出しても、製品名を読み上げない場合も少なくありません。

(4) 人物

このチャンネルでは、周りに何人いるか、どれほど近くにいるか、どんな表情かを教えてくれます。

・まず、「撮影」ボタンは、左または右スワイプで探し、タップして置きます。
・カメラをかざすと、人数、距離などを読み上げます。
・読み上げ内容でよければ、ダブルタップをし、シャッターを切ります。
・自動処理がされ、さらに詳しく、年齢や表情を読み上げます。

□ 保存・共有

この写真を保存したり、メールで送付したりすることができます。

・最下部の左側の「写真の保存」ボタンをダブルタップすると、写真ライブラリーに保存されます。
・最下部の右側の「共有」ボタンは、「ドキュメント」の「共有」と同じ使い方です。

□ 顔認識

顔認識の登録を行えば、カメラをかざすとその人物が視野に入っているとその名前を読み上げます。「撮影」ボタンを押す前に人の名前を確認できます。

次の手順で顔認識の登録を行います。

・「撮影」ボタンの左側に「顔認識」ボタンがあります。
・人物の顔認識の登録すためには、その人の顔の写真が３つ必要です。
・登録する人にカメラを向け、「撮影」ボタンをダブルタップすることにより、顔が登録されます。
・３つの場面の顔を登録した後、名前を入力します。

(5) 通貨

カメラを 1 枚の紙幣にかざすと、金額を読み上げます。「撮影」ボタンを押す必要はありません。

なお、ドルやユーロの紙幣の読み上げには、「日本円を認識しています」ボタンをダブルタップし、必要な通貨を選びます。

(6) シーン

□ シーンの説明

写真の全体的なシーンを説明してくれます。シーンチャンネルでは、カメラをかざしただけでは、何も読み上げません。撮影ボタンをダブルタップした後、自動処理が行われ、シーンを読み上げてくれます。

□ 写真の保存と共有

写真の保存と共有は、人物チャンネルの場合と同じ操作で行います。

□ 写真の探索

自動処理の後、さらに、最下部右側の「写真の探索」ボタンを使って、写真内の要素とその位置を知ることができます。

・写真の探索」ボタンをダブルタップすると、自動処理が行われ、「○○項目が検出されました」との読み上げがあります。
・画面上部から下へ、また、左から右へ指をスライドさせていきます。要素をタッチすれば、要素と位置を読み上げます。要素がない場合は、「ポロポロー」と神秘的な音が発せられます。
・うまく要素を読み上げない場合は、ローターで「ダイレクトタッチ」をオンにします。
　なお、「戻る」ボタンを押しても戻れないない場合は、ホームボタンの２回押しをして、App Swicherに移動し、３本指上スワイプでSeeing AIアプリを終了させます。

(7) 色

カメラを向けた物の色を読み上げます。蛍光灯の照明では、実際の色と少し異なる色を読み上げることもあります。

(8) ライト

周囲の光の量を検出します。

・トーンのピッチは、カメラが認識する光の量によって変わります。光が多いほど、トーンのピッチが高くなります。

(9) 保存した写真の分析

すでに撮影した写真やメールで送られた写真、Webページ上の写真などをSeeing AIで分析できます。

□ 設定

まず、Seeing AIが写真ライブラリーにアクセスできるよう設定を行います。

・iPhoneの「設定」->「Seeing AI」をダブルタップします。Seening AIは設定画面の下の方にあるので、垂直スクロールバーや３本指の上スワイプを使うのが便利です。
・「写真」まで移動し、ダブルタップします。
・「すべての写真」をダブルタップし、選択します。

□ 参照の手順

Seeing Aiを再度起動し、「メニュー」->「写真の参照」に進みます。

・「写真の参照」をダブルタップすると、写真ライブラリーのページが表示されます。右スワイプで進むと、新しい写真から順番に番号と日にちを読み上げます。
・目的の写真をダブルタップすると、自動的に処理を開始します。処理終了後分析結果を読み上げます。さらに、右スワイプすると場所と日にちも読み上げます。
・さらに、「写真の探索」を行うためには、最下部のツールバーの右端に配置されている「探索」ボタンをダブルタップします。「写真の探索」の操作方法は、「人物」「シーン」の場合と同じです。
・一度Seeing AIで分析した写真は、写真ライブラリーで再度タップすると、分析結果を読み上げ、ライブラリーの写真が何であるかが分かるようになります。これは、視覚障害者が写真を取り扱う上で、非常に意義深いことと思います。

□ 写真ライブラリーからSeeing AIを利用

写真アプリのライブラリーからも「人物」「シーン」の分析を行うことができます。

・写真を選択します。
・最下部のツールバーの左端の「共有」ボタンを押します。
・右スワイプで「Seeing AIでの認識」まで進み、ダブルタップします。自動処理され、シーンが説明されます。

なお、この操作は多くのステップが必要ですので、「写真の参照」を使う方が便利です。

目次に戻る

５その他

(1) Siriショートカット

Siriのショートカットを利用すれば、音声で目的のチャンネルを直接開くことができます。右スワイプ、上スワイプを行わずに、例えば、「ドキュメントを認識する」とSiriに依頼するだけで、簡単にチャンネルを利用することができます。

デフォルトでは、「ドキュメントを認識する」「製品を認識する」の２つのチャンネルがショートカットに設定されています。Seeing AIの「メニュー」->「設定」でカスタマイズできます。

・「メニュー」->「設定」->「Siriショートカットの構成」をダブルタップします。
・例えば、「通貨を認識する」をダブルタップし、チャンネルを選択します。
・「ショートカットで編集」画面が表示され、「通貨を認識する」という音声フレーズでよければ、「完了」ボタンまで進み、ダブルタップします。これでショットカットの設定は終了です。
・ショートカットの音声フレーズを変更したい場合は、「音声フレーズを変更」ボタンをダブルタップし、音声で新しいフレーズを登録します。

(2) その他

□ チャンネルの制約

2021年11月10日現在、iOS15で利用できるチャネルは、上記の８つですが、LiDAR搭載のiPhoneでは、「近接センサー」「空間の概要」「ビーコンを配置」を利用できるようです。

□ Seeing AI参考ページ

・Voice_of_i 見えなくても使えるiPhone
　https://voicei.seesaa.net/article/468813262.html#index2-6
・ニポラチャンネル第５回Seeing AIとOCR-pro
　https://www.youtube.com/watch?v=jvm1V83ckDQ

□ 他の視覚支援アプリ

Seeing AI のほか、たくさんの視覚支援アプリがありますので、それぞれ使ってみて、それぞれ用途にあったアプリをみつけることが大切です。

・Googleアプリのlens：製品・モノやテキストの認識
　https://apps.apple.com/us/app/google/id284815942?itsct=apps_box_link&itscg=30200
・OCR-pro：画像のテキスト化を行う。手動シャッター。アプリは730円で購入。
　https://apps.apple.com/jp/app/ocr-pro/id1193497829?itsct=apps_box_link&itscg=30200
・Be My Eyes：画像や動画をボランティアに読んでもらう。24時間の利用が可能。
　https://apps.apple.com/us/app/be-my-eyes/id905177575?itsct=apps_box_link&itscg=30200
・UniVoice Blind：ユニコードという２次元バーコードを読み上げる。一つのユニコードに800文字を収録。行政や公的機関の冊子等で利用されている。
　https://apps.apple.com/us/app/uni-voice-blind/id1070819206?itsct=apps_box_link&itscg=30200
・NaviLens：専用のマーカーを遠方から認識し、紐付けされた情報を読み上げる。個人使用は無料で利用できる。
　https://apps.apple.com/us/app/navilens/id1273704914?itsct=apps_box_link&itscg=30200
・Light Detector：明るさを検知するアプリ
　https://apps.apple.com/jp/app/light-detector/id420929143?itsct=apps_box_link&itscg=30200
・Your Eyes：本を読む
　https://apps.apple.com/jp/app/youreyes/id1526103849?itsct=apps_box_link&itscg=30200

目次に戻る

サイト運営者：姫路デジタルサポート（ボランティア団体）　ICTサポート活動　ボランティア募集　ニュースレター　お問い合せサイトマップ

視覚障害者のiPhone(VoiceOver)教室 テキスト