AIの画像認識とは？仕組みと幅広い活用事例を解説 - 未経験からAIエンジニアになる！

iPhone Xに顔認証技術が導入されたことで、画像認識AIの技術が一般にも広く浸透しました。

また、ビデオカメラやスマホのカメラには、画像認識技術を活用して顔認識を行って対象人物にピントを合わせる、という機能は今ではすでに普通になっていますね。

とはいえ、画像認識がAIによってどのような変化を遂げたのか、そしてその仕組みを正しく理解している方は少ないでしょう。

本記事では、画像認識AIの定義から仕組みまで、さまざまな活用事例を紹介しながら解説していきます。

目次 [表示]

画像認識とは？AIとの関係性

画像認識とは、コンピュータや機械が画像の中に何が写っているのかを自動で判別・認識する技術をいいます。われわれ人間は、画像の中に何が写っているか認識・理解する能力を、成長とともに自然と身につけていくものです。

一方のコンピュータは、ファイルが画像データということは認識できますが、画像自体に写っているものが何かを理解できません。たとえば、目と鼻、口があるものは顔ですが、それが人間なのか猿なのか、怒っているのか寒いのかといった表情などまで、詳しく読み取るとなると、コンピュータにはかなり難しくなります。

そこで、コンピュータに画像を理解させるために取り入れたプログラムこそが、画像認識です。大量の画像データから写り込んだものを学習させてプログラムを作成、画像内の姿・形、色などの特徴を読み取った判定確率から、画像内の対象物が何かを決定し認識します。

画像認識の技術は、現在のようにAIが一般用語といえるほど浸透するはるか前、コンピュータが登場する40年〜50年前から存在していました。そして、画像認識はAIによって大きな変化の潮目を迎えることになります。

AIで画像認識の精度は飛躍的に向上

画像認識は、あるきっかけ、つまりはAIの登場によって一気に大変革を迎えます。それが、2012年に開催された「ILSVRC2012」という画像認識の大会です。毎年開催されていたこの大会では、ある指定された画像をコンピュータモデルで読み込んで、写っている対象物の正答率を競います。

2012年の大会で、ここ数年間70%前半ほどだった正答率を、ディープラーニングを活用したモデルが85%まで一気に高めて1位を奪い取ってしまったのです。それまで毎年数%程度の改善を競っていたところ、登場早々に10%以上も正答率を引き上げて抜き去っていったことで業界は騒然となりました。

以降、毎年ディープラーニングを用いたモデル同士の競争となり、正答率はぐんぐん上昇、いまでは正答率は95%以上です。この正答率は、すでに人間の領域を大きく超えるものになっています。

画像認識の仕組み

画像認識の仕組みは意外と単純で、画像内の1つ1つのピクセルと周囲のピクセルとの関係性を元に画像を識別しています。

そもそもデジタル画像は、小さなピクセルの集合体です。画像自体がみじん切りになっていると思うと、イメージしやすいかもしれません。家庭用ゲーム機が登場した、初期のころの画像を思い出してみてください。
マリオは四角いドットで表現されていましたよね。あの1つ1つの四角形こそがピクセルです。

現代のテレビやスマホ、パソコンでは、非常に細かいピクセルの集合になって鮮明な画像になっています。実際に、画質のスペックとして表されている画素数やピクセル数こそが、どれだけ画面内にピクセルがあるのかを示しており、数が多いほど滑らかな高画質画像ということです。

デジタル画像の基本がわかったところで、実際に画像認識が画像のピクセルからどのような処理を行っているかを見ていきましょう。

画像認識の仕組みは3段階

画像認識は特定の画像データが与えられてから、次の3段階の流れで処理が進んでいきます。

1. 画像処理→ 2. 特徴量の抽出→ 3. 特定物体の認識

1. 画像処理

画像認識を行う前に、コンピュータが画像を認識しやすいように画像処理を行います。画像処理で行われる具体的な流れは、画像のノイズや歪みのトリミング、輪郭強調や明るさ・色合い調整による物体境界の明確化、物体の領域切り出しです。基本的には、画像内の1つ1つの物体を抽出しやすくすることを目的に、画像処理を行っています。

2. 特徴量の抽出

画像内からピクセル単位で色や明るさなどのパラメータから、特徴量を抽出します。特徴量としてパターン化することで、画像に何が写っているのかを判別することが可能です。

3. 特定物体の認識

プログラムのアルゴリズムをもとに、画像内の物体を特定していきます。アルゴリズムは事前にプログラム作成者によって定義された、「ラベル」や「特徴量」の演算方法のことです。AIを利用した画像認識では、アルゴリズムをモデルといい、次に紹介するディープラーニングで大量の画像データを事前学習させることでモデルを作成しています。

画像認識AIで使われているCNN

AIは、上記のような画像認識の仕組みにCNNと言われるディープラーニングのモデルを適用して、高精度化を図っています。AIを利用しない画像認識が特定物体を認識する際に、ラベル付けはアルゴリズム作成者の主観によって決められていました。

一方で、大量の画像データを学習して算出した特徴量をもとに、ラベルを決定するのが畳み込みニューラルネットワーク、通称CNNです。CNNでは、次の3つの画像認識の処理が存在し、畳み込みとプーリングを交互に実施したうえで、最後に特徴マップ作成を行います。

畳み込み
プーリング
特徴マップ作成

畳み込みやプーリングの詳細な仕組みは、かなり込み入った解説が必要になりますので、ここでは特徴量を決めるマッピング作成にAIが利用されている、ということを理解してもらえればOKです。

画像認識AIの活用事例4選

画像認識AIは、その有用性から非常にさまざまなビジネスやソリューションに活用されています。ここでは、画像認識AIが活用されている次の4つの事例を紹介していきます。

スマホや入場ゲートの顔認証

顔認証は、画像認識AIが活用された事例の中でも最も身近な存在ではないでしょうか。顔認証では、画像から人間の顔を検出して、その人間の顔が本人であるかを特定する技術です。

スマホのロックを解除するときや、オフィスの入り口にある入場ゲートを通過するときに顔認証が活用されています。2017年には、羽田空港の国際ターミナルの入国手続きを行うゲートに、顔認証が導入されました。

また、顔認証ではなく顔認識もありますよね。顔認識では、顔認証のように個人を特定することはありませんが、画像の中でどこに顔が位置しているか、そしてその人物の属性を認識する技術です。

ビデオカメラから防犯カメラなど、顔認証と同じく非常に広い範囲で利用されています。たとえば、ビデオカメラではピント合わせ、防犯カメラでは怪しい人物の特定やお客さんの導線分析によるマーケティング活用などに役立つ便利な機能です。

そのほか、駅の構内に設置されている自動販売機では、性別や年齢の判別結果から似た属性の人が購入しているドリンクをレコメンドする機能もあります。

無人コンビニ

アメリカや中国で実際に店舗がオープンし始めている無人コンビニでは、画像認識AIが欠かせません。無人コンビニは、全く店員がいない状態でも買い物ができてしまうというコンビニです。人で不足や業務効率化を目的に、コンビニのオペレーションを省人・無人化する取り組みが進んでいます。

無人コンビニでは、入店から退店までお客さんを常にカメラで捉えて、画像認識を行っています。まずは入店時にお客さんが誰なのかを特定して、そのあとお客さんが買い物かごに入れた商品が何かも画像認識で特定します。そして、退店時には買い物かごに入っている商品の合計額を計算して、ネット上のアカウントに対して決済を走らせるのです。

お客さんはわざわざレジで会計する必要もありませんし、店舗側もレジで1つ1つの商品を読み込んだりする必要がありません。入店者から購入商品の特定、そして決済まですべてオンライン上で自動で進むのです。

現在は、入店時や退店時にスマホのQRコード読み込みが必要な場合など、実証実験も含めて段階的に無人化に向けた店舗実装が進んでしますが、将来的には上記のように全て自動化されるでしょう。

日本のコンビニチェーン大手も、さまざまなIT企業と協業して無人コンビニを実現しようと非常に力を入れています。財布やスマホを持たず、完全な手ぶらでもコンビニで買い物できてしまう日はそう遠い未来ではないかもしれませんね。

自動運転

画像認識AIは、いままさに自動車業界、そして日本が国として実現に向けて推進している自動運転にも必要不可欠な技術になっています。自動運転とは、ドライバーの操作なしにコンピュータが自動車を自動的に運転してくれる技術です。

自動運転では、自動車にセンサーはもちろんカメラも搭載しており、道路の白線や信号、周囲の自動車や歩行者など、周辺環境をカメラでリアルタイムに把握しながら、ハンドル・アクセル・ブレーキ操作の命令を出しています。

このカメラによる周辺環境の把握に、画像認識AIが活用されているのです。つまり、画像認識AIの技術発展なしに自動運転の実現はありえません。自動運転が実現すれば、自動で目的地までの移動が可能になり、これまでの移動の概念を変えるとともに、自動車事故を多く減らせると期待されています。

トヨタや日産などの日本自動車メーカーはもちろん、海外自動車メーカーからGoogleなどのIT企業まで非常に多くのプレイヤーが覇権争いに向けて研究開発を進めている段階です。自動運転で移動時間が自由時間になり、電車やバスなどの交通インフラが整備されていない地方の高齢者でも自動車による移動が非常に簡単になり、人間の生活の利便性を大きく向上してくれるでしょう。

工場の生産ライン

工場の生産ラインのような、われわれの日常生活に関わる製品以外でも画像認識AIは活用されています。工場では、生産ラインで不良品を検出してはじき出す工程が必須です。不良品を出荷してしまっては、顧客からのクレームだけでなく、最悪の場合は人の命にも関わりますので非常に重要な工程になります。

画像認識が一般的になるまでは、不良品の検査工程は工場の作業員が目視や指触などによる選別を人力で行っていました。これを事前に良品と不良品の画像データを画像認識AIに学習させることで、作業員の工数削減とヒューマンエラーの低減に成功したのです。

画像認識AIを利用すれば、生産ラインの不良品チェック工程にはカメラを導入するだけで不良品を検出できるようになり、作業員の検査による判断は必要なくなります。

画像認識AIは活用され始めたばかり

画像認識AIは、すでに非常に幅広い分野に活用されており、一般的な技術になってきています。特に、スマホの顔認証やビデオカメラの顔認識などは、合って当たり前の機能となっており、技術的に確立されたものとも感じるでしょう。

しかしながら画像認識AIは活用され始めたばかりで、無人コンビニや自動運転などを初めてとして、今後もさまざまな領域で活用が期待されています。間違いなく今後も大きく進化を続けていく画像認識AIを正しく理解して、アップデート情報をしっかりキャッチできるようにしておきましょう。