Google によるパターン認識の使用方法

Google がパターン認識を使用して画像を認識する方法

コンピュータは、画像や動画を人間と同じように「見る」わけではありません。人間が画像を見るときには、たとえば「親友が家の前に立っている姿」として認識します。コンピュータは、さまざまな形、およびさまざまな色の値に関する情報として解釈できる「単なるデータのかたまり」として同じ画像を認識します。コンピュータが同じ画像を見た人間と同じように反応することはありませんが、特定の色や形のパターンを認識するようコンピュータに学習させることはできます。たとえば、海岸などの風景や自動車などの物体のデジタル画像を構成する形と色の共通パターンを認識するよう学習させることが考えられます。Google フォトで写真を整理したり、簡単な検索で写真を探したりできるのはこの技術のためです。

また、コンピュータに顔のデジタル画像を構成する形と色の共通パターンを認識するよう学習させることもあります。このプロセスは顔検出と呼ばれ、Google がストリートビューなどのサービスでユーザーのプライバシー保護に活用しているのがこの技術です。ストリートビュー撮影車が通過したときに道路に人が立っていて、画像に写り込んだようなときに、コンピュータで自動検出し、検出された顔にぼかし処理を施しています。

さらに一歩進んで、顔検出に使用されているのと同じパターン認識技術を使用すると、検出した顔の特徴をコンピュータが認識することもできます。たとえば、ある一定のパターンから、微笑んでいることや両目を閉じていることが推測できる場合があります。このような情報は、ユーザーの写真や動画から作成されたムービーや効果を候補として表示する Google フォトの機能に役立てられることがあります。

同様の技術は、一部の国において Google フォトで利用できるフェイス グルーピング機能にも採用されています。似た顔を検出して同じグループに分類し、ユーザーが簡単に写真を検索したり管理したりできるようにする機能です。詳しくは、Google フォト ヘルプセンターのフェイス グルーピングに関する記事をご覧ください。

音声検索のしくみ

音声検索は、端末上の Google 検索アプリで、手入力の代わりに音声で検索キーワードを入力できる機能です。この機能では、発声した音声の文字変換にパターン認識技術を使用しています。この音声は、ユーザーが言った言葉を認識するため Google のサーバーに送信されます。

音声検索機能に対してキーワードを音声で入力すると、その言語、国、およびシステムが音声から推測した言葉がその都度記録されます。音声は、システムに学習させて検索キーワードの認識精度向上を図るなど、Google サービスの向上に役立てるために保存されます(ユーザーがそのようなデータ使用に同意している場合)。また、ユーザーが音声検索機能を使用するという意思表示(クイック検索バーか仮想キーボードでマイクアイコンをタップする、あるいはクイック検索バーに音声検索機能が利用可能であることが表示されている場合に「Google」と言うなど)をした場合でない限り、音声は Google に送信されません。