【解説】誰でも使えるGoogleのAIで何ができるのか!?まとめ

AI関連の解説/論文紹介
この記事は約14分で読めます。

はじめに

GoogleによるクラウドサーバーサービスGoogle Cloud Platfrom(通称GCP)上で提供されているAIサービスについてまとめていきたいと思います。

Googleは言わずとも知れた世界のAI関連技術をリードする企業の1つです。そんなGoogle社が提供するAI機能は意外と簡単に使えることはご存知でしょうか?

今回は、Googleが提供する高精度でかつ簡単に利用できるAI技術で何ができるのかを把握し、あなた自身のサービスや業務などでの利用のための参考にしてみてください。

Google Could Platformとは?

GoogleCloudPlatformは、Googleを支える高度なサーバー関連基盤を、一般の方でも従量課金制(使った分だけお金を払えばいい、自前でサーバーを用意する必要がない)で使うことができるサービスです。昨今では、Amazon社が提供するAWS(Amazon Web Service)と並び、2大クラウドサーバーサービスとなっています。

また、GCPでは単にクラウドサーバーを提供しているだけでなく、自身でウェブサービスなどを構築する際に必要となるデータベース関連の基盤機能やストレージ基盤機能、サーバー監視のための基盤機能、ビッグデータ分析と運用のための基盤、そのほかにも便利な機能を多数揃えており、それらをパイプラインのように繋げることで簡単にウェブサービスの運用基盤を築くことができます。

そして、今回紹介するAIサービスも、その機能の中の1つとして提供されています。

この機能を使えば、例えば、あなたのWebサービスのデータベースに画像が保存されるとすぐに、AIが自動で画像のカテゴリやタグ情報を抽出し、その抽出した情報を使って、テキストベースで画像を検索できるような機能を簡単に実現することができます。

GCPで使えるAI・機械学習サービス

それでは、早速GoogleCloudPlatformで使えるAIサービスを見ていきましょう。

Googleが提供するAIサービスは大きく以下の5つのタイプに分けられます。

ビジョンAI:画像認識関連のAI
イメージ:Google画像検索で使われているAI
ビデオAI:動画関連のAI
Youtubeで使われているAI
翻訳AI:言語翻訳のためのAI
Google翻訳で使われているAI
言語分析AI:言語情報処理のためのAI
Googleが世界中のウェブサイトを収集するために使われているであろうAI
スピーチAI:音声認識関連のAI

これらの各AIサービスは、さらに細かな用途に向けた機能を持ちます。
それらを1つづつ見ていきましょう。

ビジョンAI

画像認識関連のビジョンAIでは、主に次の4つのことができます。

・オブジェクト検出
・OCR:書類からテキスト検出
・不適切なコンテンツの検出
・類似画像の検索

それぞれについて詳細を見ていきましょう。

オブジェクト検出

オブジェクト検出では、さらに細かく次の4つのことができます。

・一般的なオブジェクトの検出
・カテゴリラベルの推定
・顔の検出
・ランドマークの検出
・ロゴの検出

一般的なオブジェクト検出

Googleがあらかじめ用意した物体カテゴリをもとに、画像中のどこの位置に何があるのかを推定することができます。また、AutoMLという機能を使えば、推定する物体カテゴリはあなたのニーズに合わせてカスタマイズすることもできます。

カテゴリーの推定

Googleがあらかじめ用意した莫大なカテゴリーラベルの中から、アップロードした画像にふさわしいラベルを自動で付けてることができます。このラベル情報により、簡単にテキストを使って画像検索をすることができるようになります。

 

顔の検出

画像にうつる人間の顔を高精度に検出することができます。また、顔の位置だけでなくそれぞれの顔のパーツの位置や顔の正面からの回転具合、さらには、表情からの感情推定などの結果も返してくれます。

ランドマークの検出

GoogleのAIは、世界中の有名な観光地などで撮影された写真があれば、その土地のランドマークを認識することで、それがどこで撮影されたものかがすぐにわかります。さらには、Googlemapにおけるざっくりとした想定される撮影場所なども返してくれます。

ロゴの検出

SNSなどにアップロードされた写真から、マーケティング調査の目的などで使えるのがロゴの検出機能です。画像中にある商品のブランドロゴなどを認識しすることで、その撮影者がどんな商品が好きなのか、また、どんなブランドが好きなのかが推定できるかもしれません。

OCR:書類からテキストを検出

普段の生活であればレシートを見て家計簿をつけたり、会社の業務であれば請求書や領収書などのドキュメント資料を見てパソコンに打ち込んだりすることがあるかもしれません。しかし、OCR機能を使えば、ドキュメントを撮影するだけで、その撮影画像のどこにどんな文字が書かれているかを推定できます。

不適切なコンテンツを検出

ユーザーが投稿できるウェブサービスやアプリなどを運営する際、アダルトなコンテンツや暴力的なコンテンツなどの投稿は取り締まる必要があります。

このためのコンテンツチェックを人手で行うと、時間もコストもかかります。

しかし、この機能を使えばAIが自動で不適切なコンテンツを検出してくれます。

類似した画像の検索

ビジョンAIのVision Product Search機能を使うと、アップロードした商品の画像と類似する商品を、商品カタログの中から選択しそのリストを取得できます。ファッションECのアプリなどを運用する際、ユーザーが見ている商品と関連のある商品をオススメしたりすることができます。

ビデオAI

動画関連のビデオAIでは、主に次の4つのことができます。

・動画の分析
・動画コンテンツの管理と検索
・動画字幕のための音声文字変換

機能を雑感する感じでは、Googleがもつ動画プラットフォームYoutubeのための機能を一般向けにも公開して使えるようにしている印象を受けます。

それぞれについて詳細を見ていきましょう。

動画の分析

動画分析では、さらに細かく次の2つのことができます。

・動画中のシーンやアクション、オブジェクト、場所を検出
・アダルト、暴力的なコンテンツの検出

動画中のシーンやアクション、オブジェクト、場所を検出

動画の各時刻、もしくは動画全体において、どのような物体があるかを20000件以上のカテゴリから推定したりすることができます。また、動画のシーンの切り替わりを検知し、そのシーンの始まりと終わりの時間を返してくれます。

今後、動画編集作業などを便利にしてくれるツールが拡充されていくのかもしれませんね。

アダルト、暴力的なコンテンツの検出

動画の中にアダルトなコンテンツや暴力的なコンテンツが含まれているかどうかを確認するために人の目で全てチェックしていたら時間が足りません。

しかし、この機能を使えば動画のどのシーンにおいて、あまり好ましくないコンテンツが含まれているかを検出することができます。

Youtubeにおいても、このような機能で不適切動画の検出を行なっているのでしょう。

動画コンテンツの管理と検索

動画や画像は文字で検索して探すというのができないので、目的の動画や画像を探して持ってくるのは大変です。

しかし、GCPプラットフォーム上で動画の管理をしておけば、勝自動で動画の内容を分析し、検索のためのインデックスを作成したりして、テキストなどで検索可能な状態にしておける機能があります。

Youtubeにおける検索機能やオススメ機能でも、このような機能が使われているのでしょう。

動画字幕のための音声文字変換

こちらもYoutubeでお馴染みの機能ですが、動画の音声を自動で認識しテキスト文字に変換してくれる機能です。

文字起こしなどの業務などに使うと便利かもしれません。

翻訳AI

翻訳AIでは、主に次の2つのことができます。

・多言語に対応したテキスト翻訳
・言語の検出

それぞれについて詳細を見ていきましょう。

多言語に対応したテキスト翻訳

みなさん、おそらく一度は使ったことがあると思いますが、Google翻訳の機能を、一般向けに公開しているようなイメージです。

あなたの業務やプロジェクトなどのバックエンドシステムに直接Google翻訳を組み込むことができます。

例えば、翻訳アプリを作ろうと思ったら、そのためのアプリのユーザーインターフェイスだけ開発し、あとはこの翻訳機能を組み込むだけでできてしまいます。

言語の検出

言語の検出機能では、入力されたテキスト文字が何語か?を高精度に推定することができます。

この機能の利用シーンとしては、例えば、あなたがユーザーが投稿できるタイプのアプリなどを世界に向けて公開した時に、ユーザーの投稿したテキストの言語を推定した後、先程のテキスト翻訳の機能を用いて、A言語からB言語に翻訳することで、世界中のすべての人が違う言語で投稿された内容も見ることができるようになります。

言語分析AI

言語分析AIでは、主に次の4つのことができます。

・テキストの文法解析
・テキストのエンティティ分析
・テキストの感情分析
・テキストの分類

少しマニアックな機能ではありますが、これらの機能はウェブ上の膨大なテキスト情報を意味のある形に整理したりする上で非常に重要な技術をまとめたような機能になります。

それぞれについて詳細を見ていきましょう。

テキストの文法解析

この機能は、一般に自然言語処理という分野でよく使われるものです。

ある文章における文字が接続詞なのか名詞なのかなどを解析し、さらにそれらの文字間での係り受け関係などを説明する機能です。

昔、小学校とか中学校とかでこういうのやりましたよね。それを自動でかなり高精度でやってくれます。

一般的な商用のアプリケーションなどでは、そこまで使われる機会は多くはないかもしれませんが、文章の意味合いなどを理解する上で文法解析は重要です。

例えば、『メロスは激怒した』、『メロスに激怒した』という2つの文章を考えた場合、1文字の差で、メロスが誰かに激怒したのか、メロスが誰かに激怒されたのかの意味合いが変わってきます。このように2つのワードメロス、激怒の間でどのような係り受け関係が生じるのかを理解することは重要であることを分かってもらえるのではないかと思います。

テキストのエンティティ分析

エンティティという言葉なあまり聞きなれないかもしれませんが、一言でいうならばある文字列の概念は何かを示すようなものです。

例えば、あるドキュメント中に「株式会社〇〇」、「〇〇株式会社」、「株)〇〇」といった表記があった場合は、私たちはこの3つは全て企業名であるということがわかります。
このように様々な表現はあるが、企業名と一意に示すことができる概念がエンティティです。他の例では、「東京都港区・・・」、「沖縄県那覇市・・・」の場合は、住所がエンティティであるということが分かります。

この機能は具体的にどのようなところに使えるかについて例を示したいと思います。
例えば、ユーザーが撮影したレシート画像から自動で意味のある情報を抽出するシステムを作りたいと考えるとします。このとき、先に示したVisionAPIのOCR(ドキュメント画像中のテキストを検出)機能をつかって、まず画像中の文字を認識しテキストとして文字起こしします。このテキストをさらにエンティティ分析にかけることによって、レシート内の各文字が、商品名なのか、金額なのか、お店の名前なのか、住所なのかといった情報が分かります。これによって、例えばこのレシートをアップロードしたユーザーはどのような地域で買い物をするのかといった情報が分かり、その地域に適したお得な買い物情報を提供できるかもしれません。

テキストの感情分析

この機能では、ある文章が意味合いとしてポジティブなのか、それともネガティヴなのかを推定できます。

例えば、ツイッターであるニュース記事についてのツイートを100件取得してきて、その記事に対するコメントの感情分析を行うことで、そのニュースに対する人々の意見がポジティブか、それともネガティヴなのかといったことも副次的に分かるかもしれません。

テキストの分類

この機能では、シンプルに文章がどのようなカテゴリに関連するものかを推定することができます。例えば、ニュースまとめサイトなどを作りたいと思ったら、スポーツ、芸能、政治などといったカテゴリにわけて見せた方が分かりやすいでしょう。

そのための文章分類機能は、自前で用意しなくてもテキスト分類機能を使えば実現できます。

スピーチAI

スピーチAIでは、主に次の3つのことができます。

・音声からテキストを生成(Speech To Text)
・テキストから音声を生成(Text To Speech)
・AI会話インターフェイス

それぞれについて詳細を見ていきましょう。

音声からテキストを生成(Speech To Text)

先程の動画の音声文字変換と同じような機能ではありますが、音声からテキストを生成する機能を切り出して使えるようになっています。

クラウドソーシングの案件などをみると音声文字起こしの仕事などありますが、それらの仕事は、この機能を使えば半自動化してしまうことができます。

テキストから音声を生成(Text To Speech)

この機能ではテキスト文字を入力するだけで様々なタイプの声で、その文字を読み上げた音声を生成することができます。

最近ではバーチャルユーチューバーなどが流行っていますが、自分の声も隠してやりたい方には便利なツールかもしれません。

AI会話インターフェイス

一時期、Facebook社やLINE社の取り組みでも有名になったことがありますが、ユーザー対応などをAIで自動化するためのチャットボットを簡単に作れる機能があります。

あなたの運営するサービスなどに組み込んで試してみてはいかがでしょうか?

【応用編】AutoML:あなた好みのカスタマイズAIを作る

実はこれまで紹介してきたAI機能は、あなたの用途やニーズに合わせてAIの再学習を行いカスタマイズすることも可能です。そのための機能が、AutoMLです。

具体的には、上で説明してきた機能は、Googleがあらかじめ用意したデータやカテゴリ条件のもとで学習されたものですが、もし、あなたが何か異なる用途のためのデータを持っていて、それに特化したAIを作りたいと思った場合に使うことができます。

例えば、ビジョンAIのオブジェクト検出機能を、工場における製品の欠損部位の検出などに使いたいと思った場合、あなたがそのデータを持っていれば、AutoMLを使ってAIを学習し、それに特化したAIを作って、使うことができます。

GCPのAIソリューション

さらに、GCPでは、これまで紹介してきた個別のAI機能だけでなく、それらを高度にカスタマイズ&組み合わせてパッケージ化したAIソリューションも提供しています。

主に以下の4つのソリューションを提供しています。

・Contact Center AI
・Document Understanding AI
・Cloud Talent Solution
・Recommendations AI

それぞれのソリューションについて、何ができるのか見ていきましょう。

Contact Center AI

ContactCenterAIソリューションでは、電話などのカスタマーサポート業務をAIで効率化するためのソリューションです。

簡単なAIトレーニングを行うことで、基本的な電話対応やテキスト対応などの自動化もしくは、半自動化による業務効率の改善が行えます。例えば、問い合わせがあった時にAIで判断できるものはそのまま返答し、難しそうなものはオペレーターにつなぐといった対応も可能です。また、なんといっても、24時間対応できる点はメリットとなるでしょう。

Document Understanding AI

最近では、Google Documentのサービス上で提供されているExcelなどで、簡単な分析を自動で行ってくれる機能があるのをご存知でしょうか?おそらく、このソリューションのバックグラウンドはそのような機能は支えるものと同様のものでしょう。

具体的には、ドキュメントをアップロードしておくことで、データの分類や、情報の抽出、またそれに基づくインサイトの発掘などができるとうたわれています。実際どのような使い方ができるのかは、現状まだよくわからないので、引き続きキャッチアップしていきたいと思います。

Cloud Talent Solution

こちらのソリューションは主に求人や採用に関するものです。

求職者にとっては、プロフィル情報を充実することで適切な仕事を見つけやすく、求人側にとっては、より適切な人材を見つけ採用につなげられるようにといったマッチングの部分をデータドリブンで最適化し、効率改善を行うためのソリューションです。

Recommendations AI

Recommendatations AIでは、これまでのGoogleが長年培ってきた検索エンジンなどのサービスにおける関連情報の提示などをソリューション化したものです。

このソリューションを導入することで、リコメンドをユーザーセグメント毎ではなく、各ユーザー毎に行うことができ、サービス運営者の収益機会を最大化でき、マーケティング施策などを全般的に改善できるとのことです。

さいごに

ここまで紹介してきたように、Googleは基本的なウェブサービスやアプリなどで必要になるであろうAI機能をある程度揃えてサービス化しています。

今後このような機能はさらに充実していくことでしょう。

さらに、データさえ集めればあなたのニーズに合わせてAutoMLなどの機能を使って自分好みのAIにカスタマイズしていくことも可能です。

これらの機能を組み合わせることで、あなたのサービスや業務などで活かせる部分があるかどうかを考えてみてはいかがでしょうか?

タイトルとURLをコピーしました