『Google Homeを使いたおす! DialogflowとAoG Meetup』に参加しました

タイトルの通り、勉強会に参加してきました。

ブログ枠で参加したので、ノルマをこなします。

gcpug-tokyo.connpass.com

感想とか

  • GoogleHomeは持っていて、Dialogflowとつなぐチュートリアルまでは実施済みぐらいの知識で参加した。
    • DialogflowはWebhookのアプリを作ったことあるぐらいの知識
  • AoG、特にDialogflowやGCPを使う事例を知ることができたのは良かった。
  • VoiceUIの考え方やハマりどころなど、新しい分野の情報を得られて良かった。
  • Googleのオフィス!無料自販機!
  • ピザとビール!

当日使われた資料はConnpassのページにリンクがあります。

gcpug-tokyo.connpass.com

以下、聞きながら取ったメモ。

Dialogflowで作るアシスタントアプリ

  • ymotongpooさん
  • Actions on Googleについて
  • VUI(VoiceUserInterface)に期待されるもの
    • そもそも道具を使う目的とは
      • 何かを知りたい、どこかへ行きたい、何かを買いたい
    • 各デバイスのUIの特徴
      • デスクトップアプリはたくさん情報を表示する
      • モバイルアプリは1つの画面を専有する
        • ソフトウェアで必要に応じたUIが提供される
      • ウェアラブルバイスは即時性がとても高いけど情報量が少ない
      • スクリーンデバイスアプリケーション
        • テレビとか
        • とにかく画面が大きい
        • 限られた操作方法で大きな画面でコンテンツを見るのに特化してる
      • ウェアラブルバイス以外は、並列でコンテンツを見せることができる
    • スマートスピーカーはどうか
      • 出力結果は直列でしか取得できない
        • 音声は同時に流せない(流しても聞き取れない)
      • 出力結果を得るのに時間がかかる
        • 最後まで聞かないと結果がわからない
    • VUI使ってもらうにはステップを減らす努力が必要
  • Googleアシスタントについて
    • Googleアシスタントとは
      • Googleと会話して物事の処理をサポートするツール
      • 様々なデバイスから呼び出すことができる
    • GoogleHome
      • Googleアシスタントを搭載したスマートスピーカー
    • Actions on Google
      • Googleアシスタントから呼び出されるアプリケーション
      • 呼び出すデバイスにはサードパーティのアプリケーションをインストールしなくても使える
      • 音声認識音声合成Googleアシスタントが担当してくれる
        • アプリケーションはテキスト処理だけでいい
    • Actions on Googleの呼び出しフローの説明
  • Dialogflow
    • ユーザーの入力とIntentの対応をGUIで設定できる
    • 形態素解析をサービス側でやってくれる
      • 日本語にも対応している
    • ユーザー入力とインテントへの割り振り方を履歴から学習させられる
    • インテントを設定して使う
    • User saysにはなるべくたくさん書いたほうがいい
    • Actionは日本語使わずアスキーにしたほうがいいよ!
    • エンティティをうまくつかってあげると、少ないパターンでいろいろな会話に対応させることができる
    • 質問:マクドナルドの「マック」と、Appleの「マック」でエンティティで別の認識と扱えるか?
      • →コンテキストを切り替えないと無理

Dialogflow + 赤外線で家電管理

  • fishさん
  • Google Homeで(声で)家電を操作したい!
  • 持っているもので実現したい
    • Google home
    • エアコンなど普通の家電
      • 赤外線をなんとかすればできそう
    • IRKit(もらいもの)
      • 赤外線信号の送受信ができる
  • GoogleHome+Dialogflow+バックエンド(Cloudfunctions)+IRKit
  • IRKitはAPIを呼び出して操作できる
  • DialogflowはLINEやFacebookなど、他のサービスにつなげるのが簡単でよかった
    • 今回はActions on Googleに接続
  • CloudFunctionsからIRKitのAPIを呼び出す(HTTP)
  • おまけ
    • エンティティを楽に作れるライブラリ
      • CSVファイルをアップロードしてエンティティを登録できるようにした
      • 近いうちにPyPIに登録します!

RasPi + Assistant SDK + AoGで3Dプリンター管理~Dialogflowで非同期同期やれるかな~

  • soundTrickerさん
  • 会社にいるボットの話
    • 3DプリンタにつながっているRaspiでボットが動いてる
    • 3Dプリンタを監視しているボット
      • 進捗自動通知とか
    • Dialogflowでやっている
      • Slackで動かしているが自然言語処理を使っている
        • 新規の参入者や非エンジニアにはコマンドを憶えるよりも使いやすい
    • CloudFunctionsからイントラ内にあるRaspiのサーバーにpushしている
      • GCPのCloud Pub/Subを使っている
  • SlackボットからAoGへ
    • Pub/Subを使うと非同期になってしまうので、GoogleHomeで扱えない
      • →無理やり同期化する必要がある
    • 無理やり同期化するには
      • DialogflowのWebhook同期処理中で非同期の応答を待つ
      • Webhookは5秒でタイムアウトするので結構失敗する
    • Dialogflowの色とカラーコード
      • 定義済みのEntityとしてsys.colorがあるが、これは追加、削除できないので、使いづらい
        • 金色とかなかった
    • VUIは長い返答は嫌われる
    • VUIは返答の仕方によっては気持ち悪い感じになる
      • 方言なんかは変な発音になったりする
    • アプリケーションを抜けるデザイン
      • 終了方法がわかりづらいので、いろいろな言葉をサポートしておいたほうがよい
  • 時間があったら、自分でGoogleHomeを作る!話をします
    • AIY Projects
    • VoiceKIT
    • Assistant SDK
      • Google Assistantをデバイスに入れるためのSDK
      • 現状、日本語を扱えない

SUUMOとホットペッパーグルメにAoGを使ってローンチしてみた ?デモもあるよ!?

  • 株式会社リクルート住まいカンパニー 嶋田達哉さん

    • SUUMOのボットと会話して物件情報を教えてくれるサービス(Action on Google)
    • WebhookでAWS Lambdaを使っている
      • JPリージョンにCloudFunctionが無くてLambdaのほうが応答速かった
    • 開発で苦労した点
      • Fullfillment webhookに返すJSONフォーマットがドキュメントを見てもわかりづらく、少し違うだけでもエラーになって、原因がわかりづらい
    • Dialogflowのコンテキスト
      • コンテキストで複数パラメータを扱う場合
        • API callしない分、レスポンスが速い
        • 複雑なものはWebhook側で対応したほうがよさそう
  • 株式会社リクルートライフスタイル/株式会社オートマタ 荒川裕紀さん

    • ホットペッパーグルメのボット
      • シーン(日時、場所、人数など)を伝えるとオススメを教えてくれる
      • 金額は選択肢からえらぶ
      • ルーセルで結果を表示
    • デザイン/ペルソナ
    • 気づき
      • 長文はよく拾ってくれる
      • Speech to Textが意図しない言葉を拾ってくる
        • 4人→「余人」
      • 4文字以上の言葉をなるべくユーザーに言ってもらえるようにしたほうがよいかもしれない
      • 対話なので、ユーザーが次に何をしたらいいのかわかるように、文章で説明するのは大切
      • ngrok便利だった

Dialogflow + MAGELLAN BLOCKSで商品のロケーション案内するよ

行き先 確認エージェントを最小手で作る

  • a2cさん
  • GoogleHomeを使って何を作ろうか
    • 行き先確認のアプリを作る
  • IFTTTでAoGから一発入力
    • 慣れると何度もやり取りするのは面倒くさいので一発入力にしたかった
    • IFTTTからSpreadsheetへ書き出し
    • SpreadsheetではAppsScriptで処理
      • 書いたコードは数行、Dialogflowのwebhookの結果のJSONを返すもの
  • つらかった点
    • IFTTTのAPIがなくて画面から全部入力することになった
    • IFTTTにエンティティ相当のものがないので、表現ブレは全部ルールとしてIFTTTに全部入れないといけなかった
  • ヘルプの出し方は工夫した
    • 入力ミスの際にヘルプを返すのがよい
  • 終了の仕方も工夫した
    • 終了の仕方はわかりづらいので、とにかくたくさんキーワードを入れておくのが大切

Hue meetupでDjangoの話をしてきました

Hadoop WebUIソフトウェアのHueのmeetupでDjangoの話をしてきました。

connpass.com

HueはDjangoフレームワークで作られているのですが、どのように使われてるとか、拡張の仕方とかを紹介しました。

スライドは、slideshareにアップロードしています。

スライド中のソースコード、拡張の仕方については、別途記事にまとめようと思います。

PyConJP 2017でDjangoの認証の話をしてきました

9/7~9/10に行われたPyConJP 2017に参加し、『Djangoフレームワークのユーザーモデルと認証』というタイトルで話してきました。

https://pycon.jp/2017/ja/

Djangoフレームワークのユーザーモデルと認証

Djangoの認証まわりを触る前に知っておくとよさそうなことを説明しました。

スライドは、slideshareにアップロードしています。

Django1.10以降のDeferredAttributeとフィールドへのアクセス

Djangoのモデルクラスにフィールドやメソッドを定義しておいて、さらに属性値を代入していて、この値を取得するコードを書く場合。

メソッドのほうはgetattrでとればいいのだけど、同様にDjangoのフィールドのほうはget_fieldでフィールドを取得しないといけない。

メソッドから取得する方法に失敗したら、Djangoのフィールドとみなしてget_fieldメソッドを呼ぶようなコードを書いていた。

しかし、Django1.10以降だとModel.フィールド名でアクセスすると、DeferredAttributeが返され、hasattrがTrueになるため、はまったりしていた。

検証コード

test.py:

def main():
    import django
    django.setup()
    from django.db import models

    class MyModel(models.Model):
        class Meta:
            app_label = "__main__"

        def method1(self):
            pass
        method1.attr2 = "egg"  # この値をとりたい

        field1 = models.CharField(max_length=10)
        field1.attr1 = "spam"  # この値も取りたい

    # メソッドに指定された属性の取得
    print("method: ", MyModel.method1)
    print("hasattr: ", hasattr(MyModel, "method1"))
    print("getattr: ", getattr(MyModel.method1, "attr2", "invalid"))

    # Model.フィールド名だとDeferredAttributeが返されるので同じやり方ではダメ
    print("field: ", MyModel.field1)
    print("hasattr: ", hasattr(MyModel, "field1"))
    print("getattr: ", getattr(MyModel.field1, "attr1", "invalid"))

    # _meta.get_fieldを使うのが正解
    print("attr1: ", MyModel._meta.get_field("field1").attr1)


if __name__ == '__main__':
    main()

実行結果

Django1.9だとDeferredAttributeは返されずエラー(当時はここからフォールバックして_meta.get_fieldでアクセスするコードを書いていた)

$ DJANGO_SETTINGS_MODULE=project.settings venv-dj19/bin/python test.py
method:  <function main.<locals>.MyModel.method1 at 0x7fe61a6b90d0>
hasattr:  True
getattr:  egg
Traceback (most recent call last):
  File "test.py", line 32, in <module>
    main()
  File "test.py", line 23, in main
    print("field: ", MyModel.field1)
AttributeError: type object 'MyModel' has no attribute 'field1'

Django1.10以降はエラーにならなくなった。挙動の違いでハマった。

$ DJANGO_SETTINGS_MODULE=project.settings venv-dj110/bin/python test.py
method:  <function main.<locals>.MyModel.method1 at 0x7f6ac886bea0>
hasattr:  True
getattr:  egg
field:  <django.db.models.query_utils.DeferredAttribute object at 0x7f6ac8de19e8>
hasattr:  True
getattr:  invalid
attr1:  spam

Django1.11

$ DJANGO_SETTINGS_MODULE=project.settings venv-dj111/bin/python test.py
method:  <function main.<locals>.MyModel.method1 at 0x7fd012e3e1e0>
hasattr:  True
getattr:  egg
field:  <django.db.models.query_utils.DeferredAttribute object at 0x7fd01342cbe0>
hasattr:  True
getattr:  invalid
attr1:  spam

参考

Model _meta API | Django documentation | Django

7/15に北海道のオープンソースカンファレンスでDjangoの紹介をしてきました。

www.ospn.jp 聞きに来てくださった方はありがとうございました。

今年も北海道の人たちに会えたのでよかったです。また来年。

スライドとサンプルコード

www.slideshare.net github.com

API.AIのコンテキストを使ってChatOps環境を作る

2017/10/12 追記:
API.AIのサービス名はDialogflowに変わりました。

API.AIのContextsとWebhookでChatOps環境を作ってみます。 https://docs.api.ai/docs/concept-contextsdocs.api.ai 今回は、SlackのChatbotとやりとりし、「管理者モード開始」から「管理者モード終了」までのやりとりの間に操作コマンドを実行できるようにします。

インテントを用意する

インテントは『管理者モード開始』、『管理者モード終了』、『stats』の3つを用意します。

『管理者モード開始』は、Output contextに「administrator」、User saysに「管理者モード開始」、アクションに「enter_administration」、パラメータとしてpasswordを@sys.anyエンティティで必須入力としておきます。また、パスワード検証をWebhook側で行うため、「Use Webhook」もチェックしておきます。

f:id:nullpobug:20170612185733p:plain

『管理者モード終了』は、Input contextに「administrator」、Output contextに「administrator」で、Output側はLife spanを0に設定します。Life spanを0にしたコンテキストを出力すると、既存のコンテキストから外れるようです。TextResponseで「管理者モードを終了します。」を返すように設定します。終了時はコンテキストを外す処理だけなので、Webhookは使いません。

f:id:nullpobug:20170612185725p:plain

『stats』は、操作コマンド用に使います。Input contextに「administrator」、Output contextに「administrator」で、OutputのLifespanは5としておきます。アクションは「stats」を設定しておきます。Webhookで処理するため、「Use Webhook」もチェックしておきます。

f:id:nullpobug:20170612185716p:plain

Webhookを用意する

今回は操作コマンドとして、botのホストされている環境のメモリ使用量を表示してみます。コマンド名はstatsとしておきます。 WebフレームワークはFlask、また追加のモジュールでpsutilを使います。 Pythonのバージョンは3.6です。

from flask import Flask, request, jsonify
import psutil

app = Flask(__name__)
SECRET_PASSWORD = 'hoge'


@app.route("/", methods=['POST'])
def webhook():
    req = request.get_json(silent=True, force=True)
    resp = jsonify(process_request(req))
    return resp


def process_request(request_data):
    if "result" not in request_data:
        return {}
    action = request_data['result']['action']
    if action == 'stats':
        return stats()
    elif action == 'enter_administration':
        return enter_administration(request_data)
    return {}


def enter_administration(request_data):
    # get context
    contexts = request_data['result']['contexts']
    for context in contexts:
        if context['name'] == 'administrator':
            administrator_context = context
            break
    else:
        return {}
    password = administrator_context['parameters']['password']
    if password != SECRET_PASSWORD:
        return {
            'speech': "パスワードが間違っています。",
            'contextOut': [{'name': 'administrator', 'lifespan': 0}]}
    message = "管理者モードを開始します。"
    return {
        "data": {"slack": {"text": message}},
        "displayText": message, "speech": message}


def stats():
    mem = psutil.virtual_memory()
    total_gb = mem.total / (1024 ** 3)
    used_gb = mem.used / (1024 ** 3)
    message = "メモリ使用量: {:01.1f}GB / {:01.1f}GB".format(used_gb, total_gb)
    return {
        "data": {"slack": {"text": message}},
        "displayText": message, "speech": message}


if __name__ == "__main__":
    app.run()

起動はpythonコマンドにソースコードのファイルを指定します。psutilを使っているのでWindowsでも動作します。

$ python main.py

起動すると、localhost:5000でlistenされます。

前回と同様に、ngrokで外部から接続できるようにして設定します。

$ ngrok http 5000

fulfillmentのWebhookにURLを設定してSAVEしておきます。

動作確認

Slackでテスト用に追加されたapiai_botにDMで話しかけてみます。

正常動作していれば、botから応答があります。

f:id:nullpobug:20170612185713p:plain

感想

コンテキストを使って状態を変えられるのは便利ですね。またコンテキストにパラメータを保持できるのも何かに使えそうです。

今回はパスワード検証部分はハッシュ化などはしていませんが、ワンタイムトークンを発行したりすれば、実用上も問題無さそうですかね。

API.AIを試す

2017/10/12 追記:
API.AIのサービス名はDialogflowに変わりました。

Slackのbotなどを作るときに、API.AIを使うと面白いか便利かもねという話を聞いたので試しています。

api.ai

API.AIってどういうものか

API.AIの概要は公式ドキュメントの説明がわかりやすいのでそちらを読むのをオススメします。

Basics  |  Dialogflow

自分が思った要点はこのあたり:

  • 自然言語のテキスト入力を解析、パラメータに変換して外部のWebhookに流せる
    • 日本語にも対応している
    • 定型文で返すのならWebhookに流さなくてもできる感じ
  • SlackなどとのインテグレーションはAPI.AI側でやってくれる
  • Webhookでは簡単なJSONレスポンスを返すことで、api.ai側からインテグレーション先への応答を返してくれる
    • 音声読み上げとの連携もしやすい
  • 解析、変換の部分は機械学習エンジンが入っていて、学習データを与えてモデルを構築できる
  • 各種プログラミング言語、プラットフォーム向けのSDKが提供されている

音声入力からのテキスト変換もapi.aiがやってたみたいですが、Deprecatedになってて、今はOSの機能か外部サービスを使うのを推奨しているみたいです。

自分の理解ではSlack、API.AI、webhookの関係を図にするとこんな感じ。ドキュメントのほうにも図があるので、そちらも参照されたし。

f:id:nullpobug:20170606121048p:plain

2016年にGoogleに買収されて、GCPとの連携が強化されていってるのかな。現状、利用は無料。

試してみる

とりあえず、Slackからの発言をfulfillmentサービスのwebhookで受け取って、レスポンスを返すというのを試してみることにします。

今回は、Contextは使わず単純な文章の加工だけをやってみます。

この記事以外のサンプルコードだと、Webhookのドキュメントにあるものも参考にするとよさそう。

GitHub - dialogflow/fulfillment-webhook-weather-python

エージェントを登録する

左メニューのエージェント名が表示される部分のドロップダウンから「Create new agent」をクリックしてエージェント作成画面を表示。

エージェント名の入力と言語を日本語にしてSAVE。 f:id:nullpobug:20170606202324p:plain

エンティティを登録する

エンティティは、ユーザー入力から得られる値の定義です。

左メニューのENTITIESのところにある「+」ボタンをクリックしてエンティティの追加画面を表示。 f:id:nullpobug:20170606202331p:plain エンティティ名をfood、値を「お好み焼き」「たこ焼き」で入力してSAVE。 f:id:nullpobug:20170606202335p:plain ここで定義するもの以外にシステム定義のものや自由入力も扱えます。

インテントを登録する

インテントは、ユーザー発言をどのように変換、取り扱うかのルールの定義です。

左メニューのINTENTのところにある「+」ボタンをクリックしてインテントの追加画面を表示。 f:id:nullpobug:20170606205037p:plain UserSaysに「大阪でたこ焼き食べます」と入力してEnterキーを押すと、エンティティが認識されます。今回の場合、「大阪」の部分は @sys.geo-city 、「たこ焼き」の部分は作成しておいたエンティティの @food と判定されました。

f:id:nullpobug:20170606205038p:plain

@sys.geo-cityは組み込みのエンティティです。一覧はドキュメントに記載があります。

Entities  |  Dialogflow

SAVEボタンをクリックして保存します。

右ペインの「Try it now」のテキストボックスに、「東京でたこ焼きを食べます」と入力してパラメータの変換を試すと、geo-cityは「東京」、foodは「たこ焼き」として認識されました。 f:id:nullpobug:20170606205039p:plain

「SHOW JSON」ボタンをクリックすると、後述するfulfillmentサービスで外部に送信されるJSONを確認できます。 f:id:nullpobug:20170606205040p:plain

Webhook用のサーバーを用意する

今回はインテントで変換したパラメータをWebhookで処理します。

Webhook用のWebサーバーとしてPythonとFlaskで簡単なレスポンスを返すものを用意しました。Pythonのバージョンは3.6です。

main.py:

from flask import Flask, request, jsonify

app = Flask(__name__)


@app.route("/", methods=['POST'])
def webhook():
    req = request.get_json(silent=True, force=True)
    resp = jsonify(process_request(req))
    return resp


def process_request(request_data):
    if "result" not in request_data:
        return {}
    food = request_data['result']['parameters']['food']
    city = request_data['result']['parameters']['geo-city']
    message = "場所: {}, 食べ物: {}".format(city, food)
    return {
            "data": {"slack": {"text": message}},
        }


if __name__ == "__main__":
    app.run()

パラメータで受け取った内容から定型文を生成して返すぐらいのものです。

起動はpythonコマンドにソースコードのファイルを指定します。

$ python main.py

起動すると、localhost:5000でlistenされます。

fulfillmentサービスを設定する

fulfillmentは外部サービスなどでレスポンスを返す機能です。先程用意したWebhookでレスポンスを返すように設定します。

webhookはapi.ai側から通信できる必要があります。どこかにデプロイしてもいいのですが、お試しなのでngrokを使いました。

ngrokコマンドが使える状態で、次のコマンドを実行すると、localhost:5000にngrok経由で外部からアクセスできるようになります。

$ ngrok http 5000

fulfillmentのWebhookにURLを設定してSAVEしておきます。

f:id:nullpobug:20170606205035p:plain

また、インテントの編集画面の下部に「Use Webhook」というチェックボックスがあるので、チェックしてSAVEしておきます。

f:id:nullpobug:20170606205041p:plain

Slackのインテグレーションを設定する

Slackのbotとして動かすため、左メニューの「Integrations」からSlackのインテグレーションをONにします。

Slackへの接続ダイアログが表示されるので、任意のスラックグループを選びます。個人用のSlackを作って試すことをオススメします。

f:id:nullpobug:20170606205036p:plain

Slackのインテグレーションを有効にすると、Slack側にはapiai_botというアカウントが現れます。

動作確認

Slackでテスト用に追加されたapiai_botにDMで話しかけてみます。

正常動作していれば、botから応答があります。

f:id:nullpobug:20170606205043p:plain

与えた文章から得たパラメータで応答されることを確認できました。

感想

自然言語処理の部分を作り込むのは結構面倒なものですが、API.AIが肩代わりしてくれるのはうれしいですね。

API.AIのコンソールのUIがわかりづらい(どこがクリックできるのか、入力できるのかなど見た目でわからない、ラベルがない入力エリアなど)のですが、今後改善されることに期待したいです。

学習部分の調整は大変そうですが、いろいろ試していきたいです。