Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Watsonの見果てぬ夢は大規模言語モデルで花開く

makaishi2
October 12, 2023

 Watsonの見果てぬ夢は大規模言語モデルで花開く

講演者はかつてWatsonの技術セールスだった。当時のWatsonはできることが限定されていて、技術セールスの仕事はお客様の夢を実現可能な話に落とし込むことだった。最近、生成系AIに触れて「Watsonでやりたかったのはこういうことだっだなあ」と感じる。当講演ではその具体的な内容について、講演者が出版した書籍に関わるテーマから紹介する。

makaishi2

October 12, 2023
Tweet

More Decks by makaishi2

Other Decks in Business

Transcript

  1. Watsonの⾒果てぬ夢は
    ⼤規模⾔語モデルで花開く
    アクセンチュア
    ビジネス コンサルティング本部 AIグループ
    シニア・プリンシパル
    ⾚⽯ 雅典
    ⽔曜ワトソンカフェ

    View Slide

  2. アジェンダ
    0. 講演者・著作紹介
    1. Watson振り返り
    2. ⽣成AIとは(デモを含む)
    3. ⽣成AIとの向き合い⽅

    View Slide

  3. 講演者紹介
    ⾚⽯ 雅典 (Masanori Akaishi)
    アクセンチュア ビジネス コンサルティング本部 AIグループ
    シニア・プリンシパル
    • IBMでWatsonのテクニカルセールスを経験後、アクセンチュア⼊社。 AI・データサイエン
    ス系のプロジェクトの技術リードやクライアントのAI⼈材育成⽀援などを担当。
    • 『Pythonで儲かるAIをつくる』、『最短コースでわかるディープラーニングの数学』、
    『Python⾃然⾔語処理⼊⾨』などAIやアナリティクスを題材とした著書多数。
    この11⽉には、⾃⾝7冊⽬の本(ベイズ推論の⼊⾨書)を出版予定
    • 関⻄の⼤学院にて授業を開講中

    View Slide

  4. 次回著書
    『Pythonでスラスラわかる ベイズ推論「超」⼊⾨』
    2023年11⽉24⽇ 出版予定
    アマゾンリンク https://www.amazon.co.jp/dp/4065337631
    サポートサイトリンク https://bit.ly/46v0mV3
    主な特徴
    • 確率分布の初歩をプログラミングとの対⽐で理解
    • PyMCとArVizの使い⽅を⼀歩⼀歩学ぶ
    • くじびきの簡単な題材を例にして、ベイズ推論の考え⽅を理解
    • 正規分布の推論から潜在変数モデルまで、さまざまなベイズ推論問題に対応
    • ABテストや線形回帰モデルの効果検証など、業務観点でのベイズ推論活⽤事例も学べる
    • 各章・節のコラムでやや⾼度だが重要な技法・概念もカバー
    サポートサイト

    View Slide

  5. 最新著書
    『最短コースでわかる Pythonプログラミングとデータ分析』
    2022年12⽉17⽇ 出版
    アマゾンリンク https://www.amazon.co.jp/dp/4296201123
    サポートサイトリンク http://bit.ly/3TV1E57
    主な特徴 (DSスキル習得の「⾼速道路」)
    • 必要⼗分な知識項⽬の精査 (データ分析の「出る単」)
    「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化
    • プログラミングスキルの実地訓練
    各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施
    • 分析シナリオで洞察導出
    公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験
    本⽇のデモは、この本の3章の
    中⾝を題材としています。

    View Slide

  6. 著書紹介
    ⽇経BP 2020年8⽉6⽇出版
    • 「Pythonによる機械学習の教科書」を
    狙って書いた本。
    • 2020年12⽉にはKindle版がAmazon⼈
    ⼯知能カテゴリで2週間連続1位。
    • 企業向けAI教育の教材としても利⽤で
    きる。
    • アイデミー社のAI講座教科書として採
    ⽤された。
    • qiitaに掲載した紹介記事リンク
    https://bit.ly/2JRLZF3
    • アマゾンリンク
    https://amzn.to/3eFxqlH
    ⽇経BP 2019年4⽉11⽇出版
    • ディープラーニングの学習アルゴリズ
    ムである勾配降下法、バックプロパ
    ゲーションを⾼校1年程度の前提知識で
    理解するための本。
    • 必要な数学の概念は最低限のものに限
    定(「最短コース」の所以)。
    • 厳密な「証明」にはこだわらず、視覚
    的なイメージによる「説明」を重視。
    • サポートページリンク
    https://bit.ly/2HpVgTY
    • アマゾンリンク
    https://amzn.to/32LOqQR
    翔泳社 2020年1⽉20⽇出版
    • テキスト分析の領域でOSS/Watson そ
    れぞれの世界でできることを俯瞰して解
    説した本。
    • OSSとしてはWord2VecやBERTを紹介
    • アマゾンリンク
    http://amzn.to/3teVEqW
    ⽇経BP 2021年9⽉17⽇出版
    • PyTorchでディープラーニングのプログ
    ラミングをしたい⼈向けの⼊⾨書。
    • 「ディープラーニングの数学」の姉妹編
    にもなっている
    • アマゾンリンク
    https://amzn.to/3Imz9rd

    View Slide

  7. アジェンダ
    0. 講演者・著作紹介
    1. Watson振り返り
    2. ⽣成AIとは(デモを含む)
    3. ⽣成AIとの向き合い⽅

    View Slide

  8. Watson振り返り
    2016年当時、⼭のようなイメージCMが放送されていた。
    これからお⾒せするのは、YouTubeで⾒つけた当時のCMの⼀部。
    出演者 テーマ 時間 URL
    ボブディラン ⾳楽 0:37 https://www.youtube.com/watch?v=8xYvwcnHn9k
    渡辺謙 ⾔語 0:30 https://www.youtube.com/watch?v=39YTmT7QUZY
    セリーナ・ウィリアムズ スポーツ 0:30 https://www.youtube.com/watch?v=oRLwM3QnDZ4
    (⼦供) 健康 0:30 https://www.youtube.com/watch?v=bWUR48Su8Dc

    View Slide

  9. Watson振り返り
    ⼼理系
    ⾔語系
    Watson Assistant
    アプリケーションに⾃然⾔語インターフェースを
    追加してエンドユーザとのやり取りを⾃動化
    照会応答系
    Text to Speech
    テキスト⽂章を⾳声に変換する
    Speech to Text
    ⾳声をテキスト⽂章に変換する
    Visual Recognition
    画像コンテンツに含まれる意味を検出する
    知識探索系
    ⾳声系
    Discovery
    先進的な洞察エンジンを利⽤して、データの隠れた
    価値を解明し、回答やトレンドを発⾒する
    Discovery News
    Discovery上に実装され、エンリッチ情報も付加さ
    れたニュースに関する公開データセット
    Personality Insights
    テキストから筆者の性格を推定する
    Language Translator ※2
    ⾃然⾔語テキストについて他⾔語へ翻訳を⾏う
    Natural Language Understanding ※1
    ⾃然⾔語処理を通じてキーワード抽出、エンティテ
    ィー抽出、概念タグ付け、関係抽出などを⾏う
    Natural Language Classifier
    テキスト⽂章の分類を⾏う(質問の意図推定など)
    Tone Analyzer(⽇本語未対応)
    テキストから筆者の感情、社交性、⽂体を解析する
    Knowledge Studio
    コーディングなしに、業務知識から⽣成した機械学
    習モデルで、⾮構造テキストデータから洞察を取得
    画像系
    データ分析系
    Watson Studio
    機械学習モデル向けの作成と学習、データの準備と
    分析のための統合環境
    Machine Learning
    機械学習モデル・深層学習モデルの作成、学習、
    実⾏環境
    Knowledge Catalog
    分析に必要なデータを加⼯・カタログ化できる分析
    データ準備環境
    Watson OpenScale
    AIに信頼性と透明性をもたらし、判定結果を説明
    し、バイアスを⾃動的に排除する
    Compare and Comply(⽇本語未対応)
    契約書や調達仕様書を分析し、⽂書間の⽐較や重要
    要素の抽出を⾏う
    派⼿なCMが放送される⼀⽅、当時のAIでできることは極めて限定されていた。
    下記は、当時作っていた資料の⼀部。
    当時のWatson技術セールスはCMでお客様にす
    り込まれたAIイメージと、現実にできることの
    ギャップに⽇々悩まされていたのは、ここだけ
    の話です。。。

    View Slide

  10. Watson振り返り
    当時、実⽤レベルまで達していたWatson AI利⽤サービスの例
    • 東⽇本旅客鉄道株式会社(JR東) コンタクトセンター⽀援
    電話応対時のオペレーターの⾳声をAIで認識し、関連する情報をリアルタイム表⽰してオペレーターの回答
    品質を⾼める
    https://www.ibm.com/jp-ja/case-studies/jreast
    • 外資系販社
    ⾳声認識・チャット・⾳声合成を組み合わせて、ユーザー初期登録時の⼀部対応を、オペレータなしに⾃動
    化する
    • 国内製造系企業
    画像分類を⽤いて、シリコンウエハーの⽋陥検査を実施

    View Slide

  11. アジェンダ
    0. 講演者・著作紹介
    1. Watson振り返り
    2. ⽣成AIとは(デモを含む)
    3. ⽣成AIとの向き合い⽅

    View Slide

  12. ⼤規模⾔語モデルで何が起きているか
    質問応答などのタスクを含め、多くの⾃然⾔語ベンチマークでは、モデルがある規模に達するまでは偶然によるものよ
    りも性能が劣り、ある時点で性能が急激に向上する(創発的能⼒)。
    それぞれの図は創発的能⼒の例を⽰している。モデル規模は訓練の計算量によって測定されている。
    出典:
    wkikpediahttps://ja.wikipedia.org/wiki/%E5%A4%A7%E8%A6%8F%E6%A8%A1%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB#/media/%E3%83
    %95%E3%82%A1%E3%82%A4%E3%83%AB:LLM_emergent_benchmarks.png

    View Slide

  13. ⽣成AIデモ
    Advanced Data Analysisを⽤いたデモを紹介する
    Advaniced Data Analysisの概要
    • OpenAIで提供しているChatGPTのオプション機能
    • ChatGPT plusという有償の追加オプション契約が必要(⽉3000円程度、講演者は個⼈契約している)
    • ChatGPT内に仮想Python仮想環境をもっている
    • 利⽤者から指⽰を受けるとChatGPTは仮想環境で実際に⽣成したプログラムを動かし結果を質問者に返す
    • 仮想環境でエラーが起きた場合、ChatGPTは⾃⼒で問題判別を試みる
    • ChatGPTはインターネットアクセスが認められていない(セキュリティ対策)
    • ファイルアップロード機能はあるので、必要なファイルは事前に利⽤者が準備すればいい
    利⽤者
    ChatGPT
    Python仮想環境
    • ユーザーからChatGPTへの指⽰はハイレベルの⼤雑把なもので構わない。具体例はデモで説明する

    View Slide

  14. ⽣成AIデモ
    • 分析対象データ Pittsburgh Bridges Dataset
    • 講演者書籍『最短コースでわかるPythonプログラミングとデータ分析』
    • 3.2/3.3/3.5節の内容から引⽤
    ID RIVER LOCATION ERECTED PURPOSE LENGTH LANES CLEAR-G T-OR-D MATERIAL SPAN REL-L TYPE
    E1 M 3 1818 HIGHWAY 2 N THROUGH WOOD SHORT S WOOD
    E2 A 25 1819 HIGHWAY 1037 2 N THROUGH WOOD SHORT S WOOD
    E3 A 39 1829 AQUEDUCT 1 N THROUGH WOOD S WOOD
    E5 A 29 1837 HIGHWAY 1000 2 N THROUGH WOOD SHORT S WOOD
    E6 M 23 1838 HIGHWAY 2 N THROUGH WOOD S WOOD
    川コード 位置コード 建設年 ⽤途 ⻑さ ⾞線数 通⾏可否 通⾏形式 材料 スパン 位置関係 タイプ
    下記データセットは、アメリカピッツバーグ市の橋のデータをまとめたもの。
    今後のデータ分析はどんな形でできるようになるのかを、このデータを⽤いたデモで紹介する。
    https://archive.ics.uci.edu/dataset/18/pittsburgh+bridges

    View Slide

  15. ⽣成AIデモ
    • 添付のzipファイルでライブラリを導⼊してください
    • サンプルプログラムで正しくグラフの⽇本語表⽰ができることを確認してください
    • 添付のEXCELをデータフレームdfに読み込んで下さい
    • このデータは「ピッツバーグ・ブリッジ・データセット」と呼ばれる、アメリカピッツバー市の橋の情報をまとめたものです。
    • 下記の解説(Kaggleの解説から取ってきた情報)を含めて今後の分析で活⽤して下さい。(以下略)
    • 項⽬名を⽇本語に変換して下さい。
    • 「垂直クリアランス要件」はどんな意味ですか。「垂直クリアランス要件」ではどんなカテゴリ値が何件あるか教えてくださ

    • 「道路の位置」はどんな意味ですか。「道路の位置」ではどんなカテゴリ値が何件あるか教えてください
    • 「スパン」はどんな意味ですか。「スパン」ではどんなカテゴリ値が何件あるか教えてください
    • 「タイプ」はどんな意味ですか。「タイプ」ではどんなカテゴリ値が何件あるか教えてください
    • シンプルトラスとはどんな構造ですか
    • これらの橋の構造で、最も⻑い橋を作れるものはどれでしょうか
    デモ⽤に準備したプロンプトサンプル
    毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある

    View Slide

  16. ⽣成AIデモ
    • dfの各項⽬の⽋損値を調べてください。
    • 「材料」の⽋損値を除去してください。除去はdropna関数を⽤いて⾏ごと削除します。
    • 建設年と⻑さで散布図を描画して下さい。描画時には、材料でマーカーを変えて下さい。
    • マーカーの⼤きさを⼤きくしてもらえますか。
    • 1900年くらいに、4000m以上の橋が2つ建設されています。この点に関して、何か仮説が⽴てられれば教えて下さい。
    • 技術的進歩について、材料の観点で何か仮説が⽴てられますか?
    • 建設年で箱ひげ図を描画して下さい。図は材料別にしてください。
    • これからピッツバーグ市の橋の改修計画を策定する場合、箱ひげ図から何か得られる知⾒はありますか。
    • (⽊製の橋の改修を計画するにあたって、追加で検討すべき観点はありますか)
    • 歴史的価値を考慮に⼊れて改修計画を⽴案する際の具体的な進め⽅のアドバイスをお願いします。
    • ⼤変参考になりました。また、わからないことだあったら教えてください。
    デモ⽤に準備したプロンプトサンプル
    毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある

    View Slide

  17. ⽣成AIデモ
    Advaniced Data Analysis 出⼒例

    View Slide

  18. その他の⽣成AI
    • 時間の関係でデモはしないが、 Open interpreterというサービスもある。
    • この場合、Python環境は⾃前で準備する。(Google Colabでも可)
    • Jupyter Notebook上でインタラクティブなプロンプトが動き、ユーザーが指⽰を出すと、不⾜ライブラリの
    導⼊を含めてChatGPTが勝⼿に対応してくれる。
    • 参考資料(IBM柳さんの記事) https://qiita.com/yanagih/items/466a5560bd771e2b9030
    プロンプト例 結果例(何回かのやりとり後)

    View Slide

  19. 最新著書
    『最短コースでわかる Pythonプログラミングとデータ分析』
    2022年12⽉17⽇ 出版
    アマゾンリンク https://www.amazon.co.jp/dp/4296201123
    サポートサイトリンク http://bit.ly/3TV1E57
    主な特徴 (DSスキル習得の「⾼速道路」)
    • 必要⼗分な知識項⽬の精査 (データ分析の「出る単」)
    「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化
    • プログラミングスキルの実地訓練
    各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施
    • 分析シナリオで洞察導出
    公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験
    (再掲)
    • この本の3章・4章の題材はすべてChatGPTを伴
    ⾛者としたデータ分析の題材として利⽤可能。具
    体的な題材が欲しい場合にご活⽤ください。
    • もちろん、書籍本来の⽬的(Pythonとデータ分析
    系ライブラリ利⽤⽅法のマスター)でも活⽤可能
    です。

    View Slide

  20. アジェンダ
    0. 講演者・著作紹介
    1. Watson振り返り
    2. ⽣成AIとは(デモを含む)
    3. ⽣成AIとの向き合い⽅

    View Slide

  21. ⽣成AIとの向き合い⽅(AIソリューション検討)
    • ⽣成AIは数年前のAIと違うレベルに達しているため、考え⽅を根本から改める必要がある
    • AIソリューション検討の観点でこれからこのAIとどう向き合うべきか、講演者が考えているところ
    従来型AI ⽣成AI
    AIにできる範囲 限定的 汎⽤的
    AIソリューション
    検討⽅法
    ボトムアップアプローチ トップダウンアプローチ
    AIソリューション
    検討時のポイント
    技術的実現可能性
    業務観点で真の価値創出ができる
    ユースケースの発⾒(費⽤対効果を含む)
    AIソリュー
    ション構築時
    のポイント
    フレームワークを活⽤可能な⾼度なプログラミング能⼒ 要件を論理的に整理し簡潔に表現する⾔語能⼒
    データ
    構築
    ⼤量・⾼品質の学習データ作成 例外系も網羅した正解データ収集

    View Slide

  22. ⽣成AIとの向き合い⽅(Pythonの必要性)
    • もはやPythonはわからなくてもAIは利⽤できるのか?
    • 講演者の個⼈的意⾒として、AIは動くコードの⽣成までできてはいるが、時々間違えて
    いることもあるので、「AIが何をやっているのか理解・レビューする」という観点で必
    要(少なくても現段階では)と考えている。
    • しかし、Python習得のためスクールに通う必要はなくなったとも思う。適切な教科書さ
    えあれば、わからない点は納得できるまでChatGPTが教えてくれるので、ChatGPTに
    伴⾛してもらい独習するのが、現時点での最強の学習法と想定。

    View Slide

  23. 終わりに
    • ご静聴ありがとうございました。
    • 特に最後の第3部に関しては、かなり講演者の独断が含まれています。
    • 忌憚のないコメントとご意⾒をお願いします。

    View Slide