Watsonの見果てぬ夢は大規模言語モデルで花開く

Watsonの⾒果てぬ夢は
⼤規模⾔語モデルで花開く
アクセンチュア
ビジネスコンサルティング本部 AIグループ
シニア・プリンシパル
⾚⽯雅典
⽔曜ワトソンカフェ

View Slide

アジェンダ
0. 講演者・著作紹介
1. Watson振り返り
2. ⽣成AIとは(デモを含む)
3. ⽣成AIとの向き合い⽅

View Slide

講演者紹介
⾚⽯雅典（Masanori Akaishi）
アクセンチュアビジネスコンサルティング本部 AIグループ
シニア・プリンシパル
• IBMでWatsonのテクニカルセールスを経験後、アクセンチュア⼊社。 AI・データサイエン
ス系のプロジェクトの技術リードやクライアントのAI⼈材育成⽀援などを担当。
• 『Pythonで儲かるAIをつくる』、『最短コースでわかるディープラーニングの数学』、
『Python⾃然⾔語処理⼊⾨』などAIやアナリティクスを題材とした著書多数。
この11⽉には、⾃⾝7冊⽬の本(ベイズ推論の⼊⾨書)を出版予定
• 関⻄の⼤学院にて授業を開講中

View Slide

次回著書
『Pythonでスラスラわかるベイズ推論「超」⼊⾨』
2023年11⽉24⽇出版予定
アマゾンリンク https://www.amazon.co.jp/dp/4065337631
サポートサイトリンク https://bit.ly/46v0mV3
主な特徴
• 確率分布の初歩をプログラミングとの対⽐で理解
• PyMCとArVizの使い⽅を⼀歩⼀歩学ぶ
• くじびきの簡単な題材を例にして、ベイズ推論の考え⽅を理解
• 正規分布の推論から潜在変数モデルまで、さまざまなベイズ推論問題に対応
• ABテストや線形回帰モデルの効果検証など、業務観点でのベイズ推論活⽤事例も学べる
• 各章・節のコラムでやや⾼度だが重要な技法・概念もカバー
サポートサイト

View Slide

最新著書
『最短コースでわかる Pythonプログラミングとデータ分析』
2022年12⽉17⽇出版
サポートサイトリンク http://bit.ly/3TV1E57
主な特徴 (DSスキル習得の「⾼速道路」)
• 必要⼗分な知識項⽬の精査 (データ分析の「出る単」)
「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化
• プログラミングスキルの実地訓練
各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施
• 分析シナリオで洞察導出
公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験
本⽇のデモは、この本の３章の
中⾝を題材としています。

View Slide

著書紹介
⽇経BP 2020年8⽉6⽇出版
• 「Pythonによる機械学習の教科書」を
狙って書いた本。
• 2020年12⽉にはKindle版がAmazon⼈
⼯知能カテゴリで2週間連続1位。
• 企業向けAI教育の教材としても利⽤で
きる。
• アイデミー社のAI講座教科書として採
⽤された。
• qiitaに掲載した紹介記事リンク
https://bit.ly/2JRLZF3
• アマゾンリンク
https://amzn.to/3eFxqlH
⽇経BP 2019年4⽉11⽇出版
• ディープラーニングの学習アルゴリズ
ムである勾配降下法、バックプロパ
ゲーションを⾼校1年程度の前提知識で
理解するための本。
• 必要な数学の概念は最低限のものに限
定(「最短コース」の所以)。
• 厳密な「証明」にはこだわらず、視覚
的なイメージによる「説明」を重視。
• サポートページリンク
https://bit.ly/2HpVgTY
https://amzn.to/32LOqQR
翔泳社 2020年1⽉20⽇出版
• テキスト分析の領域でOSS/Watson そ
れぞれの世界でできることを俯瞰して解
説した本。
• OSSとしてはWord2VecやBERTを紹介
http://amzn.to/3teVEqW
⽇経BP 2021年9⽉17⽇出版
• PyTorchでディープラーニングのプログ
ラミングをしたい⼈向けの⼊⾨書。
• 「ディープラーニングの数学」の姉妹編
にもなっている
https://amzn.to/3Imz9rd

View Slide

アジェンダ

View Slide

Watson振り返り
2016年当時、⼭のようなイメージCMが放送されていた。
これからお⾒せするのは、YouTubeで⾒つけた当時のCMの⼀部。
出演者テーマ時間 URL
ボブディラン⾳楽 0:37 https://www.youtube.com/watch?v=8xYvwcnHn9k
渡辺謙⾔語 0:30 https://www.youtube.com/watch?v=39YTmT7QUZY
セリーナ・ウィリアムズスポーツ 0:30 https://www.youtube.com/watch?v=oRLwM3QnDZ4
(⼦供) 健康 0:30 https://www.youtube.com/watch?v=bWUR48Su8Dc

View Slide

Watson振り返り
⼼理系
⾔語系
Watson Assistant
アプリケーションに⾃然⾔語インターフェースを
追加してエンドユーザとのやり取りを⾃動化
照会応答系
Text to Speech
テキスト⽂章を⾳声に変換する
Speech to Text
⾳声をテキスト⽂章に変換する
Visual Recognition
画像コンテンツに含まれる意味を検出する
知識探索系
⾳声系
Discovery
先進的な洞察エンジンを利⽤して、データの隠れた
価値を解明し、回答やトレンドを発⾒する
Discovery News
Discovery上に実装され、エンリッチ情報も付加さ
れたニュースに関する公開データセット
Personality Insights
テキストから筆者の性格を推定する
Language Translator ※2
⾃然⾔語テキストについて他⾔語へ翻訳を⾏う
Natural Language Understanding ※1
⾃然⾔語処理を通じてキーワード抽出、エンティテ
ィー抽出、概念タグ付け、関係抽出などを⾏う
Natural Language Classifier
テキスト⽂章の分類を⾏う(質問の意図推定など)
Tone Analyzer(⽇本語未対応)
テキストから筆者の感情、社交性、⽂体を解析する
Knowledge Studio
コーディングなしに、業務知識から⽣成した機械学
習モデルで、⾮構造テキストデータから洞察を取得
画像系
データ分析系
Watson Studio
機械学習モデル向けの作成と学習、データの準備と
分析のための統合環境
Machine Learning
機械学習モデル・深層学習モデルの作成、学習、
実⾏環境
Knowledge Catalog
分析に必要なデータを加⼯・カタログ化できる分析
データ準備環境
Watson OpenScale
AIに信頼性と透明性をもたらし、判定結果を説明
し、バイアスを⾃動的に排除する
Compare and Comply(⽇本語未対応)
契約書や調達仕様書を分析し、⽂書間の⽐較や重要
要素の抽出を⾏う
派⼿なCMが放送される⼀⽅、当時のAIでできることは極めて限定されていた。
下記は、当時作っていた資料の⼀部。
当時のWatson技術セールスはCMでお客様にす
り込まれたAIイメージと、現実にできることの
ギャップに⽇々悩まされていたのは、ここだけ
の話です。。。

View Slide

Watson振り返り
当時、実⽤レベルまで達していたWatson AI利⽤サービスの例
• 東⽇本旅客鉄道株式会社(JR東) コンタクトセンター⽀援
電話応対時のオペレーターの⾳声をAIで認識し、関連する情報をリアルタイム表⽰してオペレーターの回答
品質を⾼める
https://www.ibm.com/jp-ja/case-studies/jreast
• 外資系販社
⾳声認識・チャット・⾳声合成を組み合わせて、ユーザー初期登録時の⼀部対応を、オペレータなしに⾃動
化する
• 国内製造系企業
画像分類を⽤いて、シリコンウエハーの⽋陥検査を実施

View Slide

アジェンダ

View Slide

⼤規模⾔語モデルで何が起きているか
質問応答などのタスクを含め、多くの⾃然⾔語ベンチマークでは、モデルがある規模に達するまでは偶然によるものよ
りも性能が劣り、ある時点で性能が急激に向上する(創発的能⼒)。
それぞれの図は創発的能⼒の例を⽰している。モデル規模は訓練の計算量によって測定されている。
出典:
wkikpediahttps://ja.wikipedia.org/wiki/%E5%A4%A7%E8%A6%8F%E6%A8%A1%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB#/media/%E3%83
%95%E3%82%A1%E3%82%A4%E3%83%AB:LLM_emergent_benchmarks.png

View Slide

⽣成AIデモ
Advanced Data Analysisを⽤いたデモを紹介する
Advaniced Data Analysisの概要
• OpenAIで提供しているChatGPTのオプション機能
• ChatGPT plusという有償の追加オプション契約が必要(⽉3000円程度、講演者は個⼈契約している)
• ChatGPT内に仮想Python仮想環境をもっている
• 利⽤者から指⽰を受けるとChatGPTは仮想環境で実際に⽣成したプログラムを動かし結果を質問者に返す
• 仮想環境でエラーが起きた場合、ChatGPTは⾃⼒で問題判別を試みる
• ChatGPTはインターネットアクセスが認められていない(セキュリティ対策)
• ファイルアップロード機能はあるので、必要なファイルは事前に利⽤者が準備すればいい
利⽤者
ChatGPT
Python仮想環境
• ユーザーからChatGPTへの指⽰はハイレベルの⼤雑把なもので構わない。具体例はデモで説明する

View Slide

⽣成AIデモ
• 分析対象データ Pittsburgh Bridges Dataset
• 講演者書籍『最短コースでわかるPythonプログラミングとデータ分析』
• 3.2/3.3/3.5節の内容から引⽤
ID RIVER LOCATION ERECTED PURPOSE LENGTH LANES CLEAR-G T-OR-D MATERIAL SPAN REL-L TYPE
E1 M 3 1818 HIGHWAY 2 N THROUGH WOOD SHORT S WOOD
E2 A 25 1819 HIGHWAY 1037 2 N THROUGH WOOD SHORT S WOOD
E3 A 39 1829 AQUEDUCT 1 N THROUGH WOOD S WOOD
E5 A 29 1837 HIGHWAY 1000 2 N THROUGH WOOD SHORT S WOOD
E6 M 23 1838 HIGHWAY 2 N THROUGH WOOD S WOOD
川コード位置コード建設年⽤途⻑さ⾞線数通⾏可否通⾏形式材料スパン位置関係タイプ
下記データセットは、アメリカピッツバーグ市の橋のデータをまとめたもの。
今後のデータ分析はどんな形でできるようになるのかを、このデータを⽤いたデモで紹介する。
https://archive.ics.uci.edu/dataset/18/pittsburgh+bridges

View Slide

⽣成AIデモ
• 添付のzipファイルでライブラリを導⼊してください
• サンプルプログラムで正しくグラフの⽇本語表⽰ができることを確認してください
• 添付のEXCELをデータフレームdfに読み込んで下さい
• このデータは「ピッツバーグ・ブリッジ・データセット」と呼ばれる、アメリカピッツバー市の橋の情報をまとめたものです。
• 下記の解説(Kaggleの解説から取ってきた情報)を含めて今後の分析で活⽤して下さい。(以下略)
• 項⽬名を⽇本語に変換して下さい。
• 「垂直クリアランス要件」はどんな意味ですか。「垂直クリアランス要件」ではどんなカテゴリ値が何件あるか教えてくださ
い
• 「道路の位置」はどんな意味ですか。「道路の位置」ではどんなカテゴリ値が何件あるか教えてください
• 「スパン」はどんな意味ですか。「スパン」ではどんなカテゴリ値が何件あるか教えてください
• 「タイプ」はどんな意味ですか。「タイプ」ではどんなカテゴリ値が何件あるか教えてください
• シンプルトラスとはどんな構造ですか
• これらの橋の構造で、最も⻑い橋を作れるものはどれでしょうか
デモ⽤に準備したプロンプトサンプル
毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある

View Slide

⽣成AIデモ
• dfの各項⽬の⽋損値を調べてください。
• 「材料」の⽋損値を除去してください。除去はdropna関数を⽤いて⾏ごと削除します。
• 建設年と⻑さで散布図を描画して下さい。描画時には、材料でマーカーを変えて下さい。
• マーカーの⼤きさを⼤きくしてもらえますか。
• 1900年くらいに、4000m以上の橋が２つ建設されています。この点に関して、何か仮説が⽴てられれば教えて下さい。
• 技術的進歩について、材料の観点で何か仮説が⽴てられますか？
• 建設年で箱ひげ図を描画して下さい。図は材料別にしてください。
• これからピッツバーグ市の橋の改修計画を策定する場合、箱ひげ図から何か得られる知⾒はありますか。
• (⽊製の橋の改修を計画するにあたって、追加で検討すべき観点はありますか)
• 歴史的価値を考慮に⼊れて改修計画を⽴案する際の具体的な進め⽅のアドバイスをお願いします。
• ⼤変参考になりました。また、わからないことだあったら教えてください。
デモ⽤に準備したプロンプトサンプル
毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある

View Slide

⽣成AIデモ
Advaniced Data Analysis 出⼒例

View Slide

その他の⽣成AI
• 時間の関係でデモはしないが、 Open interpreterというサービスもある。
• この場合、Python環境は⾃前で準備する。(Google Colabでも可)
• Jupyter Notebook上でインタラクティブなプロンプトが動き、ユーザーが指⽰を出すと、不⾜ライブラリの
導⼊を含めてChatGPTが勝⼿に対応してくれる。
• 参考資料(IBM柳さんの記事) https://qiita.com/yanagih/items/466a5560bd771e2b9030
プロンプト例結果例(何回かのやりとり後)

View Slide

最新著書
『最短コースでわかる Pythonプログラミングとデータ分析』
2022年12⽉17⽇出版
サポートサイトリンク http://bit.ly/3TV1E57
主な特徴 (DSスキル習得の「⾼速道路」)
• 必要⼗分な知識項⽬の精査 (データ分析の「出る単」)
「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化
• プログラミングスキルの実地訓練
各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施
• 分析シナリオで洞察導出
公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験
(再掲)
• この本の3章・4章の題材はすべてChatGPTを伴
⾛者としたデータ分析の題材として利⽤可能。具
体的な題材が欲しい場合にご活⽤ください。
• もちろん、書籍本来の⽬的(Pythonとデータ分析
系ライブラリ利⽤⽅法のマスター)でも活⽤可能
です。

View Slide

アジェンダ

View Slide

⽣成AIとの向き合い⽅(AIソリューション検討)
• ⽣成AIは数年前のAIと違うレベルに達しているため、考え⽅を根本から改める必要がある
• AIソリューション検討の観点でこれからこのAIとどう向き合うべきか、講演者が考えているところ
従来型AI ⽣成AI
AIにできる範囲限定的汎⽤的
AIソリューション
検討⽅法
ボトムアップアプローチトップダウンアプローチ
AIソリューション
検討時のポイント
技術的実現可能性
業務観点で真の価値創出ができる
ユースケースの発⾒(費⽤対効果を含む)
AIソリュー
ション構築時
のポイント
フレームワークを活⽤可能な⾼度なプログラミング能⼒要件を論理的に整理し簡潔に表現する⾔語能⼒
データ
構築
⼤量・⾼品質の学習データ作成例外系も網羅した正解データ収集

View Slide

⽣成AIとの向き合い⽅(Pythonの必要性)
• もはやPythonはわからなくてもAIは利⽤できるのか？
• 講演者の個⼈的意⾒として、AIは動くコードの⽣成までできてはいるが、時々間違えて
いることもあるので、「AIが何をやっているのか理解・レビューする」という観点で必
要(少なくても現段階では)と考えている。
• しかし、Python習得のためスクールに通う必要はなくなったとも思う。適切な教科書さ
えあれば、わからない点は納得できるまでChatGPTが教えてくれるので、ChatGPTに
伴⾛してもらい独習するのが、現時点での最強の学習法と想定。

View Slide

終わりに
• ご静聴ありがとうございました。
• 特に最後の第3部に関しては、かなり講演者の独断が含まれています。
• 忌憚のないコメントとご意⾒をお願いします。

View Slide

Watsonの見果てぬ夢は大規模言語モデルで花開く

Watsonの見果てぬ夢は大規模言語モデルで花開く

makaishi2

More Decks by makaishi2

Other Decks in Business

Featured

Transcript