Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カテゴリカル・データに対する構造化デー タ解析(SDA)と帰納的データ解析(IDA) 2023年「文化と不平等」調査の幾何学的データ分析(3)

419kfj
October 08, 2023

カテゴリカル・データに対する構造化デー タ解析(SDA)と帰納的データ解析(IDA) 2023年「文化と不平等」調査の幾何学的データ分析(3)

2022年の95回大会での報告では、幾何学的データ解析(GDA)の中で、多重対応分析(MCA)と分散分析(ANOVA)の結びつきの実際を説明し手法の特徴を明らかにした。今回は、それを踏まえて幾何学的データ解析(SDA)と帰納的データ解析(IDA)の報告を行う。また、「現代日本の文化と不平等」(科研費:基盤(B) 22H00913)で取得したデータを用いて適用の実際を報告する

対応分析をめぐっては、拙訳書1)2)に続いて、『多重対応分析』3)が刊行され、分析手法として活用する条件が整ったといえる。しかし、この手法のアプローチが社会学会においては一般化されている回帰分析などのアプローチとは異なるものであるために、必ずしもわかりやすいものにはなっていない。

本報告では、以前の報告も踏まえて、幾何学的データ解析(GDA)における、多重対応分析(MCA)の位置付け。また、構造化データ分析(SDA)と概括される調査データ(個体x変数)の構造化モデリングを概説する。加えて、構造設計に用いられた構造因子(追加変数)に注目した部分集合間の関係に対する帰納的データ解析(IDA)というアプローチを紹介する。ここで用いられる「検定」手法は、計算手法としては、並べ替え検定(permutation test)であるが、検定目的である「典型性検定」(typicality test)および「同質性検定」(homoginity test)は、組合せ検定(comibinatorial Inference)すなわち集合論的推定(Set-theoretic Inference)として理論化されてきたものである4)。

本報告では、こうしたSDAおよびIDAの実際を、「現代日本の文化と不平等」(科研費:基盤(B) 22H00913)で取得したデータに対して適用したもの実例に報告を行う予定である。

1) Clausen,Sten-Erik,1987,”Applied Correspondence Analysis An Introduction”,SAGE,(訳:藤本一男,2015,『対応分析入門』,オーム社)
2) Greenacre.M.J,2017,”Correspondence Analysis in Practice Third Edition”,CRC press, (訳:藤本一男, 2020,『対応分析の理論と実践』,オーム社)
3) Briggite LeRoux, Henry Rouanet,2010, ”Multiple Correspondence Analysis”, SAGE (訳:大隈昇・小野裕亮・鳰真紀子,2021,『多重対応分析』オーム社)
4) Rouanet, Henry Bert Marie-Claude,1998,”Introduction to Combinatorial Inference”,New Ways in Statistical Methodology From Siginificance Tests to Basian Inference, 2nd Edition, Europian University Studies, Peter Lang

◾️関連する論考:
「Supplementary」変数から多重対応分析(MCA)を考える―幾何学的データ解析(GDA)と多重対応分析(MCA)―」『津田塾大学紀要』51号(2019),155 – 167
「対応分析は〈関係〉をどのように表現するのかーCA/MCAの基本特性と分析フレームワークとしてのGDAー」『津田塾大学紀要』52号(2020),169−184
「日本における「対応分析」受容の現状を踏まえて、 EDA(探索的データ解析)の中に対応分析を位置付け、 新たなデータ解析のアプローチを実現する」『津田塾大学紀要』54号(2022),177 – 193
「幾何学的データ解析(GDA)」では分散はどのように分解されるのか-GDAでANOVAの手法を用いるために押さえるべき事がある-」『津田塾大学紀要』55号(2023),119−139

419kfj

October 08, 2023
Tweet

More Decks by 419kfj

Other Decks in Research

Transcript

  1. カテゴリカル・データに対する構造化デー
    タ解析(SDA)と帰納的データ解析(IDA)
    2023年「⽂化と不平等」調査の幾何学的データ分析(3)
    ⽇本社会学会 第96回 全国⼤会
    ⽂化・社会意識(1)
    2023/10/8
    version1.2
    津⽥塾⼤学 数学・計算機科学研究所
    藤本⼀男
    [email protected]

    View Slide

  2. 構成
    • 多重対応分析(MCA)と幾何学的データ解析(GDA)
    • GDAとIDA
    • IDA、並べ替え検定
    • 2023年「⽂化と不平等」調査データへの適⽤
    • 個体空間と変数空間(暫定⽣成版)
    • 追加変数の射影
    • 典型性検定によるp値
    • 履歴
    • v1.0 共⽤サーバーに登録版。
    • v1.2 解説追加。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 2

    View Slide

  3. 多重対応分析(MCA)と
    幾何学的データ解析(GDA)
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 3

    View Slide

  4. 多重対応分析と推定・検定
    • 幾何学的データ解析(GDA)の中での帰納的データ解析
    (IDA)
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 4
    MCA
    多重対応分析
    SDA
    構造化データ
    解析
    IDA
    帰納的データ解析
    データ
    個体空間と
    変数空間の⽣成
    追加変数をもちいた
    空間分析
    記述統計 推測統計
    典型性検定
    同質性検定
    ⾏:個体
    列:変数

    View Slide

  5. 幾何学的データ解析(GDA)
    • もともとは、Benzécreが対応分析を「データ解析」と呼んでい
    た。
    • 1996年に、スタンフォードのPatrikスペスが「Geometric Data
    Analysis」と呼ぶことを提案。Brigitte LeRoux、Henry
    Rouanetらが積極的に採⽤。
    • GDAの名称はもちいられていないが、内容的には、ルバール、..
    仏語1977、英訳1984、⽇本語訳1994、で扱われている。
    • ディスタンクシオン、第5章の注の(2)で参照されている。
    • 決して「新奇なもの」ではない、ということ。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 5

    View Slide

  6. 多重対応分析(MCA)とGDA
    • 対応分析/多重対応分析のしくみ
    • カテゴリカルデータの数量化
    • ⾏空間(個体空間)と列空間(変数空間)の⼆つが⽣成される。
    • 空間⽣成に⽤いられる変数:Active変数
    • ⽣成された空間に投影されて空間の構造を分析する変数:追加変数
    • 追加変数を射影(その1)
    • 変数空間に追加変数を投影する
    • Active変数との関係が図⽰される。
    • 追加変数を射影(その2)
    • パターンは、変数空間のものと相似形だが、個体空間を追加変数でグ
    ループ化し分析するところが異なる。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 6
    変数の位置:座標
    広がり:分散
    個体空間での集中楕円
    軸との関係:η2

    View Slide

  7. GDAの発展過程
    • 追加変数を変数空間に射影し、分析するアプローチ
    • 変数空間への射影:スポット
    • 追加変数を個体空間に射影する
    • 個体空間での群の展開を分析対象にする
    • 平均点座標
    • 分散、集中楕円
    • 相関⽐(η2)による分散の評価
    • η2=
    群間分散
    全体分散(!群間分散+"群内分散)
    • 軸ごとにη2をみることで、その変数の影響の⼤きさを評価できる。
    • ベネット他の『⽂化・階級・卓越化』で採⽤( LeRoux、Rouanet)。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 7

    View Slide

  8. MCAの分析
    • Step1
    • MCAによって⽣成された変数空間の軸を解釈命名する。これは、軸へ
    の各カテゴリポイントの寄与率から。
    • Step2
    • さらに、変数空間を追加変数によって解釈していく。
    • Step3
    • 個体空間を追加変数で群化し、追加変数カテゴリによる分析を⾏う。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 8

    View Slide

  9. GDA、全体の流れ
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 9
    MCA
    データ
    アクティ
    ブ変数
    追加変数
    変数空間
    個体空間
    射影
    構造化モデリング
    個体空間を追加変数で部分空間化
    することによって、
    ・空間内での差異を確認できる。
    ・分散を表⽰できる。→ 集中楕円
    ★軸の解釈(寄与率に注⽬)
    ・追加変数の分散の影響をη2で
    評価する。
    「並べ替え」
    による検定
    確認された差異は有意か
    全体(原点)との差異
    典型性検定
    ⼆つの部分集合間の差異
    同質性検定
    アクティブ変数は、変数空間の中で数量化されており、
    また、追加変数も、変数空間/個体空間に射影されるこ
    とで数量化されている。

    View Slide

  10. MCAにまつわる疑問
    「幾何学的データ解析でも、統計的推測をおこなえるか?」と
    いう問いが紹介されている。
    それへの回答としては、機能的に可能である、という回答に加
    え、統計的推測において重要なことはなにか、どのように推測
    を行うべきか、が重要であると、検定の前提にかかわる観点か
    らの回答が述べられている。
    • MCA2010=2021:15 の「よくある質問」
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 10

    View Slide

  11. IDAのアプローチ
    • 以上の過程で明らかになった差異についての検定を⾏う。
    • ⼿法
    • 組み合わせ論的フレームワークによる検定:「並べ替え検定」
    • MCAの結果得られた座標値を「参照⺟集団」とする。
    • 追加変数によって群化された空間の平均点を検定統計量とする
    • 検定は2種類
    • 典型性検定(Typicality test)
    • 参照⺟集団全体(原点)と⽐較して、注⽬している群が「典型」か否か。平均点のズ
    レを検定。
    • 同質性検定(Homogeneity test)
    • ⼆つの群に注⽬して、その平均点の差が有意か否かを検定。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 11

    View Slide

  12. 伝統的検定との関係
    • 典型性検定
    • 問題状況
    • 参照⺟集団の平均点(ゼロ)と注⽬群の平均点の差の検定
    • 1群の平均値のt-検定
    • 同質性検定
    • 問題状況
    • ⼆つの注⽬群の平均点の差の検定
    • 2群の平均値のt-検定
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 12
    伝統的検定(t-検定)でもとめられる
    • 正規性の仮定
    • 等分散性
    は必要とされない。

    View Slide

  13. ⼿法
    • 並べ替え検定を⾏う。
    • 並べ替え総数。参照⺟集団の総数Nから、注⽬群のnを置き換えなしでサンプ
    リングする組み合わせ数。
    • !
    C "
    これは、⼤きな数になるので、計算時間から困難。
    • ⼆つの近似
    • 乱数シミュレーション(モンテカルロ法)近似。
    • 正規近似
    • 並べ替えで⽣成される「標本分布」は、中⼼極限定理から、正規分布を強く仮定できる。
    • MCA2010=2021とGDAtoolsのdimtypicality、homog.testは、この正規近似で計算。
    • 正規近似
    • 軸ごとの⽐較:正規近似
    • 平⾯での⽐較:距離なので正規近似要素の2乗和となるので「⾃由度2」の
    「χ2分布」で近似される。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 13

    View Slide

  14. 全体雲
    1215
    18−24歳
    93
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    93個体の
    部分雲
    平均点(18−24歳)を求める







    93個体
    9999個の分布
    を確認する
    9999個の平均値の
    分布と18−24歳の
    平均値をplotする。
    pointの数は、10000
    になる。
    ※標本平均なので、
    中⼼極限定理の展開その
    もの
    準拠⺟集団
    注⽬している年齢群
    典型性検定での並べ替え抽出
    2023/06/10 対応分析研究会第19回 14
    「並べ替え」での抽出
    ⾮復元抽出でサンプリング
    例は、LeRoux&Rouanet
    2010=2021での数値

    View Slide

  15. 全体雲
    N⼈
    X歳
    n1⼈
    準拠⺟集団
    注⽬している
    年齢群1
    2023/06/10 対応分析研究会第19回 15
    同質性検定の並べ替え抽出
    n1個の
    部分雲
    全体雲
    N-n1⼈
    Y歳
    n2⼈
    注⽬している
    年齢群2
    ⾮復元
    抽出*1
    n2個の
    部分雲 n1個の平均値からn2個
    の平均値の差を求める
    ⾮復元
    抽出*2
    ⾮復元抽出*1の数#
    𝐶 $%
    = #!
    $% ! #'$% !
    ⾮復元抽出*2の数#'$%
    𝐶 $(
    = (#'$%)!
    $( ! #'$%'$( !
    総数は、これの積になる
    #!
    $% ! #'$% !
    (#'$%)!
    $( ! #'$%'$( !
    = #!
    $% ! $( !(#' $%+$( !
    p119

    View Slide

  16. 2023年「⽂化と不平等」調査
    データへの適⽤
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 16

    View Slide

  17. 基本的なMCAのresult
    • Active変数になにを選択するか、によって、⽣成される空間は
    異なったものになる。
    • GDAにおける構造設計
    • Active変数の選択
    • 追加変数の選択
    • ⽤いるのは、確定版ではなく分析途中の暫定版。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 17

    View Slide

  18. 構造設計:Active変数と追加変数
    • Active変数
    • "学歴" "⽗学歴" "⺟学歴" "世帯年収" "⾦融資産"
    • "相続_⾦融資産" "相続_住宅" "相続_⼟地" "相続_⽥畑"
    • "相続_美術品" "相続_その他" "相続_なし"
    • 追加変数
    • "性別" "働き⽅" "仕事内容" "役職"
    • 合成変数として、”性別・働き⽅” “性別・仕事内容”
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 18

    View Slide

  19. 固有値(軸の慣性)
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 19

    View Slide

  20. 変数空間
    1−2軸
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 20

    View Slide

  21. 個体空間
    1−2軸
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 21

    View Slide

  22. 変数空間への寄与率からdim1、dim2を評
    価すると
    • dim1
    • 右側
    • 資産あり
    • 左側
    • 資産なし
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 22

    View Slide

  23. 変数空間への寄与率からdim1,dim2を評価
    する
    • dim2
    • 上側
    • 学歴なし
    • 下側
    • 学歴あり
    • 原点
    • 全体の平均位

    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 23

    View Slide

  24. 追加変数
    • 性別
    • 働き⽅
    • 仕事の内容
    • 性別・働き⽅
    • 性別・仕事の内容
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 24
    Active変数
    MCAによって、変数空間と個体空間を⽣成する
    追加変数(転じて「構造化因⼦」)
    MCAによって⽣成された⼆つの空間に、射影され、
    その空間の構造を分析するのに⽤いられる。
    「幾何学的データ解析では、「個体x変数」のデータ表に
    おいて、なんらかの「構造」を⽰す変数は、幾何学的な
    空間を求める際には、意図的に使わない。たとえば、⽣
    活様式における性別の役割を調べるのに、
    性別を使わないほうがよいことは明らかであろう。
    個体間の距離の定義には⽤いない⽅の変数の組みを、
    構造化因⼦*と呼ぶ。
    そして、変数のうちいくつかが構造化因⼦*であるデータ
    表を構造化データと呼ぶ。」
    LeRoux&Rounat2010=2021:95
    *Structuring factor:構造化しているのは、Active変数なので
    これは「構造因⼦」の⽅がいいのではないかと思ってます。

    View Slide

  25. データ:個体空間座標と追加変数
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 25
    :
    個体
    番号
    個体空間での個体の座標
    個体番号と結びつけ
    られた追加変数

    以下略

    View Slide

  26. 仕事内容と
    性別のdim1
    分布
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 26

    View Slide

  27. 第1軸での典型性検定によるp値
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 27
    全体の平均(原点)から
    の差異は「有意」である

    View Slide

  28. 性別_仕事内容
    のdim1分布
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 28

    View Slide

  29. 働き⽅:性別_仕事内容
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 29

    View Slide

  30. 働き⽅:性別_雇⽤形態
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 30

    View Slide

  31. 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 31

    View Slide

  32. 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 32

    View Slide

  33. 検定⼿法の分類
    • 厳密計算
    • 可能となる組み合わせ数すべてをリサンプリングして、帰無分布を⽣成しそ
    の分布に対して検定統計量をあてがい、p値を計算する。
    そこでは、確率分布は使わずに、個数と割合で計算。
    • 近似計算1
    • 原理的には、厳密計算と同じことをするが、すべての組み合わせ数を実施す
    るのではなくランダムに9999個のサンプルを⽣成して、近似帰無分布を⽣成
    し、検定統計量の位置からp値を計算する
    • 近似計算2
    • 並べ替え分布は、1軸単位であれば、正規近似が、平⾯で距離を⽐較するの
    であれば、カイ⼆乗近似が(強く)成り⽴つので、それを前提にリサンプリ
    ングはせずに、p値を算出する。LeRoux&Rouanet2010=2021では、これを
    ⽤いて、計算している。また、GDAtoolsのdimtypicality(典型性検定)、
    homog.test(同質性検定)は、この近似計算2で計算している。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 33

    View Slide

  34. 組み合わせ論枠組みでの検定
    • 問題状況と⼿法
    • 典型性検定
    • 注⽬している部分集合(例:男性部分集合)が全体からみて、有意にずれて
    いるかいなかを検定。
    • 軸ごとの検定
    • 平⾯での検定
    • 伝統的⼿法での「1群の平均値のt-検定」
    • 同質性検定
    • ⼆つの部分集合に注⽬し(例:男性アルバイトと⼥性アルバイト)の平均点
    の差異が有意かどうかを検定。
    • 軸ごとの検定
    • 平⾯での検定
    • 伝統的⼿法での「2群の平均値の差のt-検定」
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 34

    View Slide

  35. 分析の実際過程
    • Nicoras Robette⽒によるGDAtoolsは、その名の通り、多重対
    応分析でもGDA分析に特化したツールとして提供されているの
    で、典型性検定、同質性検定ふくめて、LeRoux&Rouanet2010
    にそったtoolが提供されている。
    • しかし、実際の分析過程では、より詳細な部分集合への分割と
    そこでの分散の分解に注⽬する必要があるので、そこでは、
    CSA(ClassSpecificAnalysis:特定個体を選択するサブセット
    MCA)も駆使して分析、検定を⾏なっていくことなる。
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 35

    View Slide

  36. 参考⽂献
    • Greenacre, Michael J. 2017. Correspondence analysis in practice. Third edition.
    CRC Press.(訳:藤本⼀男,2020,『対応分析の理論と実践』オーム社)
    • Le Roux, Brigitte, Henry Rouanet. 2010. Multiple correspondence analysis.
    Quantitative applications in the social sciences 163. Sage Publications.(訳:
    ⼤隅昇・⼩野裕亮・鳰真紀⼦,2021,『多重対応分析』オーム社)
    • Le Roux, Brigitte, Solène Bienaise,Jean-Luc Durand. 2019. Combinatorial
    inference in geometric data analysis. CRC Press.
    • Robette N. (2023), GDAtools : Geometric Data Analysis in R, version 2.0, https://nicolas-
    robette.github.io/GDAtools/
    • R Core Team (2023). _R: A Language and Environment for Statistical
    Computing_. R Foundation for Statistical Computing, Vienna, Austria.
    https://www.R-project.org/.
    • RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA
    URL http://www.rstudio.com/.
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 36

    View Slide

  37. 謝辞
    • この発表は「対応分析研究会」(磯直樹先⽣主宰)での発表とそれへ
    の質疑応答の成果でもあります。ご意⾒をいただいた皆様に感謝いた
    します。
    • また、本発表は、以下の研究⽀援を受けています。記して感謝いたし
    ます。
    • 科研費
    • 「データの幾何学的配置に着⽬したカテゴリカルデータ分析⼿法の研究」
    • 研究代表者:藤本⼀男
    • 基盤研究(C) 20K02162
    • 「現代⽇本の⽂化と不平等に関する社会学的研究:社会調査を通じた理論構築」
    • 研究代表者:磯 直樹
    • 基盤研究(B) 22H00913
    2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 37

    View Slide