Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストメディア特論 類似した「名前」の同一性の判定

Loran
October 01, 2023

テキストメディア特論 類似した「名前」の同一性の判定

Loran

October 01, 2023
Tweet

More Decks by Loran

Other Decks in Research

Transcript

  1. 類似した「名前」の同一性判定
    @lamrongol

    View Slide

  2. 共起単語からの推定
    ● 異なる分野の同名異人は共起する単語の違いに
    よって判別できる
    ● 例 : 野球選手と音楽家なら、前者は野球に関連する単
    語と共起し、後者は音楽に関する単語と共起する
    ● もし同じ分野で同名異人がいたら?
    ● その場合、人間にとっても判別が難しいので、何らかの
    識別記号がつくはず
    ● 例 : もし「鈴木一朗」という野球選手が二人いたら、「鈴
    木一朗(マリナーズ)」「鈴木一朗(巨人)」というように
    チーム名がつくかもしれない
    – 名前に隣接している単語ほど重みづけを大きくすれば上記例
    などでは分類しやすくなる

    View Slide

  3. データセット
    ● 同一人物であることが分かっている文書群をどう
    やって集めるか

    Wikipedia の「曖昧さ回避」のページを用いる

    View Slide

  4. データセット
    ● 同名でも「イチロー _(XXX) 」のように異なる人物に
    は異なる項目名が付けられるので、個別ページ以
    外のページの文章も使用できる
    ● 例 : マリナーズのページ
    リンクから「イチロー」が野球選手の「イチロー」であるこ
    とがわかる

    View Slide

  5. データセットの拡張

    Wikipedia を使用して得られた共起単語を元に、
    他の構造化されてない文書に対して判定を行い、
    それを新たな正解データとする
    ● どの用法がよく使われているかを計算できる
    ● 例えば「イチロー」なら、野球選手を指している場合が
    圧倒的に多いという結果が出るはず
    ● 文書が小さくて共起単語から推定できない場合も、
    単純に頻度が高いものを推定として与えられる
    ● 例 : 「イチローかっこいい」 → 野球選手

    View Slide

  6. 表記ゆれの問題
    ● 同一人物だが表記が何らかの理由で異なる場合
    ● 例 : 「鈴木一郎」「鈴木一朗」
    ● 変換ミスなどで起こる可能性がある誤表記と正しい
    表記との距離を短く判定する編集距離を用いる
    ● 例 : 「沢」「澤」などの漢字をあらかじめ登録しておく、
       読みが同じ漢字の置換は小さく見積もる、など
    ● 編集距離が一定の閾値以下のものを「同一の可能
    性がある」と判定
    ● 共起単語を用いて同一性の判定

    View Slide