25
0.5.0 のののの のののののののの ののの () のののの ののの 01/18/2022 Jubatus Casual Talks#2 のののの 1

Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

  • Upload
    -

  • View
    10.998

  • Download
    3

Embed Size (px)

DESCRIPTION

Jubatus Casual Talks #2(URL : http://connpass.com/event/3968/ ) の発表資料です。 質問があれば気軽にお問い合わせください。

Citation preview

Page 1: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

0.5.0 の新機能(クラスタリング)の紹介

東京大学 村下瑛

04/13/2023Jubatus Casual Talks#2 発表資料1

Page 2: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

自己紹介

東京大学 修士2年 専攻:機械学習 元 PFI アルバイト( 10 月まで) Jubatus チームでクラスタリング機能を担当

村下 瑛(むらした あきら)

04/13/2023Jubatus Casual Talks#2 発表資料2

Page 3: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

0.5.0 リリース!

k-Means/GMM による分析を複数台のサーバで並列して・リアルタイムに、省メモリで行えます!

クラスタリングがサポート

04/13/2023Jubatus Casual Talks#2 発表資料3

Page 4: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

発表内容

目次:1. クラスタリングとは?2. Jubaclustering の特徴と動作原理3. 実験結果

新機能の魅力を 15 分でできるだけお伝えします

04/13/2023Jubatus Casual Talks#2 発表資料4

Page 5: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

クラスタリングとはデータを性質のよく似たグループに整理する技術

出典: http://booktype-demo.sourcefabric.org/documentclustering_booktype/i-wen-shu-kurasutaringunogai-yao/

04/13/2023Jubatus Casual Talks#2 発表資料5

Page 6: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

ビジネスへの応用事例

ニーズに答えつつ、在庫を減らす目的で兵士の身体的特徴クラスタリングにより分析

→ 「足が短く、ウエストが細く、胸が大きい女性用の服」などが新たに作成された。

(慶応義塾大学、古河康一先生の講義スライドより引用)

アメリカ軍女性兵士の服装

04/13/2023Jubatus Casual Talks#2 発表資料6

Page 7: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

ビジネスへの応用事例( 2 )

住宅担保融資を利用している顧客データを 14 個のクラスタに分割して解析

→ 『起業家』という有益なクラスタを発見

(慶応義塾大学、古河康一先生の講義スライドより引用)

Bank of America の優良顧客の発見

04/13/2023Jubatus Casual Talks#2 発表資料7

Page 8: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

クラスタリングの動機

未知のデータをグループに分割して解析することで、 データを簡潔に理解できる データについて新しい知見を得ることができる

場合がある。

→ 良いグループ分けをデータから発見したい!

未知のデータの分析と理解

04/13/2023Jubatus Casual Talks#2 発表資料8

Page 9: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

クラスタリング手法

例: k-Means K 個の代表点を決め、一番近いものにグループ分け 一番近い代表点までの距離の和を最小化

良いグループ分けの定量化/最適化アルゴリズム

04/13/2023 Jubatus Casual Talks#2 発表資料9

Page 10: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

クラスタリング手法

例: Gaussian Mixture Model(GMM) いくつかの正規分布でデータをフィッティング クラスタ = もっとも寄与が大きい正規分布

良いグループ分けの定量化/最適化アルゴリズム

04/13/2023 Jubatus Casual Talks#2 発表資料10

Page 11: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

Jubaclustering大規模データをリアルタイムに・低コストで解析

逐次的にやってくる大量のデータ

複数台のサーバで並列に逐次処理&省メ

モリで動作※

全データに対する k-Means / GMM の近似

結果を随時取得可能

※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料11

Page 12: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

Jubaclustering

Q. クラスター分析ではクラスタ内のデータも重要。データを捨ててしまっては意味がないのでは?

A. クラスタ中の過去の入力データ全体を、重み付きサンプルで近似して返すことが可能

データ全体の概要を把握可能

15.1 3.5 2.9 …

(これはどんなクラスタに属しますか?)

(大体これらが数字の数ずついるようなものです。)

04/13/2023Jubatus Casual Talks#2 発表資料12

Page 13: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

ビジネスでの利用例

系統的に整理し分析することが価値を生む リアルタイム&大量 全データを保存し、バッチ処理するのは計算量/メ

モリの面でコスト大

Jubaclustering なら… 低コストでリアルタイムに解析が行える 必要ならクラスタ内のデータを取り出して分析する

こともできる

ユーザーのログデータの分析

04/13/2023Jubatus Casual Talks#2 発表資料13

Page 14: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

鍵となる技術コアセット : クラスタリングに特化したサンプリング手法

04/13/2023Jubatus Casual Talks#2 発表資料14

Page 15: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

鍵となる技術コアセット : クラスタリングに特化したサンプリング手法

バイアスサンプリング:• 密な所:少数の重み大な点• 疎な所:多数の重み小な点を配置

理論的に良い性質:・近似精度に対するサンプル数・分散/オンラインでの更新

04/13/2023Jubatus Casual Talks#2 発表資料15

Page 16: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

実装のアイデア処理結果をコアセットとして保持

データが来た データが来た!

04/13/2023Jubatus Casual Talks#2 発表資料16

Page 17: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

実装のアイデア処理結果をコアセットとして保持

データの概形はこんな感じだ!

データの概形はこんな感じだ!

04/13/2023Jubatus Casual Talks#2 発表資料17

Page 18: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

実装のアイデア他ノードとの同期時には単純に和集合を取る

こんな感じのデータが来たよ!

こんな感じのデータが来たよ!

04/13/2023Jubatus Casual Talks#2 発表資料18

Page 19: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

実装のアイデア和集合に対して独立にバッチで解析を行う

なるほど、全体としてはこんな感じなのか!

なるほど、全体としてはこんな感じなのか!

04/13/2023Jubatus Casual Talks#2 発表資料19

Page 20: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

数値実験結果正規分布のコアセット

04/13/2023Jubatus Casual Talks#2 発表資料20

Page 21: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

数値実験結果

中心の密なクラスタ (10000 点 ) の周囲に100 個の疎なクラスタ (100 点 ) を等間隔に配置

疎密を持つデータに対するコアセット

{𝑥𝑡=10000 ⋅ cos𝜋50𝑡

𝑦𝑡=10000 ⋅sin𝜋50𝑡

0≤ 𝑡<100

04/13/2023Jubatus Casual Talks#2 発表資料21

Page 22: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

数値実験結果

得られたサンプルに 101 個のクラスタがどの程度含まれているかを比較※ 全点 20000 点から 50 点をサンプリング

疎密を持つデータに対するコアセット

コアセット ランダムサンプリング04/13/2023Jubatus Casual Talks#2 発表資料22

Page 23: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

数値実験結果

圧縮に伴うクラスタリング性能の変化を得られた中心で計算した元データの下での k-Meansの目的関数値で比較※ 時計盤データの全点 20000 点を 200 点に圧縮した場合

クラスタリング精度

coreset random batch

7.324

7.879

7.29

04/13/2023Jubatus Casual Talks#2 発表資料23

Page 24: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

Jubaclustering (まとめ)大規模データをリアルタイムに・低コストで解析

逐次的にやってくる大量のデータ

複数台のサーバで並列に逐次処理&省メ

モリで動作※

全データに対する k-Means / GMM の近似

結果を随時取得可能

※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料24

Page 25: Jubatus Casual Talks #2 : 0.5.0の新機能(クラスタリング)の紹介

ありがとうございました

04/13/2023Jubatus Casual Talks#2 発表資料25