兵庫県立大学大学院・応用情報科学研究科 ini...

申吉浩

兵庫県立大学大学院・応用情報科学研究科

INI・Carnegie Mellon University

2019/2/19

1

人間は猫がわかる

本物の猫だって岩合さんの番組は大好き

2019/2/19 2

https://www.wired.com/2012/06/google‐x‐neural‐network/

でも、もともと、計算機は、人間とは比較にならないほどの記憶力と計算力を持っている

人間に勝ったって不思議なの？

2019/2/19 3

https://www.bbc.com/news/technology‐40042581

記憶力だけでチャンピオンに勝つ

チェスでチャンピオンを負かすのは人工知能研究の目標だったはず

2019/2/19 4

https://www.wired.com/2011/05/0511ibm‐deep‐blue‐beats‐chess‐champ‐kasparov/

人間を超えたAIは人間を不要と判断する？

2019/2/19 5https://www.pinterest.com/pin/688839705476167566/

AIというと汎用で自意識をもつAIをイメージしがち

現在利用されているAIは特化型

今のAIは「膨大な計算力と記憶力」を駆使して、人間が見ることができないものを見ている

それを利用しているのは人間

2019/2/19 6

汎用

特化

自意識

無意識

2019/2/19

7

Capture The Flag

機械対機械のハッキング合戦

サーバの脆弱性を自動で解析・修正

敵のサーバの脆弱性を解析・侵入

莫大な準備資金と賞金

2019/2/19 8

2019/2/19 9

自動化システムで脆弱性が瞬時に排除される世界

脆弱性の発見・検証、パッチの作成・適用を自動化

優勝賞金200万ドル

5分で全参加機がSQL Slammer脆弱性にパッチ適用

主催者の予想を遥かに超えた性能

カーネギー・メロン大学のMAYHEMが優勝

MAYHEMは本番のDEF CON CTFにもオブザーバ参加

僅差で最下位

まだ本格的にAIを使うレベルには達していないが、可能性を予見させる

AIが情報セキュリティの力学をガラリと変える

2019/2/19 10

世界最大のハッカーの学会

世界最高峰のハッキングコンテスト

2019/2/19 11

CMU

灘高

符号から情報を取り出す意味において、 AIと暗号理論は、目標を共有する

2019/2/19

12

暗号＝

情報を取り出せない限界を探す

機械学習・パターン認識＝

情報を取り出せる限界を探す

2019/2/19 13情報

理論的に復号不可能

復号に膨大な時間

古典暗号

現代

暗号

機械学習パターン認識

完全秘匿

計算量的安全

符号

限界は何処？

学習・パターン発見・予測

2019/2/19 14

データ

学習

隠れたパターンの発見

予測

Classification (識別)

Regression (回帰)

Clustering (類別）

現代暗号の安全性の基準

例えば、SLLで使われている暗号(OAEP-RSA) はこの基準を満足

証明付き安全性

この基準を満足することの数学的証明が求められる

2019/2/19 15

攻撃者鍵を知らない

オラクル鍵を知っている

平文 ,を任意に生成

,, のいずれか

をランダムに選んで、に暗号化

暗号化された平文を1/2以上の確率で判定できない

仮定攻撃者は「現在のコンピュータ」の利用可能攻撃者は「量子コンピュータ」は使えない

暗号文 , … ,を任意に生成

, … ,

, … ,暗号文 , … ,を , … , に復号

攻撃者鍵を知らない

オラクル鍵を知っている

2019/2/19 16

安全な暗号で符号化すると、どのような方法で学習しても、予測はできない

平文 ,を任意に生成

,, のいずれか

をランダムに選んで、に暗号化

暗号文 , … ,を任意に生成

, … ,

, … ,暗号文 , … ,を , … , に復号

予測できない

学習しても

暗号化された平文を1/2以上の確率で判定できない

RSA公開鍵暗号の発明者の一人

歴史上最も有名な暗号学者の一人

機械学習理論にも大きな業績

2019/2/19 17

R. Rivest (1988): Cryptography and Machine Learning

2019/2/19

18

2019/2/19 19

AI機械学習

データサイエンス

暗号

情報セキュリティ

攻撃・防御

防御

ゼロデイ攻撃はAIによって防がれる

2019/2/19

20

ホワイトリスト

ブラックリスト

2019/2/19 21

ファイアウォール

アンチウィルス

デフォルトでは全てのポートを閉鎖

安全が確認されたポートのみを開放

ウィルスのパターンをシグネチャとして供給

シグネチャと一致するコードを遮断

未知の攻撃に弱い

ゼロデイ攻撃

2019/2/19 22

パケットフィルタリング

アンチウィルスソフト

プロトコルの新たな脆弱性

新種のウィルス

学習・パターン発見・予測

2019/2/19 23

データ

学習

隠れたパターンの発見

ゼロデイ攻撃の検出

定常状態の学習

定常と異常の差の学習

異常状態の学習

侵入を検知し、被害を事前に防ぐ

2019/2/19

24

膨大な量なパケットが往来

ホストが侵入を受けると不正なパケットが混じる

不正なパケットを発見して、侵入を検知したい

藁の山から針を探すようなもの

2019/2/19 25

Host Host Host

Host Host Host

Host Host Host

Host Host Host

Host Host Host

Host Host Host

Host Host Host

Host Host Host

ブラックリストを予め与える

不正なパケットがブラックリストのパターンに合致するとアラーム

ブラックリストを常に更新する必要

新種の攻撃には対処できない。

2019/2/19 26

IDS

Host Host Host

Host Host Host

Host Host Host

Host Host Host

IDS

Host Host Host

Host Host Host

Host Host Host

Host Host Host

BlackList

BlackList

!

所与

定常状態を学習

正常パターンを記憶

パターンから逸脱したら警告

2019/2/19 27

IDS

Host Host Host

Host Host Host

Host Host Host

Host Host Host

IDS

Host Host Host

Host Host Host

Host Host Host

Host Host Host !

学習フェーズ

予測フェーズ

定常パターン

生成

詐欺を行う偽サイトから消費者を守る

2019/2/19

28

フィッシング詐欺

個人情報窃取

信用失墜

2019/2/19 29

クライアントサイドホワイトリスト

ユーザが安全だと思うサイトを指定

サーバサイドブラックリスト

多くの情報源をもとにブラックリストを作成

サーバでアクセスをブロック

2019/2/19 30ブラウザプロキシサーバー

検知システムの回避が可能

2019/2/19 31

いずれの方法も回避が可能

URL解析

コンテンツ解析

レイアウト解析

偽サイトのエコシステム発見されると、すぐに閉鎖

ライフタイムが短い

一つの運用元が多くのサイトを同時に運用

サイトの開発期間が短い

示唆されることコンテンツやレイアウトは短期間でも変更可能

ページの基本構造を短期間に変更することは困難

偽サイトのエコシステムからDOMツリーを大きく変更するこことは困難

ページを記述するHTMLデータには特徴が残りやすい

HTMLデータから更にコンテンツを取り除いてDOMツリーを分析

2019/2/19 32

兵庫県大・兵庫県警・楽天株式会社の共同研究

99.8％の正答率を達成

NHK・新聞などで報道

2019/2/19 33

WebページはHTMLデータとして配信される

ブラウザが解釈し表示

2019/2/19 34

HTML

兵庫県立大学

タグの入れ子で木構造を定義

2019/2/19 35

タグの入れ子で木構造を定義

2019/2/19 36

html

head table table

meta

meta

meta

title

link

style

tbody

tbody

td tdtdtdtd tr

table img a aa td

img

人間の目では決定的な差を見つけられない

AIは人間が見ることのできない差を見つけることができる

2019/2/19 37

偽サイト真正サイト未知のサイト

教師あり学習

偽サイトのスペクトラムと真正サイトのスペクトラムを比較

未知のサイトのスペクトラルがどちらに近いかで判定

DOMツリー全体をスキャンしてスペクトラムを生成

128種類の個別の特徴とパラメータの組み合わせを検査128 3 3 10,368

最良のものを選択

スペクトラムの作成方法は多数

多数をテスト

偽サイトと真正サイトの間での差がでるスペクトラム

2019/2/19 38

良

悪

評価基準

統計・機械学習の基本的概念

2019/2/19 39

偽真正

陽性(TP)

偽陽性(FP)

偽陰性(FN)

陰性(TN)

偽

真正

予想正解

正答率

適合率

復元率

値2

2

Sub Path全体は木の頂点の近傍系をなす

局所的な変化でも、スペクトラム全体の変化につながる

2019/2/19 40

O

O

P

S

Y

ZO

CP

R

E

T

WE

P

Sub Path

Sub Pathの出現頻度からスペクトラムを決定

2019/2/19 41

O

O

P

S

Y

ZO

CP

R

E

T

WE

P

C 1CO 1COP 1COPS 1COPSR 1E 2ER 1ET 1ETE 1ETER 1O 3OO 2OOO 1OOOP 1OOOPS 1OOOPSR 1OOP 1OOPS 1OOPSR 1OP 1OPS 1OPSR 1……ZOOPSR 1

1000個の訓練用データ

楽天株式会社が提供

6000個の検証用データ

Crawlerで独自に収集

2019/2/19 42

2019/2/19

43

犯罪発生のデータから、犯罪発生率の予測は可能か？

2019/2/19 44

神戸 Boston

機械学習で注目されている手法

ニューラルネットワークなど、他の機械学習の手法も理論的に包含する

ベイズ最適化など、多くの手法が提案されている

2019/2/19 45

関数の確率分布を考える

関数のグラフを観測された値から予測

従来の回帰手法と違いグラフの形を特定しない

事前確率は一様な正規分布観測点の値から事後確率を推定

出典 C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning.

犯罪件数そのものではなく、犯罪発生が生起する情報量と、情報伝播モデル

犯罪発生確率そのものではなく、犯罪指標を推定。

2019/2/19 46

神戸 Boston

出典 S. Morimoto. ENGINE: Crime Prediction using Gaussian Process and Information Entropy

2019/2/19 47出典 S. Morimoto. ENGINE: Crime Prediction using Gaussian Process and Information Entropy

2019/2/19

48

大量のデータへのアクセス

2019/2/19 49

データマイニング機械学習

ビッグデータ分析

プライバシーは予想以上に危機に瀕している

2019/2/19 50

郵便番号・性別・誕生日は、米国民の87％を一意に特定

再識別化

識別子以外の情報を組み合わせて、レコードを特定

３駅の乗降情報と仮名IDがあれば、再識別化可能

2019/2/19 51匿名化処理済みと公表したが、利用者が大反発

改正個人情報保護法では匿名化処理を行えば第三者提供が可能

通常、匿名化処理とは識別子削除

再識別化行為は罰せられる

2019/2/19 52

1. 識別子削除2. 属性削除

例えば、郵便番号、性別、誕生日

3. レコード削除・複製4. 一般化

25才→20代

5. 統計化統計値で置き換え

6. ノイズ付加（摂動化）乱数を付与

１と２を除けば、データの正確性が失われる


2019/2/19 53

収入の平均を知りたい

500万

他人には知られてくない

1500万 1100万700万

400万

Paillier暗号

暗号化： 1 ⋅

準同型性： ⋅ ≡ 1 ⋅

復号：1 ≡

1 1

⋅

2009年にGentryによって発見

2019/2/19 54

暗号化したまま、加法と乗法を計算できる


2019/2/19 55

収入の平均を知りたい

500万

他人には知られたくない

1500万 1100万700万

400万

E(500)

E(1500)E(1100)

E(700)

E(400)

E(500)xE(1500)xE(1100)xE(700)xE400)

E(4200)

２つ以上のパーティが、秘密を守ったまま、共同で計算を実行

Yao (1986)が発表した、Garbled Circuitなどの方法もある。

2019/2/19 56

Alice Bob秘密 , … , 秘密 , … ,

| | | |

互いに秘密を明かすことなく、マンハッタン距離（ハミング距離）を共同で計算

九州工業大学・坂本研究室との共同研究

AIには汎用型AIと特化型AIがあるイメージされやすいのは汎用型

実用が進んでいるのは特化型

暗号理論とAIは密接に関係し合っている暗号理論は、情報が取り出せない符号化方法の限界を探る

AIは、符号から情報を取り出す方法の限界を探る

実用的には、相互に利用される情報セキュリティにAIを利用することにより、ゼロデイ攻撃を防ぐ

情報セキュリティは、AIを用いたデータ解析におけるプライバシー保護の手段を提供する

情報セキュリティとAIの融合分野はホットな研究領域

2019/2/19 57

兵庫県立大学大学院・応用情報科学研究科 ini...

Documents