兵庫県立大学大学院・応用情報科学研究科 ini...
TRANSCRIPT
申吉浩
兵庫県立大学大学院・応用情報科学研究科
INI・Carnegie Mellon University
2019/2/19
1
人間は猫がわかる
本物の猫だって岩合さんの番組は大好き
2019/2/19 2
https://www.wired.com/2012/06/google‐x‐neural‐network/
でも、もともと、計算機は、人間とは比較にならないほどの記憶力と計算力を持っている
人間に勝ったって不思議なの?
2019/2/19 3
https://www.bbc.com/news/technology‐40042581
記憶力だけでチャンピオンに勝つ
チェスでチャンピオンを負かすのは人工知能研究の目標だったはず
2019/2/19 4
https://www.wired.com/2011/05/0511ibm‐deep‐blue‐beats‐chess‐champ‐kasparov/
人間を超えたAIは人間を不要と判断する?
2019/2/19 5https://www.pinterest.com/pin/688839705476167566/
AIというと汎用で自意識をもつAIをイメージしがち
現在利用されているAIは特化型
今のAIは「膨大な計算力と記憶力」を駆使して、人間が見ることができないものを見ている
それを利用しているのは人間
2019/2/19 6
汎用
特化
自意識
無意識
2019/2/19
7
Capture The Flag
機械対機械のハッキング合戦
サーバの脆弱性を自動で解析・修正
敵のサーバの脆弱性を解析・侵入
莫大な準備資金と賞金
2019/2/19 8
2019/2/19 9
自動化システムで脆弱性が瞬時に排除される世界
脆弱性の発見・検証、パッチの作成・適用を自動化
優勝賞金200万ドル
5分で全参加機がSQL Slammer脆弱性にパッチ適用
主催者の予想を遥かに超えた性能
カーネギー・メロン大学のMAYHEMが優勝
MAYHEMは本番のDEF CON CTFにもオブザーバ参加
僅差で最下位
まだ本格的にAIを使うレベルには達していないが、可能性を予見させる
AIが情報セキュリティの力学をガラリと変える
2019/2/19 10
世界最大のハッカーの学会
世界最高峰のハッキングコンテスト
2019/2/19 11
CMU
灘高
符号から情報を取り出す意味において、 AIと暗号理論は、目標を共有する
2019/2/19
12
暗号=
情報を取り出せない限界を探す
機械学習・パターン認識=
情報を取り出せる限界を探す
2019/2/19 13情報
理論的に復号不可能
復号に膨大な時間
古典暗号
現代
暗号
機械学習パターン認識
完全秘匿
計算量的安全
符号
限界は何処?
学習・パターン発見・予測
2019/2/19 14
データ
学習
隠れたパターンの発見
予測
Classification (識別)
Regression (回帰)
Clustering (類別)
現代暗号の安全性の基準
例えば、SLLで使われている暗号(OAEP-RSA) はこの基準を満足
証明付き安全性
この基準を満足することの数学的証明が求められる
2019/2/19 15
攻撃者鍵を知らない
オラクル鍵を知っている
平文 ,を任意に生成
,, のいずれか
をランダムに選んで、 に暗号化
暗号化された平文を1/2以上の確率で判定できない
仮定攻撃者は「現在のコンピュータ」の利用可能攻撃者は「量子コンピュータ」は使えない
暗号文 , … ,を任意に生成
, … ,
, … ,暗号文 , … ,を , … , に復号
攻撃者鍵を知らない
オラクル鍵を知っている
2019/2/19 16
安全な暗号で符号化すると、どのような方法で学習しても、予測はできない
平文 ,を任意に生成
,, のいずれか
をランダムに選んで、 に暗号化
暗号文 , … ,を任意に生成
, … ,
, … ,暗号文 , … ,を , … , に復号
予測できない
学習しても
暗号化された平文を1/2以上の確率で判定できない
RSA公開鍵暗号の発明者の一人
歴史上最も有名な暗号学者の一人
機械学習理論にも大きな業績
2019/2/19 17
R. Rivest (1988): Cryptography and Machine Learning
2019/2/19
18
2019/2/19 19
AI機械学習
データサイエンス
暗号
情報セキュリティ
攻撃・防御
防御
ゼロデイ攻撃はAIによって防がれる
2019/2/19
20
ホワイトリスト
ブラックリスト
2019/2/19 21
ファイアウォール
アンチウィルス
デフォルトでは全てのポートを閉鎖
安全が確認されたポートのみを開放
ウィルスのパターンをシグネチャとして供給
シグネチャと一致するコードを遮断
未知の攻撃に弱い
ゼロデイ攻撃
2019/2/19 22
パケットフィルタリング
アンチウィルスソフト
プロトコルの新たな脆弱性
新種のウィルス
学習・パターン発見・予測
2019/2/19 23
データ
学習
隠れたパターンの発見
ゼロデイ攻撃の検出
定常状態の学習
定常と異常の差の学習
異常状態の学習
侵入を検知し、被害を事前に防ぐ
2019/2/19
24
膨大な量なパケットが往来
ホストが侵入を受けると不正なパケットが混じる
不正なパケットを発見して、侵入を検知したい
藁の山から針を探すようなもの
2019/2/19 25
Host Host Host
Host Host Host
Host Host Host
Host Host Host
Host Host Host
Host Host Host
Host Host Host
Host Host Host
ブラックリストを予め与える
不正なパケットがブラックリストのパターンに合致するとアラーム
ブラックリストを常に更新する必要
新種の攻撃には対処できない。
2019/2/19 26
IDS
Host Host Host
Host Host Host
Host Host Host
Host Host Host
IDS
Host Host Host
Host Host Host
Host Host Host
Host Host Host
BlackList
BlackList
!
所与
定常状態を学習
正常パターンを記憶
パターンから逸脱したら警告
2019/2/19 27
IDS
Host Host Host
Host Host Host
Host Host Host
Host Host Host
IDS
Host Host Host
Host Host Host
Host Host Host
Host Host Host !
学習フェーズ
予測フェーズ
定常パターン
生成
詐欺を行う偽サイトから消費者を守る
2019/2/19
28
フィッシング詐欺
個人情報窃取
信用失墜
2019/2/19 29
クライアントサイドホワイトリスト
ユーザが安全だと思うサイトを指定
サーバサイドブラックリスト
多くの情報源をもとにブラックリストを作成
サーバでアクセスをブロック
2019/2/19 30ブラウザ プロキシサーバー
検知システムの回避が可能
2019/2/19 31
いずれの方法も回避が可能
URL解析
コンテンツ解析
レイアウト解析
偽サイトのエコシステム 発見されると、すぐに閉鎖
ライフタイムが短い
一つの運用元が多くのサイトを同時に運用
サイトの開発期間が短い
示唆されること コンテンツやレイアウトは短期間でも変更可能
ページの基本構造を短期間に変更することは困難
偽サイトのエコシステムからDOMツリーを大きく変更するこことは困難
ページを記述するHTMLデータには特徴が残りやすい
HTMLデータから更にコンテンツを取り除いてDOMツリーを分析
2019/2/19 32
兵庫県大・兵庫県警・楽天株式会社の共同研究
99.8%の正答率を達成
NHK・新聞などで報道
2019/2/19 33
WebページはHTMLデータとして配信される
ブラウザが解釈し表示
2019/2/19 34
HTML
兵庫県立大学
タグの入れ子で木構造を定義
2019/2/19 35
タグの入れ子で木構造を定義
2019/2/19 36
html
head table table
meta
meta
meta
title
link
style
tbody
tbody
td tdtdtdtd tr
table img a aa td
img
人間の目では決定的な差を見つけられない
AIは人間が見ることのできない差を見つけることができる
2019/2/19 37
偽サイト 真正サイト 未知のサイト
教師あり学習
偽サイトのスペクトラムと真正サイトのスペクトラムを比較
未知のサイトのスペクトラルがどちらに近いかで判定
DOMツリー全体をスキャンしてスペクトラムを生成
128種類の個別の特徴とパラメータの組み合わせを検査128 3 3 10,368
最良のものを選択
スペクトラムの作成方法は多数
多数をテスト
偽サイトと真正サイトの間での差がでるスペクトラム
2019/2/19 38
良
悪
評価基準
統計・機械学習の基本的概念
2019/2/19 39
偽 真正
陽性(TP)
偽陽性(FP)
偽陰性(FN)
陰性(TN)
偽
真正
予想正解
正答率
適合率
復元率
値2
2
Sub Path全体は木の頂点の近傍系をなす
局所的な変化でも、スペクトラム全体の変化につながる
2019/2/19 40
O
O
P
S
Y
ZO
CP
R
E
T
WE
P
Sub Path
Sub Pathの出現頻度からスペクトラムを決定
2019/2/19 41
O
O
P
S
Y
ZO
CP
R
E
T
WE
P
C 1CO 1COP 1COPS 1COPSR 1E 2ER 1ET 1ETE 1ETER 1O 3OO 2OOO 1OOOP 1OOOPS 1OOOPSR 1OOP 1OOPS 1OOPSR 1OP 1OPS 1OPSR 1……ZOOPSR 1
1000個の訓練用データ
楽天株式会社が提供
6000個の検証用データ
Crawlerで独自に収集
2019/2/19 42
2019/2/19
43
犯罪発生のデータから、犯罪発生率の予測は可能か?
2019/2/19 44
神戸 Boston
機械学習で注目されている手法
ニューラルネットワークなど、他の機械学習の手法も理論的に包含する
ベイズ最適化など、多くの手法が提案されている
2019/2/19 45
関数の確率分布を考える
関数のグラフを観測された値から予測
従来の回帰手法と違いグラフの形を特定しない
事前確率は一様な正規分布 観測点の値から事後確率を推定
出典 C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning.
犯罪件数そのものではなく、犯罪発生が生起する情報量と、情報伝播モデル
犯罪発生確率そのものではなく、犯罪指標を推定。
2019/2/19 46
神戸 Boston
出典 S. Morimoto. ENGINE: Crime Prediction using Gaussian Process and Information Entropy
2019/2/19 47出典 S. Morimoto. ENGINE: Crime Prediction using Gaussian Process and Information Entropy
2019/2/19
48
大量のデータへのアクセス
2019/2/19 49
データマイニング機械学習
ビッグデータ分析
プライバシーは予想以上に危機に瀕している
2019/2/19 50
郵便番号・性別・誕生日は、米国民の87%を一意に特定
再識別化
識別子以外の情報を組み合わせて、レコードを特定
3駅の乗降情報と仮名IDがあれば、再識別化可能
2019/2/19 51匿名化処理済みと公表したが、利用者が大反発
改正個人情報保護法では匿名化処理を行えば第三者提供が可能
通常、匿名化処理とは識別子削除
再識別化行為は罰せられる
2019/2/19 52
1. 識別子削除2. 属性削除
例えば、郵便番号、性別、誕生日
3. レコード削除・複製4. 一般化
25才→20代
5. 統計化統計値で置き換え
6. ノイズ付加(摂動化)乱数を付与
1と2を除けば、データの正確性が失われる
大量のデータへのアクセス
2019/2/19 53
収入の平均を知りたい
500万
他人には知られてくない
1500万 1100万700万
400万
Paillier暗号
暗号化: 1 ⋅
準同型性: ⋅ ≡ 1 ⋅
復号:1 ≡
1 1
⋅
2009年にGentryによって発見
2019/2/19 54
暗号化したまま、加法と乗法を計算できる
大量のデータへのアクセス
2019/2/19 55
収入の平均を知りたい
500万
他人には知られたくない
1500万 1100万700万
400万
E(500)
E(1500)E(1100)
E(700)
E(400)
E(500)xE(1500)xE(1100)xE(700)xE400)
E(4200)
2つ以上のパーティが、秘密を守ったまま、共同で計算を実行
Yao (1986)が発表した、Garbled Circuitなどの方法もある。
2019/2/19 56
Alice Bob秘密 , … , 秘密 , … ,
| | | |
互いに秘密を明かすことなく、マンハッタン距離(ハミング距離)を共同で計算
九州工業大学・坂本研究室との共同研究
AIには汎用型AIと特化型AIがある イメージされやすいのは汎用型
実用が進んでいるのは特化型
暗号理論とAIは密接に関係し合っている 暗号理論は、情報が取り出せない符号化方法の限界を探る
AIは、符号から情報を取り出す方法の限界を探る
実用的には、相互に利用される 情報セキュリティにAIを利用することにより、ゼロデイ攻撃を防ぐ
情報セキュリティは、AIを用いたデータ解析におけるプライバシー保護の手段を提供する
情報セキュリティとAIの融合分野はホットな研究領域
2019/2/19 57