veri ve metin madenciliği - hacettepe...

30
Veri ve Metin Madenciliği Zehra Taşkın BBY 363, 21 Kasım 2018

Upload: others

Post on 01-Mar-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Veri ve Metin Madenciliği

Zehra Taşkın

BBY 363, 21 Kasım 2018

Veri Madenciliği• Bir kutu toplu iğne• İçine 3 boncuk düşürdünüz• Nasıl alacağız?

• Fikirler?

BBY 363, 21 Kasım 2018

Veri Madenciliği• Data – Information – Knowledge

• Veri madenciliği;• Büyük yoğunluklu veri/metinler içinden önemli/ilginç örüntüler keşfetme görevleri

• Toplu iğne örneği

BBY 363, 21 Kasım 2018

Veri Madenciliği• İlişkili olduğu alanlar;

• Bilgibilim• Makine öğrenme, bilgisayar bilimleri• Veri tabanı teknolojileri• Görselleştirme• İstatistik • …

BBY 363, 21 Kasım 2018

Neden Veri Madenciliği

BBY 363, 21 Kasım 2018

• İhtiyacım olan veriyi bulamıyorum!• İhtiyacım olan veriyi buluyorum ama elde edemiyorum!• Bulduğum veriyi anlamıyorum!• Anladığım veriyi kullanamıyorum!• …

Veri Madenciliği Süreçleri

BBY 363, 21 Kasım 2018

BBY 363, 21 Kasım 2018

Veri Madenciliği Araçları

BBY 363, 21 Kasım 2018

• Nooj• Weka• KNIME• Angoss Knowledge Studio• Matlab• …

Veri Madenciliği Uygulamaları

BBY 363, 21 Kasım 2018

• Bilgi erişim (information retrieval)• Bilgi çıkarımı (information extraction)• Makine çevirisi (machine translation)• Özetleme (summarization)• Metin kategorizasyonu (text categorization)

Bilgi Erişim

BBY 363, 21 Kasım 2018

• İnsanların herhangi bir paragrafın, kitabın ya da büyük yoğunluklu metnin içinden ihtiyaç duydukları herhangi bir kısma erişimlerinin sağlanabilmesi

• Nasıl yapılabilir?

Bilgi Çıkarımı

BBY 363, 21 Kasım 2018

• Büyük yoğunluklu bir metnin içinden temel anahtar unsurların (kişiler, kurumlar, konumlar, ülkeler gibi) tanımlanması, etiketlenmesi ve çıkarımı

• Bilgi çıkarımı yapılınca işlem biter mi? 

• Nooj programında bir veri çıkarımı uygulaması• Elde edilen verileri anlamlandırmak için ne yapılabilir?

Makine Çevirisi

BBY 363, 21 Kasım 2018

• Bir dilden diğer dile otomatik çeviri• Algoritmalar nasıl yapılandırılabilir?

Otomatik Özetleme

BBY 363, 21 Kasım 2018

• Büyük yoğunluklu metinlerde yer alan cümle ya da paragraflar içinden,• Dilsel veya istatistiksel bazı yöntemleri kullanarak,• En önemli sözcükleri ya da cümleleri seçmeye,• Metni temsil eden anlamlı bir özet çıkarmaya dayanır 

Metin Kategorizasyonu

BBY 363, 21 Kasım 2018

• Tahminleyici bir metot• Neleri tahmin edebiliriz?

• Hava nasıl olacak?• Patron kim olacak?• Eurovision’u kim kazanacak?• Golü kim atacak?

• 2 soru• Nasıl tahmin edecek?• Nasıl başarıya ulaşacak?

Gözetimli vs. GözetimsizMetin Kategorizasyonu

BBY 363, 21 Kasım 2018

GözetimliUzman gözetiminde 

GözetimsizTamamen bilgisayar yardımı ile

Her ikisinin de avantaj ve dezavantajları neler olabilir?

Metin Kategorizasyonunda Kullanılan Teknik ve Algoritmalar

BBY 363, 21 Kasım 2018

• Karar ağaçları• İstatistiğe dayalı algoritmalar• Mesafeye dayalı algoritmalar• Yapay sinir ağları

Karar Ağaçları

BBY 363, 21 Kasım 2018

Karar Ağaçları

BBY 363, 21 Kasım 2018

• Sınıflandırma için bir ağaç oluşturulur (kök)• Daha sonra her bir kayıt bu ağaca uygulanır (yaprak/düğüm)• Çıkan sonuca göre kayıtlar sınıflandırılır

• Çeşitli algoritmaları var• ID3, C4.5, CART

İstatistiğe Dayalı Algoritmalar

BBY 363, 21 Kasım 2018

• Verilerin önceden sınıflara ayrılması• Gelecekte elde edilen sonuçların tahmini

• Yani sınıfların tahmini

Mesela;Öğrenci mezun olduysa Araştırma Yöntemleri dersinden geçmiştir. 

Yüksek notla geçtiyse istatistiğe dayalı algoritmaları daha kolay anlar. 

Mesafeye Dayalı Algoritmalar

BBY 363, 21 Kasım 2018

• Eldeki verilerin birbirlerine olan uzaklığı veya benzerliği kullanılarak sınıflandırma yapılır

Yapay Sinir Ağları

BBY 363, 21 Kasım 2018

• Biyolojik sinir ağlarından esinlenerek geliştirilmiştir• Yapay sinir hücrelerinin birbirleriyle çeşitli şekilde bağlanmasından oluşur• Genel olarak katmanlar şeklinde düzenlenir• 3 temel katman vardır (girdi, gizli ve çıktı)

Performans Değerlendirme

BBY 363, 21 Kasım 2018

• Metodolojik değerlendirme• Test ve eğitim seti• Çapraz doğrulama

• Sayısal Değerlendirme• Başarımın sayısal ölçümü• Anma?• Duyarlık?• f değeri?• ROC eğrisi

Performans Değerlendirme

BBY 363, 21 Kasım 2018

Gerçek kategoriKategori 1 Kategori 2

Tahmin edilen kategoriKategori 1 Doğru pozitif (TP) Yanlış pozitif (FP)Kategori 2 Yanlış negatif (FN) Doğru negatif (TN)

Anma= TP / TP+FN

Duyarlılık: TP / TP+FPf= 2*anma*duyarlılık

(anma + duyarlılık)

ROC Eğrisi

BBY 363, 21 Kasım 2018

BBY 363, 21 Kasım 2018

BBY 363, 21 Kasım 2018

BBY 363, 21 Kasım 2018

BBY 363, 21 Kasım 2018

Bilgi Danışmanlığı ve Veri Madenciliği

BBY 363, 21 Kasım 2018

• "Talep o kadar çok ki firmalar arasında paslaşmak zorunda kalıyoruz"

• Talepler ne olabilir• Bilgi danışmanı neyi nasıl sunar? Sunmalı?• Sosyal medya ve büyük veri: https://www.youtube.com/watch?v=z1RXxeZpBM8