umap-eu, ieb2011 jardunaldietan
Post on 31-May-2015
1.150 Views
Preview:
DESCRIPTION
TRANSCRIPT
- 1. 1 eu.umap.eu Josu Azpillaga
2. eu.umap.eu
- Ideia . Zer da umap.eu
3. Tresna . Nola dabil. 4. Emaitzak . Estatistika batzuk. 5. Aurrera begira . 6. Zer da umap.eu? 7. Zer da umap.eu? 8. 9. eu.umap.eu tresna... proba bat 10. eu.umap.eu. tresna
- Tuitak jasotzea, denbora errealean
11. Erabiltzaile euskaldun berriak harrapatzen 12. Hizkuntza detekzioa 13. Albisteak, gako-hitzak 14.
- Tuitak jasotzea, denbora errealean
- Twitter. Streaming API
- http://dev.twitter.com/pages/streaming_api
Aukerak:
- Location
15. Track (keywords) 16. Language and Country -> users 17. Limit: eskaera berezia (50000) X (10) minutuz behin, eskaera berritu 18. class Client:def __init__(self):self.buffer = u'' self.conn = pycurl.Curl()self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))self.conn.setopt(pycurl.URL, STREAM_URL)self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values())) self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)try: self.conn.perform() except pycurl.error, e: print "Error code: ", e[0] print "Error message: ", e[1] def on_error(self, data): import pdb;pdb.set_trace() print data def on_receive(self, data): print data self.buffer += dataif data.endswith("rn") and self.buffer.strip():content = json.loads(self.buffer) a = create_status_from_dic(content) self.buffer = "" 19.
- Erabiltzaile euskaldun berriak harrapatzen
- Ehhhh.... algoritmo...
20. Hasteko erabiltzaile multzo batekin, nahikoa 21. Garbiketa ere egiten da 22. Norbanakoak bai; robotak? 23. Eu... ondo; ca... ejem. 24.
- Hizkuntza detekzioa
- Aukera diferenteak
25. Errazena? Google API !!! 26. Onena? Google API!!!
- http://code.google.com/apis/language/
Lizentziak ez du baimentzen. Orduan? 27.
- Hizkuntza detekzioa
- GuessLanguage erabiltzen dugu
28. LangID http://langid.net/ 29. Text cat http://odur.let.rug.nl/~vannoord/TextCat/ 30. LID http://web.me.com/dcavar/LID/ 31. Guess Language https://code.google.com/p/guess-language/ LangID Textcat LID GuessLanguage Test 1. eu OK %75 %74 %85 %93 Test 2. eu OK %76 %88 %96 %95 32.
- Albisteak, gako-hitzak
- Gako-hitzak
- Hitz guztiak zenbatu eta batu
33. Logika
- Hitz normala: 1 point
34. Hash-a: 10 point 35. Tuit horrek link bat du: x1.1 36. Tuit hori retuit bat da: x1.1 37. ... 38. Aldatu liteke! 39.
- Albisteak, gako-hitzak
- Albisteak
- Link guztiak batu (ojo laburtzaileekin!)
40. x minutuz behin, aipatuenak kalkulatu 41. Aipatuen hoiek bisitatu eta informazio relebantea ekarri
- OEmbed!!!!!!!!!!
42. HTML parserra ;-) 43.
- oEmbed vs HTML parser
http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {"provider_url": "http://www.youtube.com/", "title": "BRIARDON SCOOTER - scooting dog", BRIARDON SCOOTER - scooting dog
- vs
- eu.umap.eu tresna. kodea
- Kode guztia, horratx:
- http://www.codesyntax.com/products
- cstwitterstatus
- 2010eko urritik martxan (aurreko datuak...)
- Tuitak: 1.177.666 (aurrekoak beste 400.000)
- eu tuiten bat egin duten erabiltzaileak, 6 hilabetean: +%60
- 2010/11tik hona tuit kopuruaren araberako erabiltzaileak
- 2010/11tik hona euskarazko tuit kopuruaren araberako erabiltzaileak
- 2011 / 04. Retuitak.
- 2011 / 04. Loturak.
- 2011 / 04. Albisteak.
top related