2015 figelj presentazione
Post on 14-Apr-2017
121 Views
Preview:
TRANSCRIPT
UNIVERSITÀ DEGLI STUDI DI TRIESTEDIPARTIMENTO DI INGEGNERIA E ARCHITETTURA
Corso di Laurea Magistrale in Ingegneria Informatica
Progetto e realizzazione di un sistema per la generazione automatica di revisioni per articoli
scientifici
Anno Accademico 2014/2015
LaureandoMatteo Figelj
Relatoreprof. Eric Medvet
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(1) Il problema
➔ Dato un articolo scientifico, generare una revisione che:
◆ sembri scritta da un revisore per quell’articolo
◆ esprima un tipo di opinione/valutazione scelto in input tra:● positiva● neutra● negativa
2
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(2) Il problema
➔ Lavoro suddiviso in:◆ Definizione del problem statement◆ Raccolta dei dati◆ Definizione di una baseline◆ Progettazione e sviluppo di quattro metodi per
generare revisioni◆ Valutazione sperimentale con due metodologie
diverse
3
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(1) Perché è importante
➔ Stimolare la comunità scientifica nell’individuazione di revisioni generate automaticamente◆ limitare diffusione di revisioni illecite
➔ Indagare su potenzialità di Natural Language Generation (NLG)◆ fornire strumenti utili in altri contesti
4
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(2) Perché è importante
➔ SCIgen: generatore di articoli scientifici
Articoli generati da SCIgen accettati da riviste e conferenze scientifiche!
Cosa potrebbe scatenare l’analogo di SCIgen nell’ambito delle revisioni nel peer review?
5
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Preparazione dataset
➔ Sono stati raccolti:◆ 48 articoli scientifici◆ 165 revisioni
➔ Pre-elaborazione del dataset:◆ Segmentazione di tutte le revisioni in singoli periodi
grammaticali e per ognuno di questi:● Applicazione di Named-Entity Recognition● Applicazione di Part Of Speech Tagging
6
}Fonti:● Open access journals
○ F1000Research○ Elifescience○ Openreview○ PeerJ
● Machine learning lab
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Baseline
➔ Si basa su catene di Markov di ordine 2◆ L’estrazione di una parola dipende dalle ultime 2
➔ Input◆ k: numero parole che si vogliono generare
➔ Output◆ Concatenazione delle k parole estratte,
separate da uno spazio
7
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Approccio proposto
➔ Idea di base:◆ utilizzare periodi grammaticali del dataset di altre
revisioni◆ sostituire termini specifici di tali periodi con
termini specifici estratti dall’articolo da revisionare
◆ selezionare solo i periodi coerenti col tipo di opinione/valutazione desiderata
8
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Sostituzione termini
➔ Sostituzione termini specifici◆ Scopo: adattare revisioni scritte per altri articoli all’
articolo da revisionare
➔ Termine specifico◆ Ruolo nella frase (POS, NER)◆ Frequenza
9
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Sostituzione termini: esempio
10
ArticoloAutomatic Synthesis of Regular Expressions from Examples
Revisone ...the problem has a multiobjective nature, we want a regular expression able to…
ArticoloPre-hospital delay in Vietnamese patients hospitalized with a first acute myocardial infarction: A short report
Revisone ...the problem has a myocardial nature, we want a middle cause able to…
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Sentiment analysis
➔ Come selezionare solo i periodi coerenti col tipo di opinione/valutazione desiderata?◆ Controllo di sentiment analysis con tool già pronto, pre-tarato
➔ Esempi di periodi◆ positivo:
Your new approach is valid and well compared with existing ones.
◆ neutro:What other data do we want to collect?
◆ negativo:The paper fails to meet standards of scientific dissemination.
11
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Ottimizzazione 1: composizione
➔ Costruzione di nuovi periodi a partire da porzioni di testo estratte da più periodi◆ Parti del discorso coinvolte: sintagmi nominali, verbi,
proposizioni subordinate
◆ Method section - Sample - more detail is needed about...
◆ This is a very important piece of...
◆ ...the relationship the results with...
Method section is the results.
12
SimpleNLG
S V C
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Ottimizzazione 2: ordinamento
➔ Ordinare i periodi di una revisione secondo l’ordinamento tipico delle revisioni scritte da esseri umani
➔ Effettuato mediante classificatore Stanford NLP➔ Tre classi di periodi: iniziale, centrale e finale
➔ Esempio:The reporting has been done clearly and meets the standards of the journal. Topic has been introduced sufficiently and can guide readers on what to expect from the rest of the work. Validity of the findings: The Result & Discussion sections are acceptable.
Periodi: iniziale, centrale, finale.
13
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Valutazione sperimentale
➔ Scopo◆ Valutare l’efficacia delle soluzioni proposte
➔ Effettuata in due diversi modi◆ Intrinseca◆ EstrinsecaEntrambe con impiego di soggetti umani
➔ Valutatori suddivisi in tre classi◆ “esperti”◆ “medi”◆ “inesperti”
14
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(1) Valutazione sperimentale intrinseca
➔ Schede contenenti un articolo e dieci revisioni sottoposte ai valutatori◆ Ogni articolo
● Titolo e abstract◆ Per ogni revisione
● Domanda 1: “è scritta da un essere umano per questo articolo?” Sì/No
● Domanda 2: “che tipo di opinione esprime?” Positiva/Neutra/Negativa
➔ Revisioni generate e scritte da esseri umani con ordine random
15
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(2) Valutazione sperimentale intrinseca
16
C1 metodo 1
C2 metodo 2
C3 metodo 3
C4 metodo 4
C5 baseline
C6 scritta da revisore umano per quell’articolo
C7 scritta da revisore umano per altro articolo
Numero valutatori per classe: “esperti”: 8 “medi”: 3 “inesperti”: 5
Totale revisioni valutate: 495
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(1) Valutazione sperimentale estrinseca
➔ Schede contenenti un articolo e tre revisioni sottoposte ai valutatori◆ Ogni articolo
● Titolo◆ Per ogni articolo
● Domanda 1: “che decisione prendi per questo articolo?” Accept/Reject
● Domanda 2: “ordina le revisioni da 1 a 3 secondo quanto ti hanno influenzato nella scelta”
➔ Revisioni generate dal metodo 2 e scritte da esseri umani con ordine random
17
F > O & G F è più influente di O e di G
F > G F è più influente di G
RF & !RGraccomandazione dell’utente concorde con F e discorde da almeno una G
F >> F è la più influente
O >> O è la più influente
G >> G è la più influente
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
(2) Valutazione sperimentale estrinseca
18
Numero valutatori per classe: “esperti”: 6 “medi”: 3 “inesperti”: 3
Totale schede valutate: 98 (294 revisioni)
Notazione: F: generata dal metodo 2 O: scritta da revisore umano per altro articolo G: scritta da revisore umano per quell’articolo
Matteo Figelj (DIA - UniTs)
Generazione automatica di revisioni per articoli scientifici
Conclusioni
➔ Valutazione intrinseca◆ opinione è trasmessa meglio dal metodo 1 che dalle
revisioni scritte da esseri umani
➔ Valutazione estrinseca◆ nel 15% dei casi si riesce a sovvertire l’opinione di un
esperto con una revisione generata
➔ Limitazione: ci si auspica un miglioramento con un dataset di dimensioni maggiori
19
top related