presentation 04 03 08 nicolas flavier
TRANSCRIPT
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Integration de connaissances au sein d’un Systemede Questions-Reponses en Chimie Organique
Nicolas Flavier
Laboratoire d’Informatique d’AvignonUniversite d’Avignon et des Pays du Vaucluse
-
Laboratoire de Chimie Organique de Synthese
Facultes Universitaires Notre-Dame de la Paix Namur
4 mars 2008
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 1/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Plan
1 Les systemes de questions-reponses
2 Integration de connaissances
3 Travail a venir
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 2/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
DefinitionPrincipe de fonctionnementEvaluation
Les Systemes de Questions-Reponses
6= moteurs de recherche documentaire
Question precise en langue naturelle
ex. : Quelle est l’equipe qui a marque le plus de buts pendantla coupe du monde ? au lieu de equipe buts coupe monde.
Reponse (ou liste de reponses candidates)
Campagnes d’evaluation
TREC (Question Answering track) 1
EQUER
NTCIR
CLEF
1VOORHEES E. M., « Overview of the TREC-9 Question Answering Track.», TREC, 2000.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 3/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
DefinitionPrincipe de fonctionnementEvaluation
Principe d’un systeme de questions-reponses
corpus↓
documents pertinents↓
passages pertinents↓
reponses candidates
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 4/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
DefinitionPrincipe de fonctionnementEvaluation
Selection de passages
Pour chaque mot de la question trouve dans un document, oncalcule la densite d’elements caracteristiques autour de celui-ci :
autres mots de la question
mots de la question etendue (synonymes, hyperonymes, etc.)
mots de la meme classe que des mots de la question
On choisit ensuite les passages autour d’elements de forte densite.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 5/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
DefinitionPrincipe de fonctionnementEvaluation
Extraction de reponses
determiner le type de la question
chercher dans les passages retenus une entite nommeecorrespondant au type de reponse attendu
autour de ces entites, on calcule un score de compacite desmots de la question
On selectionne ensuite les entites qui possedent la plus fortecompacite.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 6/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
DefinitionPrincipe de fonctionnementEvaluation
Evaluation
2 principales mesures :
Rappel
R =nb de docs pertinents retournes
nb de docs pertinents
→ s’ameliore en retournant plus de documents (generalisation,extension de la requete, etc.) mais augmente le bruit
Precision
P =nb de docs pertinents retournes
nb de docs retournes
→ amelioration : analyse et traitement de la question plus finsIl faut trouver le meilleur compromis entre les deux.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 7/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
1 Les systemes de questions-reponses
2 Integration de connaissancesInteret et modalitesProblemesBase terminologiqueSelection de passages
3 Travail a venir
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 8/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
Integration de connaissances
principal objectif : ameliorer le rappel ;
extension de la question (ajout de synonymes, d’hyperonymes,etc.) ;
indexation conceptuelle.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 9/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
Problemes de cette approche
→ elle necessite des ressources :
ontologie (requiert des experts/linguistes) ;
liste de termes specialise du domaine ;
dictionnaire de synonymes ;
bases de donnees chimiques (formules, reactions, etc.)
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 10/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
Base terminologique (glossaire)
caracteristiques
å ≈ 6500 termes
å possibilite d’entrer definitions, equivalents, contexte, classessemantiques
å multi-utilisateur, possibilite pour chacun de valider les termes
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 11/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
Selection de passages : resultats de l’approche generale
å ponderation 6= des mots de chimie
å pas encore de resultats chiffres
å exemple de resultats :
What is the heat of hydrogenation of benzene ?
thus it is possible to calculate such quantities as the heat of combustion or heatof hydrogenation of cyclohexatriene by assuming that it is a compound with nointeraction between the conjugated double bonds for example a very simplecalculation of the heat of hydrogenation for cyclohexatriene would be to multiplythe heat of hydrogenation of cyclohexene by 3 i e 3 x 28 6 = 85 8 kcal/mol
3 x 28 6 = 85 8 kcal/mol the actual heat of hydrogenation of benzene is 49 8
kcal/mol suggesting a total stabilization or delocalization energy of 36 0
kcal/mol there are other more elaborate ways of approximating the
thermodynamic properties of the hypothetical cyclohexatriene
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 12/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Interet et modalitesProblemesBase terminologiqueSelection de passages
Approche conceptuelle
extension de questions avec les concepts issus de l’ontologie
indexation conceptuelle
å manque une veritable ontologie
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 13/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Travail a venir
implementer l’approche conceptuelle dans la recherche depassages
affiner les ponderations
extraction de reponses
å utilisant aussi des connaissances
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 14/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Extraction de reponses
å necessite un corpus annote
å annotation automatique
å apprentissage : grande quantite de texte annoteå regles : lourd a mettre en oeuvre, requiert des experts
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 15/16
Les systemes de questions-reponsesIntegration de connaissances
Travail a venir
Et enfin....
Integration au sein d’une ”plate-forme” EnCOrE, couple ausysteme de resume automatique : en fonction de la question poseepar l’utilisateur, un reponse courte lui sera fournie ou un resume luisera propose.
Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 16/16