db learn

Upload: veronica-paulina-chimbo-coronel

Post on 02-Nov-2015

219 views

Category:

Documents


1 download

DESCRIPTION

Db Learn

TRANSCRIPT

  • 1

    UNIVERSIDAD NACIONAL DE LOJA

    Tema: Minera de Datos Integrantes:

    Diego Cale Vernica Chimbo Jinsop Campos

    Fecha: 19/07/2015 Mdulo: 10mo A

    DBLEARN

    1. Introduccin. La minera de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volmenes de informacin y el uso generalizado de herramientas informticas ha transformado el anlisis de datos orientndolos hacia determinadas tcnicas especializadas englobadas bajo el nombre de minera de datos o Data Mining. Las tcnicas de minera de datos persiguen el descubrimiento automtico del conocimiento contenido en la informacin almacenado de modo ordenado en grandes bases de datos. Estas tcnicas tienen como objetivo descubrir patrones, perfiles y tendencias a travs del anlisis de los datos utilizando tecnologas de reconocimiento de patrones, redes neuronales, lgica difusa, algoritmos genticos y otras tcnicas avanzadas de anlisis de datos. 2. Concepto. El sistema DBLearn fue diseado por Cai, Han y Cercone[2] y utiliza conocimientos del dominio para generar descripciones para subconjuntos predefinidos de una base de datos relacional. Las caractersticas especiales de este sistema son su estrategia de bsqueda de abajo hacia arriba (bottom up); el uso de conocimientos del dominio como jerarquas de valores de atributos y el uso del lgebra relacional. El conjunto de entrenamiento es una tabla de datos relacional con n-tuplas. El sistema DBLearn es relativamente simple, ya que utiliza solo dos operaciones de generalizacin para construir los descriptores. La generalizacin est orientada a los atributos, lo cual limita el conjunto de descriptores que pueden ser construidos. La performance del sistema es buena, y la complejidad en el tiempo est en el orden de los O(N logN), siendo N la cantidad inicial de tuplas. 3. Ventajas y Desventajas.

    DBLearn utiliza SQL en la tarea inicial para extraer los datos relevantes de la base de datos. En este sentido est dbilmente acoplado a un manejador de bases de datos relacional. Una vez se ha encontrado el conjunto de datos objetivo, se lleva a cabo un proceso de generalizacin orientado por atributos con base en una jerarqua

  • 2

    de conceptos de cada atributo. Finalmente, se extraen las reglas a partir de la generalizacin.

    Tienen un conjunto predefinido de algoritmos para realizar el proceso de descubrimiento, siendo esto una desventaja, ya que no existe un mtodo o un conjunto de mtodos que sirvan para todas las tareas, por lo que a veces es necesario probar para una determinada tarea, varios mtodos. Por ste motivo, una de las lneas de investigacin actual, consiste en crear Sistemas Extensibles. En donde Extensible significa que se puedan incluir nuevas herramientas sin exceso de programacin.

    4. Un lenguaje de aprendizaje de base de datos La generalizacin se puede realizar en muchas direcciones diferentes [5]. Aprendizaje sin restricciones puede resultar en un gran conjunto de reglas aprendidas. Por otra parte, diferentes reglas se pueden extraer de la misma serie de datos utilizando diferentes conocimientos de fondo (jerarquas conceptuales). Con el fin de limitar un proceso de generalizacin y extraer reglas interesantes de bases de datos, el aprendizaje debe ser dirigida por las solicitudes especficas de aprendizaje y conocimientos de fondo. Una solicitud de aprendizaje de base de datos debe consistir en: (i) una consulta de base de datos que extrae el conjunto relevante de datos, (ii) el tipo de reglas que hay que aprender (iii) la especificacin de la clase de destino, y posiblemente, las clases

    contrastantes dependiendo las reglas que hay que aprender (iv) las jerarquas de conceptos preferidos, y (v) la forma preferida para expresar los resultados de aprendizaje. El lenguaje de DBLEARN puede ser visto como una extensin del lenguaje SQL relacional para el descubrimiento de conocimiento en bases de datos. Ejemplo 1 . Nuestro objetivo es aprender una regla de la discriminacin que distingue Ph.D. estudiantes de EM estudiantes de ciencias basadas en el nivel de los cursos de ciencias en la que asisten. El aprendizaje implica tanto las relaciones del estudiante y Curso. La solicitud se especifica a;

    Tabla 1. Relacin de un estudiante con una base de datos de una universidad.

  • 3

    LENGUAJE DBLEARN.

    Fig 1. Lenguaje Dblearn

    en relacin Estudiante S , Curso C aprender regla discriminacin por sstatus = " Ph.D. " en contraste con ssrarus = " MS ". donde S.Major = "ciencia" y C.Dept = "ciencia" y c.TE = SName en relevancia para NivelC Observe que una consulta de base de datos est incrustado en la solicitud de aprendizaje, y "ciencia" es una pieza de datos generalizado que se puede encontrar en la tabla de concepto de jerarqua. Ejemplo 2. En la Tabla 1 se observa la relacin estudiante en la base de datos de una universidad Supongamos que la tarea de aprendizaje es aprender reglas caractersticas para estudiantes de posgrado relacionados con los atributos: Name, Major, Birth_Place and GPA, utilizando el presente concepto de jerarqua predeterminado en la Fig.1 y el valor umbral predeterminado de 3. La tarea de aprendizaje quedara representada en DBLEARN como sigue: in relation Student learn characteristic rule for Status = graduate in relevance to Name, Major, Birth_Place, GPA

    5. Los datos relevantes para el proceso de descubrimiento

    Una base de datos por lo general almacena una gran cantidad de datos, de que slo una porcin puede ser relevante para un aprendizaje especfica tarea. Por ejemplo, para caracterizar las caractersticas de estudiantes de posgrado en ciencias, slo los datos relevantes para egresados en ciencias son apropiados en el proceso de aprendizaje. Los datos pertinentes pueden extenderse durante varias relaciones. lA consulta puede ser utilizado para recoger los datos relevantes para la tarea de la base de datos.

    6. Aplicaciones que implementan esta herramienta. Para el soporte a la toma de decisiones se han desarrollado aplicaciones para el anlisis de la canasta de mercados, en donde el proceso consiste en examinar las ventas para identificar afinidades entre productos y los servicios de compra ofrecidos a un consumidor. Despus del anlisis se puede examinar en cuanto incrementaron las ventas de un determinado producto, dado que las ventas de otros disminuyeron.

  • 4

    Los resultados obtenidos en el anlisis de mercados, se pueden utilizar en la planeacin y organizacin del negocio, en operaciones de manufactura y distribucin, lanzamiento de promociones, entre otros. En el rea bancaria y de tarjetas de crdito: Deteccin de fraudes: Encontrar los patrones y tendencias de compra para

    detectar comportamientos fraudulentos en el momento de compras con tarjetas de crdito.

    Anlisis de morosidad o incumplimiento de pagos en los crditos: - Identificar los patrones especficos para predecir cundo y por qu los

    clientes no cumplen sus pagos. Segmentacin del mercado: Segmentar correctamente a los clientes en grupos

    con motivos promocionales o de evaluacin. - En el rea de telecomunicaciones:

    Control de fuga de clientes: Predecir que clientes probablemente cambien a otro proveedor en el futuro, basado en el uso y el perfil de clientes que ya se han cambiado. De esta manera se pueden realizar esfuerzos de mercadeo para mantener estos clientes.

    Control de redes: Identificar patrones de usos que permitan predecir usos futuros y determinen configuraciones ptimas de las redes.

    Deteccin de fraudes: Descubre los patrones asociados con comportamientos fraudulentos pasados para as identificar las razones de los fraudes presentes y futuros.

    Ventas cruzadas: Predecir qu clientes se pueden suscribir a productos y servicios (internet, video, larga distancia) basados en el uso y perfiles de clientes que ya utilizan estos servicios.

    7. Bibliografa.

    1. P. Agre and D. Chapman. PENGI: An implementation of the theory of activity. In Proceedings of the Sixth National Conference on Artificial Intelligence, pages 268 272, 1987. [ACF 94a] R. Agrawal, M. Carey, C. Faloutson, S. Ghosh, A. Houtsma, T. Imielinski, B. Iyer, A. Mahboob, H. Miranda, R. Srikant, and A. Swami. Quest: A project on database mining. SIGMOD Record (ACM Special Interest Group on Management of Data), 23(2):514514, June 1994.

    2. Y. Cai, N. Cercone and J. Han, Attribute-Oriented Induction in Relational Databases, in G. Piatetsky- Shapiro and W. J. Frawley (eds.), Knowledge Discovery in Databases, AAAIIMIT Press, 1991, 213-228.

    3. K. C. C. Chan and A. K. C. Wong, A Statistical Technique for Extracting Classificatory Knowledge from Databases, in G. Piatetsky-Shapiro and W. J. Frawley (eds.), Knowledge Discovery in Databases, AAAIIMIT Press, 1991,107-124.