tema ii.2: modelado y análisis de datos
Post on 02-Jul-2022
7 Views
Preview:
TRANSCRIPT
Tema II.2: Modelado y Análisis de datos
Maestría: Sistemas de Soporte para Toma de Decisiones
Contenido
• Datawarehouse
• Datamining
• Metodología
Objetivos: Identificar los modelos y los procedimientos para formulación y resolución de problemas de análisis de decisiones.Indice:
3. La Toma de Decisiones 4
En la vida real nos encontraremos con problemas del tipo:
• Tenemos que optar por una herramienta de desarrollo,
• Hay que seleccionar a un candidato para trabajar en nuestra empresa.
• Hay que decidirse por un examen de dos que coinciden en fecha y hora...
3. La Toma de Decisiones 5
Qué significa esto
• Como personas, tomamos decisiones constantemente.
• No todas las decisiones requieren de un proceso estricto. Puede ser que no este ni estructurada la situación.
• Si un ciempiés tuviese que decidir de forma no instintiva sus patas, no se movería.
Data Mining – Tradicionalmente"Data mining es la extracción de información implícita, previamente
desconocida y potencialmente útil desde los datos".
Witten & Frank (2000). Data Mining.
"La aplicación de algoritmos específicos para extraer patrones de datos, es una parte de descubrimiento de conocimiento de bases de datos"
Fayyad (1997). From data mining to knowledge discovery in databases.
Data Mining – Tradicionalmente
• Computer Science• (Semi-)automated application of
algorithms for pattern discovery
• Algorithms developed in the field of Artificial Intelligence (machine learning)
• Part of the process of knowledge discovery
• Statistics• Process of discovering patterns in
data
• (Manual) application of a series of statistical techniques (among which machine learning)
• Incorporates
• Exploration
• Sampling
• Modeling
• Validation
Data mining = Statistics + MarketingData mining = Statistics + Marketing
Data Mining –Fusion
“Una actividad de extracción de información cuyo objetivo es descubrir hechos ocultos contenidos en las bases de datos. Usando una combinación de máquina de aprendizaje, análisis estadísticos, modelos, técnicas y tecnología de base de datos, minería de datos encuentra patrones y sutiles relaciones de datos y deduce reglas que permiten la predicción de resultados futuros.“
Rudjer Boskovic Institute (2001). DMS Tutorial.
Proceso de Data Mining Process
•Estos algoritmos son sólo parte de un proceso que equipo científicos que descubrimiento de conocimiento y los estadísticos de la llaman minería de datos
•El proceso comienza con el reconocimiento de un problema y termina con el control de una solución desplegada en que todo
•El proceso debe ser apoyo para una aplicación exitosa
Datamart
• Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
• Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.
• Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts
Tipos DatamartDatamart OLAP
• Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.
Datamart OLTP
• Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).
Los datamart que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:
• Poco volumen de datos
• Mayor rapidez de consulta
• Consultas SQL y/o MDX sencillas
• Validación directa de la información
• Facilidad para la historización de los datos
Bases de datos OLTP y OLAP
OLTP - On-Line Transactional Processing
• Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.• El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura.
(Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).
• Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental...).
• Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).
• El historial de datos suele limitarse a los datos actuales o recientes.
Bases de datos OLTP y OLAP
OLAP - On-Line Analytical Processing
• Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc. Este sistema es típico de los datamarts.• El acceso a los datos suele ser de sólo lectura. La acción más común es la consulta, con
muy pocas inserciones, actualizaciones o eliminaciones.
• Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización.
• El historial de datos es a largo plazo, normalmente de dos a cinco años.
• Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL)
Datamining (Minería de datos)
• El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
• Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
• De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.
Etapas Datamining
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:• Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente
desea bajo la orientación del especialista en data mining.• Pre procesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento,
la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
• Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
• Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
Ejercicios
• Polución China
• Cata de Vinos
• Empresa de Telecomunicaciones
CRISP-DM
• CRISP-DM: Cross-Industry Standard Process for Data Mining
• Consortium effort involving:• NCR Systems Engineering Copenhagen
• DaimlerChrysler AG
• SPSS Inc.
• OHRA Verzekeringen en Bank Groep B.V
• History:• Version 1.0 released in 1999
• Version 2.0 being developed
• See www.crisp-dm.org for details
Phases of CRISP-DM
• Not linear, repeatedly backtracking
Fases y Tareas
BusinessUnderstanding
DataUnderstanding
DataPreparation
Modeling DeploymentEvaluation
FormatData
IntegrateData
ConstructData
CleanData
SelectData
DetermineBusiness
Objectives
ReviewProject
ProduceFinal
Report
Plan Monitering&
Maintenance
PlanDeployment
DetermineNext Steps
ReviewProcess
EvaluateResults
AssessModel
BuildModel
GenerateTest Design
SelectModelingTechnique
AssessSituation
ExploreData
DescribeData
CollectInitialData
DetermineData Mining
Goals
VerifyData
Quality
ProduceProject Plan
Tareas clave de DM?• Tareas clave DM cubiertas por una DB antigua de DM
son:
• Predictive Modeling (Classification)
• Segmentation (Clustering)
• Association (Data Summarization)
• Sequence and Deviation Analysis
• Dependency Modeling
Qué es XML for Analysis?
• XML for Analysis es un conjunto de Interfaces de mensaje XML que utiliza el estándar SOAP para definir los datos de acceso y de interacción entre una aplicación cliente y un proveedor de datos analíticos (OLAP y minería de datos) para trabajar por Internet.
History of XMLA
2000 2001 2002 2003
Hyperion & Microsoft Announce Co-Sponsorship of XMLA Specification
SAS Joins Council
First XMLA CouncilMeeting (creation of SIG teams)
Microsoft Releases SDK
Version 1.0 Released
Version 1.1 Released
Version 1.2 (TBD)
Apr Nov MayAprApr Sep
InterOperate Workshop I
InterOperate Workshop II
Mar
Second XMLA CouncilMeeting
1st Public XMLAInterOperabilityDemonstration(TDWI)
Model Statistics
• Elements
• UnivariateStatistics
• Attributes• Field
• Elements• Discrete Statistics
• Continuous Statistics
• Counts: Valid, Invalid and Missing counts
• NumericInfo: min/ max/ mean/ standard deviation/ median/ interQuartileDistance
Supported Data Mining Models
• Tree Model
• Neural Networks
• Clustering Model
• Regression Model
• General Regression Model
• Naïve Bayes Model
• Association Rules
• Sequence Rule Model
Sequence Model
• Representa la salida de secuencia DM
• Attributes• modelName
• functionName
• algorithmName
• numberOfTransactions
• minimumSupport
• minimumConfidence
• lengthLimit
• …..
• Elements• Sequence Rule
• Elements
• Antecedent Sequence
• sequenceReference
• Consequent Sequence
• Delimiter
• Sequence
• Elements
• SetReference
• Delimiter
• Set Predicate
• Array
Bibliografía
• Turban, Aronson, Liang, Decision Support System and Intelligent System 7th Ed, Prentice Hall,2007
• Gallagher, Watson, Métodos Cuantitativos Para la Toma de Decisiones en Administración, McGraw Hill, 2000
• Bierman, Bonini, Hausman, Análisis cuantitativo para la toma de decisiones, McGraw HIll, 2000
• Cohen, Asín, Sistemas de Información para la toma de Decisiones 3th Ed., McGraw HIll, 2002
• LAUDON, Kenneth C. y Jane, Sistemas de información gerencial, 12ª. Ed., México, Pearson, 2012
• Lluis Cano, Business Intelligence-Competir con Información, Banesto-ESADE, 2002.• García, Molina, Data Mining v5, U. Carlos III de Madrid, 2012• Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza
(SPSS), Thomas Reinartz, (DaimlerChrysler), Colin Shearer (SPSS) and RüdigerWirth (DaimlerChrysler) “CRISP-DM 1.0 - Step-by-step data mining guide”
top related