tutorial básico de minería de datos

Tutorial básico de minería de datosSQL Server 2014 Otras versiones

Este es el Tutorial básico de minería de datos de Microsoft Analysis Services. Microsoft SQL Server proporciona un entorno integrado para crear modelos de minería de datos y realizar predicciones. En este tutorial, completará un escenario de una campaña de envío de correo directo en el que se utiliza aprendizaje automático para analizar y predecir el comportamiento de compra de los clientes. En el tutorial se muestra cómo utilizar tres de los algoritmos más importantes de minería de datos: agrupación en clústeres, árboles de decisión y Bayes Naive. También aprenderá a analizar los hallazgos con los visores de modelo de minería de datos, y crear predicciones y gráficos de precisión con las herramientas de minería de datos que se incluyen en Microsoft SQL Server Analysis Services. La compañía ficticia, Adventure Works Cycles, se utiliza en todos los ejemplos.

Cuando se sienta cómodo con el uso de las herramientas de minería de datos, se recomienda que complete también el Tutorial intermedio de minería de datos (Analysis Services - Minería de datos). En las lecciones se muestra cómo utilizar el pronóstico, análisis de la cesta de compras, series temporales, modelos de asociación, tablas anidadas y clústeres de secuencia.

Escenario del tutorial

En este tutorial, será un empleado de Adventure Works Cycles con la tarea de obtener más información sobre los clientes de la compañía basándose en el historial de compras y utilizando a continuación ese datos históricos para realizar predicciones que se puedan utilizar en el mercado. La compañía no ha trabajado previamente con minería de datos, por lo que debe crear una nueva base de datos específica para minería de datos y configurar varios modelos de minería de datos.

Aprendizaje

Este tutorial le enseña a crear diferentes tipos de métodos de aprendizaje automático y a trabajar con ellos. También aprenderá a crear una copia de un modelo de minería de datos y aplicar un filtro a los datos de entrada para obtener resultados diferentes. Después, puede comparar los resultados de ambos modelos mediante un gráfico de elevación. Por último, utilizará la obtención de detalles para recuperar datos adicionales de la estructura de minería de datos subyacente.

La minería de datos de Microsoft Analysis Services incluye las siguientes características que ayudan con facilidad a desarrollar y comparar varios modelos predictivos y a tomar medidas posteriormente en función de los resultados:

Conjuntos de pruebas de datos de exclusión: al crear una estructura de minería de datos, ahora puede dividir los datos de la estructura en conjuntos de prueba y de entrenamiento. Esto permite probar modelos en conjuntos de datos similares y comparar la precisión de los modelos relacionados.

Filtros de modelo de minería de datos: ahora puede adjuntar filtros a un modelo de minería de datos y aplicar el filtro durante el entrenamiento y las pruebas. Esto permite con facilidad generar modelos relacionados en diferentes subconjuntos de datos.

Obtención de detalles para casos de estructura y columnas de estructura: ahora puede cambiar fácilmente de los patrones generales del modelo de minería de datos al detalle procesable en el origen de datos.

El tutorial está compuesto por las lecciones siguientes:

Lección 1: Preparar la base de datos de Analysis Services (tutorial básico de minería de datos)

En esta lección, aprenderá a crear una nueva base de datos de Analysis Services, agregar un origen de datos y una vista del origen de datos, y preparar la nueva base de datos que se va a utilizar para la minería de datos.

Lección 2: Generar una estructura de distribución de correo directo (Tutorial básico de minería de datos)

En esta lección, aprenderá a crear una estructura de modelos de minería de datos que se puede utilizar como parte de un escenario de distribución de correo directo.

Lección 3: Agregar y procesar los modelos

En esta lección obtendrá información sobre cómo agregar modelos a una estructura. Los modelos que crea se generan con los algoritmos siguientes:

Árboles de decisión de Microsoft Agrupación en clústeres de Microsoft

Bayes naive de Microsoft

Lección 4: Explorar los modelos de correo directo (tutorial básico de minería de datos)

En esta lección obtendrá información sobre cómo explorar e interpretar los hallazgos de cada modelo usando los visores.

Lección 5: Probar los modelos (Tutorial básico de minería de datos)

En esta lección, realiza una copia de uno de los modelos de distribución de correo directo, agrega un filtro de modelo de minería de datos para restringir los datos de entrenamiento a un conjunto determinado de clientes y, a continuación, evalúa la viabilidad del modelo.

Lección 6: Crear y trabajar con predicciones (Tutorial básico de minería de datos)

En esta lección final del Tutorial básico de minería de datos, utiliza el modelo para predecir qué clientes tienen más probabilidad de comprar una bicicleta. A continuación, obtendrá detalles de los casos subyacentes para conseguir información de contacto.

Requisitos

Asegúrese de que los siguientes componentes estén instalados:

Microsoft SQL Server 2014 Microsoft SQL Server Analysis Services en modo multidimensional La base de datos AdventureWorksDW2012

Con objeto de mejorar la seguridad, las bases de datos de ejemplo no se instalan con SQL Server. Para instalar las bases de datos oficiales para Microsoft SQL Server, visite la página Bases de datos de ejemplo de Microsoft SQL y seleccione SQL Server 2014.

Lección 1: Preparar la base de datos de Analysis Services (tutorial básico de minería de datos)SQL Server 2014

Otras versiones

Suponga que es un nuevo empleado de Adventure Works Cycles que se le ha encargado la tarea de diseñar una aplicación de Business Intelligence en SQL Server 2014. Adventure Works Cycles espera aprovechar su experiencia en minería de datos de Analysis Services para detectar información interesante y procesable sobre las personas que han comprado bicicletas. Quieren que prevea qué clientes tienen más probabilidad de comprar una bicicleta en el futuro.

El diseño de esta aplicación de SQL Server se inicia con la creación en SQL Server Data Tools (SSDT) de un proyecto de SQL Server Analysis Services basado en la plantilla de proyecto de Analysis Services para el modelado multidimensional y la minería de datos. Después de crear un proyecto de Analysis Services, tiene que definir uno o varios orígenes de datos. A continuación, definirá una sola vista de los metadatos denominada vista del origen de datos, a partir de las tablas y vistas seleccionadas en los orígenes de datos.

En esta lección, creará un proyecto de Analysis Services, definirá un solo origen de datos y agregará un subconjunto de tablas a una vista del origen de datos. Esta lección incluye las tareas siguientes:

Crear un proyecto de Analysis Services (Tutorial básico de minería de datos)

Crear un origen de datos (Tutorial básico de minería de datos)

Crear una vista del origen de datos (Tutorial básico de minería de datos)

Primera tarea de la lección

Crear un proyecto de Analysis Services (Tutorial básico de minería de datos)

Lección siguiente

Lección 2: Generar una estructura de distribución de correo directo (Tutorial básico de minería de datos)

Crear un proyecto de Analysis Services (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

https://msdn.microsoft.com/es-pe/library/ms170027.aspx






Cada proyecto de Microsoft SQL Server Analysis Services define los objetos de una sola base de datos de Analysis Services. Una base de datos de Analysis Services puede contener muchos tipos diferentes de objetos

Modelos multidimensionales (cubos) Estructuras de minería de datos y modelos de minería de datos Objetos auxiliares como orígenes de datos, vistas del origen de datos y

ensamblados personalizados

Tenga en cuenta que no se necesita un cubo para realizar tareas de minería de datos. Si necesita realizar minería de datos en un cubo existente, debe agregar los modelos de minería de datos al mismo proyecto que utilizó para generar el cubo. Sin embargo, para la mayoría de los fines se pueden generar los modelos en orígenes de datos relacionales, como un almacenamiento de datos, y obtener mejor rendimiento si no se emplea un cubo.

En este tutorial utilizará un almacenamiento de datos relacional, AdventureWorksDW2012 , como origen de datos. Implementará todos los objetos de minería de datos en una base de datos de Analysis Services denominada BasicDataMining, que se utiliza solamente para minería de datos.

De forma predeterminada, Analysis Services usa la instancia localhost para los proyectos nuevos. Si está utilizando una instancia con nombre o un servidor diferente, debe crear y abrir el proyecto primero y, a continuación, cambiar el nombre de instancia.

Para obtener más información acerca de los proyectos de Analysis Services, vea Crear un proyecto de Analysis Services.

Para crear un proyecto de Analysis Services

1. Abra SQL Server Data Tools (SSDT). 2. En el menú Archivo, seleccione Nuevo y haga clic en Proyecto. 3. Compruebe que la opción Proyectos de Business Intelligence esté seleccionada

en el panel Tipos de proyecto. 4. En el panel Plantillas, seleccione Proyecto multidimensional y de minería de

datos de Analysis Services. 5. En el cuadro Nombre, asigne al nuevo proyecto el nombre BasicDataMining. 6. Haga clic en Aceptar.

Para cambiar la instancia donde se almacenan los objetos de minería de datos

1. En SQL Server Data Tools (SSDT), en el menú Proyecto, seleccione Propiedades.

2. En el lado izquierdo del panel Páginas de propiedades, en Propiedades de configuración, haga clic en Implementación.

3. En el lado derecho del panel Páginas de propiedades, en Destino, compruebe que el nombre de Servidor es localhost. Si usa una instancia diferente, escriba el nombre de la instancia. Haga clic en Aceptar.



Crear un origen de datos (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

Un origen de datos es una conexión de datos guardada y administrada en el proyecto e implementada en la base de datos de Microsoft SQL Server Analysis Services. El origen de datos contiene los nombres del servidor y la base de datos donde residen los datos de origen, además de otras propiedades de conexión necesarias.

Importante

El nombre de la base de datos es AdventureWorksDW2012 . Si aún no ha instalado esta base de datos, vea la página de Bases de datos de ejemplo de Microsoft SQL. Para crear un origen de datos

1. En el Explorador de soluciones, haga clic con el botón secundario en la carpeta Orígenes de datos y seleccione Nuevo origen de datos.

2. En la página de inicio del Asistente para orígenes de datos, haga clic en Siguiente.

3. En la página Seleccionar cómo definir la conexión, haga clic en Nueva para agregar una conexión a la base de datos de AdventureWorksDW2012 .

4. En la lista Proveedor del Administrador de conexiones, seleccione OLE DB nativo\SQL Server Native Client 11.0.

5. En el cuadro Nombre del servidor, escriba o seleccione el nombre del servidor en el que instaló AdventureWorksDW2012 .

Por ejemplo, escriba localhost , si la base de datos se hospeda en el servidor local.

6. En el grupo Iniciar sesión en el servidor, seleccione Utilizar autenticación de Windows.

Importante

Siempre que sea posible, los implementadores deberían utilizar la autenticación de Windows, ya que proporciona un método de autenticación más seguro que la autenticación de SOL Server. Sin embargo, la autenticación de SQL Server se proporciona por motivos de compatibilidad con versiones anteriores. Para obtener más información acerca de los métodos de autenticación, vea Configuración del motor de base de datos - Aprovisionamiento de cuentas.

7. En la lista Seleccione o escriba un nombre de base de datos, seleccione AdventureWorksDW2012 y haga clic en Aceptar.

https://msdn.microsoft.com/es-pe/library/cc281849.aspx

http://go.microsoft.com/fwlink/?LinkId=88417

8. Haga clic en Siguiente. 9. En la página Información de suplantación, haga clic en Utilizar la cuenta de

servicio y, a continuación, haga clic en Siguiente.

En la página Finalización del asistente, observe que de forma predeterminada el origen de datos se denomina Adventure Works DW 2012.

10. Haga clic en Finalizar.

El nuevo origen de datos, Adventure Works DW 2012, aparece en la carpeta Orígenes de datos del Explorador de soluciones.

Crear una vista del origen de datos (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

Una vista del origen de datos se genera en un origen de datos y define un subconjunto de los datos, que puede usar en las estructuras de minería de datos. También puede usar la vista del origen de datos para agregar columnas, crear columnas calculadas y agregados, y agregar vistas con nombre. Mediante el uso de vistas del origen de datos, puede seleccionar los datos relacionados con un proyecto, establecer relaciones entre tablas y modificar la estructura de los datos sin modificar el origen de datos original. Para obtener más información, vea Vistas del origen de datos en modelos multidimensionales.

Para crear una vista del origen de datos

1. En el Explorador de soluciones, haga clic con el botón secundario en Vistas del origen de datos y seleccione Nueva vista del origen de datos.

2. En la página Asistente para vistas del origen de datos, haga clic en Siguiente. 3. En la página Seleccionar un origen de datos, en Orígenes de datos relacionales,

seleccione el origen de datos Adventure Works DW 2012 que creó en la última tarea. Haga clic en Siguiente.

Nota

Si desea crear un nuevo origen de datos, haga clic con el botón secundario en Orígenes de datos y, a continuación, haga clic en Nuevo origen de datos para iniciar el Asistente para orígenes de datos.



4. En la página Seleccionar tablas y vistas, seleccione los objetos siguientes y, a continuación, haga clic en la flecha derecha para incluirlos en la nueva vista del origen de datos:

o ProspectiveBuyer (dbo): la tabla de compradores probables de una bicicleta

o vTargetMail (dbo): la vista de datos históricos sobre los compradores de una bicicleta en el pasado

5. Haga clic en Siguiente. 6. En la página Finalización del asistente, la vista del origen de datos tendrá el

nombre Adventure Works DW 2012 de forma predeterminada. Cambie el nombre por Targeted Mailing y, a continuación, haga clic en Finalizar.

La nueva vista del origen de datos se abre en la pestaña Targeted Mailing.dsv [Design].

Lección 2: Generar una estructura de distribución de correo directo (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

El departamento de marketing de Adventure Works Cycles desea aumentar las ventas dirigiendo una campaña de correo directo a clientes específicos. La base de datos de la empresa contiene una lista de clientes antiguos y otra de nuevos clientes potenciales. Mediante el análisis de los atributos de clientes anteriores, la empresa espera detectar los patrones que posteriormente se aplicarán a los clientes potenciales. Por ejemplo, pueden utilizan tendencias anteriores para predecir qué clientes potenciales tienen más probabilidades de comprar una bicicleta de Adventure Works Cycles, o crear segmentos de clientes para campañas de marketing futuras.

En esta lección utilizará el Asistente para minería de datos con el fin de crear la estructura de distribución de correo directo. Después de completar las tareas de esta lección, tendrá una estructura de minería de datos con un modelo sencillo. Dado que la creación de una estructura conlleva muchos pasos y conceptos importantes, hemos separado este proceso en las tres tareas siguientes:

Crear una estructura del modelo de minería de datos de distribución de correo directo (Tutorial básico de minería de datos)

Especificar el tipo de datos y el tipo de contenido (Tutorial básico de minería de datos)




Especificar un conjunto de datos de pruebas para la estructura (Tutorial básico de minería de datos)

Crear una estructura del modelo de minería de datos de distribución de correo directo (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en usar el Asistente para minería de datos de SQL Server Data Tools (SSDT) con el fin de crear una estructura de minería de datos y un modelo de minería de datos de árbol de decisión.

En esta tarea configurará una nueva estructura de minería de datos y agregará un modelo de minería de datos inicial basándose en el algoritmo de Árboles de decisión de Microsoft. Para crear la estructura, primero seleccionará las tablas y las vistas, y a continuación identificará qué columnas se usarán para el entrenamiento y cuáles para las pruebas.

Para crear una estructura de minería de datos para un escenario de distribución de correo directo

1. En el Explorador de soluciones, haga clic con el botón secundario en Estructuras de minería de datos y seleccione Nueva estructura de minería de datos para iniciar el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.

3. En la página Seleccionar el método de definición, compruebe que la opción A partir de una base de datos relacional o del almacenamiento de datos se ha seleccionado y, a continuación, haga clic en Siguiente.

4. En la página Crear la estructura de minería de datos, en ¿Qué técnica de minería de datos desea utilizar?, seleccione Árboles de decisión de Microsoft.

Nota

Si aparece una advertencia de que no se puede encontrar ningún algoritmo de



minería de datos, puede que las propiedades del proyecto no estén configuradas correctamente. Esta advertencia se produce cuando el proyecto intenta recuperar una lista de algoritmos de minería de datos del servidor de Analysis Services y no puede encontrarlo. De forma predeterminada, SQL Server Data Tools utilizará el host local como servidor. Si está utilizando una instancia diferente o una instancia con nombre, debe cambiar las propiedades del proyecto. Para obtener más información, vea Crear un proyecto de Analysis Services (Tutorial básico de minería de datos).

5. Haga clic en Siguiente. 6. En la página Seleccionar vista del origen de datos, en el panel Vistas del origen

de datos disponibles, seleccione Targeted Mailing. Puede hacer clic en Explorar para ver las tablas de la vista del origen de datos y, a continuación, hacer clic en Cerrar para volver al asistente.

7. Haga clic en Siguiente. 8. En la página Especificar tipos de tablas, active la casilla de la columna Caso,

correspondiente a vTargetMail para usarla como tabla de casos y, a continuación, haga clic en Siguiente. Utilizará la tabla ProspectiveBuyer posteriormente para pruebas; olvídese de ella por ahora.

9. En la página Especificar los datos de aprendizaje, identificará al menos una columna de predicción, una columna de clave y una columna de entrada para el modelo. Active la casilla de la columna De predicción en la fila BikeBuyer.

Nota

Observe la advertencia en la parte inferior de la ventana. No podrá navegar a la página siguiente hasta que seleccione una columna De predicción y Entrada, como mínimo.

10. Haga clic en Sugerir para abrir el cuadro de diálogo Sugerir columnas relacionadas.

El botón Sugerir está habilitado siempre que se haya seleccionado al menos un atributo predecible. El cuadro de diálogo Sugerir columnas relacionadas enumera en una lista las columnas más relacionadas con la columna predecible y ordena los atributos por su correlación con el atributo predecible. Las columnas con una correlación significativa (con una confianza mayor del 95%) se seleccionan automáticamente para incluirse en el modelo.

Revise las sugerencias y, a continuación, haga clic en Cancelar paraomitirlas.

Nota

Si hace clic en Aceptar, todas las sugerencias enumeradas se marcarán como columnas de entrada en el asistente. Si está de acuerdo con solamente algunas de las sugerencias, debe cambiar los valores manualmente.

11. Compruebe que la casilla de la columna Key está seleccionada en la fila CustomerKey.



Nota

Si la tabla de origen de la vista del origen de datos muestra una clave, el Asistente para minería de datos elegirá automáticamente esa columna como clave para el modelo.

12. Active las casillas de la columna Entrada en las filas siguientes. Puede activar varias columnas resaltando un rango de celdas y presionando CTRL mientras activa una casilla.

o Age o CommuteDistance o EnglishEducation o EnglishOccupation o Gender o GeographyKey o HouseOwnerFlag o MaritalStatus o NumberCarsOwned o NumberChildrenAtHome o Region o TotalChildren o YearlyIncome

13. En la columna izquierda de la página, active las casillas de las filas siguientes. o AddressLine1 o AddressLine2 o DateFirstPurchase o EmailAddress o FirstName o LastName

Asegúrese de que estas filas solo tienen marcas en la columna izquierda. Estas columnas se agregarán a la estructura, pero no se incluirán en el modelo. Sin embargo, una vez generado el modelo, estarán disponibles para la obtención de detalles y las pruebas. Para obtener más información acerca de la obtención de detalles, vea Consultas de obtención de detalles (minería de datos).

14. Haga clic en Siguiente.

Especificar el tipo de datos y el tipo de contenido (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

https://msdn.microsoft.com/es-pe/library/bb895170.aspx

Ahora que ha seleccionado qué columnas utilizar para generar la estructura y entrenar los modelos, realice los cambios necesarios en los datos predeterminados y tipos de contenido que establece el asistente.

Revisar y modificar el tipo de contenido y el tipo de datos de cada columna

1. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic en Detectar para ejecutar un algoritmo que determine los tipos de contenido y los datos predeterminados de cada columna.

2. Revise las entradas de las columnas Tipo de contenido y Tipo de datos, y cámbielas si es necesario para asegurarse de que la configuración es igual que la que se muestra en la tabla siguiente.

Normalmente, el asistente detectará números y asignará un tipo de datos numérico adecuado, pero hay varias situaciones en las que podría desear tratar un número como texto. Por ejemplo, GeographyKey se debería tratar como texto, porque no sería apropiado realizar operaciones matemáticas en este identificador.

Columna Tipo de contenido Tipo de datos Address Line1 Discreto Text Address Line2 Discreto Text Age Continuo Long Bike Buyer Discreto Long Commute Distance Discreto Text CustomerKey Clave Long DateLastPurchase Continuo Date Email Address Discreto Text English Education Discreto Text English Occupation Discreto Text FirstName Discreto Text Gender Discreto Text Geography Key Discreto Text House Owner Flag Discreto Text Last Name Discreto Text Marital Status Discreto Text Number Cars Owned Discreto Long Number Children At Home Discreto Long Region Discreto Text Total Children Discreto Long Yearly Income Continuo Double

3. Haga clic en Siguiente.

Especificar un conjunto de datos de pruebas para la estructura (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

En las pantallas finales del Asistente para minería de datos dividirá los datos en un conjunto de pruebas y en un conjunto de entrenamiento. Después, asignará nombre a la estructura y habilitará la obtención de detalles en el modelo.

Especificar un conjunto de pruebas

Al separar los datos en conjuntos de entrenamiento y de pruebas cuando se crea una estructura de minería de datos, es posible evaluar fácilmente la precisión de los modelos de minería de datos que se crean después. Para obtener más información sobre los conjuntos de pruebas, vea Conjuntos de datos de entrenamiento y de prueba.

Para especificar el conjunto de pruebas

1. En la página Crear conjunto de pruebas, en Porcentaje de datos para pruebas, deje el valor predeterminado 30.

2. En Número máximo de casos en el conjunto de datos de prueba, escriba 1000. 3. Haga clic en Siguiente.

Especificar la obtención de detalles

La obtención de detalles puede habilitarse en los modelos y en las estructuras. La casilla de este cuadro de diálogo habilita la obtención de detalles en el modelo con nombre. Una vez procesado el modelo, podrá recuperar información detallada de los datos de entrenamiento usados para crear el modelo.

Si la estructura de minería de datos subyacente también se ha configurado para permitir la obtención de detalles, puede recuperar información detallada tanto de los casos de modelos como de la estructura, incluidas las columnas que no estaban incluidas en el modelo de minería de datos. Para obtener más información, vea Consultas de obtención de detalles (minería de datos).




Para denominar el modelo y la estructura, y especificar la obtención de detalles

1. En la página Finalización del asistente, en Nombre de la estructura de minería de datos, escriba Targeted Mailing.

2. En Nombre del modelo de minería de datos, escriba TM_Decision_Tree. 3. Active la casilla Permitir obtención de detalles. 4. Revise el panel Vista previa. Observe que se muestran solo las columnas

seleccionadas como Clave, Entrada o De predicción. Las otras columnas que seleccionó (por ejemplo, AddressLine1) no se usan para generar el modelo, pero estarán disponibles en la estructura subyacente y se pueden consultar una vez procesado e implementado el modelo.

5. Haga clic en Finalizar.

Lección 3: Agregar y procesar los modelosSQL Server 2014

Otras versiones

La estructura de minería de datos que creó en la lección anterior contiene un modelo de minería de datos individual que se basa en el algoritmo de árboles de decisión de Microsoft. Puede usar este modelo para identificar clientes para la campaña de envío de correo directo. Sin embargo, para asegurarse de que el análisis es detallado, se suelen crear modelos relacionados usando algoritmos diferentes y comparar sus resultados. De esta manera, puede obtener diferentes puntos de vista. Por consiguiente, creará dos modelos adicionales y luego los procesará e implementará.

En esta lección, creará un conjunto de modelos de minería de datos que sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista de clientes potenciales.

Para completar las tareas de esta lección, utilizará el Algoritmo de clústeres de Microsoft y el Algoritmo Bayes naive de Microsoft.

Esta lección contiene las tareas siguientes:

Agregar modelos nuevos a la estructura de correo de destino (tutorial básico de minería de datos)

Procesar los modelos de la estructura de distribución de correo directo (Tutorial básico de minería de datos)








Agregar modelos nuevos a la estructura de correo de destino (tutorial básico de minería de datos)SQL Server 2014

Otras versiones

En esta tarea, definirá dos modelos adicionales mediante la pestaña Modelos de minería de datos del Diseñador de minería de datos. Para crear los modelos, se usarán el algoritmo Bayes naive y el algoritmo de clústeres de Microsoft. Estos dos algoritmos se han seleccionado debido a su capacidad de predecir un valor discreto (por ejemplo, la compra de una bicicleta). Para obtener más información sobre estos algoritmos, vea Algoritmo de clústeres de Microsoft y Algoritmo Bayes naive de Microsoft.

Para crear un modelo de minería de datos de agrupación en clústeres

1. Cambie a la pestaña Modelos de minería de datos del Diseñador de minería de datos en SQL Server Data Tools (SSDT).

Observe que el diseñador muestra dos columnas: una para la estructura de minería de datos y otra para el modelo de minería de datos TM_Decision_Tree, que creó en la tarea anterior de esta lección.

2. Haga clic con el botón secundario en la columna Estructura y seleccione Nuevo modelo de minería de datos.

3. En el cuadro de diálogo Nuevo modelo de minería de datos, en Nombre del modelo, escriba TM_Clustering.

4. En Nombre del algoritmo, seleccione Agrupación en clústeres de Microsoft. 5. Haga clic en Aceptar.

Ahora aparece el modelo nuevo en la pestaña Modelos de minería de datos del Diseñador de minería de datos. Este modelo, integrado con el algoritmo de clústeres de Microsoft, agrupa los clientes con características similares en clústeres y predice la compra de una bicicleta en cada clúster. Aunque puede modificar el uso y las propiedades de la columna para el modelo nuevo, en este tutorial no es necesario hacer cambios en el modelo TM_Clustering.

Para crear un modelo de minería de datos Bayes naive

1. En la pestaña Modelos de minería de datos del Diseñador de minería de datos, haga clic con el botón secundario enla columna Estructura y seleccione Nuevo modelo de minería de datos.

2. En el cuadro de diálogo Nuevo modelo de minería de datos, en Nombre del modelo, escriba TM_NaiveBayes.

3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y haga clic en Aceptar.



Aparece un mensaje que indica que el algoritmo Bayes naive de Microsoft no admite las columnas Age y Yearly Income, que son continuas.

4. Haga clic en Sí para confirmar el mensaje y continuar.

Aparece un modelo nuevo en la pestaña Modelos de minería de datos del Diseñador de minería de datos. Aunque puede modificar el uso y las propiedades de las columnas para todos los modelos de la pestaña, en este tutorial no es necesario hacer cambios en el modelo TM_NaiveBayes.

Procesar los modelos de la estructura de distribución de correo directo (Tutorial básico de minería de datos)SQL Server 2014

Otras versiones

Para poder examinar o trabajar con los modelos de minería de datos que ha creado, se debe implementar el proyecto de Analysis Services y procesar la estructura y los modelos de minería de datos.

En la implementación se envía el proyecto a un servidor y se crean en el servidor los objetos de ese proyecto.

El procesamiento rellena objetos de Analysis Services con datos procedentes de orígenes de datos relacionales.

Los modelos no se pueden utilizar hasta que se hayan implementado y procesado. Además, cuando se realiza cualquier cambio en el modelo, como agregar datos nuevos, se debe volver a implementar y procesar los modelos.

Asegurarse de la coherencia con HoldoutSeed

Al implementar un proyecto y procesar la estructura y los modelos, a las filas individuales de la estructura de datos se les asigna el conjunto de entrenamiento o el conjunto de pruebas según un valor de inicialización numérico. De forma predeterminada, el valor de inicialización numérico se calcula en función de los atributos de la estructura de datos. Sin embargo, si alguna vez cambia algunos aspectos del modelo, el valor de inicialización cambiaría, lo que produciría resultados ligeramente diferentes. Por tanto, para asegurarse de que los resultados son los mismos que los descritos aquí, asignaremos arbitrariamente un valor de inicialización de exclusión fijo de 12. El valor de inicialización de exclusión se utiliza para inicializar el

algoritmo de muestreo y garantiza que los datos se reparten aproximadamente de la misma manera para todas las estructuras de minería de datos y sus modelos.

Este valor no afecta al número de casos del conjunto de entrenamiento; simplemente garantiza que se usará el mismo método de partición siempre que se genere el modelo.

Para obtener más información sobre valor de inicialización de exclusión, vea Conjuntos de datos de entrenamiento y de prueba.

Para establecer el valor de inicialización de exclusión

1. Haga clic en la pestaña Estructura de minería de datos o Modelos de minería de datos en el Diseñador de minería de datos de SQL Server Data Tools (SSDT).

Estructura de minería de datos Targeted Mailing aparece en el panel Propiedades.

2. Asegúrese de que el panel Propiedades está abierto presionando F4. 3. Asegúrese de que CacheMode está establecido en KeepTrainingCases. 4. Escriba 12 en HoldoutSeed.

Implementar y procesar los modelos

En el Diseñador de minería de datos, puede decidir qué objetos procesar, según el ámbito de los cambios que ha realizado en el modelo o en los datos subyacentes:

En esta tarea, puesto que los datos y los modelos son nuevos, procesará la estructura y todos los modelos al mismo tiempo.

Para implementar el proyecto y procesar todos los modelos de minería de datos

1. En el menú Modelo de minería de datos , seleccione Procesar estructura de minería de datos y todos los modelos.

Si ha realizado cambios en la estructura, se le pedirá que genere e implemente el proyecto antes de procesar los modelos. Haga clic en Sí.

2. En el cuadro de diálogo Procesando estructura de minería de datos: Targeted Mailing, haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar los detalles del procesamiento del modelo. El procesamiento del modelo podría tardar algún tiempo, según el equipo.

3. Haga clic en Cerrar en el cuadro de diálogo Progreso del proceso cuando el procesamiento de los modelos se haya completado.



4. Haga clic en Cerrar en el cuadro de diálogo Procesando estructura de minería de datos - <estructura>.

tutorial básico de minería de datos

Documents