revista ticnews marzo 2015

Report

Post on 28-Jul-2015

96 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Algunas empresas han implementado unidades de minería de

datos estrechamente vinculados a la dirección de la empresa y

en los foros empresariales las sesiones dedicadas a la minería

de datos han sido las protagonistas.

La minería de datos se presenta como una disciplina nueva,

ligada a la Inteligencia Artificial.

La minería de datos ha sido considerada en su inicio como una

moda más, aparecida después de los sistemas expertos, y

conocida desde hace tiempo bajo el nombre de data fishing.

El datamining (minería de datos), es el conjunto de técnicas y

tecnologías que permiten explorar grandes bases de datos, de

manera automática o semiautomática, con el objetivo de

encontrar patrones repetitivos, tendencias o reglas que

expliquen el comportamiento de los datos en un determinado

contexto.

Básicamente, el datamining surge

para intentar ayudar a comprender el

contenido de un repositorio de datos.

Con este fin, hace uso de prácticas

estadísticas y, en algunos casos, de

algoritmos de búsqueda próximos a la

Inteligencia Artificial y a las Redes

Neuronales.

Los componentes esenciales de la tecnología de Minería de

Datos han estado bajo desarrollo por décadas, en áreas de

investigación como:

Estadísticas.

Inteligencia Artificial.

Aprendizaje de máquinas.

Etapas de la Minería de Datos.

Determinación de los objetivos:

Trata la delimitación de los objetivos que el cliente desea

bajo la orientación del especialista en data mining.

Preprocesamiento de los datos:

Se refiere a la selección, limpieza, enriquecimiento,

reducción y transformación de las bases de datos. Esta

etapa consume generalmente alrededor del setenta por

ciento del tiempo total de un proyecto de data mining.

Determinación del modelo:

Se comienza realizando

unos análisis estadísticos

de los datos, y después se

lleva a cabo una

visualización gráfica de los

mismos para tener una

primera aproximación.

Según los objetivos planteados y la tarea que debe

llevarse a cabo, pueden utilizarse algoritmos

desarrollados en diferentes áreas de la Inteligencia

Artificial.

Análisis de los resultados:

Verifica si los resultados obtenidos son coherentes y los

coteja con los obtenidos por los análisis estadísticos y de

visualización gráfica.

El cliente determina si son novedosos y si le aportan un

nuevo conocimiento que le permita considerar sus

decisiones.

Modelos de Minería de Datos.

La minería de datos temporales se refiere al análisis de grandes

conjuntos de datos secuenciales, entendiéndose éstos como

datos ordenados en relación a algún índice.

Las series temporales constituyen una clase concreta

secuencial, ya que en los registros dentro de la base de datos

están indexados u ordenados según el parámetro TIEMPO.

Una serie de tiempo es una secuencia de números reales que

representan medidas de una variable real en intervalos iguales

de tiempo.

Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos.

Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un

modelo de minería de datos.

Como ya se mencionó la minería de datos es el proceso

de detectar la información procesable de los conjuntos

grandes de datos.

Modelo de minería de

datos

Si la variable está definida sobre un conjunto numerable de

puntos temporales la serie temporal será discreta.

La minería de datos temporales reúne diversos tipos de tareas

aplicables a las series temporales.

Predicción: La predicción en series temporales se refiere

al pronóstico de valores futuros de la serie basados en las

observaciones pasadas. Para ello es necesario construir

un modelo de predicción sobre los datos.

Clasificación: Supone que cada una de ellas pertenece

a una de un conjunto finito de varias clases, en un número

predefinido, siendo el objetivo la determinación

automática de la categoría o clase correspondiente para

la secuencia dada.

Agrupación: Se realiza a partir de alguna medida de

similitud.

Búsqueda y recuperación: Búsqueda de secuencias en

base de datos grandes para encontrar y recuperar a partir

de ella, secuencias o sub - secuencias muy similares a la

secuencia dada.

Descubrimiento de patrones: Trata de detectar pautas

frecuentes de comportamiento en las secuencias de

datos.

Los modelos de series temporales de regresión crean modelos

de minería de datos para predecir columnas continuas como las

ventas de productos, en un escenario de previsión.

Estos modelos de serie temporal pueden incluir información

basada en algoritmos diferentes:

El algoritmo ARTxp, que se optimiza para la predicción a

corto plazo. se utiliza siempre para realizar el primer par

de predicciones. El algoritmo ARIMA se optimiza para la

predicciones a largo plazo.

Una mezcla de los algoritmos ARTxp y ARIMA. Tras el

primer par de predicciones, se utiliza una combinación de

ARIMA y ARTxp.

El aprendizaje consiste en reducir la cantidad de errores para el

en entrenamiento.

Aprendizaje supervisado:

Dispone un conjunto de patrones (CE) Conjunto de

entrada.

Realiza la identificación de

la mesa correspondiente

para nuevos patrones con

el menor error posible.

Aprendizaje no supervisado:

Toma conocidos

como auto -

asociativos.

No requieren un

etiquetado previo

de cada uno de los

patrones de

entrada.

Al final los grupos contienen patrones con características

lo más parecidos entre ellos y lo más distintivas posibles

con los patrones contenidos en otros grupos.

Aprendizaje semi - supervizado:

Combina las bases de las dos vertientes clásicas.

Parte de un conjunto pequeño de patrones de

entrenamiento que, progresivamente puede ir

ampliándose mediante el uso de un conjunto de nuevos

patrones sin etiquetar.

Uno de sus objetivos es aumentar el conocimiento

durante la fase de clasificación, permitiendo simplificar el

costoso proceso para obtener patrones etiquetados.

Reconocimiento Estadístico de Patrones: Usa

probabilidades y estadísticas, supone la existencia de

distribuciones de probabilidad para a partir de ellas hacer

el reconocimiento.

Reconocimiento Sintáctico de Patrones: Encuentra

relaciones estructurales, utilizando teoría de lenguajes

formales y construye una gramática que describe la

estructura de objetos.

Redes Neuronales: Dada una arquitectura, las red es

“entrenada” para entregar una respuesta cuando se le

presentan determinados valores.

La infraestructura de TI consiste en un conjunto de dispositivos

físicos y aplicaciones de software que se requieren para operar

toda la empresa.

Sin embargo, la infraestructura de TI también es un conjunto de

servicios a lo largo y ancho de la empresa, presupuestados por

la administración y que abarcan capacidades tanto humanas

como técnicas.

La infraestructura de TI en las organizaciones actuales es

consecuencia de más de 50 años de evolución de las

plataformas de cómputo.

Las cinco eras están constituidas por las máquinas electrónicas

de contabilidad, la computación con mainframes y

minicomputadoras de propósito general, las computadoras

personales, las redes cliente/servidor, y la computación

empresarial y de Internet.

Era de las máquinas electrónicas de contabilidad: 1930 -

1950

La primera era de la computación de negocios utilizaba

máquinas especializadas que podían clasificar tarjetas de

computadora en depósitos, acumular totales e imprimir informes

(Columbia University, 2004).

Aunque la máquina electrónica de contabilidad constituía un

eficiente procesador de tareas contables, era demasiado grande

e incómoda.

Era de los mainframes y las minicomputadoras de propósito

general: 1959 a la fecha

Las primeras computadoras comerciales con tubos de vacío

electrónicos aparecieron a principios de 1950 con la introducción

de las computadoras UNIVAC y la Serie700 de IBM.

No fue sino hasta 1959, con la introducción de las máquinas de

transistores 1401 y 7090 de IBM, cuando comenzó en serio el

uso comercial difundido de las computadoras mainframe.

En 1965, la computadora mainframe comercial de propósito

general produjo su máximo rendimiento con la introducción de la

serie 360 de IBM.

Era de la computadora personal: 1981 a la fecha

La proliferación de las PC en la década de 1980 y principios de

la de 1990 dio lugar a una avalancha de herramientas de

software de productividad para computado-ras de escritorio

procesadores de texto, hojas de cálculo, software de

presentaciones electrónicas y pequeños programas de

administración de datos que fueron sumamente valiosos para

los usuarios tanto caseros como corporativos.

Estas PC constituían sistemas independientes hasta que en la

década de 1990 el software para sistemas operativos de PC

permitió enlazarlas enredes.

Era cliente / servidor: 1983 a la fecha.

En la computación cliente/servidor, las computadoras de

escritorio o las portátiles, llamadas clientes, se enlazan en red a

potentes computadoras servidores que proporcionan a las

computadoras cliente una variedad de servicios y capacidades.

El trabajo de procesamiento de cómputo se reparte entre estos

dos tipos de máquinas.

El cliente es el punto de entrada para el usuario, en tanto que,

por lo general, el servidor procesa y almacena datos

compartidos, suministra páginas web o administra las

actividades de la red.

Era de la computación empresarial y de Internet: 1992 a la

fecha

El éxito del modelo cliente/servidor planteó una nueva serie de

problemas. Para muchas empresas grandes fue difícil integrar

todas sus redes de área local (LANs) en un solo y lógico entorno

de cómputo corporativo.

Las aplicaciones desarrolladas por los departamentos locales y

por las divisiones de una empresa, o en diferentes áreas

geográficas, no se podían comunicar fácilmente entre sí ni

compartir datos.

La infraestructura de TI resultante enlaza las diferentes piezas

del hardware de cómputo y las redes más pequeñas en una red

a nivel empresarial, de tal forma que la información puede fluir

libremente a través de la organización y entre ésta y otras

organizaciones.

Esta infraestructura puede enlazar diferentes tipos de hardware

de cómputo, como mainframes, servidores, PC, teléfonos

móviles y otros dispositivos portátiles, e incluye infraestructuras

públicas como el sistema telefónico, Internet y servicios de redes

públicas.

Los cambios en la infraestructura de TI han sido resultado de

los desarrollos en el procesamiento de las computadoras, los

chips de memoria, los dispositivos de almacenamiento, el

hardware y el software de telecomunicaciones y de conectividad

de redes, así como en el diseño del software, que en conjunto

han incrementado exponencialmente la potencia de cómputo al

Technology