revista ticnews marzo 2015
Post on 28-Jul-2015
96 Views
Preview:
TRANSCRIPT
1
2
3
4
Algunas empresas han implementado unidades de minería de
datos estrechamente vinculados a la dirección de la empresa y
en los foros empresariales las sesiones dedicadas a la minería
de datos han sido las protagonistas.
La minería de datos se presenta como una disciplina nueva,
ligada a la Inteligencia Artificial.
La minería de datos ha sido considerada en su inicio como una
moda más, aparecida después de los sistemas expertos, y
conocida desde hace tiempo bajo el nombre de data fishing.
El datamining (minería de datos), es el conjunto de técnicas y
tecnologías que permiten explorar grandes bases de datos, de
manera automática o semiautomática, con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que
expliquen el comportamiento de los datos en un determinado
contexto.
5
Básicamente, el datamining surge
para intentar ayudar a comprender el
contenido de un repositorio de datos.
Con este fin, hace uso de prácticas
estadísticas y, en algunos casos, de
algoritmos de búsqueda próximos a la
Inteligencia Artificial y a las Redes
Neuronales.
Los componentes esenciales de la tecnología de Minería de
Datos han estado bajo desarrollo por décadas, en áreas de
investigación como:
Estadísticas.
Inteligencia Artificial.
Aprendizaje de máquinas.
Etapas de la Minería de Datos.
Determinación de los objetivos:
Trata la delimitación de los objetivos que el cliente desea
bajo la orientación del especialista en data mining.
Preprocesamiento de los datos:
Se refiere a la selección, limpieza, enriquecimiento,
reducción y transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por
ciento del tiempo total de un proyecto de data mining.
6
Determinación del modelo:
Se comienza realizando
unos análisis estadísticos
de los datos, y después se
lleva a cabo una
visualización gráfica de los
mismos para tener una
primera aproximación.
Según los objetivos planteados y la tarea que debe
llevarse a cabo, pueden utilizarse algoritmos
desarrollados en diferentes áreas de la Inteligencia
Artificial.
Análisis de los resultados:
Verifica si los resultados obtenidos son coherentes y los
coteja con los obtenidos por los análisis estadísticos y de
visualización gráfica.
El cliente determina si son novedosos y si le aportan un
nuevo conocimiento que le permita considerar sus
decisiones.
7
Modelos de Minería de Datos.
La minería de datos temporales se refiere al análisis de grandes
conjuntos de datos secuenciales, entendiéndose éstos como
datos ordenados en relación a algún índice.
Las series temporales constituyen una clase concreta
secuencial, ya que en los registros dentro de la base de datos
están indexados u ordenados según el parámetro TIEMPO.
Una serie de tiempo es una secuencia de números reales que
representan medidas de una variable real en intervalos iguales
de tiempo.
Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos.
Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un
modelo de minería de datos.
Como ya se mencionó la minería de datos es el proceso
de detectar la información procesable de los conjuntos
grandes de datos.
Modelo de minería de
datos
8
Si la variable está definida sobre un conjunto numerable de
puntos temporales la serie temporal será discreta.
La minería de datos temporales reúne diversos tipos de tareas
aplicables a las series temporales.
Predicción: La predicción en series temporales se refiere
al pronóstico de valores futuros de la serie basados en las
observaciones pasadas. Para ello es necesario construir
un modelo de predicción sobre los datos.
Clasificación: Supone que cada una de ellas pertenece
a una de un conjunto finito de varias clases, en un número
predefinido, siendo el objetivo la determinación
automática de la categoría o clase correspondiente para
la secuencia dada.
Agrupación: Se realiza a partir de alguna medida de
similitud.
Búsqueda y recuperación: Búsqueda de secuencias en
base de datos grandes para encontrar y recuperar a partir
de ella, secuencias o sub - secuencias muy similares a la
secuencia dada.
Descubrimiento de patrones: Trata de detectar pautas
frecuentes de comportamiento en las secuencias de
datos.
9
Los modelos de series temporales de regresión crean modelos
de minería de datos para predecir columnas continuas como las
ventas de productos, en un escenario de previsión.
Estos modelos de serie temporal pueden incluir información
basada en algoritmos diferentes:
El algoritmo ARTxp, que se optimiza para la predicción a
corto plazo. se utiliza siempre para realizar el primer par
de predicciones. El algoritmo ARIMA se optimiza para la
predicciones a largo plazo.
Una mezcla de los algoritmos ARTxp y ARIMA. Tras el
primer par de predicciones, se utiliza una combinación de
ARIMA y ARTxp.
El aprendizaje consiste en reducir la cantidad de errores para el
en entrenamiento.
Aprendizaje supervisado:
Dispone un conjunto de patrones (CE) Conjunto de
entrada.
Realiza la identificación de
la mesa correspondiente
para nuevos patrones con
el menor error posible.
10
Aprendizaje no supervisado:
Toma conocidos
como auto -
asociativos.
No requieren un
etiquetado previo
de cada uno de los
patrones de
entrada.
Al final los grupos contienen patrones con características
lo más parecidos entre ellos y lo más distintivas posibles
con los patrones contenidos en otros grupos.
Aprendizaje semi - supervizado:
Combina las bases de las dos vertientes clásicas.
Parte de un conjunto pequeño de patrones de
entrenamiento que, progresivamente puede ir
ampliándose mediante el uso de un conjunto de nuevos
patrones sin etiquetar.
Uno de sus objetivos es aumentar el conocimiento
durante la fase de clasificación, permitiendo simplificar el
costoso proceso para obtener patrones etiquetados.
11
Reconocimiento Estadístico de Patrones: Usa
probabilidades y estadísticas, supone la existencia de
distribuciones de probabilidad para a partir de ellas hacer
el reconocimiento.
Reconocimiento Sintáctico de Patrones: Encuentra
relaciones estructurales, utilizando teoría de lenguajes
formales y construye una gramática que describe la
estructura de objetos.
Redes Neuronales: Dada una arquitectura, las red es
“entrenada” para entregar una respuesta cuando se le
presentan determinados valores.
12
13
14
La infraestructura de TI consiste en un conjunto de dispositivos
físicos y aplicaciones de software que se requieren para operar
toda la empresa.
Sin embargo, la infraestructura de TI también es un conjunto de
servicios a lo largo y ancho de la empresa, presupuestados por
la administración y que abarcan capacidades tanto humanas
como técnicas.
La infraestructura de TI en las organizaciones actuales es
consecuencia de más de 50 años de evolución de las
plataformas de cómputo.
Las cinco eras están constituidas por las máquinas electrónicas
de contabilidad, la computación con mainframes y
minicomputadoras de propósito general, las computadoras
personales, las redes cliente/servidor, y la computación
empresarial y de Internet.
Era de las máquinas electrónicas de contabilidad: 1930 -
1950
La primera era de la computación de negocios utilizaba
máquinas especializadas que podían clasificar tarjetas de
computadora en depósitos, acumular totales e imprimir informes
(Columbia University, 2004).
15
Aunque la máquina electrónica de contabilidad constituía un
eficiente procesador de tareas contables, era demasiado grande
e incómoda.
Era de los mainframes y las minicomputadoras de propósito
general: 1959 a la fecha
Las primeras computadoras comerciales con tubos de vacío
electrónicos aparecieron a principios de 1950 con la introducción
de las computadoras UNIVAC y la Serie700 de IBM.
16
No fue sino hasta 1959, con la introducción de las máquinas de
transistores 1401 y 7090 de IBM, cuando comenzó en serio el
uso comercial difundido de las computadoras mainframe.
En 1965, la computadora mainframe comercial de propósito
general produjo su máximo rendimiento con la introducción de la
serie 360 de IBM.
Era de la computadora personal: 1981 a la fecha
La proliferación de las PC en la década de 1980 y principios de
la de 1990 dio lugar a una avalancha de herramientas de
software de productividad para computado-ras de escritorio
procesadores de texto, hojas de cálculo, software de
presentaciones electrónicas y pequeños programas de
administración de datos que fueron sumamente valiosos para
los usuarios tanto caseros como corporativos.
Estas PC constituían sistemas independientes hasta que en la
década de 1990 el software para sistemas operativos de PC
permitió enlazarlas enredes.
Era cliente / servidor: 1983 a la fecha.
En la computación cliente/servidor, las computadoras de
escritorio o las portátiles, llamadas clientes, se enlazan en red a
potentes computadoras servidores que proporcionan a las
computadoras cliente una variedad de servicios y capacidades.
17
El trabajo de procesamiento de cómputo se reparte entre estos
dos tipos de máquinas.
El cliente es el punto de entrada para el usuario, en tanto que,
por lo general, el servidor procesa y almacena datos
compartidos, suministra páginas web o administra las
actividades de la red.
Era de la computación empresarial y de Internet: 1992 a la
fecha
El éxito del modelo cliente/servidor planteó una nueva serie de
problemas. Para muchas empresas grandes fue difícil integrar
todas sus redes de área local (LANs) en un solo y lógico entorno
de cómputo corporativo.
18
Las aplicaciones desarrolladas por los departamentos locales y
por las divisiones de una empresa, o en diferentes áreas
geográficas, no se podían comunicar fácilmente entre sí ni
compartir datos.
La infraestructura de TI resultante enlaza las diferentes piezas
del hardware de cómputo y las redes más pequeñas en una red
a nivel empresarial, de tal forma que la información puede fluir
libremente a través de la organización y entre ésta y otras
organizaciones.
Esta infraestructura puede enlazar diferentes tipos de hardware
de cómputo, como mainframes, servidores, PC, teléfonos
móviles y otros dispositivos portátiles, e incluye infraestructuras
públicas como el sistema telefónico, Internet y servicios de redes
públicas.
Los cambios en la infraestructura de TI han sido resultado de
los desarrollos en el procesamiento de las computadoras, los
chips de memoria, los dispositivos de almacenamiento, el
hardware y el software de telecomunicaciones y de conectividad
de redes, así como en el diseño del software, que en conjunto
han incrementado exponencialmente la potencia de cómputo al
mismo tiempo que han reducido también exponencialmente los
costos.
19
20
21
22
23
24
top related