jornadas cientificas en ciencia de datos

64
I Jornadas Científicas en CIENCIA DE DATOS LIBRO DE RESÚMENES Asunción - Paraguay 22 al 25 de octubre CENTRO PARA EL DESARROLLO DE LA INVESTIGACIÓN CIENTÍFICA Este proyecto está Co-nanciado por CONACYT-PARAGUAY a través del programa PROCIENCIA con recursos del Fondo para la Excelencia de la Educación e Investigación - FEEI del FONACIDE “La presente publicación ha sido elaborada con el apoyo del CONACYT. El contenido de la misma es responsabilidad exclusiva de los autores y en ningún caso se debe considerar que reeja la opinión del CONACYT”

Upload: others

Post on 12-Jun-2022

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Jornadas Cientificas en Ciencia de Datos

I Jornadas Científicas enCIENCIA DE DATOS

LIBRO DE RESÚMENESAsunción - Paraguay

22 al 25 de octubre

CENTRO PARA EL

DESARROLLO DE LA

INVESTIGACIÓN

CIENTÍFICA

Este proyecto está Co-financiado por CONACYT-PARAGUAY a través del programa PROCIENCIA con recursos del Fondo para la Excelencia de la Educación e Investigación - FEEI del FONACIDE

“La presente publicación ha sido elaborada con el apoyo del CONACYT. El contenido de la misma es responsabilidad exclusiva de los autores y en ningún caso se debe considerar que refleja la opinión del CONACYT”

Page 2: Jornadas Cientificas en Ciencia de Datos

Presidente M.Sc. Gerónimo Bellassai

Secretario General Lic. Claudio Ardisone

Tesorero Lic. Juan Aponte

Miembro Lic. Alice Delgadillo

Web master Aura Zelada

Comité Organizador Científico

D.Sc. Benjamín Barán

D.Sc. Margarita Ruiz Olazar

D.Sc. Christian Schaerer

Dr. Daniel Romero

Comité Organizador

Page 3: Jornadas Cientificas en Ciencia de Datos

Los días 22, 23, 24 y 25 de octubre de 2018, la Facultad de Informática de la Universidad Comunera (UCOM) organizó las I Jornadas Científicas en Ciencia de datos. Este evento reunió a profesionales, gestores de negocios y académicos nacionales y extranjeros para discutir sobre tecnologías, soluciones y el mercado en torno a la Ciencia de datos en el país. El principal objetivo fue fomentar el avance del conocimiento sobre Ciencia de datos, a través del debate y la crítica constructiva sustentadas sobre las bases del rigor científico.

Con este enfoque se organizó un interesante y atractivo programa, con un desarrollo teórico y práctico, orientado a la temática de Ciencia de datos aplicada a los sectores productivos públicos y privados. La presencia de especialistas del tema a nivel local e internacional garantizaron la calidad del evento. Los ejes temá-ticos fueron la Inteligencia artificial, Business analytics, Big data y minería de datos aplicados a diversos dominios del conocimiento como Salud, Negocios, Agricultu-ra, Tecnología de la Información y Educación.

Fueron cuatro días de intensa actividad, quince conferencias con temas selectos, que abarcaron desde conceptos y técnicas utilizadas en la Ciencia de datos hasta casos prácticos y aplicaciones de éxito. El primer día se realizaron dos tutoriales con temas muy actuales como la Exploración y Visualización de datos y Business Intelligence. El segundo día tuvo lugar el Open day, la jornada de puertas abiertas dirigido a estudiantes de la educación media y a aquellos jóvenes que finalizaron la etapa escolar recientemente. Fue un espacio de diversión, donde además de participar en charlas y de una feria de tecnología, los estudiantes parti-ciparon del Proyect day competition donde presentaron sus proyectos en tecnolo-gía dentro de una competición. Asimismo, en la parte de la tarde, se realizó el Con-curso i-data, ideas basadas en datos, donde alumnos universitarios y de post gra-duación participaron de un concurso de posters donde exhibieron sus trabajos de investigación. En los últimos dos días del evento, se realizó el ciclo de conferencias con los disertantes locales e internacionales, quienes pudieron compartir sus conocimientos y experiencias en relación al área de Ciencia de datos.

El evento también sirvió como un punto de encuentro para compartir e intercambiar conocimientos entre los disertantes y el público en general, de esta forma se pudo aproximar la comunidad científica a la sociedad, al mundo empre-sarial y al público en general. Finalmente, la clausura del evento fue realizada con la participación de la Orquesta de Reciclados y así fomentar el desarrollo científico y cultural.

Comité Organizador.

PRÓLOGO

Page 4: Jornadas Cientificas en Ciencia de Datos

PROGRAMA

Page 5: Jornadas Cientificas en Ciencia de Datos

ÍNDICE

CONFERENCISTAS ..........................................................................................................................................................1TUTORIALES ..................................................................................................................................................................... 6

Exploración y Visualización de datos ............................................................................................................... 7Bussiness Intelligence ............................................................................................................................................ 8

PROJECT DAY COMPETITION ................................................................................................................................... 9Braille Electrónico. (Electronic Braille) ........................................................................................................... 10Desarrollo de Videojuegos-Conociendo Asuncion .................................................................................. 11Desarrollo de Videojuegos - NATURE RESCUE ............................................................................................ 12Desarrollo de Videojuegos - Inclusive City .................................................................................................. 13Desarrollo de Videojuegos - El Espía .............................................................................................................. 14Microrap ................................................................................................................................................................... 15Estacionamiento automatizado con arduino "Easy Parking Detection System" ........................... 16Yo no armo robots, yo enseño con robot ..................................................................................................... 17Moving Leds ........................................................................................................................................................... 18Traductor Español-Guaraní ............................................................................................................................... 19

CONCURSO I-DATA ..................................................................................................................................................... 20Análisis de redes sociales para prevenir ataques por discriminación ................................................ 21Análisis predictivo aplicado a la evaluación de créditos ........................................................................ 22Aplicación de Extreme Learning Machine (máquinas de aprendizaje extremo) parapronóstico de brotes de casos de Dengue en el Paraguay ................................................................... 23Árbol de decisión y random forest como modelo de clave de identificación taxonómica en Biología .............................................................................................................................................................. 24Categorical PCA and Multiple Correlation in the Study of the Incidence of DengueFever in Communities of Paraguay ................................................................................................................ 25Dispersión Espectral de Grafos Determinístico ......................................................................................... 26Disponibilidad de Conocimiento sobre Datos Abiertos ......................................................................... 27Gastro-miner. Una Herramienta Basada en la Nube para el Análisis de Sentimientosen Opiniones sobre Restaurantes en TripAdvisor: Caso de Estudio sobre Restaurantesde la Provincia de Granada ................................................................................................................................ 28H2O_Scorer, una plataforma para despliegue modelos de “machine learning” ............................ 29Influencia de estímulos visuales y el agrado sobre el recuerdo de marca enpublicidades gráficas utilizando el Eye Tracking y Machine Learning .............................................. 30La priorización para una mejor gestión del trabajo ................................................................................. 31Métodos iterativos adaptativos para resolución de sistemas lineales .............................................. 32

Page 6: Jornadas Cientificas en Ciencia de Datos

Prof. Dr. Tsen Chung Kang

Es director de investigación de nuevos negocios del Grupo Jacto y profesor del curso de Mecanización y agricultura de precisión de la FATEC Shunji Nishimura, Sao Paulo-Brasil. Fue uno de los idealizadores de carreras como “Big data para el agronegocio”, de mucho éxito en Brasil. Graduado por la Universidad de São Paulo (1986), tiene una maestría en Ingeniería Eléctrica de la Universidad de São Paulo (1990) y un doctorado en Ingeniería Informática - Universidad Carnegie Mellon (1995). Actúa en el ámbito corporativo en áreas como planificación estratégica e innovación tecnológica, principalmente en los siguientes temas: Big Data, Machine Learning, IoT, Analytics, agricultura de precisión, agricultura del conocimiento, taller de trabajo, cambio de cuello de botella, gráfico disyuntivo, logística.

Tema de la disertación: Ecosistema de creación y captura de valor para la Agricultura Digital

Prof. Dra. Laura Alonso Alemany

Miembro del grupo de investigación de Procesamiento del Lenguaje Natural en la FaMAF (Facultad de Matemática, Astronomía y Física) Universidad Nacional de Córdoba. Tam-bién miembro del grupo de investigación Grial, de vuelta en Catalunya, donde obtuvo su doctorado, y está trabajando en representaciones ricas de semántica sentencial para la anotación de corpus y la adquisición automática de conocimiento, dentro del proyecto SENSEM. En su investigación de doctorado, intentó proporcionar una estructura de discurso modelo que fuera útil para el resumen automatizado de textos, que resultó en la tesis representando el discurso para el resumen automático de textos a través de PNL superficial.

Tema de la disertación: Lenguaje Natural para Inteligencia Artificial Interpretable

Disertantes Nacionales

Prof. Dr. Benjamín Barán

Miembro del grupo impulsor que dirige la Universidad Comunera (UCOM) y Decano de la Facultad de Informática de la UCOM. Fundador de la Consultora Barán y Asociados (CBA) colaborando en destacados proyectos nacionales. Es Doctor en Ciencias, en Inge-niería de Sistemas y Computación de la Universidad Federal de Río de Janeiro (COPPE/U-FRJ). Especialidad: Computación Paralela y Distribuida. Obtuvo el “Premio Nacional de Ciencias - 1996” otorgado por el Congreso Nacional en acto presidido por el presidente de la República, por los trabajos científicos en el área de los “Team Algorithms”. Es colum-nista científico del diario especializado Ciencia del Sur. Con más de un centenar de traba-jos científicos publicados en más de 20 países, viene dirigiendo varios grupos de

Page 7: Jornadas Cientificas en Ciencia de Datos

investigación y desempeñándose como docente de la Universidad Nacional de Asunción (a la fecha como Profesor Titular y Coordinador del 1° Doctorado en Ingeniería) y de la Universidad Católica Ntra. Sra. de la Asunción (profesor titular), por más de 25 años, con anteriores experiencias docentes en España, Brasil, Estados Unidos, Colombia y Venezue-la. Además, desde hace casi dos décadas viene trabajando como consultor para impor-tantes organismos internacionales como BID, Programa de las Naciones Unidas para el Desarrollo (PNUD), OEA - Organización de los Estados Americanos, Banco Mundial, UNESCO y UIT.

Tema de la disertación: Ciencia de datos en Paraguay.

Prof. Dr. Christian Schaerer

Miembro del grupo impulsor de la Universidad Comunera (UCOM). Co-fundador del Centro de Investigación en Matemática (CIMA) y del Laboratorio de Computación Cientí-fica y Aplicada de la Facultad Politécnica de la UNA. Doctor en Ciencias por la Universi-dad Federal de Río de Janeiro (COPPE/UFRJ), Brasil (2002). Realizó Post Doctorado en el Instituto Nacional de Matemática Pura y Aplicada (IMPA), Brasil (2003); Investigador aso-ciado al IMPA (2007) y Vice presidente de la Pan-American Association of Computational Interdisciplinary Sciences - PACIS. Actualmente se desempeña como Consejero Titular en el Fondo para la Excelencia de la Educación e Investigación - FEEI y Presidente de la Socie-dad Matemática Paraguaya - SMP. Docente investigador por la Universidad Nacional de Asunción (DICOM). Desde el 2008 hasta la fecha es Profesor Investigador en la UNA. Sus líneas de investigación abarcan álgebra lineal numérica, ecuaciones diferenciales, simu-lación y control de sistemas de gran porte, descomposición de dominio, modelos mate-máticos, dinámica de fluidos, dinámica de poblaciones y teoría de juegos evolutivos.

Tema de la disertación: Usando Matemática para tomar decisiones

Prof. Dra. Antonieta Rojas de Arias

Presidente de la Sociedad Científica del Paraguay desde el año 2016 y co-fundadora del Centro para el desarrollo de investigación científica (CEDIC). Es miembro del grupo impulsor que dirige la Universidad Comunera. Miembro del Programa Nacional de Incen-tivo a los Investigadores (PRONII), en la Categoría de Investigador Activo de Nivel III. Con-sultora Nacional OPS/OMS para el área de enfermedades transmitidas por vectores hasta septiembre 2014. Miembro Permanente del Panel Técnico de Revisión de Propuestas del Fondo Global 2006-2010, para las rondas de selección de propuestas. Profesional Adjun-to a la Facultad de Evolución y Cambio Social de la Universidad Estadual de Arizona, USA. 2008-2013. Miembro de Board de la Red EVIPNet desde 2008. Miembro de la Comisión Científica Honoraria del PRONII desde 2011. Presidenta de la Federación Latinoamerica-na de Parasitología FLAP desde 2012. Miembro del Extended-Board de la Federación

Page 8: Jornadas Cientificas en Ciencia de Datos

Latinoamericana de Parasitología FLAP desde 2012. Miembro del Extended-Board de la Federación Latinoamericana de Medicina Tropical desde 2017.

Tema de la disertación: Ciencia de datos en la salud en Paraguay.

Prof. Dr. Daniel Romero

Forma parte del grupo impulsor que dirige la Universidad Comunera y es fundador de la empresa AFAH socio de la Cámara Paraguaya de la Industria del Software (CISOFT). Es Doctor en Programación Declarativa e Ingeniería de la Programación de la Universitat Politécnica de Valencia, España. Actualmente ejerce el cargo de coordinador de la Maes-tría en Tecnología de la Información y Comunicación y Docente de la Maestría en Cien-cias de la Computación de la Universidad Nacional de Asunción. También es docente investigador de Pos-grado en el área de Ingeniería de Software, coordinador del proyec-to de investigación “Construcción de un modelo de incidencia de dengue aplicado a comunidades de Paraguay (COMIDENCO)” y participante del equipo de investigación del proyecto “Nuevos métodos de ordenación en espacios de color utilizando morfología matemática para segmentación de imágenes”. Es profesor tutor de tesis de grado, maes-tría y doctorado de varios alumnos.

Tema de la disertación: Indicadores de datos en empresas e Inteligencia de negocios

Prof. M.Sc. Santiago Gomez

Docente investigador por la Universidad Nacional de Asunción (DICODE). Participa como investigador en el proyecto “Construcción de un modelo de incidencia de dengue aplica-do a comunidades de Paraguay (COMIDENCO)”. Es Master en Ciencias de la computación por la Universidad de North Carolina, Estados Unidos y Master en estadística por la Iowa State University of Science and Technology, Estados Unidos. Sus campos de actuación son la inteligencia de negocios, la minería de datos, el análisis de datos y las aplicaciones estadísticas, que en el Paraguay se encuentran relativamente inexplotados o en algunos casos en estado incipiente. Por tanto, enfoca esfuerzos para que las herramientas predic-tivas y la extracción de conocimiento a partir de datos sean aprovechados cada vez más en nuestro país.

Tema de la disertación: Nuevas métricas para análisis estadísticos

Page 9: Jornadas Cientificas en Ciencia de Datos

Ing. Gloria Ortega

Es la primera ingeniera industrial mujer del Paraguay, egresada de la Universidad Nacio-nal de Asunción. Le tocó instalar el primer cajero automático del país, el primer servicio de internet banda ancha, y ha dedicado su carrera a instalar y liderar tecnologías para transformar la vida de las empresas y las personas, en más de 7 países. Actualmente desde Bancard gestiona servicios de inclusión financiera y pagos electrónicos.

Tema de la disertación: Uso de las ciencias de datos en el mundo de los medios de pago.

Prof. DSc. Margarita Ruiz Olazar

Doctora en Ciencias por la Universidad Federal de Rio de Janeiro, Brasil. Realizó una Post graduación en el Instituto de Matemática y Estadística (IME) de la Universidad de São Paulo, Brasil. Trabajó en diferentes proyectos de investigación en Rio de Janeiro y São Paulo. Docente de la carrera de Ingeniería Informática de la Facultad Politécnica UNA y de la Universidad Católica de Asunción. Fundadora y coordinadora del laboratorio SmartDa-taLab y de cursos de la Facultad de Informática de la Universidad Comunera. Sus líneas de investigación abarcan el modelamiento de datos y procesos, minería de datos, Big data, bioinformática, neuroinformática, y agroinformática.

Curso tutorial: Exploración y visualización de datos

Page 10: Jornadas Cientificas en Ciencia de Datos

La utilización de tutoriales de corta duración constituye un recur-so formativo de gran atractivo para las personas quienes quieren com-plementar su formación o simplemente conocer más acerca de un tema específico.

Como parte de las Jornadas científicas fueron ofrecidos dos cursos tutoriales con el objetivo de orientar y/o dirigir a los asistentes en el conocimiento de temas actuales e interesantes en el dominio de la Ciencia de datos.

Los temas a tratados fueron: Exploración y visualización de datos e, Inteligencia de negocios. Estos tutoriales fueron dictados por los profesionales D.Sc. Marga-rita Ruiz Olazar y el Dr. Daniel Romero. A continuación, presentamos un resumen de cada tutorial.

Tutoriales

Page 11: Jornadas Cientificas en Ciencia de Datos

Modelo de Predicción de Ventas basado en Minería de Datos............................................................. 33Modelo de predicción de ventas en supermercados .............................................................................. 34On using a multivariate semi-metric in the search strategies for attributes subset selection 35Prototipo de agente interoperable para datos abiertos gubernamentales .................................... 36Qué factores influyen más en el crecimiento de los emprendimientos ........................................... 37Reconocimiento de patrones de movimiento en partidos de fútbol ................................................ 38Utilizando Twitter para monitorear y gestionar los reclamos de la ciudadanía ............................. 39

CONFERENCIAS ............................................................................................................................................................ 40Una plataforma computacional para el análisis de datos de enfermedades raras y complejas ............................................................................................................................................................. 41Lenguaje natural para la Inteligencia Artificial Interpretable ............................................................... 42El impacto de las Tecnologías de Big data y ciencia de datos en las nuevas cadenas deproducción .............................................................................................................................................................. 43Computing Curricula 2020 ................................................................................................................................ 44

CONCLUSIÓN ................................................................................................................................................................ 55

Page 12: Jornadas Cientificas en Ciencia de Datos

Disertantes Extranjeros

Prof. Dr. Patricio Yankilevich

Es co-fundador de GENOMAP, empresa que ayuda a la interpretación precisa de datos genómicos, y coordinador del Grupo de investigadores en Bioinformática en el Instituto de Investigación en Biomedicina de Buenos Aires - CONICET - Instituto Socio de la Socie-dad Max Planck (IBioBA-CONICET-MPSP). Actuó como Gerente de Producto en Integro-mics SL. y como Investigador en el Centro Nacional de Biotecnología (CNB) de España. En Argentina trabajó como Director de Laboratorio de Bioinformática en el Instituto de Agrobiotecnología de Rosario, y en BioSidus SA, y en Madrid en el Centro Nacional de Investigaciones Oncológicas (CNIO, Madrid) como Científico de la Bioinformática.

Por sus amplios conocimientos en áreas interdisciplinares, experiencia y habilidades en bioinformática el Profesor Yankilevich viene trabajando con grupos de investigación en Paraguay como CEDIC y Laboratorio Central. Además, participa en diferentes proyectos clínicos/de salud, agrobiotecnología y medioambientales que podrán generar nuevos vínculos para potenciar la investigación científica en el país.

Tema de la disertación: Como resolver problemas complexos por medio de inteligencia analítica

Prof. Dr. Ernesto Cuadros

Es fundador y miembro de la Sociedad Peruana de Computación y ha ocupado la presi-dencia en los periodos 2001-2007 y en 2009. El Prof. Cuadros-Vargas también ha sido Secretario Ejecutivo del Centro Latinoamericano de Informática (CLEI) (2009-2016) y Miembro del Educational Activities Board de IEEE (2006-2009).

El Dr. Cuadros fue el único miembro latinoamericano en el Steering Committee de ACM/IEEE-CS Computing Curricula for Computer Science (CS2013). En este momento también es el único miembro latinoamericano en el Steering Committee de ACM/IEEE-CS Computing Curricula (CC2020).

El Profesor Cuadros ha sido invitado como expositor en diversos eventos internacionales en Brasil, Chile, Colombia, Estados Unidos, Canadá, Rusia, Japón, China, entre otros.

Sus principales áreas de interés son la Educación Superior en Computación, Recupera-ción de Información por Similaridad, Métodos de Acceso y Redes Neuronales.

Tema de la disertación: Los perfiles internacionales de carreras de computación.

Conferencistas

Page 13: Jornadas Cientificas en Ciencia de Datos

D. Sc. Margarita Ruiz OlazarUniversidad Comunera

La forma en la que vemos los datos puede ser fundamental cuando se trata de construir un buen modelo sobre esos datos. La precisión de los modelos dismi-nuye significativamente cuando el conjunto de datos en cuestión no se explora correctamente. En esta era de “grandes datos” es fundamental que sepamos qué representan los datos, si hay sesgos y qué características podemos diseñar. Las visualizaciones muestran los datos de una forma que permiten ver cosas que antes no eran evidentes. Incluso cuando los volúmenes de datos son enormes, se pueden identificar tendencias rápida y fácilmente. Gracias a la visualización, el cerebro logra procesar, absorber e interpretar una gran cantidad de información.

En este tutorial veremos métodos, técnicas y herramientas computacionales para crear visualizaciones efectivas que conduzcan al entendimiento de datos sim-ples y complejos. También conoceremos varios tipos de gráficos estadísticos y herramientas que son esenciales para el análisis exploratorio de datos. Presentare-mos varios casos de éxito que fueron alcanzados explorando y analizando los datos de una forma visual y rápida.

Exploración y Visualización de datos

Page 14: Jornadas Cientificas en Ciencia de Datos

Dr. Daniel RomeroUniversidad Comunera

La Inteligencia de Negocio (BI: Business Intelligence) es un término genérico que incluye las aplicaciones, la infraestructura las herramientas, y las mejores prác-ticas que permiten el acceso y el análisis de la información para mejorar y optimi-zar las decisiones y rendimiento.

El objeto de usar BI es poder realizar análisis predictivos y avanzados, que nos ayudan en la toma de decisiones estratégicas reduciendo el umbral de error. Las herramientas de BI dan un valor añadido a la obtención de datos nuevos, basa en el comportamiento de los datos reales de la empresa, que nos acompañan en la estrategia del negocio.

El técnico que ayuda a realizar el BI en una empresa, debe tener la capacidad de entender el problema del negocio y así poder interpretar la necesidad de los directores, plasmando esto en información útil para la toma de decisiones.La información que se presentar en BI puede tener diversas formas, por ejemplo: el valor de un indicador, la comparación de resultados, un gráfico de barras, un repor-te.

Además, tenemos el factor tiempo de vida de la información. Por ejemplo, la información para decidir la compra de un nuevo producto tiene el tiempo de vida en que dure la toma de esa decisión, por otro lado, un indicador de cumplimiento de las metas de la empresa, es de uso repetitivo en cada periodo.

Son muy amplias las áreas de una empresa en dónde se puede usar BI, por ejemplo: optimizar de stock, análisis de metas de ventas fidelización de cliente o captación de nuevos clientes, compra de nuevos productos, segmentación de pro-ductos, mejoras en los departamentos de la empresa.

En este tutorial veremos las definiciones de estos conceptos junto con varios ejemplos de usos, y así visualizar la problemática de nuestra empresa y posibles aplicaciones de BI en las mismas.

Business Intelligence

Page 15: Jornadas Cientificas en Ciencia de Datos

Project Day Competition En las sociedades actuales, el conocimiento es reconocido como un gran desafío a nivel económico, político y cultural, con el cual se logran mayores niveles de desarrollo y calidad de vida. En este contex-to, las sociedades basadas en el conocimiento generan una mayor con-cientización sobre la importancia de la ciencia y la tecnología como ele-mento clave para impulsar el desarrollo y el progreso en la calidad de vida de las personas.

Con esta perspectiva, el Comité Científico de las Jornadas Científi-cas en Ciencia de datos, organizó una competición de proyectos de tec-nología para alumnos de la educación media. El objetivo de esta activi-dad fue la promoción de las nuevas tecnologías entre los jóvenes, me-diante la exposición de sus proyectos tecnológicos. La temática de los trabajos estuvo relacionada con el ámbito de la tecnología.

El Project Day Competition se realizó el segundo día de la Jorna-das Científicas, en el local de la Universidad Comunera. El ingreso fue gratuito, previa inscripción al evento. En esta competición participaron 10 (diez) proyectos tecnológicos creativos e innovadores.

Page 16: Jornadas Cientificas en Ciencia de Datos

Luz Esmeralda Cuenca Armoa, Sheila Natali Esquivel García, Bruno Ariel Hidalgo Trinidad, Juana Abigail Alfonzo Benítez, Ruth Eliana

Franco Céspedes

Centro Educativo Departamental Municipal Virgen de la Merced

Electronic Braille es un dispositivo elaborado para su uso como material didáctico en el aprendizaje de personas con discapacidad visual. Su funcionamiento tiene como base la utilización de arduino y de sus componen-tes, como ser el DFPLAYER MINI, pulsadores, pantalla LDC, dispuestos en una placa de circuito.

Electronic Braille simula ser un cajetín; los pulsadores los relieves del Sistema de Lectoescritura Braille, además de contar con un reproductor de audios para facilitar la captación y el aprendizaje de los educandos.

La finalidad del dispositivo es facilitar y agilizar el aprendizaje de la cecogra-fía (técnica de escritura de las personas con discapacidad visual que tiene relieve para permitir la lectura por medio del tacto) por parte de los educandos con disca-pacidad visual. Su utilización también podría darse para las personas que deseen ser tutores de personas con discapacidad visual o que simplemente deseen adqui-rir conocimientos básicos en cuanto a la alfabetización con braille.

Electronic Braille

Page 17: Jornadas Cientificas en Ciencia de Datos

Jhillary González y Jessenia Peralta

Centro Educativo Los Laureles

La idea de este proyecto fue que las personas conocieran más acerca de Paraguay, específicamente la ciudad de Asunción. Nuestro personaje se llama Sophia, es una extranjera que viene desde Grecia para conocer más acerca de Asunción y tiene que pasar por varios lugares que serían los niveles. Nivel 1: Vestimenta En este nivel quisimos mostrar las vestimentas tradicionales del hombre y de la mujer paraguaya, tenemos por ejemplo el de la mujer que sería: el typói que se confecciona en tela de ao po´i, falda amplia, rosario, aros. El del hombre que sería: typói, pantalón, la faja tricolor y el sombrero pirí. Dónde debes vestir a los dos per-sonajes lo más rápido que puedas.

Nivel 2: Comidas Típicas En este nivel hicimos un restaurante que contiene comidas y bebidas típicas del Paraguay como por ejemplo: chipa, mbeju, cocido, tereré y más. Y en un determi-nado tiempo debes servirles a los clientes.

Nivel 3: Los Próceres de Mayo En este nivel quisimos darle un enfoque más histórico para que las personas que jueguen puedan aprender más acerca de la historia de Paraguay. En dónde tienes que responder correctamente las preguntas en un tiempo determinado.

Nivel 4: Zoológico Elegimos este lugar porque es uno de los lugares más turísticos y bonitos. Dónde debes recorrer el zoológico y sacar fotos a los animales que veas con tu cámara y al final te aparecerán las fotos como recuerdo. También pusimos algunos animales que ahora se encuentran en el zoológico.

Este juego fue realizado en la plataforma Construct 2. Con este juego esperamos que las personas que jueguen hayan aprendido más sobre nuestra costumbres y culturas.

Desarrollo de Videojuegos: Conociendo Asunción

Page 18: Jornadas Cientificas en Ciencia de Datos

Abel Ferreira Roig Ocampos, Ana Ferreira Roig Ocampos

Centro Educativo Los Laureles IDEA El videojuego 3D fue creado utilizando Unity, un software y plataforma pro-fesional para la creación de videojuegos, tanto 3D como 2D. Durante la elaboración del proyecto, dimos nuestra propia interpretación al tema “héroes”. No le dimos al tema la perspectiva en aquellos superhéroes que vuelan, tienen superfuerza, disparan rayos láser y demás, sino a aquellos héroes de nuestras vidas cotidianas. Decidimos crearlo como un ejemplo de que existen personas que cada día sin que nos demos cuenta, dedican sus vidas a ayudar a los demás, a veces incluso arriesgando sus propias vidas y sin recibir el crédito que merecen. Esas personas a las que deberíamos estar orgullosos de llamar héroes. El caso que elegimos fue el de rescatista de animales. Elegimos a la tortuga como representación de todos aquellos seres vivos que se encuentran en peligro.

PROBLEMÁTICA Héroes… Esas personas que brindan ayuda a los demás cuando más la nece-sitan, ya sean doctores, policías, bomberos o, en este caso, un rescatista de anima-les. Ellos son muchas veces ignorados y no se les da el debido reconocimiento que se merecen. La problemática que se presenta en el juego es la de rescatar a las crías de tortugas marinas que se encuentran atrapadas dentro de una cueva debido a que la marea sube y baja bruscamente a consecuencia de las grandes tormentas. La dificultad empieza cuando el jugador, que es un rescatista a lo largo del juego, se da cuenta de que el nivel del mar está volviendo a subir rápidamente, trayendo una corriente que ni las tortugas podrían resistir, demostrando así el riesgo que conlleva salvar vidas tanto de animales como humanas.

SOLUCIÓN El juego fue creado con el objetivo de hacer justicia a esos héroes en la vida real, y sacar a la luz su esfuerzo y dedicación por otros. Busca inspirar a otras perso-nas a difundir esta información para que todos los reconozcan y ayuden a hacer este mundo un lugar mejor. Esta fomentación del uso de las nuevas tecnologías nos podría ayudar a encontrar nuevas formas de aprendizaje y la difusión de valo-res positivos.

Desarrollo de Videojuegos - NATURE RESCUE

Modelo de Predicción de Ventas basado en Minería de Datos............................................................. 33Modelo de predicción de ventas en supermercados .............................................................................. 34On using a multivariate semi-metric in the search strategies for attributes subset selection 35Prototipo de agente interoperable para datos abiertos gubernamentales .................................... 36Qué factores influyen más en el crecimiento de los emprendimientos ........................................... 37Reconocimiento de patrones de movimiento en partidos de fútbol ................................................ 38Utilizando Twitter para monitorear y gestionar los reclamos de la ciudadanía ............................. 39

CONFERENCIAS ............................................................................................................................................................ 40Una plataforma computacional para el análisis de datos de enfermedades raras y complejas ............................................................................................................................................................. 41Lenguaje natural para la Inteligencia Artificial Interpretable ............................................................... 42El impacto de las Tecnologías de Big data y ciencia de datos en las nuevas cadenas deproducción .............................................................................................................................................................. 43Computing Curricula 2020 ................................................................................................................................ 44

CONCLUSIÓN ................................................................................................................................................................ 55

Page 19: Jornadas Cientificas en Ciencia de Datos

Alejandro Molinas, José Ávalos

Centro Educativo Los Laureles “Inclusive City” es un videojuego con fines recreativos y educativos. Recreati-vos debido a que es entretenido y desafía la capacidad de razonamiento del juga-dor. Es educativo ya que la temática del juego es INCLUSIÓN aplicada a una ciudad. La relevancia de este proyecto recae en enseñar la importancia de los elementos inclusivos en una ciudad.

Mi inspiración principal fue convivir con una persona en silla de ruedas(mi compañero de clase) en mi aula por mis 3 últimos años de bachillerato, ya que mi colegio es inclusivo, con esta persona compartí muchas similitudes y momentos de felicidad, todo esto dentro de la infraestructura del colegio ya que cuando deseábamos recorrer la ciudad nos dábamos cuenta de que no era posible por la falta de infraestructura, por ende esta experiencia me demostró varias veces, al intentar trasladarnos fuera del colegio a pasar el rato, que la infraestructura es un gran problema para lograr una relación interpersonal con estas personas lo cual me pesa mucho en mi conciencia el hecho que no les permite disfrutar a pleno de su libertad.

Se pretende concientizar a las personas sobre la situación actual de la inclu-sión no de manera a impositiva sino de forma recreativa y divertida.

Lo más importante de este proyecto es la originalidad que contiene debido a que no muchas veces vemos videojuegos dirigidos a la inclusión con mecánicas que desafían realmente al jugador, además es una producción nacional con deta-lles que pueden identificar a un paraguayo al momento de jugar.

Desarrollo de Videojuegos - Inclusive City

Page 20: Jornadas Cientificas en Ciencia de Datos

Sebastián Rojas, José Ávalos

Centro Educativo Los Laureles

El juego “El Espía”, trata de un personaje que debe escabullirse en las reunio-nes de táctica de guerra de los países enemigos, el espía es enviado por los genera-les paraguayos y tiene que llevar un mapa de guerra del enemigo. Tiene que pasar obstáculos como que no le descubran los respectivos guardias.

Una vez que el jugador encuentre el mapa, gana el juego. Otra opción que le da el juego, es hacer un juego de trivia, sobre la “Guerra de la Triple Alianza”. Son 5 preguntas básicas de la guerra, en la que, por cada respuesta correcta, gana 1 punto, y por cada respuesta incorrecta pierde un punto. El punto mínimo es de 5 puntos, y el máximo 10.

En general, el objetivo es probar cuánto sabe el jugador del acontecimiento bélico en nuestro país. Actualmente, muchos jóvenes no saben, o tienen un cono-cimiento escaso de esta guerra, siendo que cada uno de nosotros debe de saber y conocer acerca de la misma.

Este juego aplica a la enseñanza en los videojuegos, ya que va para las per-sonas que puedan aprender jugando, para algunos puede ser algo nuevo, pero para otros ya puede ser un repaso, por lo cual ya tiene un mínimo conocimiento sobre el mismo.

Desarrollo de Videojuegos: El espía

Page 21: Jornadas Cientificas en Ciencia de Datos

Sebastián Santacruz y Sebastián Pérez

Centro Educativo Los Laureles

Quisiera explicarles la finalidad de este trabajo el cual estamos realizando para demostrar una nueva metodología de aprendizaje, cómo aprender de forma divertida, colocando un poco de onda y ritmo a la exposición a través del rap, que es una forma musical que incorpora "rima, habla rítmica y jerga".

Todo esto se va a tratar sobre lo que es un microbit, para que se utiliza, como se utiliza. Microbit es una pequeña tarjeta programable de 4x5 cm diseñada para que aprender a programar sea fácil, divertido y que esté al alcance de todos.

El compañero Sebastián Pérez y yo, Sebastián Santacruz, vamos a dar la exposición solamente rapeando en busca de un poco más de interés a través del dinamismo.

En fin, esa es nuestra idea, lograr convencer a la gente que algo que aparen-ta ser complicado, no lo es de hecho, solo es necesario un poco de interés y dedica-ción para aprender cosas nuevas.

Un pequeño fragmento del proyecto es el siguiente:"¿Que es microbit? Es la pregunta de hoy

¿Que es microbit? Solo denme su atención¿Que es microbit? Es la pregunta de hoy

Se los voy a mostrar con la improvisación"

Microrap

Page 22: Jornadas Cientificas en Ciencia de Datos

Hernán Aguilera, Carlos Cabrera, Emilio Núñez, Crista Orué, Cristóbal Sánchez

CEDM Virgen de la Merced.

El motivo principal de la creación del proyecto es la automatización y el apoyo para una mayor seguridad y control en el acceso vehicular. El sistema pre-tende tener el control del acceso al estacionamiento mediante una aplicación en donde se podrá reservar el lugar y pagar por el mismo, es decir, el cliente no estaría perdiendo el tiempo buscando estacionamiento y tener la incertidumbre de no tener un lugar disponible. Al entrar al estacionamiento el cliente podrá digitar el código que la aplicación le ha generado luego de haber pagado.

Analizamos la organización en los lugares de estacionamiento y debido a la falta de espacio e imprudencia por parte de los conductores al momento de con-seguir un lugar para poder estacionarse, conllevando en si a la pérdida de tiempo y mal servicio para los mismos.

El proyecto pretende mejorar o mejor dicho, disminuir el congestionamien-to provocado por vehículos buscando estacionamiento en las calles. Desarrollar un sistema automático de estacionamiento y control de búsqueda con facilidad.

Diseñar y desarrollar de estructura con un sistema automático para la búsqueda de un lugar de estacionamiento vacío.

Diseñar y desarrollar aplicación cual permita la búsqueda de lugares de estacionamientos disponibles.

Implementar la electrónica con arduino a fin de crear esquema de estructura.

Configurar y cargar códigos en el prototipo de arduino que sirvan para el buen funcionamiento de la maqueta.

El desarrollo de este trabajo permite poner en práctica los conocimientos adquiridos durante nuestro desarrollo escolar y hacer de ellos un elemento aplicado y práctico en la solución de necesidades reales a la sociedad.

Estacionamiento automatizado con arduino "Easy Parking Detection System"

Page 23: Jornadas Cientificas en Ciencia de Datos

Mauricio Alborno, Lukas YakusicCentro Educativo Los Laureles

¿Qué es la robótica?, lo primero que se te venga a la cabeza. Seguro estarás pensando en maquinas gigantes, brazos y garras con una fuerza capaz de levantar el doble de su peso, mecánica y programación en todas partes, sería lo obvio ¿no? Se la conoce de muchas formas, por su variedad de conceptos, pero a mí me gusta decir que lo veo como un mundo, un mundo lleno de posibilidades. El futuro está cada vez más cerca y con él, están llegando nuevas maneras, maneras para mejo-rar, cambiar, innovar, demostrar.

First Global Competition. Es una competencia organizada por la empresa First, donde países representados por equipos de hasta 6 alumnos junto con la ayuda de sus tutores, se ingenian para construir una máquina que cumpla los requisitos y tareas que piden tener en cuenta en la competencia. Yo lo veo más como una excusa para un intercambio cultural masivo, porque lo es.

Hoy en día la robótica se está implementando en varios aspectos, ya sean laborales, diarios o educativos, pero me quiero centrar más en este último. Tene-mos como materia curricular clases de robótica, se implementó este año las clases desde cuarto grado hasta último año. 5 alumnos, dos de primer curso, dos de segundo curso y dos de tercer curso, fuimos seleccionados para ir a una competen-cia de robótica, una de las más grandes, llamada por sus siglas en inglés, FGC. En la competencia como uno de los varios premios que hay, el equipo que mayor impacto cause en su sociedad se lo llevaba. Fuimos a varias escuelas públicas a mostrar lo que mejor hacemos, construir robots, enseñamos cosas simples y bási-cas, pero igual de importantes que otras, como la seguridad a la hora de trabajar con herramientas punzantes o pequeñas.

Y llego el día. Lo llamamos Kaló. Nos llevó 4 meses construirlo, era uno de los robots más completos de la competencia. Teníamos una responsabilidad enorme sobre nuestros hombros, pero valió la pena cada segundo. Me siento orgulloso por lo que logramos, por lo que logré. Reflexioné bastante al terminar la competencia. ¿Por qué no implementarlo en más cosas? ¿Por qué no utilizarlo en otras materias? La robotica no solo se trata de saber atornillar y escribir una programación, pode-mos ver materias como marketing, administración, matemática, física, literatura, historia, incluso valores, respeto, trabajo en equipo, solidaridad, libertad. Fui parte de muchas actividades fuera y dentro de mi institución, ver el interés de las perso-nas por todo este nuevo mundo es impresionante y ahí fue que me di cuenta, no solo se pueden armar robots, se puede enseñar con ellos.

Yo no armo robots, yo enseño con robot

Page 24: Jornadas Cientificas en Ciencia de Datos

Cristian Al fondo,José Báez, Ascel Colman,Matías Morel ,Mariano Rojas

CEDM Vírgen de la Merced

Actualmente las nuevas tecnologías generan un gran impacto en nuestra sociedad, tanto así que las personas buscan constantemente nuevas formas de entretenimiento es por eso que Moving Leds apunta a la realización de una inno-vadora y muy sorprendente manera de ver las ilustraciones por medio de un dispositivo que genere imágenes en nuestra mente a partir de luces que se encien-den y se apagan girando a una gran velocidad.

Básicamente el dispositivo consiste en una hélice compuesta de un circuito controlado por una placa de nano arduino y ocho luces led. Dicha hélice tiene como base a un motor que le permite girar a una gran velocidad. Además, la fácil programación del nano arduino y la utilización de una aplicación que nos brinda la posibilidad de controlar y crear infinidad de proyecciones ya sean números, letras, signos, etc. Todo esto con el fin de causar una experiencia fuera de seria para las personas que utilicen el dispositivo.

También otro de los objetivos del proyecto es el de fomentar el uso de los avances tecnológicos por parte de las empresas ya que este tipo de dispositivo son muy adaptables en el ámbito de promoción y marketing por la gran capacidad de captar la atención de las personas.

Moving Leds

Page 25: Jornadas Cientificas en Ciencia de Datos

Cesua Rodríguez, Fernando Soria y Rodrigo PedrozoCentro Educativo Ñande Róga

La idea del proyecto fomentar y estimular a los jóvenes del Paraguay a reco-brar aquella parte de la cultura paraguaya, que es la más importante y significativa, la que nos caracteriza y nos destaca mundialmente, el uso de nuestro dulce idioma Guaraní. Ese es el objetivo.

Considerando que el guaraní es una de las lenguas oficiales del Paraguay, y de la misma forma según los datos brindados en encuestas, investigaciones y datos porcentuales, llegamos a la comprensión de que nos vemos obligados por ética y moral a contribuir como estudiantes del bachiller técnico en informática en desarrollar este proyecto, que consideramos contesta a las exigencias de las caren-cias lingüísticas nacionales. A partir de esto se ofrece a las personas una invaluable herramienta para el desenvolvimiento especialmente enfocado en el área educati-va.

A raíz del déficit existente en la práctica, en el conocimiento, el habla del idioma guaraní, la fluidez al pronunciar las palabras, etc. Nace esta App que deno-minamos iGuapp. Software de carácter educativo que mejora la comprensión del idioma guaraní en centros de estudio, instituciones y universidades del país. Cabe destacar la elección de este campo debido a su facilidad de implementación y obtención desde un aparato celular, con el cual más del 90% de la población joven posee o tiene un acceso directo a él con facilidad.

Básicamente a lo que está abocado este software es proveer desde de las palabras más fáciles o de uso cotidiano del lenguaje básico hasta aquellas que sean más difíciles de pronunciar o que se desconocen, de la misma manera se exhi-ben sinónimos y antónimos del vocabulario a manera de que se haga más com-prensible el significado y el aprendizaje más ligero. Además, destacamos, la posibi-lidad de interactuar con usuarios por medios de fotografías y comentarios.

Como anteriormente hemos dicho que el Paraguay es un país rico en cultura y valoramos eso, los usuarios tendrán la opción de compartir con otros usuarios fotografías de lugares turísticos del país y dejar sus comentarios sobre los mismos.Al implementar un medio de enseñanza diferente e innovador esperamos poder ser de ayuda a la nueva generación de paraguayos que mayormente está siendo afectada por la globalización, el hecho de adoptar costumbres nuevas dejando de lado las que te caracterizan como paraguayo o paraguaya nos ha llevado a la posi-ble extinción de una joya cultural. Una pieza importante por el cual muchas otras en el pasado han luchado por mantenerla viva y latente entre todas aquellas per-sonas que hacemos el Paraguay, los paraguayos.

Traductor Español-Guaraní: IGuaap

Page 26: Jornadas Cientificas en Ciencia de Datos

Concurso iData Una de las principales finalidades de una Jornada Científica es la presentación de resultados y experiencias obtenidos de trabajos y pro-yectos realizados dentro del ámbito de la investigación. El póster es uno de los medios de exposición empleados para el intercambio de información entre los asistentes. El póster es un tipo de comunicación de gran potencial, puesto que posibilita la transmisión de su contenido de una manera clara, concisa y resumida.

Por este motivo, el Comité Científico organizó el Concurso de Pós-ters i-Data, con el objetivo de promover la participación de los inscritos en el ámbito de la investigación científica. Los participantes realizaron la exposición de pósters sobre trabajos originales, con resultados fina-les o preliminares y/o de ideas innovadoras de productos y/o servicios.

Fueron seleccionados 19 trabajos. La temática de los trabajos estuvo relacionada con el ámbito de la investigación en Ciencia de datos aplicada a diversos dominios de conocimiento, como, Finanzas, Salud, Ciencias Sociales, Comercio, Análisis de sentimientos entre otros.

A continuación, se muestran los pósters presentados.

Page 27: Jornadas Cientificas en Ciencia de Datos

Adriana Bolañ[email protected]

Tecnologías de la Información Empresarial, Universidad Paraguayo Alemana

Resumen

Este trabajo muestra un prototipo de un programa que entienda el tema de conversación, con el propósito de recolectar informaciones, sin la intervención humana, capaz de notificar posibles ataques o grupos e individuos en los que el odio hacia una persona o grupo de personas pueda llevar a siniestros.

El esquema propuesto para la realización de este proyecto usará un compo-nente de software tipo plugin, que pueda interpretar mensajes y publicaciones en las redes sociales y mensajes. Este componente interpretará mensajes y publica-ciones en las redes sociales. Luego notificará a las autoridades correspondientes en caso de amenazas, estrategias o simplemente de mensajes y publicaciones.

Análisis de Redes Sociales para prevenir ataques por discriminación: No a los discursos de odio

Page 28: Jornadas Cientificas en Ciencia de Datos

Diego Daniel Godoy Font - [email protected] Politécnica, UNA

Resumen

El análisis predictivo agrupa una variedad de técnicas estadísticas de mode-lización, aprendizaje automático y minería de datos que analiza los datos actuales e históricos reales para hacer predicciones acerca del futuro o acontecimientos no conocidos.

En el ámbito de los negocios los modelos predictivos extraen patrones de los datos históricos y transaccionales para identificar riesgos y oportunidades. Los modelos predictivos identifican relaciones entre diferentes factores que permiten valorar riesgos o probabilidades asociadas sobre la base de un conjunto de condi-ciones, guiando así al decisor durante las operaciones de la organización.El resultado pretendido es la obtención de una puntuación (probabilidad) para cada sujeto (solicitudes de crédito a clientes minoristas) con el fin de determinar la probabilidad de mora en los mismos, permitiendo a la empresa seleccionada agili-zar el tiempo de respuesta y optimizar los recursos en su proceso de aprobación de créditos.

En este trabajo presentamos un esquema para optimizar el tiempo de respuesta y los recursos humanos intervinientes en el proceso de aprobación de créditos por medio del análisis predictivo. Con esto queremos beneficiar a los clientes con las mejores calificaciones mediante una aprobación de créditos más ágil, ganando así su fidelización con la empresa.

Con este esquema obtuvimos la reducción de 120 a 15 minutos la aproba-ción de créditos muy favorables, así como rechazar automáticamente los créditos poco convenientes. Permitiendo al departamento de análisis de créditos centrarse en las solicitudes que necesariamente requerían de su intervención, optimizando su capital humano.

Análisis predictivo aplicado a la evaluación de créditos

Page 29: Jornadas Cientificas en Ciencia de Datos

Juan Bogado1, Santiago Gómez2, Héctor Estigarribia11Universidad Nacional de Caaguazú, Facultad de Ciencias y

Tecnologías, Coronel Oviedo, [email protected] de Investigación en Matemática, San Lorenzo,

[email protected]

Resumen

El dengue es una enfermedad con brotes que se suelen manifestar anual-mente, y constituye un problema de salud pública en Paraguay. Este trabajo busca aportar un modelo matemático para predecir brotes. Se pone a prueba el algorit-mo extreme learning machine, que es una red neuronal caracterizada por su bajo coste computacional. Con la temprana detección de posibles brotes se podrían organizar los esfuerzos destinados a la atención de la epidemia y su prevención. Este trabajo busca medir la efectividad de la predicción de casos de dengue utili-zando el algoritmo de aprendizaje extremo implementado en una herramienta de software basado en el lenguaje de programación java.

Realizamos una validación del conjunto de datos del grupo de entrenamien-to con los datos del departamento de Caaguazú, durante la temporada de brotes se notifican aproximadamente 109 casos de dengue, el error promedio de estima-ción en temporada de brotes es de 20 casos. Como trabajo futuro será diseñada una Red neuronal de bajo coste computacional normalizado para ser aplicada a nivel nacional. Esto ayudará a extraer información relevante para la toma de deci-siones y la prevención en épocas de brote.

ReferenciasQ. Huang. Extreme learning machine: Theory and applications. Neurocompu-ting N� 70, pp. 489-501, Säo Paulo, 2006. T. Matias, F. Souza, R. Araújo, N.Gonçalves, J. P. Barreto. Online sequential extre-me learning machine based on recursive partial least squares. [online] Availa-ble on: https://www.sciencedirect.com/science/article/pii/S09591524 15000153

Aplicación de extreme learning machine (máquinas de aprendizaje extremo)

para pronóstico de brotes de casos de Dengue en el Paraguay

1.

2.

Page 30: Jornadas Cientificas en Ciencia de Datos

Alcides Ariel Rojas Geraldo 1; Pastor Enmanuel Pérez Estigarribia 21 Facultad de Ciencias Exactas y Naturales, UNA –

[email protected] Facultad Politécnica, UNA – [email protected]

Resumen

Las claves de la identificación son herramientas que permiten identificar organismos, estas son utilizados ampliamente por biólogos para clasificarlos y así asignarle un grupo taxonómico.

En trabajo obtuvimos claves de identificación óptima por el método de arboles de decisión y random forest.

Los resultados obtenidos muestran que random forest tuvo la mayor efica-cia estadística, sin embargo, no genera una salida gráfica en forma de árbol. El árbol de decisión es una opción para generar árboles subóptimos que podrían ser usados como claves de identificación.

Referencias• Liaw, A., & Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3), 18-22.• Hornik, K., Buchta, C., & Zeileis, A. (2009). Open-source machine learning: R meets Weka. Computational Statistics, 24(2), 225-232.• Kuhn, M. (2014). Classification and regression training. R package version 6.0-24.

Árbol de decisión y random forest como modelo de clave de identificación taxonómica en Biología

Page 31: Jornadas Cientificas en Ciencia de Datos

Emilio Gerardo Sotto Riveros - Polytechnic School, UNA, San Lorenzo, ParaguaySantiago Gómez-Guerrero - Polytechnic School, UNA, San Lorenzo, Paraguay

Christian Schaerer Center for Research in Mathematics, San Lorenzo, Paraguay

Abstract

The Principal Component Analysis (PCA) is widely used as an exploratory technique in several fields to handle the inherent complexity of having multiple variables. In public health observational studies, data of a mixed nature (discrete and continuous) are often found, as in [1]. Up to now, the factors responsible for the epidemic and hemorrhagic varieties of dengue are complex and not yet fully understood, and the Categorical Principal Components Analysis (CatPCA) emerges over PCA as a more attractive tool to analyze the data collected. MSU, an entro-py-based measure of multiple correlation between variables, is quite promising as a confirmation tool computed over the resulting PCA components, to obtain a greater insight regarding the relevance of each variable.

Iteratively combining PCA results with MSU measurements is effective in supporting efforts to reach a deeper comprehension of factors that have influence over the behavior of cyclic epidemics such as dengue fever. As this is a work in pro-gress, several aspects of the behavior of the MSU as support for CatPCA remain to be explored and understood given the linear nature of the latter. Hence, emplo-ying two or more mathematical techniques together can be proven as valuable and cost-effective in the development of better prevention and control programs.

Referencias

[1] S. A. Ahmed, J. S. Siddiqi, S. Quaiser. Principal Component Analysis to Explore Climatic Variability that Facilitates the Emergence of Dengue Outbreak in Karachi. Pakistan Journal of Meteorology Vol. 11, Issue 21, 2014.[2] G. Sosa-Cabrera, M. García-Torres, S. Gomez, C. Schaerer and F. Divina. Under- standing a Version of MSU to assist in Feature Selection. Proceedings of the 4th Conference of Compu-tational Interdisciplinary Science CCIS, Sao Jose dos Campos, 2016.[3] S. Gómez, C. Schaerer, A. Rojas de Arias, H. Estigarribia, J. Mello. Construcción de un modelo de incidencia de dengue aplicado a comunidades de Paraguay. Proceedings of Segundo Encuentro de Investigadores de la Sociedad Científica del Paraguay, Asunción, 2017.[4] Dirección General de Vigilancia Sanitaria. Boletín Epidemiológico Semanal. Available inhttp://www.vigisalud.gov.py/boletin epidemiológico. Paraguay, 2009-2014.[5] Dirección de Meteorología e Hidrología - Paraguay. https://www.meteorologia.gov.py/

Categorical PCA and Multiple Correlation in the Study of the Incidence of Dengue Fever

Page 32: Jornadas Cientificas en Ciencia de Datos

Sergio Mercado, Fabricio Mendoza Granada ,Marcos VillagraNúcleo de Investigación y Desarrollo Tecnológico

Facultad Politécnica - Univervisad Nacional de Asunció[email protected], [email protected], mvilla-

[email protected]

Abstract Many techniques in data analysis need to compute the eigenvalues of the data matrix. For example, in principal component analysis (PCA) or spectral cluste-ring, to name a few.

It is well know that computation of eigenvalues of general matrices is com-putationally expensive, and therefore, may authors use techniques of numerical approximation. Futhermore, computations are more efficient whenever the matri-ces are sparse.

In this work we propose to find a new deterministic method for finding spec-tral sparsifiers. To that end, we will study several restrictions to the adjacency matrix in order to decrease the number of deleted edges and improve the execu-tion time of Zouzia’s– algorithm[1]. This method could be used as a preprocessing step before any other application that requires the computation of eigenvalues, for example, clustering, PCA, etc.

References[1] A. Zouzias. A matrix hyperbolic cosine algorithm and applications. In Proceedings of the 39th International Colloquium on Automata, Languages, and Programming (ICALP), 2012.[2] D. A. Spielman, and S.H.Teng. Spectral sparsification of graphs. SIAM Journal on Compu-ting, 40(4) : 981-1025, 2011.[3] D. Peña, Análisis de datos Multivariantes, S.A. McGraw-Hil/ INTERAMERICANA DE ESPAÑA. ISBN: 8448136101, 2002.[4] Y. T. Lee, and H. Sun. Constructing linear-sized spectral sparsification in almost-linear time. In Proceedings of the 56th Annual Symposium on Foundations of Computer Science (FOCS), IEEE, 2015.[5] V. Simoncini and D. B. Szyld, Recent computational developments in Krylov subspace methods for linear systems, Numer. Linear Algebra Appl., 14:1-59, 2007.

Deterministic Graph Spectral Sparsification

Page 33: Jornadas Cientificas en Ciencia de Datos

Michel Francois Larrieur, Ever Alfonzo Franco Facultad Politécnica

Universidad Nacional de AsunciónCampus Universitario, San Lorenzo, Paraguay

Resumen

En los últimos tiempos, el valor de la información como un activo importan-te para cualquier organización es indiscutible; incluso el estado, ve la importancia de los datos abiertos como política para la transparencia y detección de activida-des ilícitas y la provisión de servicios públicos a los ciudadanos. Si bien, se cuenta con un montón de información disponible de manera abierta (Open Data), existe una gran diversidad de bases de datos; cada organización pone a disposición sus datos en distintos formatos, csv, json, rdf, etc. Por lo cual se hace posible enlazar todas estas bases de datos de manera a enriquecer los datos relacionados entre las distintas bases de datos, es decir, lograr unir todos estos datos disponibles, relacio-narlos entre sí, y lograr obtener información completa sobre cualquier tema que esté disponible de manera abierta

En este trabajo se presenta el proyecto para desarrollar un sistema para la obtención de conocimiento a partir de distintas fuentes de datos abiertos; es decir, un sistema capaz de obtener datos, almacenarlos y relacionarlos entre sí, de manera a enriquecerlos, procesarlos y brindar un servicio que permita la consulta de informaciones disponibles a partir del conocimientos obtenidos de los datos iniciales.

El conocimiento obtenido con este sistema será expuesto mediante una capa de servicios, la cual tendrá dos interfaces: una para clientes que deseen enri-quecer sus datos, utilizando el conocimiento integrado y otra para la ciudadanía en general, publicando información de interés social obtenido del conocimiento integrado.

Disponibilidad de Conocimiento sobre Datos Abiertos

Page 34: Jornadas Cientificas en Ciencia de Datos

Aguero-Torales, M. M. 1, a; Lopez-Herrera, A.G. 1, b; Cobo, M.J. 2

1 Universidad de Granada, Granada, España, a [email protected]; b [email protected]; 2 Universidad de Cádiz, Cádiz, España, ma-

[email protected]

Resumen

La industria del turismo ha estado promoviendo sus productos y servicios basados en las revisiones que las personas a menudo escriben en los sitios web de viajes como . Estas revisiones tienen un efecto profundo en el proceso de toma de decisiones cuando se evalúan qué lugares visitar, como en cuáles restaurantes reservar.

"Gastro-miner: Una Herramienta Basada en la Nube para el Análisis de Senti-mientos en Opiniones sobre Restaurantes en TripAdvisor: Caso de Estudio sobre Restaurantes de la Provincia de Granada" [Python Stack (Django, NLTK, VADER, ma-tplotlib, Scrapy, mongoengine, uWSGI), DevOps (Nginx, Supervisor, Vagrant, Docker, Docker-Compose, Alpine, VirtualBox), Front-end (JQuery, Bootstrap), Mon-goDB, Google Maps API]

Con este trabajo pudimos concluir que TripAdvisor posee millones de opi-niones sobre sitios relacionados con viajes, y establecimientos gastronómicos de la Provincia de Granada y que las opiniones son muy bien conceptuadas por la ma-yoría de sus usuarios.

GASTRO-MINER. Una Herramienta Basada en la Nube para el Análisis de Sentimientos en Opiniones sobre Restaurantes en TripAdvisor: Caso de Estudio sobre

Restaurantes de la Provincia de Granada

Page 35: Jornadas Cientificas en Ciencia de Datos

Lic. Rubén José Díaz Echauri – [email protected] - @rubuntu

Resumen

En el proceso de ciencia de datos, por ejemplo usando el estándar CRISP-DM se tienen las siguientes fases: Entendimiento del Negocio, Entendimiento de los Datos, Preparación de Datos, Modelado, Evaluación y el Despliegue o Instalación (Deployment).

La mayor parte de las fases se puede cubrir usando herramientas y lenguajes de Ciencia de Datos. Pero, al llegar a la última fase (Despliegue), una vez que ya está finalizado el modelo analítico predictivo que se desarrolló en un tiempo que pudo ser meses, por lo general no puede usarse así como está, dando lugar al siguiente paso, a cargo del área de Desarrollo de Software, toma otra vez su tiempo, que nuevamente pueden ser semanas. Y para cuando el despliegue del modelo está hecho, ya la realidad cambió, y el modelo ya no se aplica tanto.

Una solución propuesta es el presente trabajo: H2O_Scorer, para publicar modelos como servicios web (REST API) en un solo paso, tan solo depositando el archivo del modelo en un recurso compartido de una aplicación web, si se usa la plataforma H2O. La propuesta sirve tanto para sus modelos de la versión de código abierto, como para los flujos de trabajo o “pipelines” de la versión comercial Driver-less AI.

El código fuente, y la documentación para su uso está disponible en: https://gi-thub.com/rubuntu/h2o_scorer

Con este producto, en un solo paso, y en minutos, no semanas, mucho menos meses, se logra la fase de Despliegue. El proceso de evaluación en línea (scoring) de un modelo de aprendizaje automático usando este producto toma milisegundos permitiendo soluciones cerca de tiempo real.

A partir de esta solución, puede construirse una plataforma para llevar mo-delos analíticos predictivos a producción, como ya lo están haciendo startups para soluciones similares. Este producto se está usando en un banco de Paraguay para sus soluciones de aprendizaje automático.

Referencias1. https : //w w w.quora .com/How- do -you-take -a-machinelearning-mo-del-to-production2. https://www.h2o.ai/

H2O_Scorer: Una plataforma para despliegue modelos de “Machine Learning”

Page 36: Jornadas Cientificas en Ciencia de Datos

Msc. Pastor Perez Estigarribia, Ing. Liz Molas, Ing. Jessica OrtigozaIngeniería en Marketing, Facultad Politécnica , UNA

Resumen

La saturación publicitaria actual provoca que las publicidades pasen desa-percibidas y no sean recordadas por los consumidores. Esta dificultad se torna mayor en la categoría de belleza y cosmética, debido a la similitud entre las publi-cidades gráficas por la frecuente utilización de una modelo publicitaria, obstaculi-zando el recuerdo de marca.

Este proyecto evalúa la influencia de los estímulos visuales y el agrado de la publicidad gráfica de cosmética sobre el recuerdo de marca del consumidor feme-nino, utilizando el Eye Tracking.

Los resultados obtenidos demuestran que el recuerdo de marca de los grupos de Producto y Cuerpo tiende a estabilizarse en torno a un 50%. El grupo de Rostro, incluso con su máximo porcentaje de recuerdo (46%) fue menor a los otros dos grupos (Cuerpo: 56%, Producto: 53%, Rostro: 46%).

Con esta experiencia pudimos concluir que las publicidades con la presencia del producto y el cuerpo de una modelo publicitaria tienen mayores probabilida-des de recuerdo de marca. Con el Eye Tracking, se demostró que los elementos visuales pueden competir por atención con la marca publicitada condicionando su recuerdo. Con esto se evidenció que el rostro representó un elemento distractor de la marca, específicamente los ojos.

INFLUENCIA DE ESTÍMULOS VISUALES Y EL AGRADO SOBRE EL RECUERDO DE MARCA EN PUBLICIDADES GRÁFICAS

UTILIZANDO EL EYE TRACKING Y MACHINE LEARNING

Page 37: Jornadas Cientificas en Ciencia de Datos

Lucía Mabel Torres OliveiraFacultad Politécnica, UNA

[email protected]

Resumen

La gestión del trabajo cumple un rol estratégico en los equipos de trabajo. Una gestión inadecuada podría impactar negativamente en la calidad, el cumpli-miento del trabajo comprometido y la satisfacción del cliente.

Este trabajo parte de la metodología Tune-Up, una herramienta y metodolo-gía para la gestión de los métodos ágiles. Tune-Up sugiere mecanismos para la organización del Backlog. Los datos son de un proceso seguido para la transforma-ción ágil de un equipo.

Como resultado del experimento se pudo comprobar que la priorización como método ayuda a mejorar la gestión del trabajo y los aspectos que se tienen en cuenta, son los que repercuten en el resultado. Este trabajo tuvo en cuenta 4 aspectos, tales como Importancia, Riesgo, Urgencia y Fecha Límite. Estos aspectos, en la aplicación, fueron factores que permitieron eficacia en el trabajo.

Referencias1. Patricio Letelier. Metodología y herramienta de apoyo para la gestión ágil de proyectos de desarrollo y mantenimiento de software. http://lbd.udc.es/jornadas2011/actas/JISBD/JISBD/S3/Tools/07_Letelier_TUNEUPDemoJISBD2011.pdf

La priorización para una mejor gestión del trabajo

Page 38: Jornadas Cientificas en Ciencia de Datos

Gustavo E. Espínola1, Juan C. Cabral2, Christian E. Schaerer31Facultad de Ingeniería, UNA; 2;3Facultad Politécnica, UNA; 3Centro de

Investigación en Matemática Resumen

Aplicaciones frecuentes en Ciencias de Datos requieren métodos eficientes para resolver sistemas lineales de ecuaciones. Aplicamos un método iterativo adaptativo, basado en el Algoritmo del Residuo Mínimo Generalizado con reinicios o GMRES(m), su rendimiento es puesto en comparación frente a otros métodos iterativos. El método propuesto combina dos estrategias: módifica la dimensión del subespacio de búsqueda de Krylov si detecta problemas de convergencia y lo enriquece con vectores de información de ciclos anteriores. Los resultados numéri-cos para sistemas lineales seleccionados sugieren que este método podría superar el estancamiento y mejorar el rendimiento de un método estándar.

El método GMRES(m) Adaptativo tiene buenas propiedades de convergen-cia para ambos grupos de problemas. En este trabajo demostramos que al aumen-tar el valor de m cuando tenemos una mala convergencia, se mejora la informa-ción en el siguiente ciclo. El criterio de aumentar el valor de m cuando el valor de �Y_j �_2 es pequeño, permite evitar convergencias lentas y estancamientos en el GMRES(m) estándar. Lo propuesto es un método robusto que preserva las buenas características de los métodos con residuo mínimo, logrando la convergencia inclusive donde otros no lo logran.

Referencias[1] A. H. Baker, E. R. Jessup, and T. Manteu_el, A Technique for Accelerating the Convergence of Restarted GMRES, SIAM Journal on Matrix Analysis and Applications, 1995, Vol. 26 , Issue 4, pp. 962-984, DOI:10.1137/S0895479803422014.[2] J. C. Cabral and C. Schaerer, Harmonic Ritz control strategy for restarting GMRES(m), 3rd. Conference of Computational Interdisciplinary Sciences, pp. 133-138, 2014.[3] R. Cuevas, C. Schaerer and A. Bhaya., A control inspired strategy for varying the restart parameter m of GMRES(m), Congresso Nacional de Matematica Aplicada e Computacional - CNMAC XXXIII, pp. 1000-1001, 2010.[4] T. Davis and Y. Hu, The SuiteSparse Matrix Collection (formerly known as the University of Florida Sparse Matrix Collection), University of Florida and AT&T Research. Available online at http://www.cise.u.edu/research/sparse/matrices/.[5] R. B. Morgan, A restarted GMRES method augmented with eigenvectors, SIAM Journal on Matrix Analysis and Applications, 1995, Vol. 16 , Issue 4, pp. 1154-1171, DOI: 10.1137/S0895479893253975.[6] Y. Saad and M. H. Schultz, GMRES: A generalized minimal residual method for solving nonsymmetric linear systems, SIAM Journal on Scienti_c and Statistical Computing, 1986, Vol. 7, No. 3, pp. 856-869, DOI:10.1137/0907058.

Métodos iterativos adaptativos para resolución de sistemas lineales

Page 39: Jornadas Cientificas en Ciencia de Datos

Teresa Cabrera, Rodrigo Velazquez Ingeniería Informática, Facultad Politécnica, UNA

Resumen

Las empresas de ventas de suministros hoy en día buscan sacar el máximo beneficio de sus mercaderías, para esto buscan tratar de adquirir sus activos pen-sando siempre en que no dejen faltantes o sobrantes.

Las predicciones de ventas se realizan generalmente mediante la aplicación de métodos estadísticos o con el análisis de expertos que observan meticulosa-mente paginas y paginas de históricos de ventas con el fin de intentar pronosticar la tendencia. Sin embargo, estos métodos solo funcionan para datos particulares o son métodos muy arcaicos.

Las técnicas de minería de datos pueden dar un soporte que permita a una compañía aproximarse a un stock ideal, reduciendo la incertidumbre de la canti-dad a comprar, permitiendo seleccionar lotes adecuados de compra.

En este trabajo se exponer un modelo de predicción de la demanda, me-diante técnicas de minería de datos, que ayude a maximizar las ganancias de una empresa.

Las pruebas se realizaron en base a los cinco productos más vendidos de una empresa, en donde se corrieron los algoritmos que componen el modelo indi-vidualmente y el modelo estudiado. Los resultados muestran que el modelo de trigger obtuvo el menor promedio de errores.

Modelo de predicción de ventas basado en minería de datos

Page 40: Jornadas Cientificas en Ciencia de Datos

Natalia Barros - [email protected]ía en Tecnologías de la Información y Comunicación

Facultad Politécnica, Universidad Nacional de AsunciónSan Lorenzo, Paraguay

Resumen

Las estimaciones subjetivas de cantidad de productos a vender pueden inducir a compras que causen sobre-almacenamiento de productos perecederos o sub-almacenamiento de productos con alta demanda.

Esta situación es causante de pérdidas económicas, decaimiento de la imagen empresarial, insatisfacción del cliente, etc. La toma de decisiones puede apoyarse en técnicas de aprendizaje automático que mejoren la precisión de ventas y en consecuencia la precisión de compras.

Este trabajo desarrolla un Modelo de Predicción de Ventas con el propósito de garantizar la suficiencia de Stock en el momento en que los clientes de un Supermercado lo requieran; y generar beneficios económicos al Supermercado como resultado de las compras eficientes de productos de stock.

Los resultados obtenidos muestran que con esta metodologías es posible reducir en pequeños porcentajes el capital destinado a compras puede significar grandes beneficios anuales. Por cada mejora del 1% de compras de un Supermer-cado con un margen de compras-ventas del 35%; un promedio mensual de com-pras 2.962.962 Usd. y de ventas de 4.000.000 Usd. se obtendría un beneficio anual de 355.555 Usd.

Además, el éxito de este Modelo, podría significar la apertura empresarial a más Modelos Predictivos como los de lanzamiento de Productos, Promociones por Perfiles de clientes, etc., y esto finalmente redundará en la satisfacción del cliente.

Modelo de predicción de ventas en supermercados

Page 41: Jornadas Cientificas en Ciencia de Datos

Gustavo Sosa-Cabrera1, Miguel García-Torres2, Santiago Gómez-Guerrero1, Christian E. Schaerer1, Federico Divina2

1Polytechnic School, National University of Asunción , P.O. Box 2111 SL, San Lorenzo, Paraguay

2Division of Computer Science, Universidad Pablo de Olavide, ES-41013 Seville, Spain

Resumen

En las tareas de clasificación, una característica (es decir, una variable inde-pendiente) se considera relevante, irrelevante o redundante según la información contenida sobre la clase (es decir, la variable dependiente). La selección de carac-terísticas (FS) consiste en encontrar el conjunto mínimo de características relevan-tes para que se optimice el error de clasificación. Un método de selección de carac-terísticas tiene tres componentes: definición de criterio de evaluación (por ejem-plo, relevancia de la característica), estimación de criterio de evaluación y estrate-gias de búsqueda para la generación de subconjuntos de características. En este trabajo, realizamos varios experimentos para estudiar el efecto de las estrategias de conformación de grupos de características tales como Búsqueda hacia adelante secuencial (SFS) y Búsqueda hacia atrás secuencial (SBS) mientras usamos Incerti-dumbre Simétrica Multivariada (MSU) como una medida confiable de la asociación del grupo. con la clase. Para tal fin, hemos evaluado el problema de paridad de n bits y el patrón de tablero de ajedrez.

Los resultados demuestran la evolución de la MSU semimétrica en función del número de atributos seleccionados, la cardinalidad y el tamaño de la muestra.

Referencias[1] Gustavo Sosa-Cabrera et al. Understanding a version of multivariate symmetric uncertainty to assist in feature selection. 2016.[2] Isabelle Guyon et al. An introduction to variable and feature selection. Journal of machine learning research, 3(Mar):1157–1182, 2003.

On using a multivariate semi-metric in the search strategies for attributes subset selection

Page 42: Jornadas Cientificas en Ciencia de Datos

Klaus Pistilli - [email protected]ía en Tecnologías de la Información y Comunicación, Facultad

Politécnica, UNA

Resumen

En la sociedad actual, el uso de las TIC modifica el modo en que las personas se relacionan entre sí, y de cómo se relacionan con el propio Estado. El auge del uso de estas tecnologías trae consigo la definición de nuevos canales de comuni-cación e interacción nunca antes visto. Por ello, el Estado debe adaptarse a estos tiempos, utilizando las herramientas TIC actualizadas, promoviendo el acceso y fomentando su uso, ofreciendo a la vez mayor eficiencia y seguridad en la provi-sión de los servicios públicos a los ciudadanos. Estos servicios deben proveerse a través de herramientas y sistemas software que soporten una alta disponibilidad de la información a modo de generar confianza en la ciudadanía en su interacción cotidiana con los servicios digitales ofrecidos desde el sector público.

En este trabajo fue desarrollado un prototipo de agente interoperable para datos abiertos gubernamentales, con el propósito de recolectar periódicamente informaciones, sin la intervención humana, en el contexto de Instituciones Públi-cas del Poder Ejecutivo. La implementación consistirá en aplicar el prototipo de agente interoperable para datos abiertos en el sitio de la Secretaría Nacional de Tecnologías de la Información y Comunicación (SENATICs).

PROTOTIPO DE AGENTE INTEROPERABLE PARA DATOS ABIERTOS GUBERNAMENTALES

Page 43: Jornadas Cientificas en Ciencia de Datos

José Cazal(1), María Messina(2) y Esther Hochsztain(2)(1)Facultad Politécnica, Universidad Nacional de Asunción.(2)Facultad de Ciencias Económicas y de Administración,

Universidad de la República.

Resumen

En este artículo se analizan los factores de sostenibilidad de los emprendi-mientos en el Uruguay. Se identifican los elementos que influyen para que un emprendimiento crezca, así como las motivaciones que tienen los emprendedo-res para continuar y empezar a generar fuentes de empleo.

Se presenta un caso de estudio basado en una encuesta realizada por Centro de Emprendedurismo CCEEmprende, a los emprendedores participantes programa de apoyo a emprendedores desarrollado por la Facultad de Ciencias Económicas y de Administración de la Universidad de la República del Uruguay. La metodología aplicada se basa en un proceso de extracción automática de conocimiento empleando minería de datos. Se utiliza la técnica de árboles de decisión como principal modelo de clasificación. Se encara el proceso conside-rando dos variables explicadas, que se van rotando.

Los resultados denotan que cuanto más empleados y puestos de trabajo genera el emprendimiento, más necesita organizarse ya que los procesos y la planificación aporta un valor agregado en el crecimiento de la organización. En esto se destaca la importancia de tener los procesos estandarizados no solo cuando este crece, si no desde un principio.

Uno de los motivos por el cual los universitarios dejan el emprendeduris-mo, la motivación que puede ser económica (porque ganan mas como profesio-nales empleados por otra empresa) o dejan el emprendedurismo por el tiempo que requieren los estudios para poder recibir su título universitario como asistir a clase y estudiar para los exámenes.

Referencias[1] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Rama-samy Uthurusamy. Advances in knowledge discovery and data mining. 1996.

¿Qué factores influyen más en el crecimiento de los emprendimientos?

Page 44: Jornadas Cientificas en Ciencia de Datos

Mónica Mármol; Oscar Daniel FrancoFacultad Politécnica, Asunción/Central, [email protected];

Facultad Politécnica, Asunción/Central, [email protected]

Resumen

Este trabajo presenta el diseño de una aplicación de conocimiento para elaborar estrategias de juego, utilizando patrones de movimiento en equipos de fútbol, determinando comportamientos comunes dentro de uno o más partidos realizados por el equipo en estudio. Pudiendo determinar así patrones de movi-mientos por jugador o conjunto de jugadores, seleccionando variables predeter-minadas como posicionamiento del balón, posicionamiento del rival, estado del campo, clima, marcador, etc.

En este trabajo presentamos un prototipo para realizar una herramienta para el análisis de patrones de movimiento en partidos de fútbol, extrayendo datos de manera automática a partir de filmaciones de los partidos protagoniza-dos por el contrincante, dicha extracción será realizada a través de algoritmos de análisis de video y nutriéndolos con variables que son ingresadas en forma manual tales como estado del campo, clima, marcador, etc., dando como resulta-do una base de conocimientos sobre patrones de movimiento de los juegos en estudio.

Reconocimiento de patrones de movimiento en partidos de FÚTBOL

Page 45: Jornadas Cientificas en Ciencia de Datos

Mónica Mármol; Oscar Daniel FrancoFacultad Politécnica, Asunción/Central, [email protected];

Facultad Politécnica, Asunción/Central, [email protected]

Resumen

Este trabajo presenta el diseño de una aplicación de conocimiento para elaborar estrategias de juego, utilizando patrones de movimiento en equipos de fútbol, determinando comportamientos comunes dentro de uno o más partidos realizados por el equipo en estudio. Pudiendo determinar así patrones de movi-mientos por jugador o conjunto de jugadores, seleccionando variables predeter-minadas como posicionamiento del balón, posicionamiento del rival, estado del campo, clima, marcador, etc.

En este trabajo presentamos un prototipo para realizar una herramienta para el análisis de patrones de movimiento en partidos de fútbol, extrayendo datos de manera automática a partir de filmaciones de los partidos protagoniza-dos por el contrincante, dicha extracción será realizada a través de algoritmos de análisis de video y nutriéndolos con variables que son ingresadas en forma manual tales como estado del campo, clima, marcador, etc., dando como resulta-do una base de conocimientos sobre patrones de movimiento de los juegos en estudio.

Utilizando Twitter para Monitorear los Reclamos de la Ciudadania

Page 46: Jornadas Cientificas en Ciencia de Datos

Conferencias Las jornadas del miércoles 24 y jueves 25 estuvieron marcadas por el ciclo de conferencias. Expertos nacionales y extranjeros realizaron diferentes ponencias sobre Ciencia de Datos. Los temas tratados com-prendieron asuntos sobre inteligencia artificial, negocios, agricultura, medicina, tecnología de la información y educación, entre otros.

Las conferencias fueron el punto máximo de las Jornadas, donde los disertantes pudieron compartir sus trabajos y/o experiencias con el público asistente. Fue un momento de intercambio de conocimientos que permitió a los presentes actualizarse en relación a las innovaciones en el área de Ciencia de datos.

Las ponencias causaron un gran impacto en el público asistente, sobre todo porque fueron temas muy interesantes y actuales. Los diser-tantes internacionales invitados fueron el Prof. Dr. Tsen Chung Kang (Brasil) quien habló del impacto de las tecnologías de Big Data y Data Science en las nuevas cadenas de producción, el Prof. Dr. Patricio Yanki-levich (Argentina) quién mostró una plataforma computacional para análisis de datos de enfermedades raras y complejas,

Page 47: Jornadas Cientificas en Ciencia de Datos

el Prof. Dr. Ernesto Cuadros (Perú) quién nos actualizó sobre “AC-M/IEEE-CS Computing Curricula 2020” y los perfiles internacionales de carreras de computación, y la Prof. Dra Laura Alonso Alemany (Argenti-na) quién expuso el tema “Lenguaje Natural como una clave para Inter-pretable Artificial Intelligence (la nueva electricidad que podemos en-tender todos)”.

Entre los disertantes nacionales se tuvo la presencia del Prof. Dr. Benjamín Barán, decano de la Facultad de Informática de la UCOM, quién habló sobre la ciencia de datos en Paraguay, la Ing. Gloria Ortega con el tema “Uso de las ciencias de datos en el mundo de los medios de pago”, el Prof. Dr. Christian Schaerer, quién explicó cómo usar la mate-mática para tomar decisiones. Asimismo, participaron la Prof. Dra. Anto-nieta Rojas de Arias refiriendo a los desafíos de las Ciencias de la vida a la Ingeniería de los datos, el Prof. M.Sc. Santiago Gómez compartiendo su investigación sobre nuevas métricas para análisis estadísticos, y el Prof. Dr. Daniel Romero quién explicó los indicadores de datos en empresas.

Igualmente, participaron exponentes de empresas locales como el Ing. Wilfrido Inchaustti, CEO de la empresa DATO quién habló del tema “Una metodología y arquitectura aplicada a diferentes negocios”,

Page 48: Jornadas Cientificas en Ciencia de Datos

el Ing. Sebastian Ortiz, Presidente de la Cámara Paraguaya del Software (CISOFT), compartió anécdotas históricas, oportunidades y desafíos de cara al futuro utilizando Machine Learning en Paraguay, la Lic. Verónica Araujo, CEO de ICON y Directora NAUTA, quién habló sobre Innovación, Liderazgo, startups y emprendedurismo, el Ing. Ariel Guerrero, del Parque Tecnológico Itaipú, con el tema “Análisis inteligente de datos para la mejora incremental del Sistema de Monitoreo de Gas Hexa-fluoruro de Azufre (SF6)”, y el Ing. Juan Pane demostrando por qué la ineficiencia pública cuesta al Estado USD 142 millones.

Se pueden acceder a todas las presentaciones de las ponencias en for-mato pdf en el link:http://www.ucom.edu.py/cienciadedatos/resumen/

Page 49: Jornadas Cientificas en Ciencia de Datos

Dr. Patricio YankilevichCoordinador de la Plataforma Bioinformática del IBioBA

[email protected]

Resumen

En esta ponencia fue presentado el software GenIO, un novedoso servidor web, diseñado para ayudar a los investigadores de genómica clínica y médicos en el proceso de diagnóstico de enfermedades genéticas raras. La herramienta identi-fica las variantes más probables que causan una enfermedad rara, utilizando la información genómica y clínica proporcionada por un médico. Las variantes iden-tificadas en un genoma completo, exoma completo o estudios de secuenciación de dianas se anotan, clasifican y filtran por importancia clínica. Los genes candida-tos asociados con los síntomas del paciente, la enfermedad sospechada y los hallazgos complementarios se identifican para obtener un pequeño número ma-nejable de las variantes de genes candidatos recesivos y dominantes más proba-bles asociadas con el caso de la enfermedad rara. Además, siguiendo las pautas y recomendaciones del Colegio Americano de Genética Médica y Genómica y la Asociación de Patología Molecular (ACMG-AMP), se identifican todas las variantes potencialmente patógenas que podrían estar contribuyendo a la enfermedad y los hallazgos secundarios.

ReferenciasKoile, D., Cordoba, M., de Sousa Serro, M., Kauffman, M. A., & Yankilevich, P. (2018). GenIO: a phenotype-genotype analysis web server for clinical genomics of rare diseases. BMC bioinformatics, 19(1), 25.

Una plataforma computacional para el análisis de datos de enfermedades raras y complejas

Page 50: Jornadas Cientificas en Ciencia de Datos

Laura Alonso AlemanyGrupo de Procesamiento del Lenguaje Natural

FaMAF-UNC, Córdoba, [email protected]

Resumen El Procesamiento de Lenguajes Naturales, (PLN, o NLP; Natural Language Processing), es una subdisciplina de la Inteligencia Artificial y la rama ingenieril de la lingüística computacional. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales. La Inteligencia Artificial ha avanzado a pasos agigantados desde sus prime-ras apariciones en la escena de la investigación. La inteligencia artificial, IA en ade-lante, abarca innumerables campos y tiene muchísimas aplicaciones. Sin embargo, queda todavía un buen trecho por cubrir hasta conseguir que los sistemas IA dominen algunos aspectos “humanos” que pueden ser de mucha aplicación en diversas áreas de interés. Específicamente, hablamos de procesar y utilizar el lenguaje natural del mismo modo que lo haría una persona. Las dos ramas de la IA con mayor recorrido actualmente son Natural Language Proces-sing (NLP) y Natural Language Understanding (NLU). Esta ponencia explora el uso de words embedding como características para la desambiguación del sentido del verbo español (VSD). Este tipo de técnica de aprendizaje se denomina aprendizaje semisupervisado disjunto: un algoritmo no supervisado (es decir, word embeddings) se entrena en datos no marcados por separado como primer paso, y luego los resultados son utilizados por un clasifica-dor supervisado. En este trabajo, nos centramos principalmente en dos aspectos de VSD entrenados con representaciones de palabras no supervisadas. Primero, mostramos cómo el dominio en el que se entrenan las words embedding afecta el desempeño de la tarea supervisada. Un dominio específico puede mejorar los resultados si este dominio se comparte con el dominio de la tarea supervisada, incluso si las word embedding se entrenan con corpus más pequeños. En segundo lugar, mostramos que el uso de word embedding puede ayudar a que el modelo se generalice en comparación con no utilizar word embedding. Esto significa que las words embedding ayudan al disminuir la tendencia del modelo a adaptarse excesivamente.

Referencias1. Cardellino, C., & Alonso i Alemany, L. (2017). Disjoint semi-supervised spanish verb sense disambiguation using word embeddings. In XVIII Simposio Argentino de Inteligencia Artifi-cial (ASAI)-JAIIO 46 (Córdoba, 2017).2. Cardellino, C., & Alemany, L. A. (2018). Exploring the impact of word embeddings for disjoint semisupervised Spanish verb sense disambiguation. Inteligencia Artificial, 21(61), 67-81.

Lenguaje Natural para Inteligencia Artificial Interpretable

Page 51: Jornadas Cientificas en Ciencia de Datos

Prof. Dr. Tsen Chung Kang - [email protected] Shunji Nishimura de Pompéia

Resumen Los ecosistemas de innovación son “máquinas de resolución de problemas”.

Los sistemas de innovación exitosos se caracterizan generalmente por una economía del conocimiento activa, que comprende actividades de I + D e innovación académicas, del sector público y empresarial con una comercialización efectiva y todo ello respaldado por mecanismos flexibles de políticas públicas. Además, los ecosistemas de innovación exitosos también necesi-tan una cultura de innovación basada en la interacción y la apertura a oportunidades y cambios internacionales.

El manejo de grandes volúmenes de información que se renueva a cada instante es uno de los grandes desafíos que plantea el futuro inmediato y una gran oportunidad para la creación de ecosistemas de innovación. Las grandes empresas utilizan a diario el Big Data para conocer a sus consumidores y así establecer sus estrategias de marketing. Del mismo modo, los países lo utilizan para renovar sus políticas de atracción de inversiones y promover la inteligencia comer-cial, transformando los datos en información útil que mejore la vida de las personas.

La digitalización del mundo físico que conlleva lo que se conoce como el Internet de las Cosas plantea una revolución en las relaciones entre los objetos y las personas, e incluso en las propias relaciones entre objetos, los que se conectan entre sí y con la red aportando y compar-tiendo datos en tiempo real. Asimismo, los mercados están en continua transición, adquieren múltiples y nuevas caras, son plataformas y servicios de datos, que a su vez, cambian la forma de hacer negocios: Netflix pasó de ofrecer un servicio físico (alquiler de discos) a otro digital, migrando su oferta de servicios; Uber y Airbnb, conectan activos físicos, Waze y Big Belly, gene-ran datos con lo que pasa en las calles. El mundo está cambiando, los negocios no están vincula-dos a las empresas sino al ecosistema, ej. silicon valley (Apple, amazon, google, facebook, Micro-soft) mercado global.

Por lo tanto, un ecosistema de innovación efectivo permite a los empresarios, empresas, universidades, organizaciones de investigación, inversionistas y agencias gubernamentales interactuar de manera efectiva para maximizar el impacto económico y el potencial de su inves-tigación e innovación. Con este nuevo ecosistema podremos saber la probabilidad de impacto de cada protocolo en una línea y podremos tener mayor asertividad de las recomendaciones de prescripciones en una “línea”. La asertividad de las preguntas regionales también será mejor, caso tengamos disponibilidad de las informaciones.

En este escenario, los productores que consigan ofertar soluciones de “línea” serán más competitivos, de aquellos que oferten solo un tipo de producto. Esto significa distribuir todo conjunto de insumos agrícolas. Así como también, los productores que además de eso consigan agregar servicios de prescripción a sus clientes agregaran mayor valor en la cadena

El Impacto de las Tecnologías de Big Data y Ciencia de Datos en las Nuevas Cadenas de Producción

Page 52: Jornadas Cientificas en Ciencia de Datos

Ernesto [email protected], [email protected]

Resumen Computing Curricula 2020 (CC2020) es un proyecto iniciado por un conjun-to de sociedades internacionales de computación con el objetivo de examinar el estado actual curricular de todas las carreras del área de la Computación (Compu-ter Engineering, Computer Science, Information Systems, Information Technology, Software Engineering, Data Science, Cybersecurity). El equipo de este proyecto es llamado “Steering Committe” y está formado por 15 miembros, que son personas de gran influencia en su región en el área de la Computación.

El propósito de este comité es realizar una guía de los programas curricula-res de grado de Carreras de Ciencia de la Computación. Esta guía sirve, para que los estudiantes consigan determinar cuál es el camino de estudio de computación que se adecua a su interés y objetivos. A los padres, profesores, consejeros y otros quienes están tratando de apoyar a los estudiantes en sus elecciones. A los profe-sionales, quienes consideran cómo continuar su educación en un campo tan cam-biante y dinámico, y a cualquiera quien está tratando de encontrar un sentido dentro del amplio rango de programas de grado en computación.

En este escenario, el comité está realizando una completa reestructuración de las carreras en computación, reescribiendo y reenfocando según las necesida-des actuales. Este trabajo fue propuesto por el “ACM Education Council” y el objeti-vo es la redacción de un documento que pueda ser usado como guía en todas las áreas de “computación”. Un documento, redactado con colaboración internacional y que pueda ser usado globalmente.

Esto solo será posible con la participación de investigadores visionarios en computación y todas las redes de trabajo e investigación en el área. Necesitamos que los entregables sean lo más adecuado posible para el futuro. Por este motivo, podemos ayudar difundiendo ampliamente este proyecto en el mundo académi-co como en la industria y de esa forma escuchar los comentarios y opiniones de todos.

Hasta ahora, el comité identificó que las habilidades más importantes que el estudiante de computación debe tener son un fuerte conocimiento en Ciencia de la computación como también habilidades de comunicación, ética y habilidades blandas. Estas habilidades se pueden conseguir con publicaciones de los trabajos académicos realizador, con la enseñanza y el aprendizaje.

Computing Curricula 2020

Page 53: Jornadas Cientificas en Ciencia de Datos

Antonieta Rojas de Arias

Resumen Los sistemas naturales, donde multiplicidad de seres vivos interactúan y pre-tenden perpetuar su especie, sobreviven gracias a su complejidad. En los sistemas complejos pueden observarse jerarquías, donde cada elemento del sistema fun-ciona como un subsistema del mismo, y el propio sistema como un subsistema de un orden mayor. El sistema debe ser analizado o gestionado en más de una escala en forma simultánea, permitiendo el manejo de múltiples escalas. La conciliación necesaria entre las variables cualitativas y cuantitativas, caracteriza a esos siste-mas.

Respecto a la incertidumbre asociada al estudio de los sistemas complejos, las fuentes de incertidumbre son diversas: falta de datos, datos inadecuados, defi-nición imprecisa del sistema y sus fronteras, comprensión limitada del sistema, derivada de procesos no lineales como el comportamiento caótico. Frente a la incertidumbre, deben realizarse nuevas investigaciones y diseños de estrategias que no se limiten a reconocer el riesgo, sino a incluirlo. Dada las características de los sistemas complejos, estos escapan a la capacidad humana de control, y el aumento de los conocimientos puede incluso generar más incertidumbre. La exis-tencia de riesgo tiene que ser asumida como una parte natural de la realidad, y no como una excusa para la falta de acción. Dadas las condiciones descriptas, además, de planteos metodológicos sobre el manejo de múltiples escalas, la conciliación de variables cualitativas y cuantitativas, cuestiones asociadas a la incertidumbre y el riesgo inherente, y sobre la integración de las disciplinas, interesan otros aspec-tos como, por ejemplo, la necesidad de reexaminar los criterios de validación de hipótesis y otras normas científicas, y la incorporación de otros conocimientos y perspectivas desde otros actores sociales.

Esto fue evidenciado en el proyecto de la enfermedad de Chagas, en el que se efectuó un abordaje desde una perspectiva multifactorial y multidisciplinar. En este proyecto existieron dificultades de logística en campo, múltiples variables, largas distancias, terreno hostil, imprecisiones en la captura de los datos, dificulta-des de corrección y comprobación de datos obtenidos. Además, la prevención y control con dificultades y éxito escaso, re‐infestaciones dentro de las viviendas, grandes distancias para recorrido, costos elevados. Igualmente, el desconocimien-to del comportamiento del vector en diferentes ambientes y el desconocimiento de la presencia del vector en zonas del Chaco. Ante estos desafíos, la solución encontrada que resultó de la tesis de grado de Luis Rodriguez y Marcio Duarte, fue la integración y desarrollo de herramientas open source para la recolección y análi-sis predictivo de datos basado en una red de clientes móviles.

Desafíos de las Ciencias de la Vida a la Ingeniería de los datos

Page 54: Jornadas Cientificas en Ciencia de Datos

Así mismo, en una tesis de maestría, Federico Gaona, diseñó e implementó en una comunidad indígena un sistema de monitoreo remoto para detectar la pre-sencia de T.infestans usando trampas cebadas y red inalámbricas de sensores. Esto permitió efectuar una red de vigilancia remota.

Otro caso de éxito fue la tesis de maestría de Adolfo Jara, “Teledetección aplicada al estudio de la dinámica de dispersión de triatominos, caso de estudio: comunidades indígenas del chaco central”, en este estudio se determinó la distri-bución espacial de triatominos basado en la utilización de variables entomológi-cas y ambientales de la zona de estudio por medio del uso de herramientas de teledetección. De esta forma, fue posible determinar la relación entre la presencia de triatominos en las viviendas y los factores ambientales de la zona de estudio por medio del uso de herramientas de teledetección.

En conclusión, con estos casos de éxito se puede evidenciar que la ciencia de los datos abre nuevos paradigmas en el área de salud. Igualmente, en salud pública se requiere una mayor capacidad de gestión y análisis de los datos. Por tanto, debemos pasar del análisis de la salud individual a la salud colectiva, para lograr que la prevención y control de las enfermedades en tiempo real sea una rea-lidad.

Referencias • Giannuzzo AN. scientia zudia, São Paulo, v. 8, n. 1, p. 129--‐56, 2010• F. A. Gaona; MAGNA MONTEIRO; A. Rojas de Arias; C. Schaerer; Sistema de monitoreo remoto en tiempo real del vector trasmisor de la enfermedad de Chagas. In: Premios Mercosur de Ciencia y Tecnología edición 2017, 2018 Brasilia Libro Mercosur edición 2017. 2018. • A. JARA; F. A. GAONA; MARTIN VERA; S. Aquino; C. E. SCHAERER; M. Monteiro; C. Juiz; B. Serra; C. Vega; A. Rojas de Arias; Using infrared photoelectric sensors for automatic detection of reinfestation by triatoma infestans. In: 3rd Conference of Computational Interdiscyplinary Sciences - CCIS 2014, 2014 San Lorenzo 2014.• Marcio Duarte, Luis Rodriguez, “Diseño e implementación de una solución integrada de recolección y análisis predictivo de datos open source utilizando dispositivos móviles inteligentes”, Trabajo Final de Grado para la obtención de título Ingeniero en Informática.

Page 55: Jornadas Cientificas en Ciencia de Datos

Benjamín Barán

Resumen El término "Ciencia de datos" surgió recientemente para designar específica-mente una nueva profesión que se espera que dé sentido a las grandes empresas de big data. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años.

Se puede comenzar a trazar la evolución del término "Ciencia de datos" y su uso, partir del año 1989, cuando se intenta definirlo y especificar los términos rela-cionados. A continuación algunos eventos más destacados: En el año 1989, se rea-liza el primer “Knowledge Discovery in Databases” (KDD) workshop; en 1995 se organiza la 1ra conferencia ACM sobre “Knowledge Discovery” y “Data Mining”; en 1996 el primer uso documentado del término «Data Science» en una conferencia internacional, en Kobe – Japón; en 1997 en la conferencia del Prof. C. F. Jeff Wu, se hace un llamado a los expertos en estadísticas para que se re-definan como «Data Scientists»; en 2001 se presenta un Plan para expandir el área de acción de los expertos en Estadísticas a lo que comienza a ser llamado Ciencia de Datos ; en 2002 se lanza el primer “Data Science Journal”; en 2003 se amplia el área de actua-ción con el “Journal of Data Science”; en 2005 se publica “Competing on Analytics” anticipando una dura competencia; en 2008 se publica la “Prioridad estratégica en la creación de carreras en Ciencia de Datos”; en 2011 Harlan Harris publica “Data Science, Moore´s Law, and Moneyball ”.

En Paraguay iniciábamos nuestras primeras publicaciones científicas en el área en el año 2008, con el trabajo “Generación de modelos de estimación utilizan-do Programación Genética Lineal”, J. Martínez, R. Sánchez y B. Barán, XXXIV Confe-rencia Latinoamericana de Informática – CLEI’2008. Luego en el año 2009 “Estima-tion Models Generation using Linear Genetic Programming”, J. Martínez, R. Sán-chez y B. Barán, CLEI Electronic Journal, Volume 12, Number 3. Diciembre de 2009 (http://www.clei.cl/cleiej/volume.php). En 2010, “Evolución de Reglas de Clasifica-ción Binaria utilizando Programación Genética Lineal. Una Aplicación al Descarte de Ganado”, M. Abente, J. Martínez y B. Barán. XXXVI Conferencia Latinoamericana de Informática, CLEI’2010.

Posteriormente en el año 2015 fue presentado el trabajo denominado “Pre-dicción de Ingresos de Causas Penales utilizando Programación Genética Lineal”, A. Garcete y B. Barán. XXI Congreso Argentino de Ciencias de la Computación, CACIC’2015. Además, en 2015 “Auction-based Resource Provisioning in Cloud Computing. A Taxonomy”, S. Arévalos, F. López y B. Barán. Simposio Latinoamerica-no de Infraestructura, Hardware y Software. XLI Conferencia Latinoamericana de

Ciencia de datos en Paraguay

Page 56: Jornadas Cientificas en Ciencia de Datos

Informática, CLEI’2015. Asimismo, en 2016 “A Comparative Evaluation on Algori-thms for Auction-based Cloud Pricing Prediction”, S. Arévalos, F. López-Piresy B. Barán. IEEE International Conference on Cloud Engineering - IC2E’2016, Berlín – Alemania. En 2016 “Predicción de ingresos de causas penales mediante programa-ción genética lineal”, D. Garcete y B. Barán, Revista FPUNE Scientific de la FPUNE, Paraguay.

En el año 2017, “Drug Cocktail Selection for the Treatment of Chagas Disea-se: a Multi-objective Approach”, M. Torres, J.J. Cáceres, R. Jiménez, V. Yubero, C. Vega, M. Rolón, L. Cernuzzi, B. Barán y A. Paccanaro. Simposio Latinoamericano de Investigación de Operaciones e Inteligencia Artificial 2017, en el marco de CLEI 2017 / 46 JAIIO. Finalmente, en el año 2018 “Sistema híbrido de recomendación para una empresa paraguaya. Un sistema multi-objetivo no convencional”. Tesis de M. Bávera, orientada por B. Barán, Ingeniería Informática de la Facultad de Ciencias y Tecnología de la Universidad Católica “Ntra. Sra. de la Asunción”. También, en el año 2016, fue presentado el trabajo “Machine Learning Opportunities in Cloud Computing Datacenter Management for 5G Services”, con F. López y B. Barán, ITU Kaleidoscope 2018 Academic Conference, Santa Fe – Argentina.

En conclusión, los trabajos arriba mencionados pueden agruparse en las siguientes líneas de investigación: Series de Tiempo, Descarte de ganado en Para-guay, Tratamiento de mal de Chagas, Sistemas de recomendación, Machine Lear-ning, Resultados experimentales.

Entre las técnicas empleadas, que tuvieron mayor suceso, se puede mencio-nar en primer lugar a la Programación Genética Lineal con un porcentaje de acier-to de 0.899 y con 0.874 como promedio. Luego le sigue la técnica Bayes ingenuo con un porcentaje de acierto de 0.853. Posteriormente, con un porcentaje de acier-to de 0.849, las técnicas de Árbol de decisión CART simple y Árbol de decisión J48. Finalmente, la técnica Red neuronal Perceptrón multicapa con 0.830 y el vecino más próximo con 0.752 de porcentaje de acierto.

Page 57: Jornadas Cientificas en Ciencia de Datos

Daniel RomeroResumen Algo peor que no tener información disponible es tener mucha información y no saber qué hacer con ella. Medir y analizar son dos acciones fundamentales para conocer el estado real de una empresa. ¿Por qué medir y para qué? Si no se mide lo que se hace no se puede controlar al no controlar, no se puede tomar acciones que produzcan un valor, ni se puede dirigir y si no se puede dirigir, no se puede mejorar Un KPI (key performance indicator), conocido también como indicador clave o medidor de desempeño o indicador clave de rendimiento, es una medida del nivel del rendimiento de un proceso. El valor del indicador está directamente rela-cionado con un objetivo fijado previamente y normalmente se expresa en valores porcentuales. Un KPI se diseña para mostrar cómo es el progreso en un proceso o producto en concreto, por lo que es un indicador de rendimiento. Existen KPI para diversas áreas de una empresa: compras, logística, ventas, servicio al cliente, etc. Las grandes compañías disponen de KPI que muestran si las acciones desarrolla-das están dando sus frutos o si, por el contrario, no se progresa como se esperaba.Los indicadores clave de desempeño son mediciones financieras o no financieras utilizadas para cuantificar el grado de cumplimiento de los objetivos; reflejan el rendimiento de una organización y generalmente se recogen en su plan estratégi-co. Estos KPI se utilizan en inteligencia empresarial para reflejar el estado actual de un negocio y definir una línea de acción futura. El acto de monitorear los indicado-res clave de desempeño en tiempo real se conoce como «monitorización de activi-dad de negocio». Los indicadores de rendimiento son frecuentemente utilizados para "valorar" actividades complicadas de medir, como los beneficios de desarro-llos líderes, el compromiso de los empleados, el servicio o la satisfacción. Por ejemplo, si un indicador es Costo del Personal/Facturación < 15%, cuando el valor supera 15% se deben tomar acciona para mejorar la facturación y revisar la planilla del personal. El indicador debe ser claro y sencillo, oportuno, con-fiable y verificable. Existen varios tipos de indicadores como: Indicadores de eficiencia, Indicadores de eficacia, Indicadores de cumplimiento, Indicadores de evaluación. Existen herramientas de Tableros indicadores que pueden ayudar a identifi-car y evaluar estos indicadores. Entre estas se puede mencionar Excel como la más utilizadad. Además, existen otros en el mercado tales como Software propio (ERP), Microstrategy, Oracle – OBIEE, Microsoft SQL BI Suite, Pentaho (Open Source Alter-native con licencia), SpagoBI (100% Open Source), Tableau (liderando el cuadrante de Gartner). Los KPI son necesarios en todas las áreas, muchas veces 5 KPI aportan más información que 50 KPI. El indicador tiene que tener un propósito y considerar la frecuencia del cálculo. Sin embargo, la solución técnica es fácil, la pregunta es lo difícil.

Indicadores de Datos en Empresas

Page 58: Jornadas Cientificas en Ciencia de Datos

Wilfrido InchausttiResumen El termino Bussiness intelligence (BI) se refiere a un conjunto de productos y servicios que permiten a los usuarios finales acceder y analizar de manera rápida y sencilla, la información para la toma de decisiones de negocio a nivel operativo, táctico y estratégico. Para aplicar BI, es necesario conocer algunos aspectos del problema tales como: madurez y valor. ¿Qué sucede?, ¿cuánto, cuando y donde? ¿Dónde está el problema? ¿Qué acciones se necesitan? ¿Porque sucede? ¿Qué pasa si continúa la tendencia? ¿Qué sucederá o podría suceder? ¿Qué es lo mejor que puede suceder?

Esto nos lleva a utilizar una arquitectura estándar y es ahí donde encaja el data mining. Data mining es el estudio y tratamiento de datos para extraer conclu-siones e informaciones relevantes para aportar a las acciones tácticas y estratégi-cas del negocio. Lo que se pretende en encontrar una solución que responda clara-mente a las preguntas tales como: donde, cuando, porque, que, como y quien.La minería de datos ayuda a manipular la cantidad de datos recolectados y almace-nados minuto a minuto. Tales como, datos generados en la nube, redes sociales, compras en negocios con diversos departamentos: e-commerce, tiendas virtuales, etc., transacciones bancarias / Tarjetas de Crédito, máquinas generadoras de datos como sensores, web logs, etc. Frecuentemente hay información “oculta” en los datos que no es directamente evidente a los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a ser analizada. El GAP entre el volu-men de información y el número de analista crece exponencialmente. Además, la presión competitiva es cada vez mayor, y los datos deben ser entendidos como un activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir eventos futuros, anticiparse a ellos, etc. Data Mining, no es un producto de SW que se compra sino una disciplina que debe ser dominada. Tampoco es una solución mágica ni mucho menos instan-tánea a los problemas de negocio. No es un fin en sí mismo, sino un proceso y no es un dogma de fe, es una disciplina con sustento matemático y estadístico. Entre algunos ejemplos de lo que NO es Data Mining se pueden citar, la búsqueda en una base de datos de todas las personas mayores a 20 años que viven en Asunción y no han cursado estudios universitarios. También determinar la bebida gaseosa más vendida en cada región y/o armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio.

Data Mining es determinar la probabilidad de que un cliente solicite la baja de su servicio en los próximos 3 meses. Es determinar que clientes son más pro-pensos a responder afirmativamente a una determinada acción de MKT con una oferta determinada. Así como la tarea de antes de otorgar un préstamo, determi-nar la probabilidad de que esa persona no pueda hacer frente al pago del mismo

Una metodología y arquitectura aplicada a diferentes negocios

Page 59: Jornadas Cientificas en Ciencia de Datos

en tiempo y forma, cayendo en mora. También es data mining cuando segmenta-mos nuestra cartera de clientes para encontrar grupos de clientes con característi-cas de comportamiento similares. O cuando se analiza el comportamiento de com-pras de nuestros clientes para la confección de ofertas de productos.

El objetivo es extraer información de un conjunto de datos. En este sentido, un concepto muy utilizado es el Knowledge Discovery in Database o KDD, definido por Fayyad et al., como “el proceso no trivial de identificar patrones en los datos, en forma válida, novedosa, potencialmente útil y entendible".

Un método standard que ha sido desarrollado para ayudar en la realización de proyectos de DM es el CRISP - DM. Este fue creado por un consorcio de compa-ñías, principalmente en Europa, y se llamó Cross-Industry Standard Process for Data Mining, o CRISP-DM. Su objetivo principal es la predicción. O sea, consiste en utilizar algunas variables o campos de la Base de Datos para predecir valores des-conocidos o futuros de otras variables de interés. Otro método es el Descriptivo, el cual se centra en encontrar patrones interpretables por el ser humano, a partir de la descripción de los datos. Entre las aplicaciones de éxito se pueden citar los Modelos para Retail, Mo-delos para Seguros, Modelos para Bancos, Modelos para puertos, Modelos para Telecomunicaciones entre otros.

Page 60: Jornadas Cientificas en Ciencia de Datos

Santiago Gómez-GuerreroResumen Lo que antiguamente se planteaba como un problema de sólo dos variables – tal vez una causa y un efecto – hoy es más complejo pues estamos en condicio-nes de observar varias causas con uno o más efectos. Y la tecnología, que no cesa de inundar nuestras vidas con datos, no tiene reparo en proveernos incluso de forma ininterrumpida, con cantidades ingentes de observaciones en cada una de las cuales se combinan múltiples variables. Bienvenidos al Análisis de Datos Multi-variables, donde algunas variables son causas, otras son consecuencias y otras pueden fungir en uno u otro rol dependiendo del modelo. Conceptos como corre-lación e interacción necesitan ahora establecerse dentro de este nuevo ambiente multi-atributo.

Esta disertación presenta la medida multivariable de correlación MSU, y sus propiedades matemáticas que le confieren alto potencial en la investigación por ejemplo de mercado, sociológica, educacional, epidemiológica, y científica en general. Este trabajo, proponemos una extensión de la medida de Incertidumbre Simétrica (SU) para abordar el caso multivariado, adquiriendo simultáneamente la capacidad de detectar posibles correlaciones e interacciones entre las característi-cas. Esta generalización, denominada Incertidumbre Simétrica Multivariada (MSU), se basa en los conceptos de Correlación Total (TC) e Información Mutua (MI) exten-didos al caso multivariado. La medida generalizada da cuenta de la cantidad total de dependencia dentro de un conjunto de variables como una sola cantidad mo-nolítica. Las medidas multivariables suelen estar sesgadas debido a varios factores. Para superar este problema, se propone una expresión matemática, basada en la cardinalidad de todas las características, que se puede usar para calcular el número de muestras necesarias para estimar la MSU sin sesgo en un nivel de significación preespecificado. Los resultados teóricos y experimentales sobre datos sintéticos muestran que la expresión de tamaño de muestra propuesta controla adecuada-mente el sesgo. Además, cuando la MSU se aplica a la selección de características en datos sintéticos y del mundo real, tiene la ventaja de capturar adecuadamente las correlaciones e interacciones lineales y no lineales y, por lo tanto, puede utili-zarse como un nuevo método de evaluación de subconjuntos de características.

Algunas direcciones atractivas de estudios sobre MSU son: adaptar MSU para manejar variables categóricas y reales. ¿Discretización o empleo continuo?, incorporar MSU en los procesos de selección de características, mejorar el cálculo del tamaño de la muestra usando correlaciones de pares conocidas y la colabora-ción con otros equipos que trabajan en el dengue.

ReferenciasSosa-Cabrera, G., García-Torres, M., Gómez-Guerrero, S., Schaerer, C. E., & Divina, F. (2019). A multivariate approach to the symmetrical uncertainty measure: Application to feature selection problem. Information Sciences, 494, 1-20.

Nuevas Métricas para Análisis Estadísticos

Page 61: Jornadas Cientificas en Ciencia de Datos

Ariel Guerrero, Adrian OsorioParque Tecnológico Itaipú- Paraguay

Resumen

El gas Hexafluoruro de Azufre (SF6), es uno de los materiales aislantes más utilizados en equipos de maniobra de subestaciones aisladas, tal es el caso de la GIS (Gas Insulated Switchgear) de la Itaipu Binacional, así implementado también en determinados equipos de subestaciones convencionales. Como la edad de esta instalación supera los 30 años, la división de Ingeniería de Mantenimiento Eléctri-co se avocó en la búsqueda de un sensor que pudiese informar de forma periódica (online) los principales parámetros del gas y monitorear su condición dieléctrica de forma a que el Mantenimiento Ejecutivo pase a actuar predictivamente, redu-ciendo intervenciones no programadas, o en el peor de los casos, mantenimientos correctivos. El factor que aceleró esta búsqueda fue el programa de cierre herméti-co de las sesenta celdas de los transformadores elevadores (cota 108), que impedi-ría físicamente la medición de presión de los compartimientos presurizados conectados a los bujes de 500kV de estos equipos, siendo el seleccionado uno que extraía del gas las siguientes grandezas: densidad, temperatura y presión. Poste-riormente, el fabricante anunció el lanzamiento de un nuevo sensor que además de obtener las mismas grandezas citadas mediría además la humedad del gas, que era más interesante desde el punto de vista de la Ingeniería de Mantenimiento. Una vez comprobada la eficiencia y precisión de las mediciones de este sensor a través de ensayos y comparaciones con instrumentos de campo utilizados por el personal de Mantenimiento Ejecutivo, era necesario superar un segundo obstácu-lo, ya que este sensor poseía salida a 4 hilos, un par para alimentación y otro para comunicación, lo que implicaba en lanzamiento de nuevos ductos y cables en una instalación próxima de la saturación, incurriendo en elevación de costos del pro-yecto. Este inconveniente fue presentado al personal del CIAC (Centro de Innova-ción, Automatización y Control, de la Fundación PTI Paraguay), y fueron propues-tas dos soluciones que podrían evitar el lanzamiento de nueva infraestructura, una de ellas inalámbrica, y otra más atractiva que utiliza la tecnología PLC (Power Line Communication) basada en el uso de transmisión de datos por el mismo par de cables de alimentación. Esta solución fue la escogida para el sistema de monitoreo debido a la existencia de un par de cables de reserva localizado en los Relés de Densidad de Gas (RDG) destinados a la protección de cada compartimiento estan-co, y próximo al punto destinado a utilizar este sensor, evitando sobrecostos. La solución desarrollada por el CIAC, compuesta de hardware y software, se inicia en nodos electrónicos acoplados mecánicamente a los sensores permitiendo la comunicación de los datos hasta el servidor. En este trayecto, las informaciones

Análisis inteligente de datos para la mejora incremental del Sistema de Monitoreo de Gas Hexafluoruro de Azufre (SF6)

Page 62: Jornadas Cientificas en Ciencia de Datos

pasan por nodos esclavos y concentradores, siendo que cada sensor posee un nodo esclavo, el cual se encarga de la lectura de datos. Los nodos esclavos de un mismo vano se conectan a un nodo concentrador, y éste se encarga de retransmitir los datos leídos al servidor.

La parte relacionada a la supervisión desarrollada en software libre, consiste en firmware de los nodos, y dos programas independientes se ejecutan en el servi-dor, el primero se encarga de la adquisición e interpretación de datos, almacena-miento en gestor de base de datos, activación de alarmas, y otras tareas. El segun-do programa brinda al usuario una interfaz para configuración del sistema y visua-lización de datos en forma de gráficos, tablas y alarmas. Los aspectos relevantes de los resultados y beneficios obtenidos del despliegue de este sistema para el man-tenimiento de la instalación serán detallados en el artículo y podrán ser explaya-dos en la presentación.

ReferenciasAdrián E. Osorio, Ariel Guerrero, Diego Gamarra, Víctor Franco, Sergio Morel, Jorge Duré, “Aspectos Relevantes del Mantenimiento Predictivo del Gas Aislante Hexafluoruro de Azufre (SF6) de la GIS de Itaipu Binacional”, XII SEMINARIO DEL SECTOR ELECTRICO PARA-GUAYO - CIGRÉ 25 y 26 de agosto de 2016

Page 63: Jornadas Cientificas en Ciencia de Datos

Conclusión La organización de las I Jornadas Científicas en Ciencia de Datos significó un gran desafío para la Facultad de Informática de la UCOM. Este evento fue realizado con el objetivo de fomentar el avance del conocimiento sobre Ciencia de datos, a través del debate y la crítica constructiva sustentadas sobre las bases del rigor científico.

El evento causó un gran impacto en el ámbito científico, académi-co, empresarial y social posicionando a la Universidad Comunera como referente en el área de Ciencia de datos. Más de 400 asistentes entre profesionales, estudiantes, gestores de negocios y académicos nacio-nales y extranjeros, compartieron charlas y discusiones sobre tecnolo-gías, soluciones y el mercado en torno a la Ciencia de datos en el país. Esto nos permitió identificar una demanda importante en esta área y nos impulsa a continuar con la difusión de conocimiento científico y tecnológico en Ciencia de datos, a través de cursos cortos, talleres, diplomados y proyectos académicos de nivel universitario.

Las Jornadas fueron un punto de encuentro para intercambiar conocimientos y experiencias entre los exponentes nacionales y extranjeros que trabajan en diversas áreas relacionadas a la Ciencia de datos. De esta forma se pudo aproximar la comunidad científica a la sociedad, al mundo empresarial y al público en general. Igualmente, debemos mencionar el fortalecimiento de las relaciones con los investi-gadores internacionales, con quienes intercambiamos experiencias y planificamos la participación en proyectos de interés mutuo. La Facul-tad de Informática se vio fortalecida en sus líneas principales de investi-gación que tiene que ver con Ciencia de datos.

Page 64: Jornadas Cientificas en Ciencia de Datos

CENTRO PARA EL

DESARROLLO DE LA

INVESTIGACIÓN

CIENTÍFICA

Instituciones que apoyaron el evento