2001 cap 02 04 proc univariate

8
 Statistical Analysis System PROC - 1 - Procedimiento UNIVARIATE El procedimiento UNIVARIATE calcula estadísticos univariantes que permiten estudiar la distribución de una variable. Sus principales características son:  1. Trabaja con variables numéricas. 2. Calcula estadísticos descriptivos, incluido el cálculo de los cuantiles. 3. Identifica valores extremos. 4. Intervalos de confianza para la media. 5. Genera tablas de frecuencias. 6. Análisis exploratorio de los datos mediante gráficos de caja y bigotes, diagrama de tallo y hojas. 7. Realiza el contraste de la t de student, de normalidad y de localización. La sintaxis general del PROC UNIVARIATE es: PROC UNIVARIATE opciones; BY variable(s); CLASS variables ; FREQ variable; HISTOGRAM variable(s) / opciones; ID variable(s); INSET estadístico(s) DATA=conjunto de datos SAS / opciones; OUTPUT OUT= fichero estadísticos = nombre variables; PROBPLOT variable(s) /opciones; QQPLOT variable(s) / opciones; VAR variable(s); WEIGHT variable;  

Upload: igor-s11

Post on 20-Jul-2015

400 views

Category:

Documents


0 download

TRANSCRIPT

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 1/8

 

Statistical Analysis System PROC

- 1 -

Procedimiento UNIVARIATE 

El procedimiento UNIVARIATE calcula estadísticos univariantes que permiten

estudiar la distribución de una variable. Sus principales características son: 

1.  Trabaja con variables numéricas.

2.  Calcula estadísticos descriptivos, incluido el cálculo de los

cuantiles.

3.  Identifica valores extremos.

4.  Intervalos de confianza para la media.

5.  Genera tablas de frecuencias.

6.  Análisis exploratorio de los datos mediante gráficos de caja y

bigotes, diagrama de tallo y hojas.

7.  Realiza el contraste de la t de student, de normalidad y de

localización.

La sintaxis general del PROC UNIVARIATE es:

PROC UNIVARIATE opciones ;

BY variable(s); 

CLASS variables ; 

FREQ variable ;

HISTOGRAM variable(s) / opciones; 

ID variable(s); 

INSET estadístico(s) DATA=conjunto de datos SAS / opciones;

OUTPUT OUT= fichero estadísticos = nombre variables; 

PROBPLOT variable(s) /opciones; 

QQPLOT variable(s) / opciones; 

VAR variable(s); 

WEIGHT variable;  

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 2/8

 

Statistical Analysis System PROC

- 2 -

Dentro de las opciones se encuentran:

PLOT-. crea gráficos de tallos y hojas, box-plot, plot de normalidad.

FREQ-. tabla de frecuencias.

NORMAL-. Test de normalidad de Shaphiro-Wilks.

ROUND=n-.Donde n es la unidad de redondeo para los datos que sepresentan en la ventana OUTPUT.

Las especificaciones más importantes son:

BY <DESCENDING>variable-1<...<DESCENDING>variable-n > <NOTSORTED>;

Ejecuta el procedimiento para cada grupo definido por las variablesespecificadas en BY.

CLASS variable-1<(variable-option(s))><variable-2 <(variable-option(s))>></KEYLEVEL='value1'|('value1' 'value2 ')>; 

Permite declarar dos variables para categorizar el analisis. 

FREQ variable ; 

Determina la variable cuyos valores se utilizarán como frecuenciasabsolutas de las observaciones.

HISTOGRAM <variable(s)> </ option(s)>; 

Crea un histograma de frecuencias

ID variable(s);  Variables de identificación para el conjunto de datos.

INSET <keyword(s) DATA=SAS-data-set > </ option(s)>; 

Crea una tabla con los estadísticos especificados entre ellos seencuentran:

OUTPUT <OUT=SAS-data-set > statistic-keyword-1=name(s) 

<... statistic-keyword-n=name(s)> <percentiles-specification >; 

Conjunto de datos SAS donde se guardan los estadísticos pedidos para

las variables especificadas.PROBPLOT <variable(s)> </ option(s)>;

Crean gráficos de probabilidad. 

QQPLOT  <variable(s)> </ option(s)>; 

Crean gráficos de cuantiles. 

 VAR  variable(s); 

 Variables a las que se aplica el procedimiento.

WEIGHT variable ; 

 Variable que contiene las ponderaciones para el cálculo de losestadísticos.

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 3/8

 

Statistical Analysis System PROC

- 3 -

Para …  Se utiliza … Calcular estadísticos independientes para cada grupo

definido BY

BY

Permite especificar hasta dos variables para categorizarel análisis.

CLASS

Especifica una variable que contiene la frecuencia decada observación

FREQ

Crea un histograma en alta resolución HISTOGRAM

Especifica una variable o más variables para identificarlos valores extremos

ID

Incluye una tabla de resumen estadísticos en un gráfico INSET

Crea un data ser que contiene los estadísticos indicados. OUTPUT

Crea un gráfico de probabilidad. PROBPLOT

Crea un QQ-Plot QQPLOT

Indica para que variables se realiza el análisis VAR

Especifica la variable cuyo valores son el peso de cada

observación en el calculo de los estadísticos.

WEIGHT

Nota:Entre los estadísticos que se pueden especificar en INSET están; 

N,MEAN,SUM,STD,VAR,SKEWNESS,KURTOSIS,MAX,MIN,RANGE,Q1,Q3,MEDI AN,P1,P5,P10,P90,P95,P99,MODE.

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 4/8

 

Statistical Analysis System PROC

- 4 -

Ejemplo  

Calculo de estadísticos descriptivos para la variable salario inicial del archivoempleados.

DATA UNI_UNO;SET doc.empleados;PROC UNIVARIATE DATA=uni_uno; VAR salini;

run;

Se obtiene el siguiente resultado.

The UNIVARIATE ProcedureVariable: salini (Salario inicial)

Moments

N 474 Sum Weights 474

Mean 17016.0865 Sum Observations 8065625Std Deviation 7870.63815 Variance 61946945Skewness 2.85285615 Kurtosis 12.3902148Uncorrected SS 1.66546E11 Corrected SS 2.93009E10Coeff Variation 46.2541029 Std Error Mean 361.510383

Basic Statistical Measures

Location Variability

Mean 17016.09 Std Deviation 7871Median 15000.00 Variance 61946945Mode 15000.00 Range 70980

Interquartile Range 5040

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student's t t 47.06943 Pr > |t| <.0001Sign M 237 Pr >= |M| <.0001Signed Rank S 56287.5 Pr >= |S| <.0001

Quantiles (Definition 5)

Quantile Estimate

100% Max 7998099% 4500095% 33000

90% 2751075% Q3 1749050% Median 1500025% Q1 1245010% 109505% 102001% 97500% Min 9000

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 5/8

 

Statistical Analysis System PROC

- 5 -

The UNIVARIATE ProcedureVariable: salini (Salario inicial)

Extreme Observations

----Lowest---- ----Highest----

Value Obs Value Obs

9000 111 45000 431

9000 40 47490 1609000 25 52500 2059000 24 60000 3439750 167 79980 29

PROC UNIVARIATE DATA=uni_uno PLOT; VAR salini;

run;

Histogram # Boxplot

77500+* 1 *

.

.

.* 1 *

.

.* 1 *

.* 3 *

42500+* 4 *

.** 6 *

.***** 25 0

.**** 20 0

.***** 23 |

.************************************ 178 +--+--+

.***************************************** 201 +-----+

7500+*** 11 |

----+----+----+----+----+----+----+----+-* may represent up to 5 counts

Normal Probability Plot

77500+ *

|

|

| *

|

| *

| **

42500+ ***

| *** +++

| *****++++| ****++

| +++++***

| +***********

| ********************

7500+*** ** +++++++

+----+----+----+----+----+----+----+----+----+----+

-2 -1 0 +1 +2

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 6/8

 

Statistical Analysis System PROC

- 6 -

PROC UNIVARIATE DATA=uni_uno FREQ; VAR catlab;

run;

Frequency Counts

Percents Percents

PercentsValue Count Cell Cum Value Count Cell Cum Value Count Cell

Cum

1 363 76.6 76.6 2 27 5.7 82.3 3 84 17.7

100.0

The UNIVARIATE Procedure

Variable: catlab (Categoría laboral)

Histogram #

Boxplot

3.05+*********** 84 *

.

2.85+

.

2.65+

.

2.45+

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 7/8

 

Statistical Analysis System PROC

- 7 -

PROC UNIVARIATE DATA=uni_uno; HISTOGRAM;VAR salini;

run;

5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com

http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 8/8

 

Statistical Analysis System PROC

- 8 -

PROC UNIVARIATE DATA=uni_uno; HISTOGRAM;INSET USS MEAN SUM ;VAR 

salini;run;