2001 cap 02 04 proc univariate
TRANSCRIPT
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 1/8
Statistical Analysis System PROC
- 1 -
Procedimiento UNIVARIATE
El procedimiento UNIVARIATE calcula estadísticos univariantes que permiten
estudiar la distribución de una variable. Sus principales características son:
1. Trabaja con variables numéricas.
2. Calcula estadísticos descriptivos, incluido el cálculo de los
cuantiles.
3. Identifica valores extremos.
4. Intervalos de confianza para la media.
5. Genera tablas de frecuencias.
6. Análisis exploratorio de los datos mediante gráficos de caja y
bigotes, diagrama de tallo y hojas.
7. Realiza el contraste de la t de student, de normalidad y de
localización.
La sintaxis general del PROC UNIVARIATE es:
PROC UNIVARIATE opciones ;
BY variable(s);
CLASS variables ;
FREQ variable ;
HISTOGRAM variable(s) / opciones;
ID variable(s);
INSET estadístico(s) DATA=conjunto de datos SAS / opciones;
OUTPUT OUT= fichero estadísticos = nombre variables;
PROBPLOT variable(s) /opciones;
QQPLOT variable(s) / opciones;
VAR variable(s);
WEIGHT variable;
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 2/8
Statistical Analysis System PROC
- 2 -
Dentro de las opciones se encuentran:
PLOT-. crea gráficos de tallos y hojas, box-plot, plot de normalidad.
FREQ-. tabla de frecuencias.
NORMAL-. Test de normalidad de Shaphiro-Wilks.
ROUND=n-.Donde n es la unidad de redondeo para los datos que sepresentan en la ventana OUTPUT.
Las especificaciones más importantes son:
BY <DESCENDING>variable-1<...<DESCENDING>variable-n > <NOTSORTED>;
Ejecuta el procedimiento para cada grupo definido por las variablesespecificadas en BY.
CLASS variable-1<(variable-option(s))><variable-2 <(variable-option(s))>></KEYLEVEL='value1'|('value1' 'value2 ')>;
Permite declarar dos variables para categorizar el analisis.
FREQ variable ;
Determina la variable cuyos valores se utilizarán como frecuenciasabsolutas de las observaciones.
HISTOGRAM <variable(s)> </ option(s)>;
Crea un histograma de frecuencias
ID variable(s); Variables de identificación para el conjunto de datos.
INSET <keyword(s) DATA=SAS-data-set > </ option(s)>;
Crea una tabla con los estadísticos especificados entre ellos seencuentran:
OUTPUT <OUT=SAS-data-set > statistic-keyword-1=name(s)
<... statistic-keyword-n=name(s)> <percentiles-specification >;
Conjunto de datos SAS donde se guardan los estadísticos pedidos para
las variables especificadas.PROBPLOT <variable(s)> </ option(s)>;
Crean gráficos de probabilidad.
QQPLOT <variable(s)> </ option(s)>;
Crean gráficos de cuantiles.
VAR variable(s);
Variables a las que se aplica el procedimiento.
WEIGHT variable ;
Variable que contiene las ponderaciones para el cálculo de losestadísticos.
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 3/8
Statistical Analysis System PROC
- 3 -
Para … Se utiliza … Calcular estadísticos independientes para cada grupo
definido BY
BY
Permite especificar hasta dos variables para categorizarel análisis.
CLASS
Especifica una variable que contiene la frecuencia decada observación
FREQ
Crea un histograma en alta resolución HISTOGRAM
Especifica una variable o más variables para identificarlos valores extremos
ID
Incluye una tabla de resumen estadísticos en un gráfico INSET
Crea un data ser que contiene los estadísticos indicados. OUTPUT
Crea un gráfico de probabilidad. PROBPLOT
Crea un QQ-Plot QQPLOT
Indica para que variables se realiza el análisis VAR
Especifica la variable cuyo valores son el peso de cada
observación en el calculo de los estadísticos.
WEIGHT
Nota:Entre los estadísticos que se pueden especificar en INSET están;
N,MEAN,SUM,STD,VAR,SKEWNESS,KURTOSIS,MAX,MIN,RANGE,Q1,Q3,MEDI AN,P1,P5,P10,P90,P95,P99,MODE.
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 4/8
Statistical Analysis System PROC
- 4 -
Ejemplo
Calculo de estadísticos descriptivos para la variable salario inicial del archivoempleados.
DATA UNI_UNO;SET doc.empleados;PROC UNIVARIATE DATA=uni_uno; VAR salini;
run;
Se obtiene el siguiente resultado.
The UNIVARIATE ProcedureVariable: salini (Salario inicial)
Moments
N 474 Sum Weights 474
Mean 17016.0865 Sum Observations 8065625Std Deviation 7870.63815 Variance 61946945Skewness 2.85285615 Kurtosis 12.3902148Uncorrected SS 1.66546E11 Corrected SS 2.93009E10Coeff Variation 46.2541029 Std Error Mean 361.510383
Basic Statistical Measures
Location Variability
Mean 17016.09 Std Deviation 7871Median 15000.00 Variance 61946945Mode 15000.00 Range 70980
Interquartile Range 5040
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 47.06943 Pr > |t| <.0001Sign M 237 Pr >= |M| <.0001Signed Rank S 56287.5 Pr >= |S| <.0001
Quantiles (Definition 5)
Quantile Estimate
100% Max 7998099% 4500095% 33000
90% 2751075% Q3 1749050% Median 1500025% Q1 1245010% 109505% 102001% 97500% Min 9000
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 5/8
Statistical Analysis System PROC
- 5 -
The UNIVARIATE ProcedureVariable: salini (Salario inicial)
Extreme Observations
----Lowest---- ----Highest----
Value Obs Value Obs
9000 111 45000 431
9000 40 47490 1609000 25 52500 2059000 24 60000 3439750 167 79980 29
PROC UNIVARIATE DATA=uni_uno PLOT; VAR salini;
run;
Histogram # Boxplot
77500+* 1 *
.
.
.* 1 *
.
.* 1 *
.* 3 *
42500+* 4 *
.** 6 *
.***** 25 0
.**** 20 0
.***** 23 |
.************************************ 178 +--+--+
.***************************************** 201 +-----+
7500+*** 11 |
----+----+----+----+----+----+----+----+-* may represent up to 5 counts
Normal Probability Plot
77500+ *
|
|
| *
|
| *
| **
42500+ ***
| *** +++
| *****++++| ****++
| +++++***
| +***********
| ********************
7500+*** ** +++++++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 6/8
Statistical Analysis System PROC
- 6 -
PROC UNIVARIATE DATA=uni_uno FREQ; VAR catlab;
run;
Frequency Counts
Percents Percents
PercentsValue Count Cell Cum Value Count Cell Cum Value Count Cell
Cum
1 363 76.6 76.6 2 27 5.7 82.3 3 84 17.7
100.0
The UNIVARIATE Procedure
Variable: catlab (Categoría laboral)
Histogram #
Boxplot
3.05+*********** 84 *
.
2.85+
.
2.65+
.
2.45+
5/17/2018 2001 Cap 02 04 Proc Univariate - slidepdf.com
http://slidepdf.com/reader/full/2001-cap-02-04-proc-univariate 7/8
Statistical Analysis System PROC
- 7 -
PROC UNIVARIATE DATA=uni_uno; HISTOGRAM;VAR salini;
run;