libro estadística aplicada a la valoración - francisco guijarro blog

Upload: luis-fernando-restrepo-gomez

Post on 04-Jun-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    1/137

    !"#$%'(

    )*#+!&,#$'$ .%(#$/0*#0' "! +'(1*0#'

    !"#$%&"#$ $()*+$%$$ )$ ,$)-.$+*/01-%2)-" 34)#*,$.*$0#2"

    5.$0+*"+- 64*7$..- 1$.#&028

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    2/137

    Francisco Guijarro Martnez

    E

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    3/137

    2

    !"#$%"& %(#)#*+, -./0

    12"&+)#3)4 56#7&""4 8&"9:+%;

    1(%

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    4/137

    3

    ndice

    !"#$%&'( *+ ,-%.(/&!!,0- 1*+*2"'(."!,0- 3 45%"/$5%,!" 6*+7#(8'"!,0- 3 9&45%." :*+;%,#(5 /4 /"%(5

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    5/137

    4

    ;+A4' 45%"/$5%,!( .!&"/."/(B!09( "-"',H". '" 8(-/"/ /4 9,9(/4'( /4 .4C.45,0- 1A;+:!09( ,-?'&34- '"5 (854.2"!,(-45 "%$#,!"5 ( !"#$%&'(4- 4'"-I',5,5 /4 .4C.45,0- 6*;+',9,%"!,(-45 4- '" #.4/,!!,0- 94/,"-%4 9(/4'(5 /4 .4C.45,0-

    A;

    !"#$%&'( =+ 4' 9(/4'( /4 .4C.45,0- 9L'%,#'4 A1

    =+*,-%.(/&!!,0- A1=+75,C-,?,!"!,0- 45%"/$5%,!" /4' 9(/4'( 3 /4 '(5 !(4?,!,4-%45 A6=+;/"%(5 -(9,-"'45 3 (./,-"'45 4- '(5 9(/4'(5 /4 .4C.45,0- :>=+=94D(."-/( '" !"#"!,/"/ 4M#',!"%,2" /4' 9(/4'( :=

    =+14' #.(8'49" /4 '" 9&'%,!(',-4"',/"/

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    6/137

    5

    Captulo 1.Introducc in

    Aunque no muy frecuentemente, desde algunos foros del campo profesionalde la tasacin se escuchan voces crticas en referencia a la incorporacin delos mtodos y tcnicas estadsticas en el mbito de la tasacin. Entre las razo-nes esgrimidas se encuentra la excesiva complejidad de estas tcnicas cuandola tasacin siempre se ha considerado una profesin sencilla en sus mtodos,o el excesivo tiempo que su aplicacin implicara en la prctica para el tasa-dor. Adems, tambin en su aplicacin es usual encontrarse con la habitual

    aversin que los cambios, por pequeos que sean, producen en cualquierorganizacin.

    Ciertamente la aplicacin de estas tcnicas puede suponer una complejidadsuperior a la de otros mtodos, como el de homogeneizacin o correccin. Sinembargo, precisamente este mtodo de homogeneizacin, tan extendido en laprctica profesional de la valoracin inmobiliaria, no resulta ser otra cosa queuna simplificacin de un mtodo por comparacin como es el anlisis deregresin. La diferencia fundamental entre ambos enfoques, aunque no lanica, es la forma en que se determina el peso o importancia de las variablesque intervienen en la valoracin. En el mtodo de homogeneizacin es el

    propio tasador quien de forma subjetiva establece estos pesos, mientras queen el anlisis de regresin es un proceso estadstico quien realiza la pondera-cin de una manera objetiva y nica. Esta diferencia supone que distintostasadores, en un mismo instante de tiempo, puedan llegar a un resultado biendistinto en funcin de cmo han interpretado la importancia de cada una deestas variables; o de qu testigos o comparables han utilizado en la tasacin.Y como es sabido, est en el espritu de la normativa internacional de valora-cin que los mtodos, tcnicas y procesos aplicados se rijan por la mximaobjetividad y transparencia posible.

    Lgicamente, no debe ser el tasador quien individualmente y sin ningn apo-

    yo soporte el rigor procedimental de los mtodos estadsticos. Debe buscar lacolaboracin de dos pilares fundamentales para poder llevar a cabo su laborde forma eficaz y eficiente: software especfico que permita aplicar los mto-dos estadsticos de forma rigurosa y con celeridad; una potente base de datosde comparables, proporcionada por una asociacin de tasadores, sociedad detasacin, o cualquier otro organismo que pueda desarrollar el doble papel deproveedor de datos y herramientas de tasacin, y controlador de la actividadtasadora.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    7/137

    6

    En definitiva, aunque sean comprensibles los temores de parte de la profesinpor la introduccin de estos mtodos y tcnicas estadsticas en el mbito de lavaloracin, no es menos cierto que ya en la actualidad existen herramientasque permiten su utilizacin por parte de los profesionales y empresas delsector.

    1.1 Valoracin y Estadstica

    El avance de la valoracin como prctica profesional en los ltimos aos havenido reforzado por el uso de los mtodos y tcnicas estadsticas. Cuando enla valoracin inmobiliaria se nomb i- mbito cientfico y desarrolladas por investigadores en estadstica.

    Si bien en los primeros tiempos la aplicacin de estas tcnicas era residual, amenudo dificultada por la escasez de programas informticos y la lentitud ensus procesos, hoy da cuentan con el apoyo de las grandes compaas de tasa-cin, que dedican departamento completos al estudio, anlisis, desarrollo eimplantacin de dichas tcnicas sobre reas muy concretas de la valoracinprofesional. Incluso tambin han servido para diversificar las actividades dedichas sociedades, ampliando el abanico de servicios que ofrecen a sus clien-tes.

    No slo estamos hablando sobre cmo describir una muestra de observacio-

    nes o testigos cuando estamos redactando un informe de tasacin. Nos refe-rimos, ms bien, a cmo poder inferir el precio de las cosas a travs de larelacin que esta variable guarda con las caractersticas que definen los obje-tos de valoracin, y de otros comparables que encontramos en el entorno quesirven para construir dichos modelos estadsticos. En definitiva, la estadsticanos proporciona mtodos y tcnicas que no slo describen una muestra deobservaciones y resumen el comportamiento de sus variables, sino que ade-ms son un apoyo fundamental a la hora de construir modelos predictivos,que sean capaces de estimar el precio de mercado alertando, adems, del errorque puede cometerse en dicha estimacin.

    Aunque en las tasaciones actuales slo se informa del valor de mercado msprobable, es de esperar que en el futuro los clientes tambin quieran conocer , como una medida del riesgoasociado a la valoracin. Esto es, que no se conformen con un informe en el i- n-fianza estadstica del 95%. Puede parecer, en estos momentos, una quimeraplantear este tipo de situaciones, puesto que hasta ahora no es habitual en lastasaciones hipotecarias. Sin embargo, y a modo de ejemplo, cuando alguien

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    8/137

    7

    quiere realizar una inversin financiera no slo pregunta la rentabilidad pro-medio de la misma, sino tambin su nivel de riesgo: sobre qu valores puedeeventualmente oscilar dicha rentabilidad. Lo mismo ser aplicable, en unfuturo, a los informes de tasacin.

    Gracias al desarrollo de las tecnologas de la informacin, en paralelo con lamayor capacidad de procesamiento y velocidad de los ordenadores de sobre-mesa y porttiles, tabletas y smartphones, los valoradores pueden apoyarse entodo este conocimiento estadstico para ofrecer un valor aadido y diferencia-dor en sus informes de tasacin.

    Pero la estadstica no est slo del lado del valorador como profesional indi-vidual, sino que adicionalmente sirve como herramienta de control para lassociedades de tasacin. En la mayor parte de los pases, la profesin de tasa-cin se encuentra organizada alrededor de estas sociedades, que dan soporte

    en el da a da a los profesionales del sector. Actualmente, la mayor parte delinforme de tasacin se desarrolla internamente por estas sociedades, con loque el tasador se puede concentrar en los detalles tcnicos de su trabajo.Cuando se valora un inmueble, la descripcin de la zona en que se encuentra,el precio y caractersticas de los inmuebles que sirven como comparables, y laorganizacin del propio informe de valoracin, es llevada a cabo de formaautomtica por el software que la sociedad de tasacin pone a disposicin desus profesionales. De esta forma, un tasador puede realizar diferentes tasacio-nes sin presentarse fsicamente en la oficina, con la nica asistencia de untelfono inteligente y un software de apoyo que le permita acceder a toda la

    informacin de su sociedad de tasacin.Estas nuevas tecnologas tambin permiten, en este caso a la sociedad detasacin, llevar un control del trabajo efectuado por su plantilla de tasadores.Dicha supervisin es llevada a cabo por los denominados tasadores de con-trol. Estos se encargan de revisar el trabajo de los profesionales, comproban-do que la metodologa se ajusta a la normativa dictada por el organismo regu-lador en cada pas, y que los resultados concuerdan con los obtenidos enpromedio por el resto de valoradores. As, es fcil detectar cuando un tasadorest estimando valores por encima del valor de mercado, o los est infravalo-rando. Es precisamente en este mbito donde la estadstica juega un papel

    fundamental. Si un tasador emite informes con precios superiores a los demercado en un porcentaje que supera un umbral predeterminado, el tasador decontrol alertar sobre dicha situacin, exigiendo al tasador de campo quejustifique los valores aportados. Cmo determinar el umbral? Ah es, preci-samente, donde entran en juego los mtodos y tcnicas estadsticas.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    9/137

    8

    1.2 Poblacin y muestra

    Entrando en materia, dos conceptos que un tasador debe ser capaz de distin-guir de forma meridiana si quiere aplicar cualquier tcnica estadstica infe-rencial son los de poblacin y muestra.

    La poblacin est compuesta por todos y cada uno de los elementos que in-tervienen en un problema, mientras que la muestra ser un subconjunto esco-gido de dicha poblacin. Supongamos, a modo de ejemplo, que a travs de unobservatorio nuestra sociedad de tasacin est llevando a cabo un estudiosobre el precio medio de los apartamentos en la ciudad de Bogot, Colombia.Para quienes no conozcan dicha ciudad, deben saber que se trata de una urbede ms de 7 millones de habitantes, distribuida en 20 localidades para una

    mejor gestin administrativa de la misma.Si para conocer el precio medio de los apartamentos se encuestara a todas ycada una de sus viviendas, diramos que el anlisis ha sido poblacional, puesincluye a todos los elementos (apartamentos) de la ciudad. Adems de ser unproceso realmente largo y costoso.

    Sin embargo, si los recursos y paciencia de nuestra sociedad de tasacin sonfinitos, resulta plausible intentar estimar el precio medio de los apartamentosa travs de un nmero limitado de viviendas, cuidadosamente escogidas paraque sean representativas de la poblacin en su conjunto. Dicho subconjunto

    de viviendas configurara la muestra objeto de estudio.Siguiendo con el mismo ejemplo, si tuviramos que recopilar el precio consi-derando nicamente las viviendas que han sido objeto de transaccin en elltimo ao, tambin aqu contaramos con dos posibilidades. La primera,recopilar la informacin de todas y cada una de las viviendas que han sidocompradas (vendidas) en este ltimo ao: poblacin. Lo que tambin puedeconvertirse en una tarea ciertamente costosa. O una segunda opcin, conside-rando slo un subconjunto para intentar ahorrar tiempo y dinero: muestra.

    Un ltimo ejemplo, extremo por su lejana con el mbito de la valoracin y

    por su planteamiento, pero que dejar clara la diferencia entre poblacin ymuestra. Si usted visita al mdico por un dolor que le viene afectando durantelos ltimos das, y el mdico solicita que le practiquen una analtica de san-gre, qu preferira, que le tomaran una muestra o la poblacin completa desangre? Espero que haya escogido la primera opcin y se encuentre en condi-ciones de seguir leyendo el resto del manual.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    10/137

    9

    1.3 Tiposdedatos

    Como veremos ms adelante, resulta fundamental conocer con qu tipo dedatos estamos trabajando antes de plantear uno u otro anlisis estadstico. Enfuncin de cmo sean nuestros datos, deberemos escoger entre las diferentesposibilidades que nos ofrece la estadstica. La pregunta que debemos hacer-nos es, cmo se miden nuestros datos?

    1.3.1 Datosnominaleso categricos

    Son variables que tienen acotado su rango de valores a un nmero determina-do de posibilidades y que, por tanto, podemos nombrar y enumerar. Si trata-mos un conjunto de viviendas y estamos recopilando informacin sobre lasmismas, un tpico ejemplo de variable nominal sera el distrito postal en quese encuentran. Si nuestra ciudad tiene 30 distritos postales diferentes, enton-ces tenemos 30 categoras. No importa que los cdigos postales sean nme-ros, de igual forma consideraramos la variables nominal o categrica. Lomismo ocurrira con la variable orientacin, donde podramos definir cuatroniveles bsicos: norte, este, sur, oeste.

    Si quisiramos valorar los derechos de traspaso de un jugador de ftbol profe-sional, y para ello necesitramos conocer la posicin que ocupa dentro del portero, defensa, centrocampista y delantero. Veremos que, finalmente, nece-sitamos transformar estas categoras en nmeros para poder tratarlos estads-

    ticamente, pero ello no supone que la variable original deje de ser categrica.1.3.2 Datosordinales

    Vienen representados por diferentes categoras pero, a diferencia de los ante-riores, entre ellos existe un orden. Por ejemplo, si definimos el entorno co-mercial de una vivienda con tres niveles -Muy bueno, Bueno y Deficiente- esevidente que entre ellos existe una prelacin. Supondremos que el mejor en- e- Deficiente

    Al igual que con las variables categricas, tendremos que pensar en qu for-

    ma se incorporan en nuestros anlisis estadsticos, ya que cualquiera de lastcnicas que utilizaremos en el mbito de la valoracin asume que se trabajacon datos numricos. En otro captulo examinaremos en qu forma debe lle-varse a cabo esta transformacin.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    11/137

    10

    1.3.3 Datosnumricos

    Los dos tipos de datos anteriores constituyen el grupo de datos o variablescualitativos. Los datos numricos en su origen se incluyen en el grupo de

    datos cuantitativos, y s permiten su consideracin directa en los anlisis esta-dsticos.

    Probablemente sean los ms comunes, sobre todo cuando hablamos del cam-po de la valoracin. En la valoracin inmobiliaria, serviran de ejemplo lasuperficie (medida en metros cuadrados), el nmero de dormitorios, el nme-ro de baos, la planta en la que se sita la vivienda, la distancia al centro de laciudad, el ancho de la calle, etc. Podemos trabajar tanto con datos enteroscomo continuos.

    Sin embargo, y an tratndose todas ellas de variables claramente numricas,el enfoque con que se tratarn en los modelos estadsticos de valoracin pue-de ser muy diferente. Veremos cmo la variable nmero de dormitorios puedeser tratada de forma distinta a la variable superficie. Por ejemplo, en un mo-delo de regresin el coeficiente asociado a la variable nmero de dormitoriosinformar sobre el incremento medio en el precio de una vivienda por dormi-torio adicional. Sin embargo, podemos pensar que no estaramos dispuestos apagar la misma cantidad por pasar de 2 a 3 dormitorios, que por pasar de 3 a4. El incremento marginal puededebe- ser decreciente, y de alguna manerahabr que incluir dicha premisa en el modelo estadstico. Con la superficie,sin embargo, este efecto puede ser prcticamente insignificante, de forma queel incremento en el precio de pasar de 100 a 101 metros cuadrados pueda

    considerarse muy similar (o el mismo) que de pasar de 101 a 102 metroscuadrados. En cualquier caso, ser el propio modelo estadstico el que nospermita contrastar cada una de estas hiptesis.

    1.4 D istribucin

    La principal forma de describir el comportamiento de una variable es a travsde la distribucin de sus datos. La forma de su distribucin nos informa decul es el valor medio o tendencia central de la variable, as como la disper-

    sin o heterogeneidad que podemos encontrar alrededor de ese valor medio.La distribucin ms conocida en el mbito estadstico es la distribucin nor-mal, ya que la mayora de las variables continuas siguen esta distribucin. Suforma es la de una clsica campana de Gauss, y se emplea habitualmente encualquier proceso de inferencia estadstica. Esta distribucin viene totalmentecaracterizada por dos estadsticos: media y desviacin tpica. La distribucinnormal estandarizada se distingue del resto por tener media cero y desviacintpica uno.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    12/137

    11

    F igura 1.H istograma deuna distribucin normal estandarizada

    1.5 Softwareestadstico

    Sin pretender ser exhaustivos en este punto, nos limitaremos a enunciar algu-nos de los programas que pueden ser utilizados por el valorador particular a lahora de realizar los clculos estadsticos de su informe de tasacin, o los queempleara la propia sociedad de tasacin si quisiera facilitar esta tarea al pro-fesional o a sus tasadores de control.

    1.5.1 Hoja declculo MicrosoftExcel

    Sin duda, la principal ventaja de este software es su elevado grado de implan-tacin. Si hiciramos una encuesta preguntando si se tiene instalada esta apli-cacin en sus equipos informticos, la mayora del s sera abrumadora. Ade-ms de infinidad de tareas diarias que pueden resolverse con la hoja declculo, en la actualidad trae incorporadas una serie de libreras y opcionesque permiten llevar a cabo anlisis estadsticos muy bsicos, pero de granimportancia para el tasador. A lo largo del libro se expondrn diferentes

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    13/137

    12

    ejemplos realizados con esta hoja de clculo, para poder sacarle el mayorpartido posible.

    Como inconveniente, al menos hasta la versin disponible en el momento de

    escribir este libro, es la escasa calidad grfica de sus tablas y figuras, sobretodo si se comparan con otros programas especficos de estadstica. Debemospensar que la parte de estadstica de datos es un extra que se ha incorporado aun programa que no est pensado en s mismo para ser un paquete estadstico.La hoja de clculo puede servir para muchos propsitos, pero es evidente queen su origen no estaba, por ejemplo, la idea de realizar un anlisis de regre-sin paso a paso; o medir la multicolinealidad en un modelo de regresin; etc.

    1.5.2 SPSS (Statistical Packagefor Social Sciences)

    Se trata de una aplicacin que incorpora gran cantidad de tcnicas estadsticas

    vinculadas del mbito de las ciencias sociales. Inicialmente se desarroll parael tratamiento estadstico de grandes muestras producto de encuestas, si biencon el tiempo ha ido incorporando otras tcnicas propias de otras reas y,sobre todo, aadiendo una mayor capacidad grfica. Sin duda, destaca entrelos programas estadsticos por su facilidad de manejo, y por la alta calidad desus tablas y grficos, que se pueden incorporar fcilmente a cualquier informede tasacin. Es muy habitual, incluso, identificar tablas o figuras obtenidascon este programa en artculos cientficos de reconocidas publicaciones inter-nacionales.

    Para el tasador o sociedad de tasacin que quiera llevar a cabo anlisis de

    mayor complejidad que los ofrecidos por una hoja de clculo, el programaSPSS estara entre sus imprescindibles. Como inconveniente, al menos el msreferido entre los tasadores, su elevado precio.

    URL: www.ibm.com/software/es/analytics/spss, donde se puede descargaruna versin de evaluacin.

    1.5.3 R

    El paquete R es uno de los de mayor aceptacin entre la comunidad estadsti-ca y da lugar al lenguaje que lleva su mismo nombre, R, que guarda gran

    similitud con el lenguaje de programacin C. Se trata de un software libre, enel que desarrolladores de todo el mundo van incorporando nuevas capacida-des y anlisis, lo que facilita la labor del usuario final. Al ser gratuito, suaccesibilidad es mucho mayor que la de otros programas.

    El principal inconveniente lo encontramos es que no es un programa de tipoventanas, sino que funciona a base de comandos. De esta manera, si el usua-rio quiere llevar a cabo un anlisis de regresin sobre determinada base dedatos, primero tendr que ejecutar una funcin que permita leer el fichero dedatos, y luego lanzar la funcin encargada de la regresin. Algo como:

    http://www.ibm.com/software/es/analytics/spsshttp://www.ibm.com/software/es/analytics/spsshttp://www.ibm.com/software/es/analytics/spss
  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    14/137

    13

    ! #$%&' ()

    ! *+,* () ,-./0*+12& 3 '40+*5212+ 6 78#&*.2% 6 $7%2,9 #$%$ : #$%&';

    de las viviendas, y la regresin explicara elprecio en funcin de la superficie, el nmero de dormitorios y la antigedadde la vivienda.

    Como es de esperar, sern pocos los tasadores que tengan tiempo y conoci-miento suficientes para manejar programas de este tipo. Sin embargo, lassociedades de tasacin s pueden permitirse contar en su equipo tcnico de

    desarrollo con programadores o estadsticos que dominen este tipo de pro-gramas, y que presten el necesario apoyo tcnico a los tasadores de campo y alos tasadores de control.

    URL:www.r-project.org.

    http://www.r-project.org/http://www.r-project.org/http://www.r-project.org/http://www.r-project.org/
  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    15/137

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    16/137

    15

    Captulo 2.Descr ipcin delosdatos

    2.1 Introducc in

    La descripcin de los datos permitir conocer cmo se distribuyen los mis-mos de una forma rpida, y as tener una primera impresin sobre el compor-tamiento del precio o cualquier otra variable que estemos analizando. Noextraeremos ningn modelo de valoracin de la descripcin de los datos, peros nos ayudar a tomar decisiones sobre qu tcnicas estadsticas podemosaplicar para desarrollar un buen modelo de tasacin.

    Esta descripcin se llevar a cabo de forma distinta, segn se analicen datoscualitativos (nominales y ordinales) o cuantitativos (numricos).

    2.2 Descripcin dedatoscualitativos

    Estos datos pueden describirse numrica o grficamente, segn interese msen cada caso. Para la descripcin numrica puede utilizarse una tabla de fre-cuencias, mientras que para la grfica podemos optar por un grfico de barras.En ambos casos se trata de identificar el nmero de observaciones registradaspara cada uno de los niveles de la variable.

    Supongamos que queremos tener una visin rpida de la distribucin de lavariable Entorno comercial en una muestra compuesta por 107 viviendas. Acontinuacin se representan los valores de las 6 primeras viviendas que com-ponen esta pequea muestra, para las variables Precio, Superficie, Entornocomercial y Precio por metro cuadrado:

    !

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    17/137

    16

    Esta submuestra ha sido seleccionada mediante el comando headdel progra-ma R1. Para estos primeros captulos utilizaremos algunas funciones de este

    paquete, si bien la mayora de los resultados que aparecen en el resto del librose han obtenido con Excel y SPSS.

    La tabla de frecuencias nos informa del nmero de viviendas que se encuentraen cada una de las tres categoras que antes mencionbamos:

    ! %$I-+/#$%&'N?7%&*7&81&.+*12$-;

    O4+7& E+5212+7%+ G4H I4+7&

    @M AL CF

    De esta forma, vemos cmo en nuestra muestra la mayora de las viviendas(65 sobre las 107 totales) se encuentran en una zona de la ciudad con un en-torno comercial que habram uy bueno. El nmero deviviendas con un en uenoasciende a 29, mientras que elnivel menos frecuente es el de v eficiente(13).

    Esta misma informacin la podramos representar a travs del grfico de ba-rras, lo que resulta especialmente aconsejable conforme aumenta el nmerode niveles en la variable. De esta forma, de un simple vistazo se pueden com-parar los diferentes niveles que componen la variable. Precisamente en lafigura 2 se presenta un grfico de barras para representar la variable Entornocomercial. Dicho grfico se ha obtenido con el programa R, y su apariencia esmuy similar a la que obtendramos con otros paquetes.

    1Debemos resaltar que el programa R utiliza el punto como separador decimal.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    18/137

    17

    F igura 2.G rfico debarrasdela variableEntorno comercia l

    2.3 Descripcin dedatoscuantitativos

    Al igual que en el caso de la informacin cualitativa, los datos cuantitativospueden ser descritos grfica y numricamente. De esta forma tenemos unresumen o visin rpida de los mismos, sin tener que examinarlos uno a uno.

    Cuando tratamos de resumir una variable cuantitativa normalmente hacemosuso de los denominados estadsticos descriptivos, que nos informan precisa-mente de la forma en que se distribuyen los datos. Tenemos dos clases deestadsticos descriptivos: de posicin y de dispersin.

    2.3.1 Estadsticosdeposicin

    Los estadsticos de posicin nos informan acerca de la tendencia central delos datos, siendo los ms habituales la media, mediana y moda.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    19/137

    18

    2.3.1.1 Media

    La media se obtiene como el promedio de los datos. As, dada una variable Xde la que se dispone de 100 observaciones o registros, la media se calculara

    como:

    donde se correspondera con el valor de la variable en la observacin i-sima. A modo de ejemplo, supongamos que queremos calcular la media enel precio de las 6 primeras observaciones de una muestra de datos:

    Si quisiramos calcular la media del precio para toda la muestra, compuestapor observaciones, tendramos que incluir el precio de todas ellas enel numerador:

    Luego el precio medio de las viviendas en esta ciudad, segn se concluye de la tendencia central de los precios en dicha ciudad, y nos puede permitir com-pararla con otras ciudades del entorno, o analizar la evolucin en el tiempo de

    los precios medios.En ocasiones el empleo de la media como estadstico de posicin central delos datos puede incurrir en algunos problemas. Es lo que ocurre cuando, porerror, hemos introducido un valor que no se corresponde con el real, simple-mente porque nos hemos equivocado de tecla al introducirlo en el ordenador.

    Supongamos que para el clculo de la media del precio en la muestra, porerror hemos aadido un cero de ms al final del ltimo precio considerado,

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    20/137

    19

    clculo de la media, que ahora ser:

    En trminos relativos, supone un aumento entorno al 15%. Y la distorsin anhabra sido mayor si se disminuyera el nmero de observaciones en la mues-tra.

    Para evitar este tipo de situaciones, es habitual el empleo de la mediana comoestadstico de posicin en lugar de la media.

    2.3.1.2 Mediana

    La mediana es un estadstico de posicin de menor sensibilidad que la mediaa la presencia de casos extremos. Su valor se obtiene como aqul que deja porencima de s a la mitad de la muestra, y por debajo a la otra mitad. La posi-cin de dicho valor dentro del conjunto de la muestra se obtendr como:

    Para el caso del precio en nuestra muestra de 107 observaciones, la mediaocupar la posicin:

    En cualquier caso, entendemos que previamente hemos ordenado la muestrade observaciones de menor a mayor precio. Los paquetes estadsticos calcu-lan la mediana directamente, de forma que la ordenacin por el precio la rea-lizan de forma automtica. Sin embargo, si quisiramos obtener esta ordena-cin podramos ejecutar un comando como el siguiente (programa R):

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    21/137

    20

    ! #$%&'N=*+12&P&*#+*/#$%&'N=*+12&;Q

    PAQ CBFDD8D B@DDD8D BCDDD8D JKDDD8D JCDDD8D MDDDD8D MLDDD8D

    MFDDD8D MFBDD8D MFMDD8D MFMDD8D

    PA@Q MCDDD8D MCB@D8D MB@DD8D ADDDDD8D ADDDDD8D ADDDDD8D ADDDDD8D

    ADD@DD8D ADDJDD8D ADAM@K8C AD@DDD8D

    P@LQ AD@DDD8D AD@DDD8D AD@AJD8D AD@FDD8D ADFA@D8D ADF@DD8D ADCDDD8D

    AAADDD8D AAAAJB8D AAAJDD8D AA@DDD8D

    PLKQ AALDDD8D AALDDD8D AAKDDD8D AAKDDD8D AAKDDD8D AAKDDD8D AAKDDD8D

    AAKDDD8D AAFDDD8D AAFDDD8D AAJL@D8D

    PKFQ AAJC@D8D AAJJDD8D A@DDDD8D A@DDDD8D A@ADDD8D A@@DDD8D A@@KDD8D

    A@CDDD8D A@CDDD8D !"#"!"$%A@JDDD8D

    PFCQ A@JDDD8D A@MCDD8D AL@DDD8D AL@FDD8D ALFDDD8D ALCDJD8D ALCMDD8D

    ALJDDD8D ALJDDD8D ALJ@L@8D ALMDDD8D

    PCBQ ALMFDD8D AKDDDD8D AKADDD8D AKLKB@8D AKKDDD8D AKF@BF8D AFDDDD8D

    AFDDDD8D AFDDDD8D AFDKCD8D AFDCDD8D

    PBJQ AFDJDD8D AFLDDD8D AFCDDD8D AFMDDD8D AFMMDD8D AFMMFD8D ACDLKD8D

    ACAFDD8D AC@@BL8L AC@BFD8D ACJDDD8D

    PJMQ ACJAFD8D ABDDDD8D ABADDD8D ABAMDD8D ABLF@D8D ABKDDD8D ABFLAD8D

    ABFCJD8D ABCBDD8D AJDLDL8C AJ@MBD8D

    PADDQ AMD@CD8D AMADDD8D AM@DDD8D @ADDDD8D @A@DDD8D @KDDDD8D @F@KDD8D

    FLDDDD8D

    En el resultado anterior hemos resaltado en negrita el precio que ocupa laposicin 54. De esta forma, el valor de la mediana es de 126.212,5.

    En los casos en que el nmero de observaciones en la muestra sea par, elvalor de la mediana se calcula como el promedio entre los que ocupan lasposiciones y . En el ejemplo donde analizbamos el precio delas 6 primeras viviendas de la muestra la mediana se obtendra como:

    ! #$%&'N=*+12&P&*#+*/

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    22/137

    21

    Hemos resaltado de nuevo en negrita los dos valores que en este caso nossirven para calcular la mediana. Al tener 6 observaciones, los registros quedeberamos considerar seran los que ocupan las posiciones y

    . La vivienda que aparece en tercera posicin tiene un precio en esta submuestra.

    2.3.1.3 Moda

    La moda se define como aqul valor que aparece con ms frecuencia entre losdatos. Se utiliza fundamentalmente en el caso de variables tipo ordinal.

    F igura 3.G rfico debarrasdela variableNmero dehabitaciones

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    23/137

    22

    Pongamos como ejemplo la variable nmero de habitaciones de la muestracompuesta por 107 viviendas. En este conjunto aparecen 28 viviendas con 2habitaciones, 60 con 3 habitaciones, 17 con 4 habitaciones y nicamente 2viviendas con 5 habitaciones. Claramente, la categora ms frecuente es la deviviendas con 3 habitaciones, luego la moda de la variable nmero de habita-ciones ser 3.

    Lgicamente, la moda no ser un buen representante de la tendencia centralde los datos cuando la variable analizada sea una variable numrica con unamplio rango de valores, como por ejemplo la superficie en metros cuadra-dos, o la distancia al centro de la ciudad. En esos casos el nmero de valoresrepetidos es demasiado escaso como para que la moda pueda considerarse unestadstico de posicin representativo de la tendencia central de los datos.

    2.

    3.

    2 Est

    adst

    icosd

    edi

    spersinLos estadsticos de dispersin nos informan sobre la variabilidad o heteroge-

    neidad en la distribucin de los datos. En algunos casos, la medicin de ladispersin es tan importante o ms que la tendencia central de los datos. Paralos inversores burstiles, por ejemplo, es indispensable no slo conocer larentabilidad de los activos financieros, sino tambin su grado de volatilidad.Sin ambas mediciones, no parece adecuado tomar una decisin de inversindesde un punto de vista racional.

    En el caso de los valoradores, conocer la dispersin de los datos tambin esde gran relevancia. Supongamos que un valorador tiene los datos medios

    sobre el precio en vivienda de dos municipios cercanos, y que dichos valoresson prcticamente iguales. Podra entonces pensar que se trata de municipiosmuy homogneos, y que la funcin de valoracin que utilice en uno de elloses perfectamente extrapolable al otro. Sin embargo, puede que al analizar conmayor detalle la distribucin de los precios descubra que la dispersin de losmismos en un municipio es mucho mayor que en el otro. Ello le podra estarindicando que existen viviendas con calidades muy diferentes, o que existeuna gran heterogeneidad en la antigedad de las viviendas, etc. Esto es, quemuy probablemente deba buscar variables que le permitan explicar la diferen-cia de precios entre las viviendas, y enriquecer el modelo de valoracin frente

    al del municipio con precios ms homogneos.

    2.3.2.1 Rango

    El rango mide la diferencia entre el mayor y el menor valor de una variable,siendo la medida de dispersin ms sencilla de aplicar.

    Supongamos que queremos conocer el rango de precios en nuestro municipiode ejemplo, para conocer cun homogneas o heterogneas son las viviendas.Si la vivienda ms econmica tiene un precio de 425.000

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    24/137

    23

    Pese a su simplicidad, el rango no suele ser el estadstico de dispersin msempleado. El principal motivo de su escasa utilizacin es que slo emplea lainformacin de dos observaciones, las ms extremas, sin considerar qu ocu-rre con el resto de la muestra.

    2.3.2.2 Varianza

    La varianza se define a travs de la siguiente expresin:

    Su utilizacin es generalizada en el caso de datos numricos.

    Tomemos como ejemplo de clculo del precio de la vivienda con los siguien-tes valores, correspondientes a un pequeo distrito en un casco urbano:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    25/137

    24

    Nmero de viviendai

    1 258.000 72.189,5 5.211.323.910,3

    2 128.000 -57.810,5 3.342.053.910,33 133.500 -52.310,5 2.736.388.410,3

    4 171.300 -14.510,5 210.554.610,3

    5 135.500 -50.310,5 2.531.146.410,3

    6 140.000 -45.810,5 2.098.601.910,3

    7 138.000 -47.810,5 2.285.843.910,3

    8 222.500 36.689,5 1.346.119.410,3

    9 113.000 -72.810,5 5.301.368.910,3

    10 108.000 -77.810,5 6.054.473.910,311 145.000 -40.810,5 1.665.496.910,3

    12 204.350 18.539,5 343.713.060,3

    13 191.900 6.089,5 37.082.010,3

    14 181.500 -4.310,5 18.580.410,3

    15 258.500 72.689,5 5.283.763.410,3

    16 283.000 97.189,5 9.445.798.910,3

    17 240.000 54.189,5 2.936.501.910,3

    18 234.940 49.129,5 2.413.707.770,319 245.220 59.409,5 3.529.488.690,3

    20 184.000 -1.810,5 3.277.910,3

    En la muestra se han recogido un total de 20 inmuebles, con los precios queaparecen en la segunda columna. La media en el precio toma el siguientevalor:

    La tercera columna refleja la diferencia entre el precio de cada inmueble res-pecto de la media ( ), mientras que la cuarta y ltima columna eleva alcuadrado los valores de la columna anterior .

    De esta forma, la varianza se obtendra como el promedio de los valores de lacuarta columna.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    26/137

    25

    Uno de los problemas que habitualmente se atribuye a la varianza es el hechode que su unidad de medida no es la misma que la unidad de medida de lavariable sobre la que se calcula. Esto es, si el precio se mide en euros, la va-rianza del precio no se mide en euros. Realmente, la unidad de medida em-pleada en la varianza para este caso seran euros al cuadrado, ya que la va-

    rianza se ha construido precisamente como un promedio de diferenciascuadrticas entre precios. Esto hace que los valores obtenidos puedan parecerexageradamente altos y, sobre todo, no aportar informacin valiosa para elvalorador.

    Es por ello que a la hora de describir la dispersin de una variable resulta mshabitual el empleo de la desviacin tpica.

    2.3.2.3 Desviacin tpica

    La desviacin tpica, tambin denominada desviacin estndar (del inglsstandard deviation), se define como la raz cuadrada de la varianza:

    Su principal virtud es que mantiene la misma unidad de medida que la varia-ble para la que se aplica. En el caso del precio de las viviendas, si dicho pre-cio viene expresado en euros, entonces tambin la desviacin tpica del precio

    viene expresada en euros.

    Adems de mantener la misma unidad de medida que la variable de referen-cia, otra razn por la que la desviacin tpica es la medida de dispersin msampliamente utilizada es su uso en inferencia estadstica. Por inferencia se

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    27/137

    26

    entiende la induccin que, a partir de los datos recogidos en una muestra,podemos realizar sobre una poblacin. En estos casos es donde la desviacintpica, junto con la media de los datos, juega un papel fundamental.

    Supongamos que los precios en el ncleo urbano que estamos analizandosiguen una distribucin normal, y que la muestra es representativa del com-portamiento de los precios en el resto de la ciudad. En este caso, podramosinferir que la media del precio de la vivienda en toda la ciudad coincide conla media de nuestra muestra:

    Pero, adems, tambin podramos acotar entre qu rango de valores se mueveun porcentaje significativo de viviendas. As, podremos afirmar que el preciode las viviendas estar dentro de los siguientes rangos para los niveles deconfianza del 90%, 95% y 99%:

    Nivel de confianza del 90%:

    Nivel de confianza del 95%:

    Nivel de confianza del 99%:

    Por lo tanto, y debiendo reiterar que estos clculos sern vlidos si 1) losprecios siguen una distribucin normal, y 2) la muestra es representativa delconjunto de viviendas de toda la ciudad, podremos afirmar que la media delos precios se mueve dentro de los siguientes intervalos:

    Nivel de confianza del 90%:

    Nivel de confianza del 95%:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    28/137

    27

    Nivel de confianza del 99%:

    Esto nos asegura que si, por ejemplo, extraemos otra muestra de la mismaciudad, el precio medio de las viviendas estar dentro del intervalo

    con una probabilidad o nivel de confianza del95%. Esto es, no todas las muestras tendrn los precios de sus viviendas den-tro de este rango, pero prevemos que en el 95% de los casos s ocurrir.

    Lgicamente, el inters de todo valorador ser poder realizar un anlisis en el

    que la media est lo ms acotada posible y, por lo tanto, el anterior intervalosea cuanto ms estrecho mejor.

    En el histograma de la siguiente figura puede observarse la distribucin delprecio por metro cuadrado en un barrio de una pequea capital espaola. Lamuestra est compuesta por 101 viviendas. A simple vista puede observarseque la distribucin no se corresponde exactamente con la de una distribucinnormal, ya que la cola de la derecha est algo ms extendida que la de la iz-quierda. Esto ocurre cuando en la muestra aparecen viviendas, como es elcaso, que tienen un precio por metro cuadrado considerablemente superior alresto. Se trata de valores que podramos considerar outliers, o fuera de lonormal.

    La media del precio por metro cuadrado en esta muestra se calculara como elpromedio de los precios unitarios:

    Y la desviacin tpica se computara como la raz cuadrada de la varianza:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    29/137

    28

    F igura 4.Histograma defrecuenciaspara la variableprecio por metro cuadrado

    Con lo que los intervalos de confianza se estimaran a partir de estos dosestadsticos de la siguiente forma:

    Nivel de confianza del 90%:

    Nivel de confianza del 95%:

    Nivel de confianza del 99%:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    30/137

    29

    Los precios en esta muestra se encuentran dentro del rango [925, 2.127,66],con lo que se trata de una muestra altamente heterognea (el valor ms grandedobla al valor ms pequeo). Vemos cmo la parte inferior del rango es res-petada en dos de las tres estimaciones realizadas (95% y 99%). Sin embargo,no ocurre lo mismo con la cota superior, que slo est dentro del intervalomarcado por el 99%. La explicacin est en el hecho ya comentado de lapresencia de viviendas con precios por metro cuadrado excesivamente altosen relacin con el resto, que podramos considerar como no normales.

    2.4 Relacin ent revariables: coeficientedecorrelacin

    Hasta ahora nicamente se ha analizado el comportamiento de las variablesde forma aislada. Los estadsticos de posicin y de dispersin permiten cono-

    cer cul es el comportamiento individual de las variables. Sin embargo, lo queresulta interesante en la mayor parte de los casos, y especialmente en el mbi-to de la valoracin, es conocer cul es la relacin entre dos o ms variables.Esto es, cmo se relacionan por ejemplo el precio de una vivienda y su su-perficie. A mayor superficie, mayor precio? O cmo se relacionan el nmerode goles marcado por un delantero con el valor del futbolista. A mayor n-mero de goles mayor valor? O el grado de relacin entre el beneficio de unaempresa con el valor de la misma. A mayor beneficio, mayor valor? Ademsdel signo, positivo o negativo, de estas relaciones, debemos determinar elgrado de relacin, traducindolo a un nmero que permita su cuantificacin.

    Antes de intentar cuantificar el grado de relacin entre dos variables, exami-nemos el siguiente ejemplo grfico donde se representa el precio de las vi-viendas en el eje de ordenadas frente a su superficie en el eje de abscisas.Qu respondera usted si se le preguntara sobre la posible existencia de rela-cin entre ambas variables?

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    31/137

    30

    Parece bastante claro, de la simple observacin del grfico, que ambas varia-bles estn relacionadas. Adems, dicha relacin es claramente positiva: amayor superficie, mayor precio.

    F igura 5.Grfico dedispersin entreel precio y la superficiedelasviviendas

    Tambin podemos encontrar ejemplos de relacin negativa entre variables.En el caso de las viviendas, la antigedad del edificio suele guardar una rela-cin negativa con el precio, de forma que las viviendas de ms reciente cons-truccin suelen, en promedio, presentar mayores precios que las viviendas demayor antigedad. Y recalcamos ya que, eviden-

    temente, existirn casos en los que esta relacin no se aprecie. Puede ocurrirque una vivienda tenga un precio superior a otra an siendo mucho ms anti-gua, por ejemplo por encontrarse en una mejor situacin en la ciudad, portener ms metros cuadrados de superficie til, por tratarse de un edificio conespecial valor arquitectnico o artstico, etc.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    32/137

    31

    F igura 6.G rfico dedispersin entreel precio y la antigedad delasviviendas

    Adems de poder constatar de un modo grfico el tipo de relacin entre lasvariables, lo que para el valorador debe resultar realmente interesante es po-der cuantificar el grado de relacin entre las mismas. Y para ello puede utili-zarse el coeficiente de correlacin.

    Sin embargo, veremos en los siguientes epgrafes que el clculo de dichocoeficiente es distinto segn tratemos con variables numricas o con variablesordinales.

    2.4.1 Coeficientedecorrelacin para variablesnumricas

    El coeficiente de correlacin ( ) entre dos variables numricas e , tam-bin denominado coeficiente de correlacin de Pearson, se obtiene a partir dela siguiente expresin:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    33/137

    32

    El numerador se corresponde con la covarianza ( ) entre las variables e, mientras que en el denominador aparece el producto de las desviaciones

    tpicas de ambas variables.La covarianza entre e se calcula con la siguiente expresin:

    De manera que una forma alternativa de escribir la expresin del coeficientede correlacin entre e sera:

    A priori puede parecer complicado explicar la relacin entre un par de varia-bles a travs de una frmula como la anterior, que desde luego dista muchode ser evidente en un primer vistazo. Conviene desglosar sus componentespara entender mejor el significado de la misma.

    En el numerador del coeficiente de correlacin, como se ha sealado ante-riormente, aparece la covarianza . Veamos cmo calcularla con un ejem-plo ilustrativo para despus interpretar el resultado.

    Supongamos que tenemos 10 observaciones de dos variables e , tal ycomo aparecen en la siguiente tabla. En la ltima fila de las columnas eaparece el promedio de cada una de las variables para las 10 observacionesconsideradas.

    La columna recoge la diferencia entre cada observacin de la variabley la media (dem para ). Por ltimo, la columna encabezada con

    recoge el producto de las dos columnas anteriores.

    Si analizamos el signo de los valores en la ltima columna, lo primero quenos llama la atencin es que casi todos son positivos (la nica excepcin se

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    34/137

    33

    produce con la observacin nmero 7). A modo de explicacin, examinemoslo ocurre con las observaciones 1 y 10.

    En la primera observacin, las variables toman los valores y .

    Ambos se sitan por debajo de la media de sus respectivas variables:y . De esta forma, el resultado de es el producto dedos nmeros negativos, que siempre ser positivo. Esto mismo se repite paraotras observaciones, luego parece que cuando una variable se sita por debajode su media la otra tambin se coloca por debajo de su promedio.

    En la ltima observacin los valores son y . Ocurre enton-ces lo contrario que en el caso anterior: ambas observaciones estn por enci-ma de las medias de sus variables. De esta forma las columnas e

    toman valores positivos para la observacin nmero 10, y su productotambin. Como con la observacin nmero 1, parece que

    e vuelven a guardar una relacin directa: cuando el valor de una variable sesita por encima de su media, la otra tambin aparece por encima de la suya.

    Observacin

    1 2 4 -3,6 -2,7 9,72

    2 3 5 -2,6 -1,7 4,42

    3 4 5 -1,6 -1,7 2,72

    4 8 10 2,4 3,3 7,92

    5 0 0 -5,6 -6,7 37,52

    6 7 7 1,4 0,3 0,42

    7 6 6 0,4 -0,7 -0,28

    8 10 11 4,4 4,3 18,92

    9 6 8 0,4 1,3 0,52

    10 10 11 4,4 4,3 18,92

    Media 5,6 6,7 0 0 10,08

    En la ltima fila de la columna tenemos la media de losproductos; esto es, el valor de la covarianza entre e : 10,08.

    En general, atendiendo al signo de la covarianza entre dos variables, diremosque:

    - Si el signo es positivo, la relacin entre las variables es positiva.Cuando una variable toma valores altos respecto de su promedio, laotra tambin lo hace. Y cuando una toma valores bajos respecto de

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    35/137

    34

    su promedio, la otra acta de igual modo. Qu signo cree que toma-ra la covarianza entre el precio de una vivienda y su superficie?

    - Si el signo es negativo, la relacin entre las variables es negativa. Talsera el caso de variables en las que cuando una toma valores altosrespecto de su media, la otra los toma bajos. Y viceversa. Comoejemplo, podramos considerar la covarianza entre el precio de unavivienda y su antigedad, generalmente negativa.

    El problema que subyace en esta clasificacin es en qu grado se entiende porvalores altos o bajos respecto de su promedio. Y ello debido a la diferenteunidad en que se expresan las variables e respecto de la covarianza entreellas.

    Supongamos que la unidad de medida de ambas variables fuera los ,porque por ejemplo midieran una distancia entre dos localizaciones. En ese

    caso, la covarianza vendra expresada en (o metros alcuadrado), lo que no es comparable con la unidad de media de las variables.En definitiva, nos encontramos con el mismo problema a la hora de medir ladispersin en una variable a travs de la varianza.

    Es por ello que la covarianza no se emplea habitualmente para medir el gradode relacin entre variables, y s el coeficiente de correlacin que supera esteinconveniente al venir acotado su rango de posibles valores. En concreto, elcoeficiente de correlacin slo puede tomar valores entre -1 y +1:

    de forma que:

    - Cuanto ms prximo est el coeficiente de correlacin a +1, mayores el grado de relacin positiva entre las variables.

    - Cuanto ms prximo est el coeficiente de correlacin a -1, mayor esel grado de relacin negativa entre las variables.

    - Valores del coeficiente prximos a 0, indican escasa o nula relacinentre las variables.

    Para el ejemplo anterior el coeficiente de correlacin se calculara como:

    Al ser un valor muy prximo a +1, podemos concluir que existe una fuerterelacin positiva entre ambas variables, cosa que ya podamos intuir tambingrficamente:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    36/137

    35

    F igura 7.G rfico dedispersin entrelasvariablesX eY

    Veamos ahora un ejemplo ms prximo al mbito de la valoracin. Supon-gamos que queremos conocer el grado de relacin entre el precio de las vi-

    viendas y la superficie de las mismas. Ya pudimos constatar en una anteriorfigura que ambas variables estn relacionadas de forma positiva entre s: amayor superficie, mayor precio, y viceversa.

    En la siguiente tabla aparecen el precio y superficie de 30 viviendas. Tambinla diferencia de cada variable respecto de sus medias, y el producto de dichasdiferencias. Como en el ejemplo anterior, se ha reservado la ltima fila parala media de las 30 observaciones. De esta forma, la media de la ltima co-lumna representa la covarianza entre las variables.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    37/137

    36

    Vivienda Precio ( ) Superficie( )

    1 310.000 135 164.275,33 37,21 6.112.137,57

    2 108.182 89,4 -37.542,67 -8,39 315.108,12

    3 129.218 106 -16.506,67 8,21 -135.464,71

    4 143.341 117 -2.383,67 19,21 -45.782,29

    5 126.814 104 -18.910,67 6,21 -117.372,20

    6 129.218 106 -16.506,67 8,21 -135.464,71

    7 147.248 84 1.523,33 -13,79 -21.011,84

    8 148.000 94 2.275,33 -3,79 -8.631,10

    9 85.343 80 -60.381,67 -17,79 1.074.391,12

    10 78.131 75 -67.593,67 -22,79 1.540.684,98

    11 82.400 80 -63.324,67 -17,79 1.126.756,90

    12 192.000 96 46.275,33 -1,79 -82.987,10

    13 168.000 108 22.275,33 10,21 227.356,90

    14 256.303 135 110.578,33 37,21 4.114.251,19

    15 220.000 125 74.275,33 27,21 2.020.784,24

    16 141.800 96 -3.924,67 -1,79 7.038,24

    17 136.000 85 -9.724,67 -12,79 124.410,9018 124.000 84 -21.724,67 -13,79 299.655,57

    19 145.000 90 -724,67 -7,79 5.647,57

    20 120.202 90 -25.522,67 -7,79 198.906,65

    21 144.237 110,4 -1.487,67 12,61 -18.754,52

    22 84.000 80 -61.724,67 -17,79 1.098.287,57

    23 85.000 80 -60.724,67 -17,79 1.080.494,24

    24 91.500 80 -54.224,67 -17,79 964.837,57

    25 91.500 80 -54.224,67 -17,79 964.837,5726 121.000 98 -24.724,67 0,21 -5.109,76

    27 137.640 93 -8.084,67 -4,79 38.752,50

    28 224.000 120 78.275,33 22,21 1.738.234,24

    29 199.329 113 53.604,33 15,21 815.143,23

    30 202.334 100 56.609,33 2,21 124.917,93

    Media 145.724,67 97,79 0,00 0,00 780.735,22

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    38/137

    37

    A continuacin aparecen los diferentes estadsticos necesarios para calcular elcoeficiente de correlacin entre el precio y la superficie de las viviendas:

    El coeficiente de correlacin indica una clara relacin positiva entre ambasvariables, prxima al 90%.

    En la siguiente figura se ha representado el precio frente a la superficie deestas 30 viviendas, pudiendo constatar la clara relacin positiva entre ambasvariables. En el mismo grfico aparece una recta que atraviesa la nube depuntos, y que identificaremos ms adelante como la recta de regresin.

    Un inconveniente del coeficiente de correlacin es que puede verse grave-mente afectado por la presencia de datos atpicos o anmalos (outliers). Estetipo de datos aparecen cuando por error se ha introducido algn valor que nose corresponde con el valor real, o se trata de una observacin que presentaunas caractersticas muy diferentes a las del resto de la muestra.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    39/137

    38

    Supongamos que en nuestro ejemplo anterior hubiramos introducido, porerror, una superficie de 80 metros cuadrados para la vivienda nmero 1, queen realidad tiene una superficie de 135 metros cuadrados. El nuevo grfico dedispersin aparece en la figura 9, donde destaca por anmala la posicin deesta vivienda.

    Si recalculramos el coeficiente de correlacin, habra pasado del 86,3%inicial a un valor muy inferior: 57,2%. Y el nico cambio producido ha sidoel de una observacin de la muestra.

    De ah que, en ocasiones, podamos obtener coeficientes de correlacin muybajos entre variables que a priori parezcan guardar una relacin significativa.Debemos limpiar nuestra muestra de elementos que afecten negativamente ala representatividad de los datos o, como veremos ms adelante, justificaresas anomalas por las especiales caractersticas del inmueble.

    F igura 8.Grfico dedispersin entreel precio y la superficiedelasviviendas

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    40/137

    39

    F igura 9.G rfico dedispersin entreel precio y la superficiedelasviviendas,dondeuna deellastieneuna superficieerrnea

    2.4.2 Coeficientedecorrelacin para variablesordinales

    El coeficiente de correlacin introducido en el anterior epgrafe no resultaadecuado cuando al menos una de las variables es ordinal. En estos casosresulta recomendable utilizar el coeficiente de correlacin de Spearman.

    Veamos en primer lugar la definicin de este coeficiente de correlacin juntocon algn ejemplo, para posteriormente comparar los resultados con los obte-nidos mediante el coeficiente de correlacin de Pearson.

    La expresin del coeficiente de correlacin de Spearman entre dos variablese es la siguiente:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    41/137

    40

    El parmetro se corresponde con el nmero de observaciones, como encasos anteriores, mientras que mide la diferencia en posicin entre las ob-servaciones.

    Veamos un ejemplo ilustrativo utilizando nuevamente una pequea muestrade 10 viviendas. Supongamos que estamos interesados en conocer si existerelacin entre la superficie (variable numrica) y el nmero de dormitorios(variable ordinal). En la segunda y tercera columna de la tabla aparecen lasvariables para las que queremos calcular la correlacin de Spearman. Vemoscmo el nmero de dormitorios flucta entre 1 y 3, pudiendo ser consideradauna variable ordinal. En las dos siguientes columnas tenemos el ranking oposicionamiento ocupado por cada una de las observaciones en las dos varia-bles.

    Para el caso del precio la ordenacin es sencilla. Ocupa el nmero 1 la vi- en la posicin 2 por la viviendacon el segundo

    Para el ranking de la variable nmero de dormitorios seguimos el mismoprocedimiento. Sin embargo, ahora tenemos observaciones que compartenuna misma posicin en el ranking. Por ejemplo, las viviendas con un slodormitorio ocupan las 3 primeras posiciones. En este caso, el clculo de suranking se hara promediando las posiciones que ocupan, para que de estaforma todas compartan el mismo ranking:

    Algo similar ocurre con las viviendas de 2 dormitorios, que ocuparan lasposiciones 4, 5 y 6 en el ranking. Para calcular el posicionamiento utilizamosla expresin:

    Y por ltimo el caso de las viviendas con 3 dormitorios:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    42/137

    41

    Observacin Precio ( ) Nmero

    dormitorios

    ( )1 120.202 2 1 5 16

    2 124.000 1 2 2 0

    3 136.000 1 3 2 1

    4 141.800 1 4 2 4

    5 144.237 3 5 8,5 12,25

    6 145.000 2 6 5 1

    7 168.000 3 7 8,5 2,25

    8 192.000 2 8 5 99 220.000 3 9 8,5 0,25

    10 256.303 3 10 8,5 2,25

    A partir de estos valores, obtenemos el coeficiente de correlacin de Spear-man:

    que an indicando el mismo tipo de relacin positiva entre ambas variablesque el coeficiente de correlacin de Pearson (63,0%), difiere claramente en suvalor numrico.

    Probablemente el lector se habr percatado de una caracterstica muy relevan-te al calcular el coeficiente de correlacin de Spearman cuando se combinauna variable ordinal con una numrica continua, como es el precio. A la horade realizar el ranking de una variable continua (o asimilable a una continua),la posicin ocupada por cada uno de los valores no tiene en cuenta las dife-

    rencia en valor absoluto entre los valores originales. Por ejemplo, para el caso cualquier valor inferior a la cantidad actual. Es decir, podra aparecer con un

    siendo la primera, y por lo tanto la correlacin de Spearman no cambiara. Sque lo hara, y segn el caso de manera muy significativa, la correlacin dePearson que, como vimos en un apartado anterior, es muy sensible a la pre-sencia de datos anmalos.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    43/137

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    44/137

    43

    Captulo 3.E l modelo deregresin simple

    3.1 Introducc in

    El modelo de regresin fue ideado por el polifactico investigador Sir FrancisGalton, quien public su trabajo Natural Inheritance en el ao 1889. En sumanual analiz la relacin existente entre la altura fsica de padres e hijos,evidenciando que exista una relacin positiva entre ambos: los padres altossolan tener hijos altos, mientras que los padres de menor estatura tambinsolan tener hijos con una altura por debajo de la media. Sin embargo, tam-bin pudo observar que en ambos casos exista lo que denomin una regre-

    sin a la media, de forma que los hijos de padres con estatura superior a lamedia heredaban una altura tambin superior a la media, pero ms prxima alpromedio general que la de sus padres. De igual forma, los hijos de padres deestatura inferior a la media tambin eran bajos, pero menos que sus padres.

    Para ligar ambas variables, altura de padres e hijos, ide el anlisis de regre-sin. En su versin ms sencilla, conocida como anlisis de regresin simple,se relaciona linealmente una variable con una variable , de forma querecibe la denominacin de variable dependiente o endgena, y es denomi-nada variable independiente, exgena o explicativa:

    Diremos entonces que es funcin de , o que depende de . En su formafuncional ms sencilla el modelo de regresin simple adopta la forma de unarecta, y viene totalmente determinado por la constante o trmino independien-te y la pendiente asociada a la variable explicativa (funcin afn).

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    45/137

    44

    F igura 10.Recta del modelo deregresin lineal simple

    La interpretacin de los coeficientes y es sencilla. Supongamos que que-remos establecer el precio ( ) en funcin de la superficie ( ). El coeficientenos informa del precio que tendra una vivienda con una superficie de 0 me-tros cuadrados. Este dato no es muy significativo, ya que difcilmente vamosa encontrar una vivienda con esas caractersticas. El coeficiente indica la

    variacin del precio por cada variacin unitaria de la superficie. Esto es, si lasuperficie de la vivienda a valorar se incrementa en un metro cuadrado, elprecio estimado para la misma aumentar en unidades monetarias. Y alcontrario, si la superficie disminuye en un metro cuadrado, el precio tambinse reduce en unidades monetarias.

    3.2 Estimacin del modelo der egresin lineal simple

    Como veremos a continuacin, los coeficientes y del modelo de regresin

    son calculados a partir de los valores de e . Para ilustrar la forma en quese obtienen dichos coeficientes utilizaremos un ejemplo en el que se explicael precio de las viviendas a partir de su superficie. Supongamos que trabaja-mos nicamente con 10 observaciones (un nmero a todas luces insuficiente,pero que slo persigue un fin estrictamente acadmico), y que las viviendasse distribuyen tal y como aparece en la siguiente figura.

    Y= f X( ) = a+bXY

    X

    ba

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    46/137

    45

    F igura 11.Recta regresin entrePrecio y Superficie

    En el grfico aparecen en conjunto de 10 observaciones con sus respectivosprecios y superficies. Al realizar la regresin, se obtiene la recta:

    que servir para realizar las predicciones del precio de las viviendas segn susuperficie. Esto significa que, cuando queramos valorar una vivienda consuperficie , su valor pronosticado o estimado, , ser:

    Como se aprecia en la propia figura, podramos obtener el precio pronostica-do de las 10 observaciones a partir de la recta de regresin. Pongamos comoejemplo el caso de la vivienda nmero 9, con precio y superficie . Alaplicarle la expresin de la recta, su precio pronosticado sera:

    Precio

    Superfici

    Precio= a+b Superficie

    S9

    P9

    P9

    e9 = P9 P9 e9

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    47/137

    46

    que no coincide con el precio real u observado . De hecho, se observa conclaridad que el precio estimado, que reposa sobre la recta de regresin, esinferior al precio observado. La diferencia entre ambos precios recibe elnombre de residuo u error:

    Lgicamente, cualquier tasador estara encantado de que todos los residuos desu muestra fueran 0. Eso significara que los precios estimados coinciden conlos observados, y nuestras funciones de valoracin seran perfectasal menospara las observaciones contenidas en la muestra-. Pero, como ya puede supo-nerse, la realidad dista mucho de coincidir con esta situacin ideal.

    El lector podra dibujar el resto de errores cometidos por la funcin de regre-sin en la estimacin del precio. Para ello simplemente debera proyectarverticalmente cada uno de los puntos sobre la recta de regresin, y la distan-cia entre las observaciones originales y sus proyecciones sobre la recta seranlos correspondientes residuos.

    Cmo se obtiene entonces la funcin de regresin? O equivalentemente,cmo se calculan los parmetros y ? Es evidente que el objetivo finaldebe ser que los puntos (viviendas) estn lo ms prximos a la recta de regre-sin. Esto indicara que los errores cometidos en la estimacin son pequeos,

    y por lo tanto nuestro modelo de valoracin bastante ajustado. que queremos minimizar, se calcular no como los simples residuos sinocomo los residuos al cuadrado. De ah la denominacin de regresin por m-nimos cuadrticos o mnimo-cuadrtica con la que en ocasiones se refiere alanlisis de regresin. De esta forma, los parmetros y son aquellos quehacen que la suma de los residuos al cuadrado sea lo ms pequea posible. Elmodelo de regresin puede representarse entonces como un modelo de opti-mizacin, con una funcin objetivo y tantas restricciones como observacionestengamos en la muestra:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    48/137

    47

    O volviendo a nuestro modelo ms general en el que intentamos explicar unavariable a partir de otra variable :

    La solucin del anterior problema viene dada por las siguientes expresionesde y :

    donde representa la covarianza entre las variables e , es la varian-za de la variable , y e son los valores medios de las variables e ,respectivamente.

    Veamos la aplicacin de los resultados anteriores sobre un pequeo ejemplo.

    3.3 E jemplo ilustrativo de modelo de regresin lineal simple ent rePrec io y Superficie

    En la siguiente tabla aparecen el precio y superficie de 10 viviendas, que nosservirn de ejemplo para ilustrar el clculo de la recta de regresin. La prime-ra columna sirve para enumerar el conjunto de viviendas, mientras que las

    dos siguientes recogen el precio y superficie de las mismas. En la ltima filaaparece el promedio de las variables.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    49/137

    48

    Vivienda Precio Superficie Precio estimado Residuo

    1 234.500 86 206.920,69 27.579,31

    2 264.000 115 264.741,75 -741,75

    3 204.000 95 224.865,15 -20.865,15

    4 333.000 101 236.828,13 96.171,87

    5 244.500 105,8 246.398,52 -1.898,52

    6 330.000 127 288.667,70 41.332,30

    7 124.000 66 167.044,09 -43.044,09

    8 225.000 116 266.735,58 -41.735,58

    9 246.000 130 294.649,19 -48.649,1910 286.500 130 294.649,19 -8.149,19

    Media 249.150 107,18 249.150,00 0,00

    El modelo de valoracin que buscamos relaciona el precio con la superficie atravs de la regresin simple:

    Para el clculo del coeficiente , se necesita previamente estimar la covarian-za entre el precio y la superficie, as como la varianza de la superficie:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    50/137

    49

    Observemos que la unidad del coeficiente es euros por metro, mientras quela unidad del coeficiente son euros. De esta forma, la funcin de regresinquedara como:

    A partir de la expresin anterior podemos estimar los precios pronosticados, y

    calcular los residuos como la diferencia entre los precios observados y losprecios estimados. En la cuarta columna de la tabla aparece el precio estima-do para cada vivienda, y en la quinta el residuo. Vemos cmo el mayor error,en valor absoluto, lo cometemos con la vivienda nmero 4: su precio real uobservado es de 333.000, mientras que el precio estimado por la funcinde regresin es de 236.828,13:

    Esto hace que el residuo, o error cometido en la prediccin, sea de 96.171,87:

    Una importante caracterstica de los modelos de regresin es que la media delos precios observados coincide con la media de los precios pronosticados. En

    corresponde de manera exacta con el promedio de los 10 precios pronostica-dos (ltima fila de la tabla, columna Precio estimado). Esto es as porque losresiduos se compensan unos con otros, de forma que la suma de los mismoses siempre cero.

    Recuerdo que en una ocasin realizamos un trabajo de valoracin para una delas sociedades de tasacin ms importantes del pas que consista en actuali-zar el valor de todos los inmuebles que determinada entidad financiera tenaen su Balance (valoracin masiva). Una primera aproximacin fue realizar unmodelo de regresin (obviamente de mayor complejidad que el que de mo-mento hemos descrito). El equipo tcnico de tasacin de la sociedad quiso

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    51/137

    50

    revisar los resultados, y para ello seleccion una amplia muestra de viviendasa la que aplic el modelo que habamos desarrollado. Puesto que la entidadfinanciera estaba interesada en conocer el valor conjunto de todo su parque deviviendas, y no en el valor concreto de cada una de ellas, para evaluar nuestrotrabajo midieron las diferencias entre los precios observados y los pronostica-dos por nuestro modelo. Al sumar las desviaciones (residuos), se dieron cuen-ta de que el valor era prcticamente cero, por lo que concluyeron que el mo-delo era excelente.

    La explicacin de este hecho, como ya habr imaginado el lector, est en lapropiedad que sobre los residuos acabamos de describir. Si los tcnicos hu-bieran escogido toda la muestra para realizar su anlisis, en lugar de unasubmuestra, la suma de los residuos habra sido exactamente cero!

    Eso no implica que el modelo sea excelente, ni mucho menos. Ms adelante

    veremos cmo analizar la bondad y adecuacin de nuestro modelo de regre-sin.

    F igura 12.Recta regresin entrePrecio y Superficie,junto con la estimacin deloscoeficientesa y b

    Cierto. Seguro que el lector se pregunta qu ocurri con nuestro modelo devaloracin y con la sociedad de tasacin que nos contrat. El modelo queproporcionamos a la sociedad tena una bondad en el ajuste prxima al 90%(veremos ms adelante que en valoracin inmobiliaria ste es un porcentaje

    P = 1.993,83xS + 35.451,34

    0

    50.000

    100.000

    150.000200.000

    250.000

    300.000

    350.000

    0 50 100 150

    Prec

    io

    Superficie

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    52/137

    51

    prximo al ideal). Y respecto de la sociedad de tasacin, ya se imaginar quocurri con ella tras el pinchazo de la burbuja del ladrillo en Espaa.

    3.4 Signif icacin estadstica del modelo deregresin

    Hasta el momento nicamente nos hemos dedicado a estimar los coeficientesde la recta de regresin, pues con ellos podemos aplicar nuestra funcin devaloracin sobre un activo y predecir su precio. Pero hemos descuidado unaposibilidad: que la funcin de valoracin no sea significativa. Sera lo normalsi, por ejemplo, intentramos estimar el precio a partir del nmero de bombi-llas que hay en la vivienda. Desde luego podramos calcular los coeficientesy , pero no deberamos plantearnos su utilizacin en la prctica profesional.

    Figura 13.Resultado del anlisisderegresin entreel Precio y la Superficieenla hoja declculo MicrosoftExcel

    La significacin (estadstica) de un anlisis de regresin se lleva a cabo atravs de la tabla ANOVA (Anlisis de la varianza, del ingls ANalysis OfVAriance). Supongamos que tenemos una muestra de 1.113 viviendas, todasellas de una misma ciudad, y de las que conocemos su precio de traspasoreciente junto con algunas caractersticas que nos parece pueden ser relevan-tes a la hora de estimar su precio. Entre estas variables incluimos la superfi-

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    53/137

    52

    cie, y realizando la regresin entre Precio y Superficie obtenemos los siguien-tes resultados2(figura 13).

    En el estudio de la significacin estadstica del modelo de regresin nica-

    mente nos fijaremos, de momento, en la tabla en cuyo encabezado aparece lapalabra ANOVA. Aunque podramos detallar el significado de sus filas ycolumnas, el resultado que realmente nos interesa desde un punto de vistaprctico es el que aparece en la ltima columna: nivel p. Este coeficiente nosinforma sobre la significacin estadstica del modelo, de forma que si el valorque observamos est por debajo del 5% diremos que el modelo es en su con-junto significativo desde un punto de vista estadstico. En el caso del ejemplose puede apreciar un valor 0 (a falta de decimales), con lo que podemos afir-mar que estadsticamente el modelo s es significativo.

    Si el valor hubiera estado por encima del umbral del 5%, tendramos que

    haber descartado el modelo por no poder considerarlo significativo.Significa esto que si el modelo obtiene un valor p (o p-value) por debajo del5% podemos aplicar con total tranquilidad nuestro modelo en una valoracin?La respuesta es no. El valor p de la tabla ANOVA nos permite descartar ini-cialmente cualquier modelo que no llegue al 5%, pero sin asumir que el mo-delo es vlido para su aplicacin en la prctica profesional. Para eso tendre-mos que examinar otros parmetros.

    Y por qu un p valor del 5%? En la inmensa mayora de modelos estadsti-cos las conclusiones siempre tienen asociado un nivel de confianza estadstica

    determinado. Recuerde el lector que esto es estadstica, y no matemticas. Enmatemticas 2 + 2 siempre son 4. En estadstica diramos que 2 + 2 tienenuna alta probabilidadde ser 4. El nivel del 5% en el valor p est asociado,precisamente, a la alta probabilidad con la que queremos dotar a nuestrosmodelos estadsticos. Siempre que infiramos un modelo a partir de unos da-tos, las conclusiones se asociarn a un nivel de confianza determinado: el95% es el valor ms extendido en la prctica. De esta forma, el valor p seobtiene como la diferencia entre la unidad y el nivel de confianza que hemosseleccionado:

    Si queremos que nuestros modelos tengan un nivel de confianza elevado, deal menos el 95%, entonces el mximo valor p admisible ser del 5%.

    2Estos valores se han obtenido con la hoja de clculo Microsoft Excel.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    54/137

    53

    3.5 Significacin estadstica de loscoeficientesen el modelo de regr e-sin

    Supongamos que nuestro modelo ha resultado ser, en su conjunto, estadsti-camente significativo. Que lo sea en su conjunto no significa que lo sea indi-vidualmente para cada uno de los coeficientes estimados.

    En nuestra versin ms sencilla del modelo de regresin nicamente estima-mos dos coeficientes: el intercepto ay la pendiente b. Pues bien, puede serque siendo el modelo estadsticamente significativo en su conjunto, alguno deestos dos coeficientes no lo sean.

    Pero antes de indicar en dnde debemos fijarnos para evaluar la significacin

    estadstica de los coeficientes, qu significa que un coeficiente no sea esta-dsticamente significativo?

    En el anlisis de regresin se lleva a cabo un test de significacin estadsticasobre cada uno de los coeficientes estimados. En concreto, se analiza si di-chos coeficientes son o no distintos de cero. Por lo tanto, es como si el tcni-co me permiten aplicar esta funcin sobre datos fuera de la muestra, y esperoque fuera de ella. Pero los valores de los coeficientes, podran considerarsedistintos de cero si hubiera aplicado el anlisis sobre otra muestra similar?Desde luego el lector puede pensar que dicho problema es bien sencillo de

    resolver incluso para un estudiante de primaria: si un coeficiente tiene unvalor de 10, pongamos como ejemplo, pues claramente es distinto de cero.Pero, y si el coeficiente tiene un valor de 1? O de 0,1? Y si fuera

    coeficiente es distinto de cero. Porque o se es cero, o se es distinto de cero, no ciertamente eso es lo que ocurre en mate-mticas, pero recuerde que estamos en estadstica.

    El problema viene dado porque cuando estimamos una funcin de regresinlo hacemos a partir de una muestra de datos, y no de toda la poblacin. Po-demos estar seguros de que si ampliramos nuestra muestra a toda la pobla-cin los coeficientes obtenidos sufriran variaciones respecto de los iniciales.De ah que si obtenemos una constante con un valor de 5 en nuestra mues-tra, puede que al modificar la muestra su valor estuviera mucho ms prximoa cero, o que fuera incluso negativo. De alguna forma tenemos que poderasegurar que el valor obtenido es distinto de cero. Y muy importante, para unnivel de confianza determinado: pongamos el 95%.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    55/137

    54

    Volviendo al ejemplo de la figura 13, se han estimado dos coeficientes:

    El signo negativo de la constante le tiene que haber llamado la atencin, peroahora no lo vamos a comentar.

    Parece que ambos coeficientes son claramente distintos de cero, que nadiepodra dudar de que se trata de valores diferentes a cero. Para constatarlodesde un punto de vista estadstico utilizamos la columna del valor p s,como hicimos al analizar el modelo en su conjunto-, que aparece en ltimolugar de la tabla de coeficientes. Y en ambos casos el valor p es cero, luego

    podemos concluir que los valores obtenidos para el intercepto y la pendienteson estadsticamente distintos de cero (con un nivel de confianza del 95%).

    Tambin deben comentarse los valores del Valor inferior de un intervalo deconfianza y del Valor superior de un intervalo de confianza. Nos informan delrango de valores en los que podran variar los coeficientes para un nivel deconfianza determinado. Por as decirlo, es como si en el anlisis nos estuviera medio, el coeficiente asociado a la superficie es de3.616,80. Pero si repitiramos el anlisis sobre otras muestras similares a laactual, es posible que el coeficiente fluctuara entre un valor mnimo de3.402,20 y un valor mximo de 3.831,40. El nivel de confianza para dichos

    extremos es del 95%, con lo que slo en un 5% de los casos podramos en-contrarnos, en promedio, con coeficientes asociados a la superficie fuera dedicho intervalo.

    i-fica que podemos descartar que el coeficiente asociado a la superficie seanulo.

    Porque, qu ocurre si llegamos a la conclusin de que el coeficiente quehemos obtenido no es estadsticamente distinto de cero? Pregntese para ququiere un coeficiente cero en su funcin de valoracin. Si ni suma ni resta,

    entonces elimnelo y eso que se ahorra.Supongamos que el coeficiente asociado a la superficie no hubiera sido esta-dsticamente distinto de cero, para un nivel de confianza del 95%. Significaraentonces que la superficie de la vivienda no influye en su precio, y por lotanto tendramos que descartar dicho coeficiente de la funcin de valoracin.Mantenerlo no mejorara nada, puesto que se ha demostrado que no influyeen los precios de las viviendas. Piense que el objetivo del valorador es, final-mente, obtener modelos que sean lo ms parsimoniosos posible. Esto es, queestn compuestos por el menor nmero de variables.

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    56/137

    55

    Cuanto mayor sea la sencillez del modelo, ms atractivo ser para el valora-dor. Podemos apuntar dos razones para ello: la primera, que un modelo senci-llo siempre es preferible a uno complicado. As ocurre en los modelos que seaplican en fsica, qumica o matemticas. La explicacin ms sencilla de lascosas es siempre preferible a la explicacin ms compleja. Y en segundolugar, como valorador preferir un modelo que emplee el menor nmero devariables explicativas por el elevado coste que supone la obtencin de lasmismas. No es lo mismo construir un modelo de valoracin que utilice 5variables, que otro que emplee 20. En el segundo caso el valorador tendr quehacer un sobreesfuerzo por medir 20 variables en cada una de las viviendasque compongan la muestra, mientras que en el primer caso con 5 nicas va-riables podr desarrollar un modelo completo de valoracin.

    Ms adelante, cuando tratemos el modelo de regresin mltiple con ms de

    una variable explicativa, analizaremos el modo en que debemos eliminaraquellas variables que puedan haber resultados no significativas, o irrelevan-tes, en nuestro modelo de valoracin.

    Para completar este epgrafe, volvamos a un punto que habamos resaltadoanteriormente: el signo negativo del intercepto o constante. Dicho coeficienteha obtenido un valor de -157.309,23. Esto puede hacer pensar al valoradorque alguna vivienda podra ser valorada negativamente!. Bueno, por muchascrisis del ladrillo que se sufra, quiz esto pueda antojarse algo objetivamentedifcil de ser alcanzado.

    Es posible que alguna vivienda se pudiera valorar con un precio negativo, enconcreto todas aquellas que tuvieran una superficie inferior a los 43 metroscuadrados. Eso no implica que nuestro modelo de valoracin sea un mal mo-delo de valoracin. De hecho, en la muestra compuesta por 1.112 viviendas,ninguna tena una superficie inferior a los 45 metros cuadrados, con lo que almenos en la muestra nunca alcanzaramos una valoracin negativa. Lo que enningn caso deberamos pretender es valorar una vivienda que tuviera menosde esos 45 metros cuadrados determinados por la vivienda de menor superfi-cie en la muestra, como veremos ms adelante.

    Tampoco debemos pensar en los -

    coeficiente debe interpretarse como el precio que tendra una vivienda conuna superficie de 0 metros cuadrados, cosa que en la prctica sabemos notiene sentido, as que no le demos ms vueltas.

    Otro error muy comn es el de querer eliminar aquellos coeficientes que elvalorador considera que no tienen sentido, como podra ser en este caso el delintercepto. Claramente su eliminacin por este motivo sera un error, ya queel coeficiente ha resultado ser estadsticamente significativo. Si se eliminara,estaramos empeorando nuestra funcin de valoracin. Pensemos que pres-cindir del intercepto es, en realidad, aadir una restriccin al modelo: que la

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    57/137

    56

    recta de regresin tiene que pasar por el origen del eje de coordenadas. Cual-quier modelo al que se aada una restriccin adicional ha de obtener, necesa-riamente, una solucin peor (salvo que la restriccin sea redundante).

    En la siguiente figura se comparan las rectas de regresin con intercepto posi-tivo (lnea continua) y sin intercepto (lnea discontinua). La primera se haobtenido mediante regresin lineal, y en la segunda se ha restringido la ante-rior aadiendo una constante nula. Claramente en el segundo caso se empeorala solucin, ya que se puede observar cmo algunos puntos quedan ms ale-jados de la recta de regresin que en el primer caso.

    F igura 14.Comparativa deuna recta deregresin con intercepto frentea otrarecta deregresin sin intercepto

    3.6 Quhace r si la constanteno esestadsticamentedistinta dece ro

    Si en nuestro modelo de regresin el coeficiente de la constante no ha resul-tado ser estadsticamente significativo (valor p por encima del 5%), entonceslo razonable es plantear su eliminacin del modelo. Esto es lo que debemoshacer con cualquier coeficiente que resulte ser no significativo, porque de estamanera conseguimos que nuestro modelo sea ms parsimonioso. Y esta fue larespuesta que, en mis tiempos de estudiante, me dio mi profesora de modelosmultivariantes al plantearle la cuestin.

    Precio

    Superfici

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    58/137

    57

    Sin embargo, y siendo cierto lo anterior cuando analizamos cualquier coefi-ciente asociado a una variable explicativa, eliminar la constante en la funcinde valoracin no plantea ninguna ventaja comparativa. Ciertamente, si pode-mos valorar una vivienda prescindiendo de una variable significa que el valo-rador tendr que recopilar menos informacin en sus valoraciones. Y esto esclaramente positivo para l. Pero, qu ocurre si prescindimos de la constan-te? Tambin ser un ahorro de tiempo para el valorador? Pues la respuestano es tan clara, ya que incluir la constante en el modelo no supone tener querecopilar ms informacin sobre las viviendas para poder obtener una funcinde valoracin. Por lo tanto incluirla o no es, en principio, indiferente para elvalorador.

    Por otra parte, si el modelo nos dice que no es estadsticamente distinta decero y decidimos eliminarla, los precios que estimemos sin ella no sern muy

    distintos a los que obtendramos si la incluyramos en la funcin de valora-cin. Pero eso s, si la descartamos estaremos incluyendo una restriccin en elmodelo: que la recta de regresin deba pasar por el origen de coordenadas.

    En resumen, eliminar una constante que no es estadsticamente significativa1) no supone un ahorro en coste y tiempo para el valorador, y 2) aadimosuna restriccin adicional sobre nuestro modelo, lo que no har precisamenteque mejoremos los resultados aunque dicha restriccin se haya demostradoredundante.

    Adems, cuando en un epgrafe posterior analicemos la bondad de los mode-

    los de regresin mediante el coeficiente R cuadrado, veremos que eliminar laconstante hace que el coeficiente R cuadrado no sea comparable con el deotros modelos con constante, por lo que definitivamente les propongo quecuando se encuentren con una constante estadsticamente no significativa nola eliminen de su modelo de valoracin.

    3.7 El estadstico R cuadrado: cmo analizar la bondad demi modeloder egresin

    En los epgrafes anteriores hemos analizado cundo un modelo es significati-vo en su conjunto, y cundo lo son de manera individual los coeficientes y

    de la recta de regresin. A continuacin analizaremos el estadstico R cua-drado ( ), que permite estudiar la bondad en el ajuste de un modelo de re-gresin y conocer cul es su capacidad explicativa. De esta forma, podremossaber cun bien o mal explica el precio una funcin de valoracin, y si tienesentido aplicarla en la prctica profesional.

    Para entender cmo se construye dicho estadstico, es bueno comenzar enten-diendo qu modelo de regresin aplicara usted en una situacin extrema.Imagine que desea obtener un modelo de regresin que explique el precio,

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    59/137

    58

    sin contar con ninguna variable explicativa! Ciertamente una situacin com-plicada. La nica informacin de la que dispone es el propio precio de lasviviendas en su muestra, y con dicha informacin debe construir un modelode valoracin.

    En la siguiente tabla tenemos de nuevo el ejemplo de 10 viviendas, de las quede momento slo vamos a utilizar el precio (segunda columna). Si usted tu-viera que estimar el precio de una undcima vivienda, muy probablemente elvalor que dara en su pronstico sera el promedio de estas 10. Es decir, endo es aplicar el modeloingenuo o modelo naive. Dicho modelo asume que cuando slo se conoce lainformacin de la variable dependiente, y no existe ninguna independiente,entonces la mejor prediccin posible para una nueva observacin es la mediamuestral.

    Vivienda PrecioModelo ingenuo Modelo superficie

    Precio estimado Residuo Superficie Precio estimado Residuo

    1 234.500 249.150 -14.650 86 206.920,69 27.579,31

    2 264.000 249.150 14.850 115 264.741,75 -741,75

    3 204.000 249.150 -45.150 95 224.865,15 -20.865,15

    4 333.000 249.150 83.850 101 236.828,13 96.171,87

    5 244.500 249.150 -4.650 105,8 246.398,52 -1.898,52

    6 330.000 249.150 80.850 127 288.667,70 41.332,30

    7 124.000 249.150 -125.150 66 167.044,09 -43.044,09

    8 225.000 249.150 -24.150 116 266.735,58 -41.735,58

    9 246.000 249.150 -3.150 130 294.649,19 -48.649,19

    10 286.500 249.150 37.350 130 294.649,19 -8.149,19

    Media 249.150 249.150 0 107,18 249.150,00 0

    cada una de se tomara como diferencia entre el precio observado y el precio estimado. Lasuma de los errores o residuos es cero, como ocurra en el caso del modelo deregresin simple. Si sumamos el cuadrado de los residuos obtenemos el si-guiente valor:

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    60/137

    59

    Las ltimas columnas de la tabla recogen el resultado de aplicar el modelo deregresin simple entre el precio y la superficie. En este caso, la suma de los

    residuos al cuadrado es:

    Se comprueba como este valor es inferior al obtenido por el del modelo inge-nuo. Por lo tanto, la desviacin tpica de los residuos tambin ser inferior:

    Al tener menor dispersin los residuos del modelo de regresin simple, po-demos deducir que dicho modelo explica mejor el precio que el modelo inge-nuo. Esto de por s ya era evidente, ya que el modelo ingenuo realizaba laprediccin de los precios a partir del propio precio, sin tener en cuenta ningu-

    na otra variable exgena.Pues bien, el estadstico se construye a partir de las dos sumas de cuadra-dos que hemos descrito:

    Para el caso de nuestro ejemplo, su valor se calculara como:

    Obsrvese como cuanto ms pequea sea la suma de cuadrados de los resi-duos del modelo de regresin simple, mayor ser el estadstico . La situa-cin ideal sera que esta suma de cuadrados fuera cero, lo que indicara que

  • 8/13/2019 Libro Estadstica Aplicada a la Valoracin - Francisco Guijarro BLOG

    61/137

    60

    los precios estimados coinciden con los precios observados, y el estadsticotomara valor 1.

    Es fcil demostrar que el estadstico viene acotado entre los valores 0 y 1,

    de forma que cunto ms se aproxime a la unidad mayor capacidad explicati-va tiene el modelo, mientras que un valor prximo a cero indicar que el mo-delo tiene escasa capacidad explicativa (y probablemente no ser significativoen la tabla ANOVA):

    Una propieda