Regresion

	Variables estatísticas bidimensionais, representación gráfica, tipos de dependencia, covarianza
	Estatística e probabilidade

1. Variables estatísticas bidimensionais

Trátase de variables que xorden cando se estudan dúas características asociadas á observación dun fenómeno.

Exemplo 1. - Estudamos o talle, medido en cm. e o peso, medido en kg. dun grupo de 10 persoas, podemos obter os seguintes valores:

TALLA (cm) 160 165 168 170 171 175 175 180 180 182

PESO (kg) 55 58 58 61 67 62 66 74 79 83

Podemos chamar X ao talle e Y ao peso co que se obtería a variable bidimensional (X, Y) que toma 10 valores, que son as 10 parellas de valores da táboa anterior: (160,55), (165,58), etc.

Cando o número de valores da variable bidimensional non é moi grande, os mesmos se expresan nunha táboa semellante á anterior, pero nalgúns casos o número de "parellas" de valores (x,y) é grande e ademais moitos deles aparecen repetidos; neste caso utilízase unha "Táboa de dobre entrada" como a que se mostra a continuación no exemplo 2.

Na primeira fila colócanse os valores dunha das características ou variable que compoñen a variable bidimensional e na primeira columna os da outra.

Exemplo 2. - Represéntase por X o número de fillos de 100 familias e por Y o número de fillas:

nº fillas (Y) 0 1 2 3

nº fillos (X)

-----------

--

--

--

--

0

-----------

10

15

15

3

1

----------

10

12

7

2

2

----------

8

4

3

1

3

----------

3

2

1

0

4

----------

2

1

1

0

A lectura desta táboa é sinxela. Por exemplo: habería 7 familias que terían 1 fillo e 2 fillas e ningunha familia tería 3 fillos e 3 fillas.

En realidade a táboa de dobre entrada anterior converteríase nunha táboa simple se escribísemos os 100 pares de valores iguais ou repetidos nunha táboa simple.

Os exemplos con que imos traballar este tema serán do primeiro tipo por razóns de limitación á hora de visualizar máis número de valores nas escenas. Isto non limita as posibilidades de estudar o tema e entender os conceptos básicos.

2. Representación gráfica: Diagramas de dispersión ou nubes de puntos

A representación gráfica deste tipo de variables é en realidade semellante á representación de puntos no plano, usando uns eixes de coordenadas. Cada parella de valores dá lugar a un punto no plano e o conxunto de puntos que se obtén denomínase "diagrama de dispersión ou nube de puntos".

No exemplo 1 anterior no que se estudaba o talle e o peso de 10 persoas obteríase o seguinte diagrama de dispersión: (No eixe X represéntase o talle en cm. e no eixe Y o peso en kg.)

Na escena seguinte pódese observar outro diagrama de dispersión correspondente a unha variable bidimensional que toma 6 valores aos que chamamos:

(a, a1), (b, b1), (c, c1), (d, d1), (e, e1), (f, f1)

Se se van cambiando usando as ventás inferiores da escena, os valores da variable, pódense observar os cambios na nube de puntos.

3. Tipos de dependencia a partir da representación gráfica

Un dos obxectivos deste tema é estudar o tipo de dependencia que hai entre as dúas características ou variables estudadas para que fenómeno en cuestión. Por exemplo:

" ¿ A maior talle dunha persoa correspóndelle maior peso ? "

" ¿ Canto maior é o número de fillos varóns dunha familia maior é o número de fillas ? "

A estas cuestións parece que se responde rapidamente que si. Pero

¿Como se observa na nube de puntos este feito?

Pódese ver no primeira figura que correspondía ao diagrama de talle - peso que a serie de puntos presenta unha tendencia "ascendente". Dise neste caso que existen entre as dúas variables unha "dependencia directa".

En caso en que a tendencia sexa "descendente" diríase que estariamos ante unha " dependencia inversa "

Naturalmente en caso en que non se poida observar unha tendencia clara estariamos ante unha dependencia moi débil que non se pode observar mediante a nube de puntos e se verá como estudala a continuación. Realiza os seguintes exercicios:

1. - Na escena que correspondía á variable con 6 pares de valores: ¿Que se pode dicir da dependencia para os valores que aparecen inicialmente?.

2. - Modifica os devanditos valores para que a dependencia sexa directa e posteriormente inversa.

4. Covarianza e a súa interpretación

Unha medida específica das variables bidimensionais é a covarianza.

Para variables expresadas mediante unha táboa simple (sen pares de valores repetidos), a covarianza calcúlase mediante a formúla:

Onde xi e yi representan os pares de valores da variable e o produto corresponde ao produto das medias aritméticas das variables x e y respectivamente.

Calculemos a covarianza para o exemplo primeiro correspondente á variable talle - peso:

A suma de todos os produtos dos valores de x (talle) por os de e (peso) sería:

160 · 55 +165 · 58 +168 · 58 +170 · 61 +171 · 67 +175 · 62 +175 · 66 +180 · 74 +180 · 79 +182 · 83 =114987 que dividido polo número de valores (10) será: 11498,7

A este valor debemos restarlle o produto das medias de ambas as dúas variables que naturalmente sabes calcular:

Media de x (talle): 172,6

Media de y (peso): 66,3

Co que a covarianza Sxy =11498,7 -172,6 · 66,3 =55,32

(Cunha calculadora con funcións estatísticas este cálculo é sinxelo).

Obtivemos un valor positivo para a covarianza que corresponde a unha dependencia directa como xa intuiramos coa nube de puntos.

No exemplo 2 (fillos - fillas) pódese comprobar que tamén a covarianza é positiva. (Déixase como exercicio a comprobación). Téñase en conta que neste caso a variable bidimensional toma "100 valores"

Exemplo 3. - Partimos da escena seguinte, na que se poden ver inicialmente a nube de puntos da variables bidimensional que toma os seguintes 6 pares de valores:

x 2 4 6 8 10 12

y 8 7 7 6 6 4

3. - Á vista da nube de puntos ¿que tipo de dependencia se pode supoñer?.

4. - Calcular a covarianza e confirmar a afirmación anterior.

5. -Observa que a covarianza é negativa ( -3,5) e polo tanto a dependencia é inversa.

6. - Calcular a covarianza da variable fillos-fillas do exemplo 2 e deducir do valor o tipo de dependencia.

	Leoncio Santos Cuervo

	© Ministerio de Educación e Ciencia. Ano 2001