DISEÑO DE MUESTREO
Los estudios de consumo, oferta y abastecimiento de
dendrocombustibles se realizan fundamentalmente utilizando técnicas de
muestreo. Esto significa que a través del estudio de un pequeño grupo (muestra)
elegido aleatoriamente, se obtienen datos de las variables de interés de un
grupo de mayor tamaño (universo6),
para después inferir sobre el comportamiento de esas variables en el universo.
Esto es así porque hacer estos estudios en todo el universo, con excepción de
aquéllos muy pequeños, tiene altos costos.
El universo debe ser definido desde los objetivos del
estudio y puede serlo en términos geográficos (una localidad, un municipio, un
distrito, una provincia, un país o cualquier otra categoría intermedia) o en
términos sectoriales (la población urbana, las industrias de cerámica, los
productores de leña). También se debe dar límites temporales a la definición
del universo, porque su composición y características pueden cambiar con el
correr del tiempo. Se recomienda que el universo tenga límites espaciales
coincidentes con las agrupaciones estándares, de uso común, u oficiales de cada
país (políticas, administrativas, naturales, etc.), para que sea posible
estimar sus dimensiones a partir de bases de información ya existentes.
El universo se define en forma preliminar al inicio
del diseño metodológico de un estudio, para después precisarlo al conocer su
tamaño y distribución espacial y temporal, a través de la revisión de
informaciones existentes. La redefinición del universo puede significar
ampliarlo o reducirlo. El primer caso puede ocurrir cuando se reconoce que
existe un área con uso importante de dendrocombustibles o donde hay oferta real
o potencial de ellos. La eliminación de áreas del universo puede deberse, por
una parte, a que sea tal la carencia de información sobre la demanda o la oferta,
que su incorporación al estudio lleve a un error mayor que su eliminación; y
por otra, a que se reconozca que alguna localidad o área no forman parte del
universo por no contar con usuarios de importancia.
Una vez definido el universo, se debe recabar
información, lo más exacta posible, de sus dimensiones y distribución espacial
y temporal, para con ello poder construir el marco muestral, que es la base
para hacer el diseño de muestreo. El marco muestral es la información que ubica
y dimensiona al universo y puede consistir de censos de vivienda y mapas
agrupados por localidades, barrios, repartos, etc.; mapas de cobertura forestal
con agrupamientos por tipos de vegetación o usos del suelo; listados de
viviendas en localidades pequeñas, etc. La construcción del marco muestral se
detalla en los apartados referentes a las variables generales de la demanda,
oferta y abastecimiento
Un concepto básico en la teoría del muestreo, que debe
definirse claramente para construir el marco muestral, es la unidad de
muestreo, que es la unidad mínima de observación de la que se obtendrá
información de las variables útiles. Por convención estadística, se usará
"N" para referirnos al número de unidades de muestreo que integran el
Universo y "n" para el número de unidades de muestreo en la muestra.
Para cada sector la unidad de muestreo más conveniente se indica en la Tabla
3.1. Otras unidades de muestreo pueden ser definidas de acuerdo a los objetivos
de los estudios.
Tabla 3.1 Unidad de muestreo según el grupo temático y
sector o ramo de estudio.
Grupo
|
Sector o ramo
|
Unidad de muestreo
|
Demanda
|
Residencial
- urbana - rural |
Vivienda
|
Industrial
|
Establecimiento
|
|
Comercial
|
||
Institucional
|
||
Oferta
|
Directa
|
Parcela
|
Indirecta
|
Establecimiento
|
|
Abastecimiento
|
Productores
|
Productores individuales, empresas
|
Transportistas
|
||
Comercializadores
|
Después de haber definido el universo y la unidad
muestral, y de contar con un marco muestral, el diseño del muestreo consiste de
dos grandes etapas: definición del tipo de muestreo y determinación del tamaño
de muestra.
Existen diferentes tipos de muestreo, pero todos se
basan en el principio de aleatoriedad. Para poder hacer inferencias válidas de
lo que ocurre en un universo a partir de una muestra es necesario que ésta sea
representativa de él, lo cual se logra con la aleatoriedad y
con un tamaño suficiente de la muestra.
La base de la inferencia estadística es la aleatoriedad.
Esto significa que todos los elementos del universo tengan la misma oportunidad
de ser elegidos para componer la muestra. Si no se los eligiera aleatoriamente
se corre el grave riesgo de tener resultados NO representativos de toda la
población, sino de un sector de ella. A esto se le llama sesgo. Un ejemplo de
sesgo por elección NO aleatoria en un inventario de recursos leñeros, es elegir
las parcelas cercanas a las vías de acceso. Por esa condición, es muy probable
que sean las más explotadas y que tengan menores existencias de madera. Así,
hacer la extrapolación al Universo de los resultados de esta muestra NO
aleatoria, llevaría a una subestimación de las existencias.
El tamaño de la muestra es dependiente de la
variabilidad del fenómeno a estudiar, del nivel de confianza fijado y del error
admisible. Un error muy común es la afirmación de que, para que una muestra sea
representativa de un Universo, debe ser de un tamaño directamente proporcional
a su tamaño, es decir, que a mayor tamaño del Universo debería ser mayor el
tamaño de la muestra. Adelante se detallará la forma de obtener el tamaño de
muestra.
Consiste en elegir en forma aleatoria "n"
unidades muestrales (UM) del universo. El proceso debe otorgar la misma
oportunidad de selección a todas las UM en una sola ocasión.
Se asigna un número a cada UM y se selecciona la
muestra aleatoriamente con ayuda de tablas de números aleatorios, calculadoras,
sorteo, etc. Esta técnica solo puede ser aplicada cuando se dispone de un marco
muestral completo, que incluya a todas las UM, y éstas puedan ser reconocidas e
identificadas sin dificultad en el terreno. Por ejemplo, un listado telefónico,
o una lista de domicilios con identificación de calle y número, o nombre del
ocupante de la vivienda. En el caso de muestreo de recursos naturales, suele
ser difícil identificar o localizar exactamente a las parcelas sorteadas, ya
que se necesita un mapa detallado e instrumentos de localización geográfica de
precisión adecuada.
Muestreo aleatorio simple
Universo
• 70 ladrilleras en una ciudad
• Todas son pequeñas, con producción entre 30 mil y 60
mil ladrillos por año
Marco Muestral
• Listado de establecimientos de la Oficina Municipal
Tributaria
Unidad Muestral
• Establecimiento
Selección aleatoria
• Se numeran los establecimientos y por medio de un
sorteo o usando números aleatorios se eligen "n" establecimientos
para entrevistar
Cuándo se debe usar el muestreo aleatorio simple:
• Cuando se sabe que la variable de mayor interés se
distribuye aleatoriamente en el universo.
• Para universos pequeños (no más de 200 UMs)
.
• Para universos de poca dispersión geográfica.
• Cuando no se conoce el patrón de distribución para
la variable de interés.
Este tipo de muestreo se utiliza cuando el universo
original, de tamaño N, es fragmentado en estratos relativamente homogéneos en
cuanto a la variable de interés. Esto es aconsejable siempre que la variación
entre estratos sea mayor que la interna de cada estrato.
Muestreo aleatorio estratificado
Universo
• 15 500 ha de tierra donde se produce leña en
diferentes Usos del Suelo
Estratos
• Potreros (3 000 ha)
• Cercos vivos (4 000 ha)
• Bosque natural (3 000 ha)
• Vegetación secundaria (5 500 ha de manigua, acahual
o capuera)
Marco muestral
• Mapa de uso del suelo a escala 1:20 000
Unidad muestral
• Parcela (de tamaño específico para cada uso del
suelo)
Selección aleatoria
• Elección de "n" parcelas al azar dentro de
cada estrato (uso del suelo)
A cada uno de estos estratos se les trata
independientemente como un universo, en cuanto al método de selección de las UM
y de estimación de parámetros. Al interior de cada estrato, las UM se pueden
seleccionar en forma aleatoria, por conglomerados o sistemáticamente.
El muestreo estratificado permite mejorar la precisión
de las estimaciones con menor esfuerzo de muestreo, caracterizar a cada estrato
por separado y facilitar la coordinación del trabajo de campo.
Es muy importante considerar que las unidades de
muestreo deben pertenecer a un solo estrato, que los estratos deben ser
reconocibles más allá del grupo que hizo el estudio y que debe conocerse el
tamaño del estrato. No es recomendable formar muchos estratos, pues se
complicaría innecesariamente el estudio a campo y el análisis de datos.
Para tomar la decisión de hacer un muestreo
estratificado existen criterios generales. En el grupo de demanda de
dendrocombustibles, la saturación y el consumo son las variables que en primera
instancia deben definir la pertinencia de estratificar. En el grupo de oferta
directa la estratificación se hace por tipo de fuente, clase de cobertura o de
uso del suelo. Para el grupo de oferta indirecta, y abastecedores, productores,
transportistas y comercializadores) se usa el volumen de producción o
comercialización. Como se trata de variables que se deben conocer antes de
hacer el estudio, es posible obtener datos de ellas por fuentes secundarias o
por variables indicadoras,
¿Cuándo se debe usar el muestreo estratificado?
• Se usa principalmente en poblaciones donde se supone
o se conoce que la distribución de la(s) variable(s) de mayor interés es
diferente entre subpoblaciones fácilmente identificables.
• Por su baja eficiencia del muestreo, NO se
recomienda aplicarlo en universos pequeños, con menos de 200 UM y variables de
distribución normal .
Universo
• Localidad con 650 viviendas distribuidas
dispersamente en un área grande y con un trazado regular de calles.
Conglomerados
• Manzanas (cuadras)
Marco muestral
• Número total de viviendas en la localidad
• Croquis de la localidad con el trazado actualizado
de calles y una estimación promedio del número de viviendas por manzana
Unidad muestral
• Viviendas
Selección aleatoria
• Se numeran las "manzanas" y se eligen al
azar. En cada una de ellas se visita a todas las viviendas
|
Un conglomerado es un conjunto espacialmente compacto
de UM.
Los conglomerados se seleccionan aleatoriamente y
dentro de cada uno se estudian todas sus UM o se hace un muestreo de ellos.
¿Cuándo se debe usar el muestreo por conglomerados?
• Se aplica cuando existe alta dificultad para llegar
a todas las UM del universo debido a una gran dispersión espacial o a tener
barreras físicas de acceso.
Este no es propiamente un tipo de muestreo y es
conveniente considerarlo como un esquema de selección regular de muestra.
La selección de la primera UM es aleatoria y las siguientes se eligen con un intervalo regular de UM, distancias o tiempo. Su limitación teórica consiste en que sólo el primer número se selecciona al azar, y los restantes no tienen la misma probabilidad de ser incluidos en la muestra. Su ventaja reside en que facilita la localización de UM en lugares donde hay dificultad de acceso y en que permite visitar UM que no se encuentren definidas en el marco muestral.
La selección de la primera UM es aleatoria y las siguientes se eligen con un intervalo regular de UM, distancias o tiempo. Su limitación teórica consiste en que sólo el primer número se selecciona al azar, y los restantes no tienen la misma probabilidad de ser incluidos en la muestra. Su ventaja reside en que facilita la localización de UM en lugares donde hay dificultad de acceso y en que permite visitar UM que no se encuentren definidas en el marco muestral.
¿Cuándo se debe usar la selección sistemática?
• Cuando no hay posibilidad de identificar en el marco
muestral a cada una de las UM. Por ejemplo, en ciudades grandes donde no se
tienen listados de viviendas
• Cuando se dificulta el acceso a las UM, por
distancias, falta de caminos o en terrenos abruptos. Por ejemplo, en un
inventario forestal.
• Combinación de tipos de muestreo
Selección sistemática
Universo
• Ciudad con 3 000 viviendas distribuidas
espacialmente en forma compacta
Marco Muestral
• Croquis de las calles de la ciudad
• Número total de viviendas (actualizado)
Unidad Muestral
• Vivienda
Selección sistemática
• Se determina el intervalo de visita a las
viviendas dividiendo el número total de viviendas por el número de viviendas
a muestrear.
• La primera vivienda se elige al azar y las
restantes se visitan de acuerdo al intervalo calculado
|
En un mismo estudio o diagnóstico,
es posible combinar diferentes tipos de muestreo, según sean las
características de los sectores o ramos considerados y el grado de compromiso
aceptado entre la precisión y el costo de ejecución del estudio. Por ejemplo, en
el sector residencial puede optarse por un muestreo estratificado bietápico con
conglomerados, en tanto que para un ramo industrial pequeño, homogéneo y
compacto se elija un aleatorio simple.
El tamaño de la muestra debe definirse
independientemente para cada universo, en función de tres factores: la
variabilidad de la variable numérica más importante, el nivel de confianza
fijado y el nivel de error aceptable. Esto se resume en la siguiente fórmula7:
no = (s2 . t2,)/ e2 (1) en
términos de varianza y error absoluto
ó
no = (cv2 . t2,)/ e2 (2) en
términos de cv y error relativo
donde:
no = tamaño de la muestra
s2 = varianza de la muestra
t2 = valor crítico de la distribución t de Student,
con un nivel de significancia _ y _ grados de libertad
e = error aceptable
cv = coeficiente de variación = desviación estándar de la muestra/ media
muestral
= grados de libertad = n - 1
La varianza (s2) o el
coeficiente de variación (cv) indican el grado de heterogeneidad u
homogeneidad de la variable de interés en la muestra y se los calcula
-manualmente, con calculadora o con Excel- con los datos de una muestra
preliminar o de algún estudio previo.
El error aceptable (e) se refiere a la diferencia que se permite entre
la media de la muestra y la media del universo. Se fija de acuerdo al
conocimiento previo que se tiene del fenómeno y es aconsejable que se encuentre
entre el 10% y el 20%, lo cual puede expresarse también en valores absolutos
con las unidades de medición de la variable en cuestión.
El valor crítico de t se obtiene de tablas
en libros de estadística de Excel, definiéndose primero el nivel de
significancia ()
o su complemento, el nivel de confianza (1-).
Para este tipo de estudios es suficiente con un nivel de confianza de 0.95, que
equivale a =
0.05(2). Además, se debe fijar preliminarmente un número de casos de la muestra
(n) para definir los grados de libertad ( =
n-1). Estos dos valores son los datos de entrada de las tablas de t.
Posteriormente, por medio de un proceso iterativo, en donde el valor de n
obtenido con la Fórmula 1 se utiliza para encontrar el valor de t, se precisa
el tamaño de la muestra.
En esta fórmula se aprecia que el
número de elementos que componen la muestra es directamente proporcional a la
varianza y al valor de t cuadrado, e inversamente proporcional al cuadrado del
error. El tamaño de muestra será grande cuando: a) el fenómeno en estudio sea
muy variable (varianza o coeficiente de variación alto); b) el nivel de
confianza fijado sea alto; y/o c) el error aceptable sea bajo. En cambio, el
tamaño de la muestra será pequeño si encontramos un fenómeno poco variable,
fijamos una confianza baja y se acepta un error alto.
Con ello queda demostrado que el
tamaño de una muestra NO depende del tamaño del universo. Así, por ejemplo,
partiendo de iguales niveles de confianza y error aceptado, en un bosque
tropical húmedo con la misma superficie que un bosque templado de pino, el
tamaño de muestra será mayor en el primero porque es sabido que tiene más
heterogeneidad en la variable existencia de madera que el bosque de pino.
Hasta ahora no se ha considerado el
tamaño del universo para determinar el tamaño de muestra. Sin embargo, para
universos pequeños, menores a 120 U.M., es necesario corregir el valor de no obtenido
de la Fórmula 1, a través del uso de la Fórmula8:
n = no / (1 +
no / N) (2)
donde:
no = tamaño de muestra obtenido en la fórmula
anterior
N = tamaño del universo
n = tamaño definitivo de muestra
En el Anexo III se muestra una tabla
con el cálculo del tamaño de muestra en el sector residencial, corregido por
población finita, para la variable consumo específico de leña, que por un gran
número de estudios de caso se conoce su coeficiente de variación.
Variables para calcular el tamaño de
muestra
• Para la definición del tamaño de
muestra de cualquier sector o ramo de demanda
de dendrocombustibles,
se recomienda utilizar la variable consumo unitario.
• En los sectores
industrial, comercio e institucional no siempre es posible tener datos
sobre consumo unitario, por lo que puede usarse el volumen de
producción por unidad de tiempo, que está muy correlacionado con el consumo
unitario.
• Para la oferta directa (bosques,
plantaciones, etc.), las variables relevantes pueden ser la existencia o
la productividad, pero se recomienda el uso de la primera por haber más
información secundaria y ser más fácil de medir en un muestreo preliminar. Si
no hay datos sobre existencias, puede utilizarse el área basal (G).
• En los sectores o ramos de oferta
indirecta (aserraderos, carpinterías, etc.) se debe usar el volumen
de producción por unidad de tiempo.
• En los sectores de
abastecimiento, con los productores es conveniente usar el volumen de
producción de dendrocombustibles, con los comercializadores el volumen de venta
y con los transportistas la capacidad de transporte, todas expresadas por
unidad de tiempo.
La decisión final sobre el
tamaño de muestra dependerá de un compromiso entre la precisión esperada en la
estimación y la disponibilidad de recursos (monetarios, humanos y
tiempo) para ejecutar el estudio a campo. Se recomienda que los sectores o
ramos con mayor importancia en demanda, oferta y abastecimiento de
dendrocombustibles se privilegien en la asignación de recursos para el estudio
a campo, para lograr en ellos mayor precisión en la estimación. En aquellas
situaciones en que no sea posible cubrir el tamaño de muestra derivado del
cálculo estadístico, es forzoso estudiar un mínimo de 10 unidades de muestreo
por sector, ramo o estrato, reportando en el informe del diagnóstico el error
de estimación, despejando e de la Fórmula 1.
7 Fórmula
usada para determinar el tamaño de muestra necesario para estimar la media
poblacional, pues en pruebas de hipótesis para diferencias entre medias y
varianzas existen otras fórmulas. Se recomienda tener como apoyo algunos libros
de estadística, como Zar 1999; Cochran 1977; y Steel y Torrie 1988.