Estadística

Autor: David Glejberman

Conceptos y herramientas de administración

06/2006

Descargar Original

1.1. INTRODUCCIÓN

La estadística es una ciencia, con su propio campo de estudio, y también un instrumento (conjunto de técnicas) que utilizan ampliamente otras ciencias. La estadística como ciencia es una rama de la matemática aplicada, cuyo objeto de estudio es el comportamiento de las variables que pueden asociarse a una o más poblaciones. En tal caso, “población” es sinónimo de “universo”, un conjunto bien definido de personas o de objetos, a los que es posible asociar variables medibles o cualidades. La estadística como ciencia se basa en la teoría de las probabilidades, cuyo origen se remonta al siglo XVIII (“Teoría de los juegos de azar”). Recién a comienzos del siglo XX la estadística se estructuró como ciencia formal a partir de los axiomas de Kolmogorov.

Quizá el primer problema que debió resolver la estadística, cuando aún no estaba formalizada como ciencia, consistió en elaborar unas tablas de mortalidad (Inglaterra, siglo XVII) que permitieran calcular la prima periódica de un seguro de muerte. A los actuarios de la época no se les escapaba que la probabilidad de muerte es creciente con la edad de las personas (aunque también depende de otros factores), por lo que propusieron que el costo del seguro estuviera relacionado con la edad del asegurado. Para encontrar esta relación estadística, elaboraron las tablas de mortalidad a partir de la información que proporcionaban los registros de defunción. Aunque el concepto de probabilidad no estaba formalizado, se aproximaron a él mediante la “teoría frecuencista”: si de una cohorte de 1000 personas nacidas en un mismo año, 14 morían entre los 35 y los 36, entonces estimaban que la probabilidad de un recién nacido, de morir entre los 35 y los 36, podía aproximarse por la frecuencia 0,014.

“El razonamiento estadístico usa la lógica probabilística en la que, contrariamente a la lógica formal, ninguna proposición puede ser comprobada o rechazada con certeza, sólo con un nivel de significación dado. Mientras la lógica formal es el paradigma metodológico de la matemática y la física clásica, la lógica probabilística lo es de las ciencias factuales, donde la realidad cambia estocásticamente. La incertidumbre respecto al pasado es falta de información, mientras que la incertidumbre respecto al futuro es algo más. La pluralidad de alternativas pasadas puede ser considerada de tipo Laplaciana (todas igualmente posibles) alrededor de la verdadera. Mientras que la pluralidad de posibles futuras alternativas es Darwiniana, lo aleatorio es intrínseco al fenómeno y cambia con el tiempo. A todo presente le corresponde un gran número de futuros posibles.

En realidad, muchos escritores literarios anticiparon con su imaginación creativa lo que los científicos luego formalizaron con nuevos desarrollos teóricos. A este respecto, Jorge Luis Borges escribió: a todo presente se abren infinitos futuros posibles, mucho antes que Illia Prigogine, Premio Nobel de física, desarrollara su famosa teoría de la bifurcación. En todo paradigma teleológico (finalista) es el futuro que, en cierta medida, determina tanto el presente como el pasado; en el paradigma causal clásico, es el pasado que determina el presente y éste a su vez el futuro; en el paradigma estadístico, el presente es compatible con múltiples futuros y el enlace entre el pasado y el futuro es mediado por el azar. No se pueden prever los acontecimientos, sólo sus probabilidades de presentación”.[1]

“El determinismo sufrió un proceso de erosión durante el siglo XIX y así quedó un espacio para dar cabida a las leyes autónomas del azar. La idea de la naturaleza humana fue desplazada por el modelo de persona normal y leyes de dispersión. Estas dos transformaciones se dieron en forma paralela y se alimentaron recíprocamente. El azar hizo que el mundo pareciera menos caprichoso: el azar estaba legitimado porque aportaba orden al caos. Cuanto mayor era el indeterminismo en nuestra concepción del mundo y del hombre, más elevado era el nivel de control que se esperaba.

Muchas clases de conducta humana, especialmente conductas perversas como el crimen y el suicidio, fueron objeto de recuento. Se manifestaban pasmosamente regulares año tras año. Leyes estadísticas de la sociedad parecían desprenderse de las tablas oficiales de desviación. Los datos sobre promedios y dispersiones engendraron la idea de persona normal y condujeron a nuevas clases de manejo social. En los primeros años del siglo XX se suponía que las leyes estadísticas podían reducirse a hechos subyacentes deterministas, pero el aparente predominio de esas leyes fue minando lenta y erráticamente el determinismo. Las leyes estadísticas llegaron a considerarse como leyes de derecho propio y su alcance se extendió a los fenómenos naturales. Nació un nuevo tipo de conocimiento objetivo, producto de nuevas tecnologías para obtener información sobre procesos naturales y sociales. Surgieron nuevos criterios sobre los que debía considerarse como prueba del conocimiento. Las leyes estadísticas que podían justificarse así se usaron no sólo para describir sino también para explicar el curso de los sucesos. El azar era domesticado en el sentido de convertirse en la materia misma de los procesos fundamentales de la naturaleza y la sociedad.”[2]

En otro orden, la estadística es una ciencia auxiliar, un instrumento para el avance de otras ciencias, desde que las técnicas estadísticas forman parte del método científico. Entre estas técnicas pueden mencionarse los métodos de resumen de datos, tanto numéricos como gráficos, la comprobación de hipótesis y las técnicas de muestreo.

“En la literatura epistemológica moderna, el conocimiento científico tiene la tarea de describir, explicar y predecir eventos. El rol de la estadística como método científico está fuertemente condicionado por el paradigma dominante de las ciencias. En la física clásica, el elemento estocástico es visto como una consecuencia de la limitación de la mente humana mientras que en la biología evolucionista de Darwin y la genética de Mendel, el azar es intrínseco al fenómeno, cambia con el tiempo y la necesidad.”[3]

“Los humanos siempre hemos querido controlar el futuro o, al menos, predecir lo que va a ocurrir. Por esto la astrología es tan popular. Según ella, lo que pasa en la Tierra está relacionado con los movimientos de los planetas en el firmamento. Esto es una hipótesis que puede ser sometida a prueba científicamente, o lo sería si los astrólogos se comprometieran y formularan predicciones definidas que pudieran ser comprobadas. Sin embargo, con considerable astucia, expresan siempre sus predicciones en términos tan vagos que pueden ser aplicados a cualquier cosa que ocurra. Nunca se puede demostrar que predicciones como sus relaciones personales pueden intensificarse o se le presentará una oportunidad financieramente interesante son erróneas. Pero el motivo real por el que la mayoría de los científicos no cree en la astrología no es la presencia o la ausencia de evidencias científicas acerca de ella, sino que no resulta consistente con otras teorías que han sido comprobabas experimentalmente.”[4]

El método científico es un proceso que permite incrementar el conocimiento, generar conocimiento nuevo. Si se sigue la lógica del método científico, entonces el producto obtenido se denomina “conocimiento científico”. Si los nuevos conocimientos pueden organizarse en un cuerpo coherente, que permite explicar hechos ya ocurridos y predecir hechos que habrán de ocurrir, entonces el método científico (la investigación científica) conduce a la formación de nuevas teorías, y también a modificar las teorías existentes o a destruirlas[5].

La teoría es un conjunto de proposiciones lógicamente articuladas que tiene por fin la explicación y predicción de resultados en un área determinada de fenómenos. En el caso particular de las ciencias sociales el área de fenómenos es el de las conductas de los individuos o de los grupos humanos[6].

En el esquema de Wallace (1971) el proceso del conocimiento científico involucra cuatro componentes:

- teoría
- hipótesis
- observación o recogida de datos
- contraste de hipótesis.

A partir de la teoría (conjunto de proposiciones lógicamente articuladas) se extraen una o varias hipótesis. Estas representan predicciones o respuestas probables a las preguntas que se formula el investigador. Las hipótesis estadísticas suelen formularse como proposiciones en las que se realizan afirmaciones respecto de una variable o respecto a las relaciones entre dos o más variables[7].

Volvamos sobre el concepto de “hipótesis estadística”. Se trata de una proposición, una afirmación sobre la distribución de una variable o sobre las relaciones entre dos o más variables. Pero no se trata de afirmaciones cualesquiera. Las mismas deben ser el reflejo de la teoría que las sustenta y sólo tienen sentido si pueden someterse a prueba (al revés de lo que ocurre con las afirmaciones de los astrólogos mencionadas más arriba por Stephen Hawking).

Es a través de la experiencia, de la observación sistemática, de la recolección de datos que se procederá a verificar las afirmaciones contenidas en las hipótesis.

¿Qué datos deben recogerse? ¿Cómo se deben registrar? ¿Cómo se habrán de resumir? Para responder a estas preguntas se requiere del auxilio de la estadística, más precisamente de lo que se conoce con el nombre de “estadística descriptiva”.

Los resultados obtenidos de la recolección de datos ¿son compatibles con las hipótesis de la investigación? La evidencia empírica ¿confirma las hipótesis? Para responder a estas preguntas es necesario apelar nuevamente a la estadística, esta vez a la denominada “estadística de inferencia”.

El contraste de hipótesis[8] conduce a aceptar provisionalmente las hipótesis o a rechazarlas. En el primer caso se dirá que la evidencia empírica no contradice la teoría, y ésta permanecerá firme en tanto no aparezca nueva evidencia en contra. En el segundo caso, la teoría dejará de formar parte del conocimiento científico y será necesario elaborar nuevas teorías. Las hipótesis descartadas por la evidencia empírica seguirán siendo útiles para la ciencia en tanto marcan el camino por donde no se deberá volver a transitar.

1.2. CONCEPTOS BÁSICOS

En Estadística se utiliza la expresión “población” como sinónimo de “universo”, que es el conjunto de entidades respecto de las cuales se desea resumir información o hacer inferencia. En el origen, los primeros universos investigados eran poblaciones humanas, de ahí que ambas expresiones se tomen como sinónimos. Si las circunstancias lo permiten, los recursos son suficientes, y el tipo de información requerida lo aconseja, para investigar el universo podrá realizarse un censo, es decir, una investigación en la que todas las entidades de la población son consultadas y aportan sus datos. Pero en muchos casos el censo no parece ser el procedimiento de recolección más adecuado para investigar el universo.

Una investigación se puede denominar “estadística” cuando las hipótesis son del tipo definido más arriba: afirmaciones relativas a la distribución de una o más variables aleatorias. En estas investigaciones pueden identificarse, entre otros, los siguientes componentes:

• un universo: un conjunto de entidades (personas, seres vivos, objetos inanimados) respecto de los cuales se desea conocer alguna o algunas de sus características
• variables: características medibles que poseen todas las unidades del universo
• objeto de la investigación: no consiste en identificar las entidades del universo con ciertas características, sino que se trata de resumir información acerca de la distribución de dichas características en la población
• procedimiento de recolección: es posible conocer, mediante un procedimiento adecuado, el valor de la o las variables de algunas o de todas las entidades del universo
• restricciones: en cuanto a los recursos disponibles (humanos, técnicos, financieros) y en cuanto a la oportunidad en que deben darse a conocer los resultados de la investigación, lo que obliga a elegir, entre varias estrategias alternativas, la que resulte más eficiente.

Los procedimientos de recolección más comunes son:

- Censo
- Muestreo
- Explotación estadística de registro administrativo
- Experimentación.

En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información existente.

El registro administrativo es un directorio de unidades (personas, viviendas, empresas) creado exclusivamente para fines administrativos: de registro, de recaudación, de fiscalización o de contralor. Si se cumplen ciertos requisitos, estos registros pueden servir a los fines estadísticos.

Las ventajas del registro administrativo como procedimiento de recolección son:

- Es el procedimiento más económico.
- No requiere de ninguna organización especial de campo para capturar los datos. Los gastos se limitan a los aspectos de procesamiento de la información.
- Si el registro es completo, entonces se trabaja con todos los datos de la población. Es el caso del número de vehículos de un país, número de personas que poseen teléfono en su domicilio, etc.

Las desventajas del registro administrativo son:

- La información se obtiene como un subproducto de la gestión administrativa, y en muchos casos, las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos para fines estadísticos.
- Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las informaciones que se utilicen con fines estadísticos.

A pesar de los inconvenientes indicados, se debe tratar de utilizar al máximo este procedimiento de recolección, que es de una riqueza inmensa en todos los campos de la actividad socio-económica de un país. Para evitar las desventajas señaladas, debe tratarse que la fuente administrativa se adecue, en lo posible, a los fines estadísticos. Esto se logra, cuando las autoridades administrativas adquieren conciencia de la importancia del uso de estadísticas en sus propias actividades. Otra forma para mejorar este procedimiento de recolección, es lograr que las autoridades de las oficinas administrativas participen en la planificación de las estadísticas que proporcionarán y además, reciban compensaciones por su colaboración, ya sea con información procesada de acuerdo a sus necesidades, formularios para registrar la información original, etc. En esta forma, su interés en la obtención de la información que se utilice con fines estadísticos, será un aspecto esencial de su gestión y no solamente un subproducto.

El censo es una investigación estadística en la que se intenta obtener información de la totalidad de las unidades que componen el universo. Por ser una investigación estadística, la información se obtiene tal como se necesita para fines estadísticos. Esta característica constituye la principal diferencia que tiene este procedimiento de recolección respecto del registro administrativo.

Las ventajas del censo son:

- La información obtenida puede desagregarse y publicarse por unidades administrativas u otro criterio de clasificación, cualquiera sea su tamaño. Esto se debe a que dentro de la recolección se han considerado todas las unidades de información, por lo cual se pueden tabular con cualquier grado de detalle, por muy poca frecuencia que puedan llegar a tener las categorías de clasificación.

- Constituye un punto de referencia para la preparación de las estadísticas continuas. Esto es, a partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente mediante agregados o disminuciones de las variaciones establecidas, utilizando registros administrativos o mediante muestras.

- Los antecedentes obtenidos son una valiosa ayuda para el diseño de muestras. Permite la preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la selección de la muestra.

- Es el único tipo de investigación utilizable para obtener información sobre fenómenos que se producen con poca frecuencia.

- La credibilidad en las estadísticas que se obtienen mediante el censo es mayor que la de cualquier otro procedimiento de recolección.

Las desventajas del censo son:

- Es necesaria una compleja organización que abarque todo el universo por investigar, evitando omisiones y duplicaciones. Esta situación es particularmente válida en el caso de encuestas que cubren todo el territorio nacional, en las que la organización de los trabajos de campo se complica por el tamaño del universo y su dispersión.

- Exige el empleo de mayor cantidad de recursos de personal, materiales y financieros.

- La información que se obtiene puede ser menos precisa que la que se lograría mediante una muestra. Esto ocurre porque los errores y omisiones producidos en la recolección y algunas veces en el procesamiento de la información de un censo, pueden superar a los que se acumulen en la muestra incluyendo el error de muestreo (error que se produce debido a que la información de toda la población es una estimación que utiliza como base los datos de una parte representativa de esa población). Esta mayor precisión que se puede lograr con la muestra, se debe a que los errores ajenos al muestreo se pueden reducir, pues el menor número de empadronadores permite seleccionar los más calificados.

El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de interés con base en la información que se obtiene de una parte de las unidades que componen dicho universo. Al igual que en el censo, mediante este procedimiento de recolección la información se obtiene tal como se necesita para fines estadísticos. Su uso ha ido en rápido aumento, a medida que las instituciones productoras de información disponen de personal capacitado para efectuar su organización, diseño y análisis, debido a su bajo costo e incluso, como ya se ha señalado, a que se reducen los errores ajenos al muestreo respecto del procedimiento censal.

Las limitaciones al uso del muestreo se refieren a que la precisión de los resultados puede no ser adecuada para pequeñas subpoblaciones o para fenómenos que se producen con poca frecuencia.

La experimentación es un método de investigación estadística que se utiliza con el propósito de determinar la existencia de relaciones causales (relaciones causa-efecto) entre variables. Se trata de conocer el efecto que produce un cierto tratamiento en un grupo de individuos (más horas de clase a los alumnos, menos horas de trabajo por semana) en una cierta variable (rendimiento escolar, productividad en el trabajo). Para ello se trabaja frecuentemente con dos (o más) grupos. A uno o más de los grupos se aplica el tratamiento (grupos experimentales) y otro u otros no reciben tratamiento (grupos de control). Supuesto que los grupos son equivalentes al inicio (sin diferencias en cuanto a las variables a investigar), cualquier diferencia observada al final del experimento debe ser consecuencia del tratamiento. Existen diferentes diseños posibles para la experimentación. Las diferencias entre los diseños se basan en:

- el grado de control que se imponen a las variables objeto de estudio (si no hay control sobre ciertas variables, entonces no puede asegurarse que el efecto tenga por causa el tratamiento)
- la forma en que interviene (o no) la aleatoriedad en la conformación de los grupos: ¿Los individuos que intervienen en los grupos se eligen aleatoriamente de la población? ¿Los individuos se asignan aleatoriamente a los grupos? ¿Se decide aleatoriamente cuáles son los grupos experimentales y cuáles los de control?

La mayor ventaja de la experimentación como procedimiento de recolección de datos consiste en que el procedimiento ha sido diseñado cuidadosamente para obtener información relevante para lo que se está estudiando y si el experimento ha sido controlado (validez interna) y se han utilizado mecanismos aleatorios en la conformación de los grupos, con tamaños de muestra los suficientemente grandes, los resultados de la muestra pueden generalizarse al universo con alta confiabilidad (validez externa).

Desventajas del procedimiento:

- se requiere mucha información previa y una rigurosa planificación para la conformación de los grupos

- en muchos experimentos no es posible asignar aleatoriamente los individuos a los grupos de tratamiento y de control, porque las circunstancias con y sin tratamiento no las define el investigador sino que ya vienen dadas ( niños con y sin desnutrición) o porque los grupos vienen definidos con anterioridad (grupos escolares en las pruebas de rendimiento)

- en educación, cuando el experimento incluye una prueba de conocimientos previa al tratamiento, los mejores resultados en la segunda prueba pueden deberse al tratamiento pero también al incremento de la habilidad para realizar pruebas

- cuando el tratamiento tiene cierta duración en el tiempo, existe el riesgo que algunos individuos abandonen el experimento (mortalidad, mudanza, pérdida de interés en participar) y esto afecte la razonable equivalencia entre los grupos de tratamiento y de control

- el saberse dentro del grupo con tratamiento puede generar ciertas actitudes (a favor, en contra) que afecten los resultados del experimento con independencia de la variable de tratamiento (“efecto Hawthorne”).

El siguiente esquema permite reconocer a los elementos componentes de un problema de inferencia estadística.

En la inferencia inductiva uno de los problemas a resolver consiste en encontrar la distribución (F) de una variable aleatoria X (o la distribución de un vector de variables aleatorias), la cual puede depender de uno o más parámetros[9] desconocidos (q), y se ha descartado el censo como procedimiento de recolección, optándose por el muestreo. Seleccionada la técnica de muestreo apropiada, se elige una muestra y se recogen los datos pertinentes. Una vez que se dispone de los datos, se procede a resumirlos mediante técnicas gráficas y numéricas (estadística descriptiva). El último paso consiste en generalizar los datos de la muestra al universo de referencia. La inferencia inductiva va de lo particular a lo general, de la muestra al universo, para hacer afirmaciones sobre la F o sobre q. Si la técnica de muestreo elegida es probabilística, entonces es posible completar el proceso de inferencia calculando una medida del error muestral. Por ejemplo, puede afirmarse con una probabilidad alta (digamos, del 95%), que la tasa de desempleo en una ciudad es el 12% con un error muestral del 1%. Y ello se interpreta de la siguiente manera: el parámetro poblacional “proporción de desocupados en la ciudad” se desconoce, pero se puede aproximar con los resultados de una muestra, dicha aproximación (“estimación puntual”) es el 12%, pero con una probabilidad alta puede afirmarse que dicho parámetro se encuentra entre el 11% y el 13%.

¿Cuándo puede afirmarse que los datos provenientes de una investigación estadística son de calidad aceptable? Hemos visto que los distintos procedimientos de recolección tienen limitaciones vinculadas con la calidad de los datos: incompletitud y desactualización en el caso del registro administrativo, diversos errores ajenos al muestreo y falta de oportunidad en el caso del censo, error muestral en el caso del muestreo. Para reducir estos inconvenientes es necesario actuar directamente sobre los factores causantes. Por ejemplo, en el caso de los censos, mediante una adecuada instrucción del personal de campo y del personal de codificación y procesamiento. En el caso de la muestra, mediante una estricta supervisión del trabajo de campo, para asegurarse que la muestra efectiva se corresponda con la muestra seleccionada mediante procedimiento probabilístico. Entonces, para asegurar calidad en los datos de una investigación estadística, es necesario asignar los recursos de manera de minimizar todas las posibles fuentes de error. Planificación, capacitación, supervisión y rigor científico son los elementos claves para asegurar datos de calidad.

2. RESUMEN DE DATOS

2.1. TIPOS DE VARIABLES

Sea U el universo a investigar, formado por las unidades

Las ui pueden ser individuos o períodos de tiempo. Algunas veces podemos observar a todas las unidades del universo (censo, registro completo) y otras veces sólo es posible observar una parte del universo denominada muestra. La expresión “observar una unidad” supone que podemos conocer el valor que asumen en dicha unidad una o más características susceptibles de ser evaluadas en cada unidad del universo.

Una variable estadística[10] es una característica que podemos medir en todas las unidades del universo.

Una variable es de corte transversal cuando los resultados de la medición están referidos a un mismo momento o período de tiempo. Tal es el caso de las calificaciones que obtienen los alumnos de un curso, las cotizaciones de las monedas extranjeras al cierre de operaciones de un día determinado, los ingresos de los hogares en un mes o las ventas de las empresas de la Industria Manufacturera en el año 2002.

Una variable es de corte longitudinal o también una serie temporal, cuando los datos corresponden a diferentes momentos o períodos de tiempo, a intervalos regulares. Son ejemplos de series cronológicas: la matrícula anual de Enseñanza Primaria, la tasa de desempleo trimestral, el Producto Bruto Interno anual, la cotización diaria del dólar interbancario comprador (asúmase que cuando no hay cotización se toma la del último día hábil anterior), el número de camas ocupadas diariamente en un hospital.

A continuación se describe la forma de resumir la información de los dos tipos de variables estadísticas recién definidos.

Variables de corte transversal

Las técnicas de resumen que se presentan en esta parte son aplicables tanto a los datos provenientes de un censo, de un registro o de una encuesta por muestreo. Las referencias frecuentes a las muestras se justifican por cuanto en la gran mayoría de las investigaciones se trabaja con datos muestrales.

Una variable estadística es una característica que podemos medir o evaluar en todas las unidades del universo. Los resultados de la medición se clasifican en clases y estas clases determinan una partición del universo (una partición matemática inducida por la variable estadística). Que las clases determinan una partición significa que cada unidad de la muestra se clasifica en una clase y una sola, y que toda unidad es susceptible de ser clasificada en una clase.

Ejemplo 1: El universo es el conjunto de azafatas de una línea aérea. La variable es el color de ojos y las clases son:

- ojos de color marrón
- ojos de color celeste
- ojos de color verde
- ojos de color gris
- ojos de color negro
- ojos de otro color

Cada individuo del universo pertenece a una sola clase y la unión de todas las clases coincide con el universo (partición matemática).

Ejemplo 2: El universo es el conjunto de alumnos matriculados en un estable-cimiento escolar. La variable es el número de padres biológicos con los que convive el alumno. Las clases son solo tres: 0,1 y 2.

Estas clases podrían verse como una forma de resumir diversas situaciones posibles (lo que podría llevar a una partición más fina, con más clases). Por ejemplo, si el alumno pertenece a la clase “1” puede ser que:

- el alumno convive con madre viuda
- el alumno convive con padre viudo
- el alumno convive con madre soltera y padre ausente
- el alumno convive con uno de los padres biológicos, porque estos están separados
- otras situaciones

Si a los efectos de la investigación es necesario distinguir estas situaciones, entonces la variable “número de padres biológicos con los que convive el alumno” no es adecuada y debería definirse una nueva variable que contemplara un mayor número de clases, por ejemplo “padres con los que convive” (y las clases podrían definirse a partir de la convivencia con padres biológicos, padrastros o padres adoptivos).

Ejemplo3: El universo es el conjunto de alumnos que están cursando, en mayo de 2003, en un establecimiento de enseñanza primaria. La variable es el número de años aprobados en la educación formal. Las clases son: 0, 1, 2, 3, 4 y 5. Los alumnos que están cursando primer año tienen aprobados 0 años, los que cursan 2º grado tienen uno aprobado, etc. Obsérvese que la relación no es directa en el caso de alumnos que están cursando el nivel medio superior, el instituto normal o de profesores. Podría ocurrir que un estudiante del primer año del IPA tuviera más de 12 años de educación formal si, por ejemplo, ha aprobado previamente cursos en alguna universidad.

Ejemplo 4: El universo es el conjunto de hogares particulares de Maldonado. La variable a investigar es el ingreso mensual corriente del hogar. Como se trata de una variable que puede tomar “muchos” valores, algunos poco relevantes, el investigador tiene aquí la posibilidad de definir las clases con cierta libertad. Las siguientes son dos opciones posibles.

Si las clases se definen por cualidades o atributos, entonces las variables se denominan cualitativas; si las clases están definidas por números o intervalos numéricos, entonces se denominan cuantitativas.

Cuando cada clase está representada por un número, entonces la variable se dice cuantitativa discreta, y cuando cada clase se identifica con un intervalo de números, entonces la variable se dice cuantitativa continua.

Ejemplos:

Las variables estadísticas suelen denominarse con las últimas letras de nuestro alfabeto, usando mayúsculas: T, X, Y, Z.

Si definimos “X = número de hermanos del alumno”, y el tercer alumno del universo (o de la muestra) tiene cuatro hermanos, anotaremos X(u3) = 4, o simplemente, X3 = 4.

Frecuencias de clase

Con el objeto de resumir la información de una muestra respecto de una variable, los individuos que pertenecen a una misma clase se consideran idénticos. Y la primera forma de resumir los datos de una muestra consiste en agruparlos por clase y contar cuántos individuos pertenecen a cada clase. En el ejemplo de la variable “color de ojos”, para una muestra de n = 100 azafatas se obtuvo:

Entonces, la frecuencia absoluta de la clase “Marrón” es 78 y se anota n(M) = 78. La frecuencia de la clase “Celeste” es n(C) = 8. La frecuencia absoluta es una función que a cada clase le hace corresponder el número de casos (el número de repeticiones) en la muestra.

La tabla que relaciona las clases con sus frecuencias absolutas se denomina distribución de frecuencias absolutas.

Nota: Es probable que en esta página web no aparezcan todos los elementos del presente documento. Para tenerlo completo y en su formato original recomendamos descargarlo desde el menú en la parte superior

David Glejberman

Licenciatura en gestión de empresas. Instituto Metodista Universitario Crandon intercomp20arrobayahoo.com

Comentarios
comments powered by Disqus

Nuevas publicaciones

⇐ Hazte Fan en Facebook
⇐ Síguenos en Twitter
⇐ Agréganos en Google +
⇐ Suscríbete vía Email
"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las manzanas, entonces tanto tú como yo seguiremos teniendo una manzana. Pero si tú tienes una idea y yo tengo una idea e intercambiamos ideas, entonces ambos tendremos dos ideas"
George Bernard Shaw
Comparte conocimiento
Contenidos publicados con licencia CC BY-NC-SA 3.0 a excepción de los casos en los que se indican derechos de autor específicos. Sugerimos contactar a los autores al usar material públicamente.