Datos

Analizamos la relación de las rentas entre padres e hijos

Este proyecto se centra en varios conjuntos de datos sobre la relación entre las rentas de padres e hijos en comparación a las rentas medias nacionales de ambos.

Los archivos de datos están disponibles para descargar en la sección «Descarga de datos»

Círculo blanco Círculo oscuro

Los resultados de este proyecto son el producto del análisis de una base de datos individualizada que no es pública. El proceso para generar la base de datos consta de tres pasos:

1) Se identifican los hijos en las declaraciones de 2003. Son 2,7 millones de niños nacidos entre 1980 y 1990 y que aparecen como descendientes en el modelo 100 de la declaración de renta de sus padres. Con esa información se identifican a sus padres (5,4 millones).

Luego limitamos nuestro análisis a hijos nacidos entre 1984 y 1990. Así mejora la cobertura: tenían entre 13 y 19 años en 2003 y es más probable que vivieran todavía con sus padres. Tenemos 1,6 millones de niños de un total de 3 millones censados.

2) Se recuperan las declaraciones de renta de los padres en el año 1998. Se localizan 5,1 millones de padres de los 2,7 millones de hijos. De cada hogar se anota, además de sus rentas brutas, la ubicación y el código postal. Para los hogares de los padres únicamente tenemos acceso a las rentas del hogar, no a las de sus miembros por separado.

3) Se buscan las rentas brutas actuales de los 2,7 millones de hijos (y sus hogares). Para eso se emplean los datos de 2016. En el caso de los hijos, tenemos acceso a las rentas brutas y netas de cada individuo por separado y del hogar. Siguiendo la metodología de Chetty et al. (2014), utilizamos las rentas brutas para el análisis, mostrando los resultados a nivel de individuo y hogar. De este resultado resulta una base de datos individualizada y anonimizada que relaciona la renta de padres e hijos. Incluye además la información necesaria sobre localización, sexo y diferentes rentas.

El proceso para obtener los datos resumen que se ofrecen arriba se detalla a continuación.

  1. Lectura y limpieza de datos de hogares de 1998 y 2016. En este paso se elimina los hogares sin información geográfica y se añaden datos auxiliares a la base (p.ej. el nombre del municipio para cada código postal).

    - Hogares de 1998: Leemos los datos que incluyen 2,011,825 hogares. Además de los identificadores y los datos de renta, también disponemos de datos geográficos (código postal, código municipal, y Delegación de Hacienda, entre otros) y datos de la declaración (por ejemplo, si es individual o conjunta). Después eliminamos los hogares sin geografía identificada (por ejemplo, los códigos postales 00000), y añadimos el nombre del municipio utilizando una base de datos geográfica de códigos postales. Después comprobamos los códigos postales que faltan y añadimos los datos municipales utilizando datos de códigos postales del mismo municipio.

    - Hogares de 2016: A continuación pasamos a limpiar los 2,712,065 hogares de 2016. Leemos los datos, que incluyen identificadores de hogar, rentas individuales y de hogar, estado civil, y sexo, además de información geográfica y sobre la declaración de renta (por ejemplo, el modelo utilizado). Al igual que con los hogares de 1998, añadimos la información municipal utilizando una base de datos de códigos postales, y eliminamos las observaciones sin geografía identificada (por ejemplo, los códigos postales 00000).
  2. Unir datos de padres e hijos. Unimos los datos de 1998 y 2016 a partir del identificador de hogar. Después filtramos los hijos entre 1984 y 1990, para quedarnos con los que tenían entre 13 y 19 años en 2003. En este punto se calculan los centiles de renta, siguiendo la metodología de Chetty et al. (2018). Para cada hijo calculamos su percentil de renta en 2016, relativa al resto de hijos de esa edad. Así controlamos por los efectos ciclo de vida. Y hacemos lo mismo con los padres.

    Las rentas se expresan con centiles: un hijo está en el centil 100 si está entre el 1% de los jóvenes de su edad con mayores rentas en toda España, y en el centil 1 si está entre el 1% con menos ingresos. Para los padres es igual: un hogar pertenece al centil 100 si está entre el 1% de los hogares más ricos con un hijo de esa edad. ¿Por qué centiles? Para comparar rentas sin que importe la edad. Tenemos datos de niños nacidos entre 1984 y 1990, con renta en 1998 (con 8-14 años) y en 2016 (con 26-32 años). Puede haber sesgos por composición si los niños de algunos barrios son más jóvenes o más mayores. Además Chetty et al. (2014) muestra que medir la renta usando centiles produce estimaciones más robustas, porque reduce la influencia de datos anómalos y mitiga el sesgo por ciclo de vida. El centil de renta de un individuo se estabiliza antes en su vida que su nivel de renta.
  3. Crear datasets a nivel nacional, por CA, provincia y grandes ciudades. Leemos la base de datos de todos los hogares, y creamos tablas que muestran el percentil promedio del hijo (tanto la media como la mediana) para cada percentil de renta de padres, así como el tamaño de la muestra. Hacemos esto para dos categorías: sexo (total, hombres y mujeres) y tipo de ingresos (individual y hogar). Creamos estas tablas para cuatro niveles distintos: nacional, comunidad autónoma, provincia, y grandes ciudades. Definimos grandes ciudades como cualquier municipio de la base de datos que tenga más de 5000 hijos nacidos entre 1984 y 1990. Finalmente, guardamos las tablas que serán publicadas.
  4. Crear los datasets con estimaciones por municipio y código postal. Seguimos la metodología de Chetty et al (2018). Para ello, primero calculamos el percentil de renta de cada hijo dentro de su grupo de edad, al igual que en el punto anterior. Después calculamos el percentil de los padres dentro de cada grupo de edad de hijos. El objetivo es calcular, para cada percentil de padres, el porcentual promedio de los hijos (usando tanto la media como la mediana). Así construiremos una curva con los percentiles de padres en el eje X y los de hijos en el eje Y.
    Pero hay una dificultad añadida. No podemos estimar el centil promedio de los hijos para cada una de las unidades geográficas que queremos, porque no tenemos muestra suficiente para muchas de ellas. Para solucionar esto usaremos una estimación basada en un modelo paramétrico sencillo. La idea es usar datos a nivel nacional para conocer la forma de la relación entre los percentiles de padres e hijos (la curva X-Y mencionada) y luego usar en cada municipio y código postal los datos de sus hijos para ajustar una curva de la misma forma pero adaptada los datos conocidos de ese lugar. Para obtener el modelo, calculamos los centiles promedio a nivel nacional y después usamos una regresión loess (“locally estimated scatterplot smoothing”) para capturar la función paramétrica para cada una de las categorías que nos interesan (total, hombres, mujeres, ingreso individual, ingreso de hogar). Por último ajustamos la función paramétrica a nivel local para así generar estimaciones de cada percentil a nivel de municipio y de código postal. En la práctica, esto significa asumir que la forma de la curva en todas las unidades geográficas es reproducible con una transformación afín de la forma funcional nacional.

    Auxiliar. Distribución de renta por quintiles. Tomando la base de datos del punto 2 producimos los datasets con la distribución por quintiles de renta (20, 40, 60, 80, 100) de los hijos de hogares con rentas en cada quintil. Es un cruce sencillo: para cada quintil de padres calculamos el porcentaje de hijos según su quintil de renta. Estos cruces se hacen a nivel nacional, por comunidad, provincia y municipio.

    Los datos de municipio y códigos postales se ofrecen solo cuando tiene una muestra de al menos 500 hijos en nuestra base de datos. Además, no se informa de los cruces con muestra inferior a 50 hijos. También se ofrecen los cruces por quintiles para hijos de diferentes edades (nacidos entre 1984 y 1990). Estos datos solo se ofrecen a nivel nacional y para grandes municipios (localidades con datos de al menos 500 hijos).

    Auxiliar. Crear el conversor de centiles a euros. También creamos una serie de tablas adicionales para convertir los datos de centiles de renta a euros. Generamos tres tablas en total: una para los percentiles de padres, otra para los percentiles de hijos –divididos por edad– y una a nivel autonómico. La tabla de los hijos se muestran por edad porque los percentiles de renta toman el año de nacimiento como referencia, para evitar efectos de edad (por ejemplo, los hijos nacidos en 1984 tienden a ganar más que los nacidos en 1990 porque son seis años más mayores). Para los datos mostrados en el mapa tomamos a menudo el año 1985 como referencia.

Este trabajo tiene varias limitaciones.

País Vasco y Navarra: Nuestra muestra solo incluye las comunidades cubiertas por el régimen general, por lo que no tenemos acceso a los datos de las haciendas vasca o navarra.

Ceuta y Melilla: También hemos eliminado del análisis las observaciones de Ceuta y Melilla por limitaciones de muestra en los datos.

Mudanzas: En nuestro análisis no tenemos en cuenta las mudanzas. Tomamos la dirección y la renta de hogares en 1998, para niños que entonces tienen entre 8 y 14 años. Pero no tenemos forma de saber cuánto tiempo llevaban viviendo allí o si se mudan después.

Geografía: Hay algunas familias de las que no tenemos código postal. En concreto, tenemos unas 6200 familias con código postal 00000, o un 0,3% del total.

Cobertura y sesgo de selección: Tenemos 2,7 millones de hijos, aunque según el INE en 2003 había 5,2 millones de personas de esas edades.

Nos faltan seguramente rentas muy bajas: No tenemos información de los hijos de padres que no hicieron declaración de la renta en 1998. Probablemente serán más pobres que nuestra muestra.

Nos faltan hijos mayores: Nuestra cobertura es del 60% para niños de 13 o 14 años (en 2003) y del 65% para los de 15 a 18. Pero luego empeora y es de apenas el 32% para los hijos de 23 años, que seguramente abandonan el hogar. Por eso limitamos el análisis a los nacidos entre 194 y 1990 (que tienen entre 13 y 19 en 2003). También observamos cierto sesgo por sexo. El porcentaje de chicas debería ser 48.7% y es 48.4%. Pero sobre todo hay sesgo por edad y renta: faltan chicas jóvenes (3%) y chicos mayores (3%), especialmente en las familias más pobres.

Es un trabajo de exploración y descripción: El objetivo del proyecto es recopilar los datos y mostrarlos. Reflejarán diferencias que pueden tener causas muy diversas. Pero estudiar esas causas —los factores que hacen que algunos lugares tengan más o menos movilidad— escapa los objetivos de este proyecto.

Descargar todos los archivos

Descripción de los conjuntos de datos:

  • Movilidad nacional. Contiene los resultados del centil promedio (incluyendo tanto la media como la mediana) de los hijos de hogares de cada centil. Se ofrece ese dato por sexo (hombres, mujeres, total) y para rentas de los hijos individuales y del hogar. También se informa de la muestra (n) de personas en ese grupo.
  • Movilidad por CCAA, provincia y grandes ciudades. Igual que el anterior, pero con resultados para cada comunidad autónoma (excluyendo Navarra y el País Vasco), provincia y en algunas ciudades.
  • Movilidad en todos los municipios (estimado). Contiene los resultados del centil promedio (media y mediana) de los hijos de hogares de cada centil, para cada municipio español. Se ofrece ese dato por sexo (hombres, mujeres, total) y para rentas de los hijos individuales y del hogar. También se informa de la muestra de hijos del municipio. En este caso el centil mediano de los hijos se ha estimado usando un modelo paramétrico, tal y como se explica abajo. Advertencia: solo se muestra información cuando la muestra es superior a 50 personas.
  • Movilidad por código postal (estimado). Igual que el anterior, pero con resultados para cada código postal (excluyendo Navarra y el País Vasco). Advertencia: solo se muestra información cuando la muestra es superior a 50 personas.
  • Distribuciones por quintiles. También se ofrecen datos agregados de otro indicador de movilidad: la distribución por quintiles de renta (20, 40, 60, 80, 100) de los hijos de hogares con rentas en cada quintil. Estos datos se ofrecen a nivel nacional, por comunidad, provincia y municipio. Advertencia: solo se ofrecen estos datos para localidades con datos de al menos 500 hijos y para cortes por renta de los padres que tengan una muestra mínima de 50 hijos.
  • Distribuciones por quintiles y edad. Los datos anteriores se ofrecen —a nivel nacional y en grandes municipios— también desagregando los datos de los hijos según su edad/ año de nacimiento. Advertencia: solo se ofrecen estos datos para localidades con datos de al menos 6.000 hijos y para cortes por edad y renta de los padres que tengan una muestra mínima de 50 hijos.
  • Auxiliar. Conversor de centiles de renta en rentas en euros. Convierte los centiles de renta de los hijos (individuales o de hogar) en la renta en euros equivalente de los hijos nacidos cada año (en el análisis usamos como referencia 1985).