jueves, 29 de abril de 2021

Manejar un archivo de Excel en Python (2)

 Manejar un archivo de Excel en Python (2)

La manipulacion de los archivos corresponde a todas las opciones que nos proporciona Pandas para usar el archivo, como abrir, eliminar, modificar filas columnas, modificar datos del archivo, entre otros.

En este ejemplo voy a abrir un archivo de Excel extraído de una dirección web, renombrando unas columnas y manipulando los datos para poder agregar una nueva columna que contenga un valor total:

import numpy as np 

import pandas as pd 

#lee el archivo xls

df_can = pd.read_excel(

'https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',

#ignora las primeras 20 filas que corresponden al enunciado 

skiprows =range(20),

sheet_name="Canada by Citizenship",

skipfooter=2

)

Hasta aqui es solo el código de apertura del archivo, especificando que columnas voy a ignorar.

A continuación el código correspondiente para el renombrado de columnas, el borrado de columnas, y una adición de una columna con un valor Total que es la suma de los valores alojados en celdas correspondiente a un número de personas una vez que ya hemos filtrado los datos por nombre del país.

df_can = df_can.rename(columns={"OdName": "Country", "AreaName": "Continent", "RegName": "Region"})

df_can = df_can.set_index('Country')

df_can = df_can.drop(columns=["Type", "Coverage", "AREA", "REG", "DEV"])

df_can['Total'] = df_can.iloc[:, 3:].sum(axis=1)

df_can.columns = df_can.columns.astype(str)

print(df_can.head())


Este seria el resultado que debemos obtener:



No hay comentarios:

Publicar un comentario

Buscar este blog