Manejar un archivo de Excel en Python (2)
La manipulacion de los archivos corresponde a todas las opciones que nos proporciona Pandas para usar el archivo, como abrir, eliminar, modificar filas columnas, modificar datos del archivo, entre otros.
En este ejemplo voy a abrir un archivo de Excel extraído de una dirección web, renombrando unas columnas y manipulando los datos para poder agregar una nueva columna que contenga un valor total:
import numpy as np
import pandas as pd
#lee el archivo xls
df_can = pd.read_excel(
'https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',
#ignora las primeras 20 filas que corresponden al enunciado
skiprows =range(20),
sheet_name="Canada by Citizenship",
skipfooter=2
)
Hasta aqui es solo el código de apertura del archivo, especificando que columnas voy a ignorar.
A continuación el código correspondiente para el renombrado de columnas, el borrado de columnas, y una adición de una columna con un valor Total que es la suma de los valores alojados en celdas correspondiente a un número de personas una vez que ya hemos filtrado los datos por nombre del país.
df_can = df_can.rename(columns={"OdName": "Country", "AreaName": "Continent", "RegName": "Region"})
df_can = df_can.set_index('Country')
df_can = df_can.drop(columns=["Type", "Coverage", "AREA", "REG", "DEV"])
df_can['Total'] = df_can.iloc[:, 3:].sum(axis=1)
df_can.columns = df_can.columns.astype(str)
print(df_can.head())
No hay comentarios:
Publicar un comentario