import pandas as pd
import os


# Subsetting PDL des données INSEE des fichiers du rep data_raw vers ./data
dataDir = '../data'

if 'BTX_aggregate.csv' not in os.listdir(dataDir + '/Insee/'):
    for f in os.listdir(dataDir + '/Insee/data_raw/):
        if f.endswith(".xlsx") and f.startswith("BTX"):
            outFile = './data/' + f.replace(".xlsx", "_PDL.xlsx")
            if outFile not in os.listdir('./data/'):
                print(f)
                df = pd.read_excel(dataDir + f, sheet_name='COM', skiprows=10)
                df = df[df['CODGEO'].str[:2].isin(['44','85','53','72','49'])]
                df.to_excel(outFile)
else:
    df = pd.read_csv(dataDirir + '/Insee/BTX_aggregate.csv')


#Lecture données caf
if 'CAF_aggregate_PDL.csv' not in os.listdir(dataDir + '/CAF/'):
    filepath = dataDir + '/CAF/CAF.xlsx'
    df1 = pd.read_excel(filepath, sheet_name='PPACOM2017')
    df1 = df1.iloc[:,:].add_prefix('PPA_')
    df2 = pd.read_excel(filepath, sheet_name='BASREVENUCOM2017')
    df2 = df2.iloc[:,3:].add_prefix('BAS_')
    df3 = pd.read_excel(filepath, sheet_name='ENFANTAGECOM2017')
    df3 = df3.iloc[:,3:].add_prefix('ENF_')
    df4 = pd.read_excel(filepath, sheet_name='EJCOM2017')
    df4 = df4.iloc[:,3:].add_prefix('EJC_')
    df5 = pd.read_excel(filepath, sheet_name='NIVCOMTOTAL2017')
    df5 = df5.iloc[:,3:].add_prefix('NIV_')
    df6 = pd.read_excel(filepath, sheet_name='RASCOM2017')
    df6 = df6.iloc[:,3:].add_prefix('RAS_')
    df7 = pd.read_excel(filepath, sheet_name='NIVCOMPARTPRESTA2017')
    df7 = df7.iloc[:,3:].add_prefix('PRES_')
    df8 = pd.read_excel(filepath, sheet_name='NIVCOMAAH2017')
    df8 = df8.iloc[:,3:].add_prefix('PRES_')
    

    #concatenation des colonnes et suppression des colonnes dupliquées, subset pdl
    dfc = pd.concat([df1, df2, df3, df4, df5, df6, df7, df8], axis=1)

    dfc = dfc.rename(columns={"PPA_Communes":"Communes","PPA_Numéro_département": "Numéro_département", "PPA_Codes_Insee": "Codes_Insee", "PPA_Numéro_département":"Numéro_département"})

    dfc = dfc[dfc['Numéro_département'].isin([44,85,53,72,49])]
    dfc.to_csv("./data/CAF_aggregate_PDL.csv")

dfc = pd.read_csv(dataDir + '/CAF/CAF_aggregate_PDL.csv")
print(len(dfc), " lignes de données caf")

1272  lignes de données caf


print(len(dfc), " lignes de données caf")

1272  lignes de données caf