Valores de remapso na coluna pandas com um ditado

Question

Mais

Fonte Versão sem AMP Editar

Valores de remapso na coluna pandas com um ditado

Tenho um dicionário que se parece com este: `di = {1: "A", 2: "B"}``

Gostaria de o aplicar ao "col1" coluna de um dataframe semelhante ao &quot:

     col1   col2
0       w      a
1       1      2
2       2    NaN

para obter:

     col1   col2
0       w      a
1       A      2
2       B    NaN

Como posso fazer isto da melhor forma? Por alguma razão, o googling de termos relacionados com isto apenas me mostra links sobre como fazer colunas de pictos e vice-versa :-/

TheChymera

Pergunta editada :em

Programação

python dictionary pandas remap

27º novembro 2013 в 6:56

Ainda sem vistas

JohnE

Fonte Versão sem AMP Editar

`mapa` pode ser muito mais rápido do que `substituir`

Se o seu dicionário tiver mais do que um par de chaves, utilizar "mapa" pode ser muito mais rápido do que "substituir". Existem duas versões desta abordagem, dependendo se o seu dicionário mapeia exaustivamente todos os valores possíveis (e também se pretende que os valores não correspondentes sejam mantidos ou convertidos para NaNs):

Mapeamento Exaustivo

Neste caso, o formulário é muito simples:

df['col1'].map(di)       # note: if the dictionary does not exhaustively map all
                         # entries then non-matched entries are changed to NaNs

Embora o "mapa" tome mais frequentemente uma função como argumento, pode alternativamente tomar um dicionário ou uma série de dicionários: Documentação para Pandas.series.map

Mapeamento não-Exaustivo

Se tiver um mapeamento não exaustivo e desejar reter as variáveis existentes para não correspondências, pode adicionar fillna:

df['col1'].map(di).fillna(df['col1'])

como em @jpp's resposta aqui: https://stackoverflow.com/questions/49259580/replace-values-in-a-pandas-series-via-dictionary-efficiently

Benchmarks

Utilizando os seguintes dados com pandas versão 0.23.1:

di = {1: "A", 2: "B", 3: "C", 4: "D", 5: "E", 6: "F", 7: "G", 8: "H" }
df = pd.DataFrame({ 'col1': np.random.choice( range(1,9), 100000 ) })

e testes com "%timeit", parece que "mapa" é aproximadamente 10x mais rápido do que "substituir".

Note que a sua velocidade com "mapa" variará com os seus dados. A maior velocidade parece ser com grandes dicionários e substitutos exaustivos. Ver resposta @jpp (ligada acima) para referências e discussão mais extensiva.

JohnE

Resposta editada :em

177

0

Comentários (6)

unutbu

Fonte Versão sem AMP Editar

Há um pouco de ambiguidade na sua pergunta. Há pelo menos três duas interpretações:

As teclas em `di' referem-se a valores de índice
As chaves em di' referem-se adf['col1']`valores
As chaves em `di' referem-se a localizações índice (não a pergunta do OP's, mas atiradas para dentro por diversão).

Abaixo está uma solução para cada caso.

Caso 1: Se as chaves de di se destinarem a referir-se a valores de índice, então poderá utilizar o método update:

df['col1'].update(pd.Series(di))

Por exemplo,

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {0: "A", 2: "B"}

# The value at the 0-index is mapped to 'A', the value at the 2-index is mapped to 'B'
df['col1'].update(pd.Series(di))
print(df)

rendimentos

  col1 col2
1    w    a
2    B   30
0    A  NaN

I'modifiquei os valores do seu post original para que fique mais claro o que a actualização está a fazer. Note como as chaves em di estão associadas aos valores do índice. A ordem dos valores do índice -- ou seja, o índice localizações -- não importa.

Caso 2: Se as chaves em di' se referirem adf['col1']valores, então @DanAllan e @DSM mostram como conseguir isto comreplace`:

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
print(df)
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {10: "A", 20: "B"}

# The values 10 and 20 are replaced by 'A' and 'B'
df['col1'].replace(di, inplace=True)
print(df)

rendimentos

  col1 col2
1    w    a
2    A   30
0    B  NaN

Note como, neste caso, as chaves em di foram alteradas para corresponder a valores em `df['col1']``.

Caso 3: Se as teclas em di se referirem a locais de índice, então poderá utilizar

df['col1'].put(di.keys(), di.values())

desde

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
di = {0: "A", 2: "B"}

# The values at the 0 and 2 index locations are replaced by 'A' and 'B'
df['col1'].put(di.keys(), di.values())
print(df)

rendimentos

  col1 col2
1    A    a
2   10   30
0    B  NaN

Aqui, a primeira e terceira filas foram alteradas, porque as chaves em di são 0 e 2, que com Python's 0 baseado na indexação se referem à primeira e terceira localizações.

unutbu

Resposta editada :em

56

0

Comentários (4)

DSM · Accepted Answer · 2013-11-27T19:06:53+00:00

Solução

DSM

Fonte Versão sem AMP Editar

Pode utilizar .substituir. Por exemplo:

>>> df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
>>> di = {1: "A", 2: "B"}
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>> df.replace({"col1": di})
  col1 col2
0    w    a
1    A    2
2    B  NaN

ou directamente na Série, ou seja, df["col1"].replace(di, inplace=True).

Winand

Resposta editada :em

275

0

Comentários (6)

Valores de remapso na coluna pandas com um ditado

mapa pode ser muito mais rápido do que substituir

Mapeamento Exaustivo

Mapeamento não-Exaustivo

Benchmarks

`mapa` pode ser muito mais rápido do que `substituir`