Каков наиболее эффективный способ создания словаря из двух столбцов pandas Dataframe?

Question

Дополнительно

Источник Неподдерживаемая версия AMP Редактировать

Каков наиболее эффективный способ создания словаря из двух столбцов pandas Dataframe?

Каков наиболее эффективный способ организации следующего pandas Dataframe:

data =

Position    Letter
1           a
2           b
3           c
4           d
5           e

в словарь типа alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

Программирование

python dictionary pandas dataframe

2-го июля 2013 в 12:58

31 просмотров

Kikohs

Источник Неподдерживаемая версия AMP Редактировать

Я нашел более быстрый способ решения проблемы, по крайней мере, на реалистично больших наборах данных, используя: df.set_index(KEY).to_dict()[VALUE].

Доказательство на 50 000 строк:

df = pd.DataFrame(np.random.randint(32, 120, 100000).reshape(50000,2),columns=list('AB'))
df['A'] = df['A'].apply(chr)

%timeit dict(zip(df.A,df.B))
%timeit pd.Series(df.A.values,index=df.B).to_dict()
%timeit df.set_index('A').to_dict()['B']

Вывод:

100 loops, best of 3: 7.04 ms per loop  # WouterOvermeire
100 loops, best of 3: 9.83 ms per loop  # Jeff
100 loops, best of 3: 4.28 ms per loop  # Kikohs (me)

Kikohs

Редактировал ответ 1-го сентября 2016 в 3:56

57

0

Комментарии (1)

alvas

Источник Неподдерживаемая версия AMP Редактировать

ТЛ;ДР

>>> import pandas as pd
>>> df = pd.DataFrame({'Position':[1,2,3,4,5], 'Letter':['a', 'b', 'c', 'd', 'e']})
>>> dict(sorted(df.values.tolist())) # Sort of sorted... 
{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
>>> from collections import OrderedDict
>>> OrderedDict(df.values.tolist())
OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)])

В Лонг

Объясняя решение: дикт(отсортированный(ДФ.значения.вызова метода toList()))

Дано:

df = pd.DataFrame({'Position':[1,2,3,4,5], 'Letter':['a', 'b', 'c', 'd', 'e']})

[выход]:

 Letter Position
0   a   1
1   b   2
2   c   3
3   d   4
4   e   5

Попробуйте:

# Get the values out to a 2-D numpy array, 
df.values

[выход]:

array([['a', 1],
       ['b', 2],
       ['c', 3],
       ['d', 4],
       ['e', 5]], dtype=object)

Затем по желанию:

# Dump it into a list so that you can sort it using `sorted()`
sorted(df.values.tolist()) # Sort by key

Или:

# Sort by value:
from operator import itemgetter
sorted(df.values.tolist(), key=itemgetter(1))

[выход]:

[['a', 1], ['b', 2], ['c', 3], ['d', 4], ['e', 5]]

И, наконец, привести список из 2 элементов в дикт.

dict(sorted(df.values.tolist()))

[выход]:

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}

Обзоры

Ответы @sbradbio комментарий:

Если есть несколько значений для конкретного ключа и вы хотите сохранить их все, это'ы не самый эффективный, но наиболее простым способом является:

from collections import defaultdict
import pandas as pd

multivalue_dict = defaultdict(list)

df = pd.DataFrame({'Position':[1,2,4,4,4], 'Letter':['a', 'b', 'd', 'e', 'f']})

for idx,row in df.iterrows():
    multivalue_dict[row['Position']].append(row['Letter'])

[выход]:

>>> print(multivalue_dict)
defaultdict(list, {1: ['a'], 2: ['b'], 4: ['d', 'e', 'f']})

alvas

Редактировал ответ 22-го октября 2018 в 12:28

3

0

Комментарии (2)

pakobill

Источник Неподдерживаемая версия AMP Редактировать

В Python 3.6 самым быстрым способом по-прежнему является способ WouterOvermeire. Предложение Kikohs' медленнее, чем два других варианта.

import timeit

setup = '''
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(32, 120, 100000).reshape(50000,2),columns=list('AB'))
df['A'] = df['A'].apply(chr)
'''

timeit.Timer('dict(zip(df.A,df.B))', setup=setup).repeat(7,500)
timeit.Timer('pd.Series(df.A.values,index=df.B).to_dict()', setup=setup).repeat(7,500)
timeit.Timer('df.set_index("A").to_dict()["B"]', setup=setup).repeat(7,500)

Результаты:

1.1214002349999777 s  # WouterOvermeire
1.1922008498571748 s  # Jeff
1.7034366211428602 s  # Kikohs

2

0

Комментарии (0)

Jeff · Accepted Answer · 2013-07-02T13:08:23+00:00

Решение

Jeff

Источник Неподдерживаемая версия AMP Редактировать

In [9]: pd.Series(df.Letter.values,index=df.Position).to_dict()
Out[9]: {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}

Сравнение скоростей (по методу Wouter'a)

In [6]: df = pd.DataFrame(randint(0,10,10000).reshape(5000,2),columns=list('AB'))

In [7]: %timeit dict(zip(df.A,df.B))
1000 loops, best of 3: 1.27 ms per loop

In [8]: %timeit pd.Series(df.A.values,index=df.B).to_dict()
1000 loops, best of 3: 987 us per loop

Joseph Dasenbrock

Редактировал ответ 9-го мая 2019 в 4:29

144

0

Комментарии (11)