logo

Отримайте унікальні значення зі стовпця в Pandas DataFrame

Функція unique() видаляє всі повторювані значення в стовпці та повертає одне значення для кількох однакових значень. У цій статті ми обговоримо, як ми можемо отримати унікальні значення зі стовпця в Pandas DataFrame .

Створення фрейму даних Pandas із повторюваними елементами

Створіть зразок фрейму даних Pandas зі словником списків, скажімо, імен стовпців A, B, C, D і E з повторюваними елементами.



Python3








# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data>=> {> >'A'>: [>'A1'>,>'A2'>,>'A3'>,>'A4'>,>'A5'>],> >'B'>: [>'B1'>,>'B2'>,>'B3'>,>'B4'>,>'B4'>],> >'C'>: [>'C1'>,>'C2'>,>'C3'>,>'C3'>,>'C3'>],> >'D'>: [>'D1'>,>'D2'>,>'D2'>,>'D2'>,>'D2'>],> >'E'>: [>'E1'>,>'E1'>,>'E1'>,>'E1'>,>'E1'>]}> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)>

>

>

Отримайте унікальні значення зі стовпця в Pandas DataFrame

Нижче наведено кілька прикладів, за допомогою яких ми можемо отримати унікальні значення стовпця в цьому кадрі даних.

  • Отримайте унікальні значення стовпця «B».
  • Отримайте унікальні значення стовпця «E».
  • Отримайте кількість унікальних значень у стовпці
  • Використання set() для видалення повторюваних значень зі стовпця
  • Використання методів pandas.concat() і Unique().
  • Використання Series.drop_duplicates()

Отримайте унікальні значення стовпця «B».

У цьому прикладі ми отримуємо та друкуємо унікальні значення зі стовпця «B» за допомогою unique()> метод. Отримані унікальні значення є['B1', 'B2', 'B3', 'B4']>.

Python3


зловити і спробувати java



# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

>

>

Вихід

array(['B1', 'B2', 'B3', 'B4'], dtype=object)>

Отримайте унікальні значення панд у колонці «E».

У цьому прикладі ми створюємо pandas DataFrame зі словника, а потім отримуємо унікальні значення зі стовпця «E» за допомогоюunique()>метод. Отримані унікальні значення є['E1']>.

Python3

ins ключ




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

>

>

Вихід

array(['E1'], dtype=object)>

Отримайте кількість унікальних значень у стовпці

У цьому прикладі ми створюємо pandas DataFrame зі словника, а потім обчислюємо та друкуємо кількість унікальних значень у стовпці «C», за винятком значень NaN. Результат дорівнює 3, що вказує на наявність трьох унікальних значень у стовпці «C».

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna>=>True>)>

>

>

np означає

Вихід

3>

Видаліть повторювані значення зі стовпця за допомогою set()

У цьому прикладі ми створюємо pandas DataFrame зі словника, а потім використовуємо set()>функція щоб отримати унікальні значення зі стовпця «C», усуваючи дублікати. Отриманий набір,{'C1', 'C2', 'C3'}>, представляє унікальні значення в стовпці «C».

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set>=> set>(df[>'C'>])> # Print the unique values> print>(unique_values_set)>

>

>

Вихід

{'C1', 'C2', 'C3'}>

Використання методів pandas.concat() і Unique().

У цьому прикладі ми створюємо pandas DataFrame зі словника, а потім об’єднуємо унікальні значення з усіх стовпців за допомогою pd.concat()> . Отриманий масив NumPy під час друку відображає всі унікальні значення зі стовпців «A» до «E».

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns>=> pd.concat([df[col].unique()>for> col>in> df.columns])> # Print the unique values> print>(unique_values_all_columns)>

>

>

Вихід

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1']>

Використання Series.drop_duplicates()

У цьому прикладі ми створюємо pandas DataFrame зі словника та видаляємо дублікати зі стовпців «A» і «D» за допомогою drop_duplicates()>метод . Отриманий DataFrame під час друку відображає унікальні значення в стовпцях «A» і «D» зі значеннями NaN, де дублікати були видалені з «D».

Python3


пуста java



# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[>'A'>]>=> df[>'A'>].drop_duplicates()> df[>'D'>]>=> df[>'D'>].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print>(df)>

>

>

Вихід

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1>