Vi presenterer Pandas

I denne opplæringen vil jeg gi en grunnleggende introduksjon til pandaer. Åh, jeg mener ikke dyrpandaen, men et Python-bibliotek!

Som nevnt på pandas nettside:

pandas er et åpen kildekode, BSD-lisensiert bibliotek som gir høy ytelse, brukervennlige datastrukturer og dataanalyseverktøy for Python programmeringsspråk.

Og dermed, pandaer er et dataanalysebibliotek som har datastrukturene vi trenger for å rense rådata i en form som er egnet for analyse (dvs. tabeller). Det er viktig å merke seg det siden pandaer utfører viktige oppgaver som å justere data for sammenligning og sammenslåing av datasett, håndtering av manglende data, etc., det har blitt et de facto-bibliotek for høyverdig databehandling i Python (dvs. statistikk). Vi vil, pandaer var opprinnelig utformet for å håndtere økonomiske data, forutsatt at det vanlige alternativet bruker et regneark (dvs. Microsoft Excel).

Den grunnleggende datastrukturen for pandaer er kalt Dataramme, som er en bestilt samling av kolonner med navn og typer, og ser dermed ut som en databasetabell hvor en enkelt rad representerer et enkelt tilfelle (eksempel) og kolonner representerer bestemte attributter. Det skal noteres her at elementene i forskjellige kolonner kan være av forskjellige typer.

Så, bunnlinjen er at pandaer biblioteket gir oss de datastrukturer og funksjoner som er nødvendige for dataanalyse.

Installere Pandas

La oss nå se hvordan vi kan installere pandaer på våre maskiner og bruk den til dataanalyse. Den enkleste måten å installere pandaer og unngå noen avhengighetsproblemer er ved å bruke Anaconda som pandaer kommer en del av. Som nevnt på Anaconda nedlastingsside:

Anaconda er en helt fri Python-distribusjon (inkludert for kommersiell bruk og omfordeling). Den inneholder mer enn 400 av de mest populære Python-pakker for vitenskap, matte, ingeniørfag og dataanalyse

Anaconda-distribusjonen er kryssplattform, noe som betyr at den kan installeres på OS X-, Windows- og Linux-maskiner. Jeg skal bruke OS X installasjonsprogrammet siden jeg jobber med en Mac OS X El Capitan-maskin, men selvfølgelig kan du velge riktig installasjonsprogram for operativsystemet. Jeg skal gå med den grafiske installatøren (vær forsiktig, den er 339 MB).

Anaconda Mac OS X grafisk installatør

Etter at du har lastet ned installasjonsprogrammet, går du bare gjennom de enkle installasjonsveiviserstrinnene, og du er alle satt!

Alt vi trenger å gjøre nå for å kunne bruke pandaer er å importere pakken som følger:

importer pandas som pd

Pandas datastrukturer

Jeg har nevnt en av de tre pandaer Datastrukturer over, Dataramme. Jeg vil beskrive denne datastrukturen i denne delen i tillegg til den andre pandaer data struktur, Serie. Det kalles en annen datastruktur Panel, men jeg vil ikke beskrive den i denne opplæringen, da den ikke er så ofte brukt, som nevnt i dokumentasjonen. Dataramme er en 2D datastruktur, Serie er en 1D datastruktur, og Panel er en 3D og høyere datastruktur.

Dataramme

De Dataramme er en tabellformat datastruktur som består av bestilte kolonner og rader. For å gjøre ting klarere, la oss se på eksempelet på å opprette en Dataramme (tabell) fra en ordliste av lister. Følgende eksempel viser en ordliste som består av to nøkler, Navn og Alder, og deres tilhørende liste over verdier.

import pandas som pd import numpy som np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Alder': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame

Hvis du kjører det ovennevnte skriptet, bør du få en utgang som ligner på følgende:

Legg merke til at Dataramme Konstruktøren bestiller kolonnene alfabetisk. Hvis du vil endre rekkefølgen på kolonnene, kan du skrive inn følgende under Dataramme ovenfor:

data_frame_2 = pd.DataFrame (name_age, kolonner = ['Navn', 'Alder'])

For å se resultatet, skriv bare: skriv ut data_frame_2.

Si at du ikke vil bruke standardetikettene 0,1,2, ..., og ønsket å bruke a, b, c, ... i stedet. I så fall kan du bruke index i det ovennevnte skriptet som følger:

data_frame_2 = pd.DataFrame (name_age, kolonner = ['Navn', 'Alder'], indeks = ['a', 'b', 'c', 'd', 'e'))

Det var veldig fint, ikke sant? Ved hjelp av Dataramme, Vi var i stand til å se våre data organisert i en tabellform.

Serie

Serie er den andre pandaer Datastruktur Jeg skal snakke om. EN Serie er et endimensjonalt (1D) objekt som ligner en kolonne i tabellen. Hvis vi vil lage en Serie for en liste over navn kan vi gjøre følgende:

serier = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], indeks = [1, 2, 3, 4, 5])

Utgangen av dette skriptet ville være som følger:

Legg merke til at vi brukte index å merke dataene. Ellers starter standardetikettene fra 0,1,2 ...

Pandas Funksjoner

I denne delen skal jeg vise eksempler på noen funksjoner vi kan bruke med Dataramme og Serie.

Hodet og halen

Funksjonene hode() og hale() gjør det mulig for oss å se et utvalg av våre data, spesielt når vi har et stort antall oppføringer. Standard antall elementer som vises, er 5, men du kan returnere det tilpassede nummeret du liker.

La oss si at vi har en Serie bestående av 20.000 tilfeldige gjenstander (tall):

importer pandas som pd import numpy som np series = pd.Series (np.random.randn (20000))

Bruker hode() og hale() metoder for å observere henholdsvis de første og fem siste, kan vi gjøre følgende:

skriv ut series.head () print series.tail ()

Utgangen av dette skriptet bør være noe som ligner på følgende (merk at du kan ha forskjellige verdier siden vi genererer tilfeldige verdier):

Legg til

La oss ta et eksempel på Legg til() funksjon, hvor vi vil forsøke å legge til to datarammer som følger:

importer pandas som pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 skriv ut data_frame_2 skrive data_frame_3

Utgangen av det ovennevnte skriptet er:

Du kan også utføre denne tilleggsprosessen ved ganske enkelt å bruke + operatør: data_frame_3 = data_frame_1 + data_frame_2.

Beskrive

En veldig fin pandaer funksjonen er beskrive(), som genererer ulike oppsummeringsstatistikker for våre data. For eksemplet i det siste avsnittet, la oss gjøre følgende:

skriv ut data_frame_3.describe ()

Utgangen av denne operasjonen vil være:

Ytterligere ressurser

Dette var bare en skrape av overflaten på Python pandaer. For flere detaljer, kan du sjekke pandaer dokumentasjon, og du kan også sjekke noen bøker som Learning Pandas og Mastering Pandas.

Konklusjon

Forskere trenger noen ganger å utføre noen statistiske operasjoner og vise noen pene grafer som krever at de bruker et programmeringsspråk. Men samtidig vil de ikke bruke for mye tid eller bli utsatt for en seriøs læringskurve når de utfører slike oppgaver.

Som vi så i denne opplæringen, pandaer gjorde det mulig for oss å representere data i tabellform og utføre noen operasjoner på disse tabellene på en veldig enkel måte. kombinere pandaer Med andre Python-biblioteker kan forskere til og med gjøre mer avanserte oppgaver som tegning spesialiserte grafer for deres data.

Og dermed, pandaer er et veldig nyttig bibliotek og utgangspunkt for forskere, økonomer, statistikere, og alle som er villige til å utføre noen dataanalyseoppgaver.

Kode