I denne opplæringen vil jeg gi en grunnleggende introduksjon til pandaer. Åh, jeg mener ikke dyrpandaen, men et Python-bibliotek!
Som nevnt på pandas nettside:
pandas er et åpen kildekode, BSD-lisensiert bibliotek som gir høy ytelse, brukervennlige datastrukturer og dataanalyseverktøy for Python programmeringsspråk.
Og dermed, pandaer
er et dataanalysebibliotek som har datastrukturene vi trenger for å rense rådata i en form som er egnet for analyse (dvs. tabeller). Det er viktig å merke seg det siden pandaer
utfører viktige oppgaver som å justere data for sammenligning og sammenslåing av datasett, håndtering av manglende data, etc., det har blitt et de facto-bibliotek for høyverdig databehandling i Python (dvs. statistikk). Vi vil, pandaer
var opprinnelig utformet for å håndtere økonomiske data, forutsatt at det vanlige alternativet bruker et regneark (dvs. Microsoft Excel).
Den grunnleggende datastrukturen for pandaer
er kalt Dataramme
, som er en bestilt samling av kolonner med navn og typer, og ser dermed ut som en databasetabell hvor en enkelt rad representerer et enkelt tilfelle (eksempel) og kolonner representerer bestemte attributter. Det skal noteres her at elementene i forskjellige kolonner kan være av forskjellige typer.
Så, bunnlinjen er at pandaer
biblioteket gir oss de datastrukturer og funksjoner som er nødvendige for dataanalyse.
La oss nå se hvordan vi kan installere pandaer
på våre maskiner og bruk den til dataanalyse. Den enkleste måten å installere pandaer
og unngå noen avhengighetsproblemer er ved å bruke Anaconda som pandaer
kommer en del av. Som nevnt på Anaconda nedlastingsside:
Anaconda er en helt fri Python-distribusjon (inkludert for kommersiell bruk og omfordeling). Den inneholder mer enn 400 av de mest populære Python-pakker for vitenskap, matte, ingeniørfag og dataanalyse
Anaconda-distribusjonen er kryssplattform, noe som betyr at den kan installeres på OS X-, Windows- og Linux-maskiner. Jeg skal bruke OS X installasjonsprogrammet siden jeg jobber med en Mac OS X El Capitan-maskin, men selvfølgelig kan du velge riktig installasjonsprogram for operativsystemet. Jeg skal gå med den grafiske installatøren (vær forsiktig, den er 339 MB).
Anaconda Mac OS X grafisk installatørEtter at du har lastet ned installasjonsprogrammet, går du bare gjennom de enkle installasjonsveiviserstrinnene, og du er alle satt!
Alt vi trenger å gjøre nå for å kunne bruke pandaer
er å importere pakken som følger:
importer pandas som pd
Jeg har nevnt en av de tre pandaer
Datastrukturer over, Dataramme
. Jeg vil beskrive denne datastrukturen i denne delen i tillegg til den andre pandaer
data struktur, Serie
. Det kalles en annen datastruktur Panel
, men jeg vil ikke beskrive den i denne opplæringen, da den ikke er så ofte brukt, som nevnt i dokumentasjonen. Dataramme
er en 2D datastruktur, Serie
er en 1D datastruktur, og Panel
er en 3D og høyere datastruktur.
De Dataramme
er en tabellformat datastruktur som består av bestilte kolonner og rader. For å gjøre ting klarere, la oss se på eksempelet på å opprette en Dataramme
(tabell) fra en ordliste av lister. Følgende eksempel viser en ordliste som består av to nøkler, Navn og Alder, og deres tilhørende liste over verdier.
import pandas som pd import numpy som np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Alder': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame
Hvis du kjører det ovennevnte skriptet, bør du få en utgang som ligner på følgende:
Legg merke til at Dataramme
Konstruktøren bestiller kolonnene alfabetisk. Hvis du vil endre rekkefølgen på kolonnene, kan du skrive inn følgende under Dataramme
ovenfor:
data_frame_2 = pd.DataFrame (name_age, kolonner = ['Navn', 'Alder'])
For å se resultatet, skriv bare: skriv ut data_frame_2
.
Si at du ikke vil bruke standardetikettene 0,1,2, ..., og ønsket å bruke a, b, c, ... i stedet. I så fall kan du bruke index
i det ovennevnte skriptet som følger:
data_frame_2 = pd.DataFrame (name_age, kolonner = ['Navn', 'Alder'], indeks = ['a', 'b', 'c', 'd', 'e'))
Det var veldig fint, ikke sant? Ved hjelp av Dataramme
, Vi var i stand til å se våre data organisert i en tabellform.
Serie
er den andre pandaer
Datastruktur Jeg skal snakke om. EN Serie
er et endimensjonalt (1D) objekt som ligner en kolonne i tabellen. Hvis vi vil lage en Serie
for en liste over navn kan vi gjøre følgende:
serier = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], indeks = [1, 2, 3, 4, 5])
Utgangen av dette skriptet ville være som følger:
Legg merke til at vi brukte index
å merke dataene. Ellers starter standardetikettene fra 0,1,2 ...
I denne delen skal jeg vise eksempler på noen funksjoner vi kan bruke med Dataramme
og Serie
.
Funksjonene hode()
og hale()
gjør det mulig for oss å se et utvalg av våre data, spesielt når vi har et stort antall oppføringer. Standard antall elementer som vises, er 5, men du kan returnere det tilpassede nummeret du liker.
La oss si at vi har en Serie
bestående av 20.000 tilfeldige gjenstander (tall):
importer pandas som pd import numpy som np series = pd.Series (np.random.randn (20000))
Bruker hode()
og hale()
metoder for å observere henholdsvis de første og fem siste, kan vi gjøre følgende:
skriv ut series.head () print series.tail ()
Utgangen av dette skriptet bør være noe som ligner på følgende (merk at du kan ha forskjellige verdier siden vi genererer tilfeldige verdier):
La oss ta et eksempel på Legg til()
funksjon, hvor vi vil forsøke å legge til to datarammer som følger:
importer pandas som pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 skriv ut data_frame_2 skrive data_frame_3
Utgangen av det ovennevnte skriptet er:
Du kan også utføre denne tilleggsprosessen ved ganske enkelt å bruke +
operatør: data_frame_3 = data_frame_1 + data_frame_2
.
En veldig fin pandaer
funksjonen er beskrive()
, som genererer ulike oppsummeringsstatistikker for våre data. For eksemplet i det siste avsnittet, la oss gjøre følgende:
skriv ut data_frame_3.describe ()
Utgangen av denne operasjonen vil være:
Dette var bare en skrape av overflaten på Python pandaer
. For flere detaljer, kan du sjekke pandaer
dokumentasjon, og du kan også sjekke noen bøker som Learning Pandas og Mastering Pandas.
Forskere trenger noen ganger å utføre noen statistiske operasjoner og vise noen pene grafer som krever at de bruker et programmeringsspråk. Men samtidig vil de ikke bruke for mye tid eller bli utsatt for en seriøs læringskurve når de utfører slike oppgaver.
Som vi så i denne opplæringen, pandaer
gjorde det mulig for oss å representere data i tabellform og utføre noen operasjoner på disse tabellene på en veldig enkel måte. kombinere pandaer
Med andre Python-biblioteker kan forskere til og med gjøre mer avanserte oppgaver som tegning spesialiserte grafer for deres data.
Og dermed, pandaer
er et veldig nyttig bibliotek og utgangspunkt for forskere, økonomer, statistikere, og alle som er villige til å utføre noen dataanalyseoppgaver.