Avledede data
Hva er avledede data?
Avledede data er ny informasjon som skapes ved å behandle og kombinere eksisterende rådatasett. Denne prosessen innebærer kryssreferanser mellom ulike datasett og avansert statistisk analyse, noe som gir innsikt som ikke umiddelbart er åpenbar ut fra de opprinnelige dataene. Avledede data er ikke bare et sammendrag eller en omformatering av eksisterende data; de gir helt ny innsikt. Ved å kombinere demografisk informasjon med kjøpspreferanser kan bedrifter for eksempel utlede nye data om kjøpsatferd etter alder, kjønn og utdanningsnivå. Avledede data kan komme fra observasjonsdata, eksperimentelle data eller simuleringsdata, men ikke fra tidligere avledede data. Selv om de er verdifulle, medfører de også utfordringer knyttet til nøyaktighet, personvern og eierskap.
Hvorfor er avledede data verdifulle?
Hvis du eier en bedrift, er svaret viktig. De eksisterende dataene dine inneholder nyttig informasjon, men du får ytterligere innsikt når du kombinerer dem med annen informasjon for å skape avledede data. Så hvordan skaper du avledede data, og hvordan kan du bruke dem i virksomheten din?
Nøkkelpunkter om avledede data
-
Avledede data er nye data som skapes ved å kombinere og behandle eksisterende rådata
-
Avledede data kan opprettes fra observasjonsdata, eksperimentelle data og simuleringsdata - men ikke fra tidligere avledede data
-
Avledede data gir ny innsikt som ikke er tilgjengelig fra eksisterende data - men kommer med sine egne problemer knyttet til nøyaktighet, personvern og eierskap
Hva er avledede data?
Statista anslår at det ble generert 79 billioner gigabyte med data i 2021 - og det er bare rådataene. Selskaper og forskere over hele verden utleder enda mer data fra denne råinformasjonen - det vi kaller avledede data.
Avledede data beregnes eller ekstrapoleres fra andre eksisterende data. De er vanligvis et resultat av kryssreferanser eller andre former for sammenstilling av ulike datasett, og avanserte statistiske analyser av det kombinerte materialet. På grunn av dette er informasjonen som avdekkes i avledede data, ikke umiddelbart åpenbar når man observerer de opprinnelige dataene. Den eksisterer ikke før den er skapt.
Bildekilde: Optimizely
Som et enkelt eksempel på avledede data kan vi ta for oss to ulike sett med dataanalyser. Det første datasettet inneholder grunnleggende demografisk informasjon om et sett med kunder. Det andre datasettet inneholder kjøpspreferanser om de samme kundene. Ved å kombinere og kryssreferere de to datasettene kan man få ny innsikt i kjøpspreferanser etter alder, kjønn og utdanningsnivå. Denne mer detaljerte informasjonen er avledede data som ikke er synlige i noen av de opprinnelige datasettene.
Data kan utledes ved hjelp av flere ulike algoritmer, blant annet
-
Trekke ut data
-
Omstrukturering av data
-
Utvidelse av data
-
Utlede ny innsikt
-
Generering av modeller
Kopiering, omformatering eller ompakking av data skaper ikke avledede data, og det er heller ikke bare en oppsummering av eksisterende data. Avledede data inneholder ny informasjon som ikke finnes i originaldataene.
Hva er de ulike datatypene?
Forskere deler data inn i fire grunnleggende typer: observasjonsdata, eksperimentelle data, simuleringsdata og avledede data. De tre første datatypene omtales noen ganger som direkte data, til forskjell fra avledede data.
-
Observasjonsdata
Observasjonsdata fanges opp ved å observere en aktivitet eller spørre en person om en aktivitet. For eksempel er telling av kundetrafikk observasjonsdata. -
Eksperimentelle data
Eksperimentelle data samles inn når en forsker aktivt griper inn i en gitt aktivitet og måler de resulterende endringene. En studie der noen forsøkspersoner får et eksperimentelt legemiddel og andre får placebo, er for eksempel eksperimentelle data. -
Simuleringsdata
Simuleringsdata genereres ved å etterligne en virkelig prosess ved hjelp av testmodeller. For eksempel er simuleringsdata simuleringsdata når man kjører en datasimulering av stressnivået på et nytt produkt. -
Avledede data
Som du har lært, skapes avledede data ved å transformere eksisterende datapunkter for å skape ny innsikt. For eksempel regnes det å kombinere befolkningsdata med geografiske data for å skape data om befolkningstetthet som avledede data.
Avledede data kan hentes fra hvilken som helst av de tre andre datatypene - men de bør ikke være avledet fra andre avledede data. Når forskere lager avledede data, følger de en rekke beste praksiser som beskriver inngangsdataene, hvordan disse dataene behandles og nøyaktigheten til de avledede resultatene.
Hvilke problemer er forbundet med avledede data?
Selv om avledede data er nyttige, har de også sine unike problemer som følge av hvordan de skapes.
Problemer med nøyaktighet
Avledede data ekstrapoleres fra eksisterende data og er dermed ikke like nøyaktige som rådataene. Spørringer på avledede data kan generere mindre nøyaktige resultater enn spørringer på originaldataene. Nøyaktigheten kan bli et problem hvis avledede data senere behandles sammen med andre avledede data for å skape et nytt datanivå. Scenarioet kan sammenlignes med utfordringen ved å lage en kopi av en kopi av et fotografi, som sjelden beholder originalens integritet. (Av denne grunn er det klokt å lagre originaldataene i stedet for eller i tillegg til de avledede dataene).
Problemer med personvern
Siden avledede data ofte hentes fra analysen av eksisterende data som er levert med eksplisitt tillatelse fra enkeltpersoner, er disse personene vanligvis ikke klar over den nye informasjonen som avdekkes i de avledede dataene. Spørsmålet er om tillatelsen som er gitt til å bruke basisinformasjonen, innebærer tillatelse til å bruke data som er avledet fra, men som ikke eksplisitt inngår i originaldataene.
Eierskapsspørsmål
Parallelt med personvern- og bruksspørsmål er spørsmålet om hvem som eier de avledede dataene. Originaldataene kommer vanligvis fra en identifisert kilde, men når disse dataene kombineres og omformes, oppstår det helt nye datasett. Har eierne av de opprinnelige dataene eierskapskrav på de avledede dataene, eller eies de avledede dataene i sin helhet av enheten som behandlet de opprinnelige dataene? Loven er ikke entydig på dette punktet.
Hvordan kan du bruke avledede data i virksomheten din?
Avledede data gir viktig innsikt som ikke umiddelbart kommer til syne i de opprinnelige dataene. I stedet for å være begrenset til de statiske observasjonene i direkte data, beveger avledede data seg utover rådataene for å skape nye forbindelser og ekstrapolere nye bruksområder.
Bruk av avledede data gir virksomheten din et klart konkurransefortrinn i forhold til andre selskaper som bruker mer tradisjonelle datamodeller. Bruken av avledede data kan hjelpe virksomheten din med å
-
Få en bedre forståelse av kundenes ønsker, behov og kjøpsmønstre
-
Identifisere de mest verdifulle kundene dine
-
Skape personaliserte opplevelser og produkter for de mest verdifulle kundene dine
-
yte bedre kundeservice
-
Forbedre effektiviteten og redusere kostnadene ved å målrette innsatsen bedre
Kort sagt, når du ønsker å gå utover rådataene du samler inn, kan du bruke tilgjengelige analyseteknikker til å syntetisere nye, avledede data. Disse avledede dataene gir bedriften avansert innsikt om kundene, markedet og virksomheten som ikke er tilgjengelig fra de opprinnelige dataene.
La Optimizely hjelpe deg med å høste fordelene av avledede data
Optimizelys Digital Experience Platform syntetiserer eksisterende data for å skape avledede data som kan bidra til å drive virksomheten din. Dette skaper handlingsrettet innsikt som du kan bruke til å definere målgruppen din bedre, tilby personaliserte kundeopplevelser og finjustere e-handelsaktivitetene dine. Samarbeid med Optimizely for å få mest mulig ut av alle dine verdifulle data.