twoday | Optimer din dataanalyse med Azure Databricks lige her

Hvad er Azure Databricks?

Databricks, som er udviklet af grundlæggerne af Apache Spark, er en end-to-end (fra udvikling til produktion) webbaseret analyseplatform, der gør det nemt at kombinere Big Data, Data Science og Apache Spark.

I 2017 indgik Microsoft og Databricks under navnet Azure Databricks et samarbejde, der har gjort det muligt at have en fuldt integreret Databricks-platform i sit Azure-miljø.

Dette samarbejde mellem Azure som Cloud-udbyder og Databricks som Apache Spark platform gør det muligt at lade den enorme regnekraft fra Databricks indgå i et fuldt integreret cloud-miljø, hvor de mange services snakker samme sprog – nu også med Databricks frameworket.

Funktioner i Azure Databricks

Databricks er grundlæggende skabt med henblik på, at det skal være nemt at arbejde med. Løsningen indeholder derfor en hel del brugervenlige funktioner:

Direkte visualiseringer i Notebook’en

Et internt dashboard forbundet til din Notebook

Integration med Github og Bitbucket

Direkte schedulering af den enkelte Notebook

Egen Notebook, der fungerer som Databricks’ egen IDE (Interactive Development Environment)

Mulighed for at skifte frit mellem sprogene R, Python, SQL og Scala – selv i samme Notebook

Azure Databricks og Apache Spark

En af de store styrker ved samarbejdet mellem Azure og Databricks er, at man har en Apache Spark-platform, der er fuldt integreret med alle de kendte komponenter fra Azure – såsom Azure Data Factory og Azure Blob Storage – hvilket giver mulighed for sammenhængende pipelines i hvert projekt.

Et relateret vigtigt aspekt er muligheden for at rollefordele forskellige profiler, hvilket gør det nemmere og mere sikkert for forskellige profiler som Data Engineers og Data Scientists at arbejde sammen på de enkelte projekter i miljøet.

Databricks har også mulighed for Auto-Scaling af dine ressourcer. Med dette menes, at du kan have et cluster, der automatisk tilpasser sig til, hvad du har brug for på det givne tidspunkt. Generelt er hele cluster-aspektet håndteret, hvilket gør det nemt at komme i gang med Cluster Computing selv for nybegyndere. Når man når et mere avanceret niveau i arbejdet med spark, er der også muligheder for at overvåge sine programmer direkte fra Databricks til optimering af disse.

Eksempler på brug af Databricks

Udover den generelle fordel ved at have et nemt overblik over sine pipelines og cluster computing-fordelen. når man behandler meget store datamængder, kan vi her se på to eksempler, hvor det specielt giver mening:

Opgaver, der inkluderer brug af Machine Learning eller Deep Learning

Udover at have en nem og overskuelig integration til alle de store Machine Learning-biblioteker samt nødvendigheder, der kommer før og efter Machine Learning-udvikling, så har Databricks den fordel, at de meget store udregninger eller datamængder, der er ofte hører med Machine Learning og Deep Learning nemt kan blive orkestreret på din automatisk startede cluster.

Opgaver, der inkluderer brug af real time streaming data så som IoT-data fra maskiner

Her kan man nemlig udnytte Databricks Apache Spark-fundamentet, mere specifikt udvidelsen til Apache Sparks core API: Spark Streaming, som er er sat op til at arbejde med ofte brugte datakilder så som Kafka, HDFS og Twitter. Spark Streaming er desuden fuldt integreret i løsningen og meget nemt at opsætte og bruge.

Giver Azure Databricks mening for dig?

Rigtig mange forskellige profiler kan få gavn af Databricks, men overordnet giver det mening, hvis du:

Har mange forskellige profiler, der arbejder sammen
Har brug for at kunne håndtere forespørgsler i meget varierende mængder
Arbejder med meget store datamængder og/eller meget tunge udregninger
Gerne vil have alt samlet ét sted med et brugervenligt design og set-up
Ønsker direkte schedulering af den enkelte Notebook
Vil have mulighed for at skifte frit mellem sprogene R, Python, SQL og Scala – selv i samme Notebook

Open source distributed cluster computing framework

Med open source menes software, hvor kildekoden er frit tilgængelig til brug og bidrag. I dette tilfælde drejer det sig om Scala, som Apache Spark er bygget på.

Med distributed cluster computing menes, at de programmer, man eksekverer, bliver behandlet (distribueret) på en gruppe af computere (et cluster).

Man kan sige, at man bryder et større problem ned i mindre problemer, og lader hver enkelt node (computer) i sit cluster samtidigt håndtere en mindre bid af opgaven. Derfor når man meget hurtigere frem til resultatet.

Denne fordeling (mapping) af opgaverne til de ledige noder samt sammenlægning af de individuelle resultater (reducing) sker automatisk og giver i de fleste tilfælde meget store fordele tidsmæssigt, når man arbejder med meget store datamængder.

Læs om andre dataplatforms-teknologier

Microsoft Fabric

Microsoft Fabric er en alt-i-en analytics-løsning til virksomheder, der dækker alt fra dataflytning til data science, realtidsanalyse og Business Intelligence.

Læs mere her

Mirosoft Azure Services

Azure har et evigt voksende portfolio af cloudtjenester, der kan hjælpe dig med at klare dine forretningsmæssige udfordringer.

Læs mere her

Azure Synapse Analytics

Azure Synapse Analytics er en analysetjeneste, som kombinerer store Data Warehouses med Big Data Analytics, og produktet er en evolution af Azure SQL Data Warehouse.

Læs mere her

Vil du i gang? Det vil vi også

Gør som en lang række af landets mest ambitiøse virksomheder:
Udfyld formularen eller tag fat i Carl-Emil – så kan vi tage en god snak om jeres udfordringer og drømme.

Carl-Emil Poulsen

Commercial Director
carl-emil.poulsen@twoday.com
26 30 90 38

Azure Databricks: End-to-end webbaseret analyseplatform

Azure Databricks gør det nemt at analysere selv meget store datamængder ved hjælp af den enorme regnekraft, der findes i cloud-miljøet.