SEGES Innovation skaber fremtidens landbrug med AI og MLOps
Case: SEGES Innovation
SEGES Innovation og twoday har udviklet og implementeret en AI-platform ud fra twodays Best Practice MLOps Framework.
Opsummering: Det har SEGES Innovation opnået
- En driftssikker og fuldautomatiseret AI-platform ud fra twodays Best Practice MLOps Framework, der strømliner produktionssætning og sikrer høj kvalitet
- Tid brugt på vedligehold og gentræning af machine learning-modeller er reduceret til stort set ingenting
- Omkostninger er reduceret med 80 %
- Løsningen frigør tid til, at data scientists kan fokusere på det vigtige: at skabe smarte og innovative data science-produkter, der skaber værdi for brugerne
En innovativ forsknings- og udviklingsorganisation
SEGES Innovation forsker i og udvikler løsninger til fremtidens landbrugs- og fødevaresektor. I mere end 40 år har de arbejdet på at bygge bro mellem forskning og praktisk erfaring for at forbedre landbruget og mindske landbrugets indvirkningen på miljøet.
I dag foregår en del af dette arbejde hos SEGES Innovations data science-team, der bl.a. arbejder på spændende projekter som at forudsige sygdomme hos køer, autokontering og at forudsige afgrødeudbytte ud fra satellitdata.
Ressourcetungt at vedligeholde modeller
For at træne og sætte machine learning-modeller i produktion havde SEGES Innovation en løsning, der var delvis on-premise, brugte en masse forskellige værktøjer og havde en stor manuel kodebase.
Det gjorde, at data science-teamet brugte mange ressourcer på at vedligeholde og gentræne modellerne, og at der var langt fra modeludvikling til produktion.
”Vi brugte mange timer på at vedligeholde og gentræne de eksisterende modeller. Derfor ønskede vi at bygge en AI-platform ud fra best practice MLOps principper. Ved at fokusere på automatiserede workflows har vi kunnet frigøre meget tid, som vi i stedet har brugt på at udvikle nye data science-produkter, der kan skabe værdi for brugerne,” siger Lasse Rose Malskær, Lead Data Scientist hos SEGES Innovation.
Derfor besluttede de sig for at implementere en ny AI-platform med fokus på at minimere tid på vedligeholdelse. Det ville de opnå ved at:
- Prioritere simple løsninger
- Outsource vedligehold af platformen til PaaS
- Automatiserede processer frem for manuelle processer
”Vi havde muligheden for at starte forfra og gentænke, hvordan vi kunne bygge en ny AI-platform op fra bunden, så den passede til vores behov. Her var Microsoft Azure (Machine Learning) den optimale løsning for os, og vi valgte twoday som samarbejdspartner grundet deres store erfaring med Azure,” siger Lasse Rose Malskær.
Strømlinede og ensrettede processer sparer ressourcer
I løbet af tre måneder fik twoday kapacity og SEGES Innovation rykket hele det eksisterende setup over på den nye platform. Undervejs videreudviklede twoday kapacity deres MLOps Best Practice Framework med de læringer, der blev gjort undervejs.
Arbejdet tog udgangspunkt i en konkret model, der var efterspurgt af stakeholders, fordi fokus var på at levere værdi til forretningen løbende med transformationen. Efterfølgende blev resten af platformen bygget op omkring den, og de resterende modeller flyttet til det nye miljø.
Resultatet er en væsentlig mere strømlinet platform, hvor infrastrukturen er sat op som infrastructure as code. Samtidig er det blevet markant lettere at starte et nyt data science-projekt, da alt er defineret på forhånd i en template. Det betyder, at alt fra CI/CD pipelines og kode til mappestruktur er blevet ensrettet og strømlinet.
”Det sparer vi meget tid på. Vi kan gå fra POC til produktion langt hurtigere end før, så vi hurtigere får noget ud til brugerne. Samtidig sikrer templaten, at alle projekter fra start har prædefinerede automatiske CI/CD/CT workflows, den nødvendige infrastruktur som kode og en ensartet og god kodepraksis,” siger Lasse Rose Malskær.
Med den nye løsning har SEGES Innovation fået et simplere setup, som gør det markant nemmere at søsætte nye data science-projekter:
Før:
Efter:
Hvad er MLOps?
MLOps (ML Operations) er en kernefunktion i machine learning engineering, der fokuserer på at strømline processen med at sætte machine learning-modeller i produktion og derefter vedligeholde og overvåge dem.
Men hvorfor har vi brug for det?
Som med ethvert andet softwaresystem skal machine learning-applikationer implementeres og overvåges for at være nyttige og give værdi til virksomheder.
Det kender vi fra det traditionelle DevOps, der bliver brugt til at holde styr på:
- Versionskontrol
- Test af kode
- Kontinuerlig integration og levering (CI/CD)
- Overvågning af applikation
Men machine learning-applikationer har yderligere kompleksitet, og derfor er et MLOps-framework nødvendigt:
- Udover kode skal vi også versionere og spore machine learning-artefakter, så som en ML-model, samt træningsdata
- Machine learning er mindre lineær og mere eksperimenterende
- Det er sværere at teste en ML-model på grund af den statistiske karakter af ML
- Selv uden kodeændringer skal systemerne periodisk trænes og testes med nye data
Versionering og automatiske tests sikrer god governance
I det nuværende MLOps-setup bliver alt versioneret; træning, koden, data i de forskellige skridt, modellerne. Lasse og hans team kan følge med hele vejen igennem pipeline, og skulle der opstå en fejl, kan de gå tilbage og se, hvor fejlen opstod.
Derudover har de sammen med stakeholders defineret en række tests, så gentrænede modeller automatisk bliver testet op imod de eksisterende modeller. Det muliggør, at gentræning og deployment af modeller kører helt automatisk uden indblanding fra Lasse og hans team, som blot modtager mails om, hvorvidt alt er forløbet efter planen.
”Vi bruger stort set ingen tid på at gentræne og deploye modeller, som før kunne tage op til en uge afhængig af, hvornår stakeholders havde tid. Ved at automatisere denne proces har vi ikke blot frigjort en masse tid, men gennem champion/challenger tests sikrer vi også automatisk, at det altid er de bedste modeller, der er i produktion ved brugerne.” – Lasse Rose Malskær
En besparelse på 80 %
Data science-teamet i SEGES Innovation har reduceret omkostningerne med 80 %. Det skyldes dog i høj grad også teamets arbejde med at lave bedre og mere simple modeller, der ikke er lige så ressourcekrævende som tidligere.
Lasse og resten af teamet har været begejstrede for, hvordan AI-platformen har gjort deres hverdag markant nemmere. Samarbejdet med twoday kapacity er forløbet ud fra twoday kapacitys co-build approach, hvor løsningen bygges sammen, og hvor twoday kapacitys konsulenter løbende oplærer SEGES Innovation i at bruge løsningen. Og samarbejdet har været en succes.
”Samarbejdet med twoday kapacity har været en sand fornøjelse. Det har føltes som at få nogle enormt kompetente kollegaer ind, som ikke blot har co-leveret den overordnede plan, men som samtidig har taget ansvar og knoklet på lige fod med os i teamet,” siger Lasse Rose Malskær.
Se også: Video case om SEGES Innovations brug af data
Om SEGES Innovation
SEGES Innovation P/S er en privat, uafhængig non-profit forsknings- og udviklingsorganisation.
SEGES Innovation udfører forsknings- og innovationsopgaver indenfor landbrugs- og fødevarefaglige områder som f.eks. planteproduktion, husdyrproduktion, miljø, klima og bioøkonomi/bioenergi, cirkularitet, biodiversitet, økonomi og afsætning.
Desuden udvikler, vedligeholder og supporterer organisationen mange af landmandens øvrige it-redskaber – for eksempel de programmer, landmanden bruger til at styre driften inden for kvæg, svin eller planteavl.
Der er ca. 530 medarbejdere i SEGES Innovation.