Site Reliability Engineering (SRE)

Site Reliability Engineering (SRE) är en metod och ett arbetssätt för att göra webbplatser och applikationer mer stabila och tillförlitliga. SRE lånar principer från mjukvaruutveckling för att förbättra pålitligheten av system.

SRE

Vad är SRE – Site Reliability Engineering?

Site Reliability Engineering (SRE) är en metod och ett arbetssätt för att göra webbplatser och applikationer mer stabila och tillförlitliga. SRE lånar principer från mjukvaruutveckling för att förbättra pålitligheten av system. När vi jobbar med Site Reliability Engineering använder vi oss av automatisering samt övervakning för att upptäcka, förebygga och lösa problem. Målet med SRE är att minska störningar och tid som systemet ligger nere, samt att snabbt kunna återställa systemet när problem uppstått. Detta för att ge en så tillförlitlig produkt som möjligt.

Ett SRE-team använder programvara som verktyg för att hantera system, lösa problem och automatisera driftuppgifter. Konceptet med Site Reliability Engineering kommer från Googles teknikteam och krediteras Ben Treynor Sloss.

Site Reliability Engineering tar de uppgifter som historiskt har utförts av driftteam, ofta manuellt, och ger dem istället till ingenjörer eller driftteam som använder mjukvara och automation för att lösa problem och hantera produktionssystem.

Metoden är värdefull att tillämpa när du skapar skalbara och mycket pålitliga programvarusystem. Det hjälper till att hantera stora system genom kod, vilket är mer skalbart och hållbart för systemadministratörer (sysadmins) som hanterar tusentals eller hundratusentals maskiner.

Ytterliga fördelar med SRE är att metoden hjälper team att hitta en balans mellan att släppa nya funktioner och att säkerställa tillförlitlighet för användarna. I detta sammanhang är standardisering och automatisering två viktiga komponenter i SRE-modellen. Här söker SRE:s att förbättra och automatisera driftuppgifter. På dessa sätt hjälper SRE till att förbättra systemets tillförlitlighet idag – och när det växer över tiden.

Site Reliability Engineering stödjer teams som flyttar sin IT-verksamhet från ett traditionellt tillvägagångssätt till ett molnbaserat tillvägagångssätt.

SRE kan hjälpa en organisation att uppnå bättre stabilitet i dess IT-system, snabbare felsökning, effektiv kapacitetsplanering, förbättrad incidenthantering och att hålla en bättre balans mellan hastighet (utgivning av nya funktioner) och stabilitet. SRE-metoder passar de flesta organisationer, även om det är viktigt att utvärdera sina egna behov, teamkapacitet och affärsmål innan de beslutar att implementera SRE.

Testprodukter

Kontakta oss för konsultation eller frågor inom DevOps och utveckling

Har du frågor eller behöver hjälp med dina projekt inom DevOps och utveckling? Tveka inte att höra av dig till oss. Fyll i formuläret så återkommer vi till dig inom kort. Vi finns här för att hjälpa dig att ta nästa steg i din digitala utveckling.

DevOps vs. SRE

DevOps är ett förhållningssätt till kultur, automation och plattformsdesign avsett att leverera ökat affärsvärde och lyhördhet genom snabb, högkvalitativ serviceleverans. SRE kan betraktas som en implementering av DevOps.

Liksom DevOps handlar SRE om teamkultur och relationer. Både SRE och DevOps arbetar för att överbrygga gapet mellan utvecklings- och driftteam för att leverera tjänster snabbare.

Snabbare livscykler för applikationsutveckling, förbättrad servicekvalitet och tillförlitlighet samt minskad IT-tid per applikation som utvecklas är fördelar som kan uppnås med både DevOps- och SRE-praxis.

SRE skiljer sig dock fån DevOps eftersom det förlitar sig på Site Reliability Engineers inom utvecklingsteamet som också har en operationsbakgrund för att ta bort kommunikations- och arbetsflödesproblem.

Själva rollen som Site Reliability Engineers kombinerar kompentensen hos utvecklingsteam och driftteam genom att kräva överlappning i ansvar.

SRE kan hjälpa DevOps-teams vars utvecklare är överväldigade av operativa uppgifter och behöver någon med mer specialiserad operativ kompetens.

När man kodar och bygger nya funktioner fokuserar DevOps på att gå igenom utvecklingspipelinen effektivt, medan SER fokuserar på att balansera sitens tillförlitlighet med att skapa nya funktioner.

Här är moderna applikationsplattformar baserade på containerteknologi, Kubernetes och mikrotjänster avgörande för DevOps-praxis, vilket hjälper till att leverera säkerhet och innovativa mjukvarutjänster.

Teknik för att stödja SRE

SRE förlitar sig på att automatisera rutinmässiga driftsuppgifter och standardisering över en apps livscykel. Red Hat Ansible Automation Platform är en omfattande, integrerad plattform som hjälper SRE-team att automatisera för hastighet, samarbete och tillväxt – och erbjuder säkerhet och support över företagets tekniska, operativa och finansiella funktioner.

Specifikt erbjuder Ansible Automation Platform:

  • Infrastrukturorkestrering i molnet och på plats för insatser, routing, lastbalansering, brandväggar och mer.
  • Infrastrukturoptimering, inklusive molnresurser i rätt storlek och att lägga till eller ta bort resurser som centralprocessor (CPU) och RAM-minne efter behov.
  • Molndrift, inklusive applikationsdistributioner med kontinuerlig integration och kontinuerlig leverans (CI/CD) pipelines, korrigering av operativsystem och underhåll.
  • Affärskontinuitet, inklusive att flytta och kopiera resurser från molnet, skapa och hantera policyer för säkerhetskopiering och hantera störningar och fel.

Site Reliability Engineering förlitar sig också på en grund utformad för en molnbaserad utvecklingsstil. Linux-containers stöder en enhetlig miljö för utveckling, leverans, integration och automatisering. Och Kubernetes är det moderna sättet att automatisera Linux-containeroperationer. Kubernetes hjälper team att mer effektivt hantera kluster som kör Linux-behållare över offentliga, privata eller hybridmoln.

Som en företagsklar Kubernetes-plattform som stöder SRE-initiativ, hjälper Red Hat OpenShift team att implementera kultur- och processtransformation som moderniserar IT-infrastrukturen och positionerar organisationer för att bättre betjäna sina kunder och uppnå affärsmål.

Lemontree och SRE

Vi vet att alla IT-system har olika mål, begränsningar och förutsättningar, därför väljer vi att skräddarsy de SRE-tjänster som vi implementerar utifrån era behov.
På Lemontree erbjuder vi konsulttjänster som är inriktade på att säkerställa att era system alltid är tillgängliga. Vårt fokus ligger på bland annat på att även arbeta med att implementera automatisering, bästa praxis för att effektivisera driftprocesser samt minska risken för mänskliga fel.

Vi arbetar för att identifiera potentiella risker så att de kan hanteras i tid, vilket i sin tur minskar risken för att oväntade incidenter uppstår.

Site Reliability Engineering är en metod som tar med sig många fördelar som kan stärka din organisation, men det medför även olika utmaningar som exempelvis tid, teknisk komplexitet och förändringar. Det är här våra SRE-tjänster kommer in i bilden, på Lemontree är vi experter inom driftsäkerhet och systemhantering. Vi kan hjälpa dig och ditt företag att säkerställa att dina digitala tjänster är tillförlitliga och skalbara.

Framtiden för Site Reliability Engineering

Idag ser vi en ökad användning och behov av automatisering och infrastruktur som kod (IaC), vilket gör det möjligt att snabbt bygga och underhålla komplexa infrastrukturer inom IT. Vi ser en utveckling där SRE kommer fortsätta anpassas och förbättras för att möte de ökade kraven branschen har på tillförlitligheten och skalbarheten av dess system.

Utvecklare

Setareh Nori

Setareh har jobbat många år inom området och har en lång erfarenhet av kod, underhåll och monitorering.

Vanliga frågor & svar om Site Reliability Engineering (SRE)

Här hittar du svar på de vanligaste frågorna vi får från våra kunder. Vi har samlat information och lösningar på olika ämnen och problem som kan uppstå. Oavsett om det gäller tekniska frågor, produktinformation eller allmänna funderingar, så finns vi här för att hjälpa dig.

Hittar du inte svar på din fråga?
Vad gör en Site Reliability Engineer?2024-05-02T16:02:36+02:00

En Site Reliability Engineer (SRE) arbetar med att säkerställa att IT-system, särskilt webbplatser och applikationer, är robusta och driftsäkra. De fokuserar på automatisering av driftsuppgifter, övervakning av systemprestanda, snabb felsökning och åtgärdande av incidenter. SRE:er implementerar också lösningar för kapacitetsplanering och förbättring av systemets prestanda för att upprätthålla hög tillgänglighet och effektivitet.

Vad är SRE?2024-05-02T16:00:04+02:00

Site Reliability Engineering (SRE) är en metod för att förbättra stabiliteten och pålitligheten i webbplatser och applikationer genom automatisering och övervakning. Ursprungligen utvecklat av Google, hjälper SRE till att snabbt identifiera och åtgärda problem, vilket minskar driftavbrott och effektiviserar återställning av tjänster. Metoden transformerar traditionella manuella uppgifter till automatiserade processer, vilket underlättar hanteringen av stora system och balanserar nya funktioner med systemets tillförlitlighet.

Vad är infrastruktur som kod (IaC) inom SRE?2023-11-22T16:44:25+01:00

IaC är praxis att skapa och hantera infrastruktur och dess struktur med hjälp av kod. Detta gör det lättare att skapa och ändra både nya samt befintliga versioner av infrastrukturen. Genom att bygga upp infrastrukturen med kod främjas automatisering, vilket är en central del av SRE.

Vad menas med ”Error Budget”?2023-11-22T16:44:10+01:00

Begreppet ”Error Budget” representerar den acceptabla mängden fel eller driftstopp som en tjänst tillåts ha. Om en tjänst överskrider sin error budget kan det vara en signal att fokusera mer på stabilitet än på nya funktioner.

Vad är SLO, SLI och SLA?2023-11-22T16:43:56+01:00

SLO står för Service Level Objective. Det är ett specifikt och mätbart prestandamål som en tjänst eller ett system bör uppfylla.

SLI står för Service Level Indicator. Det är ett mått på en viss aspekt av servicenivån, exempelvis latens eller felhastighet.

SLA står för Service Level Agreement. Det är ett avtal mellan en tjänsteleverantör och en kund där servicenivåmålen (SLO) definieras.

Hur skiljer sig SRE från traditionell systemadministration?2023-11-22T16:43:41+01:00

SRE är ett mer proaktivt arbetssätt där man använder sig av automatisering för att verifiera och säkerställa tillförlitlighet och prestanda jämfört med den mer manuella metoden i traditionell systemadministration.