De cele mai multe ori, platformele noastre de întreprindere sunt concepute pentru dezvoltarea de aplicații software tradiționale. Acestea constau, de obicei, din patru medii — Dev, Test, Pre-Prod și Prod — în care mediile devin din ce în ce mai sigure pe măsură ce treceți prin ele.

Ca atare, „Dev” sau Dezvoltare este cea mai liberală dintre zone în care dezvoltatorii pot de obicei să facă ce doresc și, la cealaltă extremă, „Prod” sau Production este o zonă fără atingere și, de obicei, singurul loc în care se pot afla datele live. .

Cu toate acestea, aceste medii tind să nu fie potrivite pentru construirea și lansarea de produse de date. Prin „produse de date” ne referim la aplicații în care datele și codul sunt strâns cuplate și depind unele de altele. Modelele de învățare automată sunt un prim exemplu; unde oamenii de știință de date își încep ciclul de viață prin studierea datelor în direct și unde parametrii modelului depind de datele pe care au fost instruiți.

Datele brute (neanonimizate) sunt necesare la scară în aceste scenarii, astfel încât să poată fi identificate tendințele din lumea reală și corelațiile cu mai multe variabile, astfel încât datele să poată fi unite în mai multe sisteme surse și astfel încât testarea etică, cum ar fi detectarea părtinirii, să poată fi avea loc.

Datele sintetice sau anonimizate sunt insuficiente aici, în special în organizațiile mari cu mai multe domenii de activitate, unde diferite modele de date, stocare, infrastructură și sisteme vechi fac acest peisaj complex. A avea date anonime actualizate care mențin integritatea referențială și relațiile statistice în multe milioane de înregistrări pe mii de câmpuri peste sute de sisteme sursă disparate nu este cu adevărat fezabilă.

Încercarea de a face ca software-ul RTL să funcționeze pentru date

Odată ce organizațiile acceptă că vor trebui să lucreze cu date live, ele încearcă să impună software-ul RTL existent, forțând un șurub pătrat într-o gaură rotundă și ajung să urmărească una dintre cele două opțiuni:

  1. Împingerea datelor în medii inferioare în care are loc dezvoltarea; sau
  2. Împingeți dezvoltarea în medii mai înalte în care se află date live

Prima opțiune înseamnă introducerea de noi riscuri, deoarece datele dumneavoastră au părăsit inelul de oțel al Producției și se află acum într-un mediu mai puțin controlat, ceea ce este deosebit de periculos în cloud public. În întreprinderile bine guvernate, acest lucru va implica, de asemenea, derogări de date de la caz la caz de utilizare, ceea ce face dificilă scalarea.

A doua opțiune înseamnă introducerea de utilizatori umani și de noi instrumente în ceea ce era anterior un mediu strict controlat în care aplicațiile rulau toate sub conturi de serviciu. Este posibil să aveți, de asemenea, îngrijorări legitime cu privire la munca de dezvoltare sau o interogare necinstită care afectează acum un volum de lucru esențial pentru afaceri.

Dintre cele două opțiuni, a doua este probabil răul mai mic, atâta timp cât puteți introduce unele controale pentru a izola activitatea de construire de sarcinile de producție, folosind cozile de resurse, de exemplu.

Dar care este o soluție mai bună?

În cadrul inelului de oțel al producției, definit prin segregarea rețelei, creați trei medii complet noi, formând un nou Data Route to Live:

  1. Data Build
  2. Test de date
  3. Date Live

Data Build va permite accesul uman, sesiuni interactive în care datele live pot fi interogate la scară printr-o gamă largă de instrumente și unde pot fi construite produse de date. Acesta este mediul dvs. EDA (Exploratory Data Analytics).

Testul de date va vedea produsele de date nou construite supuse unei game de teste, inclusiv teste de performanță și de etică. Veți avea nevoie de mult mai puține instrumente pentru dezvoltatori aici, deoarece aici sunt efectuate verificările finale înainte de implementare. Dacă verificările eșuează, reveniți la Data Build pentru a efectua remedieri înainte de a reveni aici.

Data Live va vedea produsele de date rulând ca aplicații sub conturi de serviciu, iar mediul va fi lipsit de instrumente (sau chiar de acces uman), cu excepția capacităților de monitorizare. Aceste capacități de monitorizare vor fi capabile de activități legate de date, cum ar fi detectarea derivării datelor.

În aceste trei medii, datele sursă ale întreprinderii sunt același activ. Nu există duplicare sau copiere a datelor, cu excepția cazului în care operați într-un mediu deosebit de neelastic. Cu această abordare, conductele de mediu trebuie doar să promoveze codul prin medii.

Poate că este nevoie de un ultim mediu: un loc de joacă sau o zonă de experiment. Aici dezvoltatorii au libertate deplină, inclusiv acces la internet.

4.Data Playpen

Data Playpen este deconectat de restul RTL de date prin segregarea rețelei și, într-adevăr, probabil deconectat de restul întreprinderii dvs. Este un teren de probă pentru noi instrumente sau tehnici, fie independent de date, fie poate cu date sintetice. Lucrul în acest mediu va informa mai degrabă gândirea decât să fie un prim pas în construirea unui produs de date.

Cum pot coexista un RTL software și un RTL de date?

Majoritatea întreprinderilor moderne vor avea nevoie de ambele RTL, mai ales dacă doresc să exploateze analize avansate, iar vestea bună este că pot coexista relativ bine într-o singură platformă:

Există un punct de decizie în ceea ce privește „Data Live” și „Prod” fiind de fapt același mediu sau două medii separate, deoarece în acest moment al ciclului de viață un produs de date poate fi considerat ca o aplicație autonomă rulată sub un cont de serviciu. Acest lucru va trebui examinat, dar în cazul în care atașați un nou RTL de date la o platformă existentă cu un RTL software existent, probabil că va fi mai simplu să evitați restrângerea lor într-un singur mediu.

În cele din urmă, ocazional, vor exista scenarii în care dezvoltatorii de date vor construi componente de inginerie software care vor sprijini construirea sau întreținerea produselor lor de date. Acesta ar putea fi un pachet personalizat sau un magazin de audit care înregistrează intrările și ieșirile modelului de date.

Aici s-ar putea să vedeți fuziunea celor două RTL, începând cu software-ul RTL de Dev, Test, Pre-Prod, dar apoi asistând la lansarea în Data Build, Data Test și Data Live simultan, astfel încât artefactul să fie disponibil pentru noi lucrări de construire a datelor.

Amintiți-vă, Data RTL oferă acces privilegiat care nu ar trebui să fie implementat dincolo de membrii specifici ai organizației dvs. care trebuie să desfășoare activități specifice care implică acces uman la date live.

Acești utilizatori vor include oameni ca oamenii de știință de date și quanti, dar se vor extinde și la cei care trebuie să testeze aplicații pe date live pentru a asigura rezultate echitabile pentru clienți.

Acolo unde datele și codul sunt independente, dezvoltatorii ar trebui să utilizeze întotdeauna Software RTL.