Toni RubioZuzendari Teknikoa desideDatum-en

Gero eta enpresa eta erakunde gehiago jabetzen dira dituzten datuen garrantziaz. Datu horiek informazio erabilgarri bihurtzeko gai izatea funtsezkoa da hobetzeko: lehiakortasuna, eraginkortasuna, eta erabakiak hartzeko modua. 

Hala ere, datu gehienak isolatuta dauden datu-base ezberdinetan gordeta daude. Datu-base horiek transakzional izenarekin ezagutzen ditugu. Erakundearen negozio-prozesuei euskarria emateko diseinatuta daude (erosketak, administrazioa, giza-baliabideak, eta abar); beste era batean esanda, egunerokoa kudeatzeko balio dute. Halere, sistema horiek normalean ez dituzte datu historikorik metatzen, eta ez daude homogeneizatuta euren artean (siloak sortzen dira). Beraz, oso zaila da datu horiek konbinatzea, zeharkako ikuspegia izateko eta erabakiak ikuspuntu estrategiko batetik hartzeko. 

Beraz, burua altxatzeko unea da, eta datuen bitartez administrazioaren ikuspegi orokorra lortzeko. Erronka horri aurre egiteko, hainbat soluzio teknologiko proposatu dira, eta business intelligence izenarekin ezagutzen ditugu. Orokorrean, esan dezakegu soluzio teknologiko horiek guztiak egunerokoan erabiltzen ditugun datuak datu-biltegi berri batean kopiatzean oinarritzen direla. Datu-biltegi berri horretan, datuak ikuspegi globaletik aztertu ahal izateko moduan antolatuko ditugu. 

Azken urteetan, ikuspegi ohikoak jarraituz, data warehouse-ak (datu-biltegiak) sortu izan dira.  Berriki; aldiz, data lake moduko sistemak sortu dira. Halere, artikulu honetan ikuspegi nahiko berri bat aztertu nahi dut: data hub-a. Horrez gain, data hub-aren abantailei, antzekotasunei eta desberdintasunei buruzko gogoeta egingo dut, aipatu ditudan soluzio teknologikoekin alderatuz. 

Data warehouse 

Data warehouse-a edo datu-biltegia ohiko soluzio da, enpresa-inteligentzia proiektuetan erabilia. Ikuspegia berariazko datu-base bat sortzean datza, sistema-operazionalen datu-baseetatik desberdina dena. Datu-base berri horretan datuen kopiak irauliko ditugu. 

Aipatutako datu-biltegietan, homogeneizatutako eta normalizatutako datuak gordeko ditugu, bai egungoak  bai historikoak. Datuak biltegira igo baino lehen, hainbat ateratze- eta eraldatze-prozesu egin beharko dira haiekin (schema-on-write). Prozesu horiek deitzen dira ETL (Extract, Transform and Load).  

Kasu askotan, ikuspegi hau baliagarri eta baliozkoa da; halere, oztopoak ere aurkitu daitezke. Nagusiki, eraikitze- eta mantentze-prozesuak luzeak eta garestiak direlako. Horrez gain, behin sortuta, aldatzea oso zaila da, negozio-alorrean azaldu ahal diren galdera berriei erantzuna emateko.  

Data lake 

Berriki, data lake kontzeptua azaldu da, eta data warehouse-ak dituen hainbat arazori irtenbidea aurkitu nahi die. Aipatu dugun bezala, data warehouse-aren kasuan, datuak igo baino lehen, eraldatu eta homogeneizatu behar dira. Kasu honetan; aldiz, datuak kasik jatorrizko formatuan kargatuko dira. Beraz, ETL prozesuak sinplifikatuko dira, ateratze eta kargatze-prozesuetara mugatuz, eta eraldatze-prozesua gerorako utziz (schema-on-read). 

Ikuspegi hau asko hedatu da; batik bat, hodeiak erraztasunak ematen dituelako datuak kostu baxuan biltegiratzeko. Era berean, eraldatze-prozesua baztertzeak data lake-a bizkorrago eraikitzea ahalbidetzen du, edukia gehitzea edo aldatzearena gerorako utziz. 

Hala ere, abantaila horiek guztiek ere oztopoak eragin ditzakete geroago. Gehienbat, transformazio-lan guztia egin behar delako datu-analisia egiteko unean. Horrek eskatzen du; batetik, denbora gehiago; eta bestetik, goi-mailako profil teknikoak datuetatik informazioa ateratzeko.  

Data hub 

Data hub kontzeptua berriagoa da, baita pitin bat anbiguoa ere. Izan ere, egoera ezberdinetan esanahi desberdinekin erabiltzen da, nik ikusi izan dudanaren arabera. 

Artikulu honetan, Data hub-a plataforma bat dela ulertuko dugu. Bertan, datuak modu erraz batean biltegiratuko ditugu; hain zuen, erabaki-hartzean laguntzeko. Data Lake eta Data Wharehouse-arekin konparatuz, alde nagusia sinpletasunean datza. Data hub-ek negozio-erabiltzaileari autonomia gehiago eman nahi dio datuekin lan egiteko (datu-autozerbitzua).  

Data hub bat datu irekien atari bat bezala ulertu genezake, baina ireki izaera beharrezkoa izan gabe. Datu ireki atari berrienek ezaugarri interesgarriak dituzte, barnealdean ere erabili daitezkeenak. 

  • Datuak erraz katalogatu eta antolatzen dituzte 
  • Datuetara sarbide eskaintzea interfaze erabilerraz baten bitartez. 
  • Gehienbat, datuak taulak erabiliz biltegiratzen dira; hori dela eta, erabiltzaile gehienek -oinarrizko gaitasunekin- datuak kontsultatu eta analizatu ahal dituzte. 
  • Beste informazio sistema batzuekin konektatzeko, API interfazeak eskaintzen dituzte. 

Aurrekoekin alderatuz, ikuspegi honek hainbat abantaila ditu; gehienbat: 

  • Datuak tauletan bihurtzen dira (partzialki); beraz, datuak ulertzea eta interpretatzea erraza da, baita goi-mailako gaitasun teknikorik gabeko negozio-erabiltzaileentzat ere. 
  • Aukeran, Ikuspegi honi jarraituz, datuak normalizatzea eta homogeneizatzea beharrezkoa izango litzateke; halere, aipatutako prozesuak iterazio ezberdinetan gauzatu daitezke. Horrek ahalbidetzen du onurak lortzea epe laburrera, hasierako inbertsio txikia eginez. 
  • Datu-analista eta -zientifikoek kalitate oneko datuei sarbide erraza izateari etekina aterako diote.  

Begi bistakoa da, data hub-a ez dela soluzio teknologiko perfektua; izan ere, hainbat erronkei aurre egin behar dizkio. Erronka nagusia barne antolaketa egokia izatea, bermatzeko datuak erabilgarriak eta kalitatezkoak direla, eta eguneratuta daudela.  

Halaber, hainbat kasutan jatorrizko datuak tauletara eramatea zaila izan daiteke; batetik, beharrezkoa delako taula anitzekin lan egitea; eta bestetik, bestelako formatuekin (JSON edo XML, ; besteak beste) datuen esplotazioa zailagoa delako. 

Baina, big data-ri buruz ez al dugu hitz egingo? 

Jakina, 2019an datu-kudeaketaren gaia jorratzen duen artikulu batek big data hitza izan behar du. Oso modan dauden soluzio teknologikoak dira, eta, egia esanda, haien ospe ona justifikatuta dago; izan ere, erabilgarriak dira, eta emaitza onak eskaintzen dituzte. 

Alabaina, modak alde batera uztea garrantzitsua da; hain zuzen, ondo ulertu behar dugulako zein kasutan izango zaigun erabilgarri big data gisako soluzio teknologiko bat. Aurretik aipatutako soluzio teknologikoekin konparatuz, big data ikuspegiaren alde nagusia berehalakotasunean datza.  

Soluzio teknologiko hauetan, sistema gai izan behar da datu-kontsultak egiteko eta erregistro sortzeko edo ezabatzeko; hori guztia datu-bolumen erraldoiekin eta abiadura handian; zehazki, sistema erlazional tradizionalek ezin dutena erdietsi. 

Horretarako, big data soluzioek joko-arauak aldatzen dituzte, datu-base erlazionalen eskakizun zorrotzak malgutuz, abiadura irabazteko asmoarekin. Honek ahalbidetuko du datu bolumen handiak biltegiratzea eta analizatzea denbora errealean. 

Berez, data lake moduko hainbat soluzio big data teknologia erabiltzen dute; hain zuen, datuak biltegiratzeko. Hala ere, bi kontzeptuak ez dira nahitaez baliokideak.  

Big Data soluzioak erabilera-kasu zehatzetan oso erabilgarriak dira; hau da, prozesamendu-bolumen eta -abiadura handia behar dugunean. Aipatutako soluzio teknologiakoak (data warehouse, data lake eta data hub); ordea, aski seguru egokiagoak direla zeharkako datu-kudeaketa korporatiboa egiteko. 

Ondorioak 

Datuen zeharkako barne-kudeaketa gero eta beharrezkoagoa da. Halaber, behar horiei erantzuteko ikuspegi teknologikoak etengabe aurrera egiten ari dira. Artikulu honetan aipatutako tresnak ez dira nahitaez  bata bestearen baztertzaileak. Kasu askotan, osagarriak izan daitezke. 

Testuinguru honetan, datuen barne-kudeaketa hobetzekodata hub kontzeptua  gero eta gehiago erabiltzen dute, bai erakunde publikoek bai erakunde pribatuek. 

Kasuan-kasu tresnarik egokiena zehazteko, ondo ulertu behar dugu zer eskaintzen digun soluzio teknologiko bakoitzak. Halaber, ez dugu ahaztu behar teknologia berrien inplementazioa burutzeko, talde osoari eragiten dion aldaketa kulturala eman behar dela; datu-kudeaketa eraginkorra ahalbidetzeko.