Softverska tema

Microsoftov pogled na skladišta podataka

Nenad Crnko

09 srpnja 2025

Microsoft Fabric

Lakehouse i warehouse

O tehnologijama lakehouse i warehouse već smo nekoliko puta pisali u časopisu, ali nekako više s njihove „teoretske strane“. Ovaj put ćemo demonstrirati kako obje spomenute tehnologije djeluju u praksi, uz pomoć najnovije Microsoftove platforme za jedinstveno rukovanje različitim vrstama podataka – Microsoft Fabric (u nastavku teksta MF). Primjere koje ćemo prikazati i opisati u nastavku možete bez nekakvih posebnih troškova isprobati sami. Kao i brojne druge Microsoftove tehnologije, tako je i MF dostupan za besplatno korištenje u vremenski ograničenom probnom periodu (60 dana).

Mjesto odakle možete započeti s probnim korištenjem i detaljnijim istraživanjem MF-a je web adresa https://www.microsoft.com/en-us/microsoft-fabric/getting-started. Naglasimo usput da je tijekom probnog korištenja MF-a na raspolaganju prilično „jaka konfiguracija“ sustava, kakva se inače tijekom komercijalnog korištenja prilično naplaćuje. To je donekle i logično, jer Microsoft sigurno ne želi da imate probleme s performansama tijekom perioda probnog korištenja.

Microsoft Fabric: Na raspolaganju je korištenje besplatne verzije u trajanju od 60 dana

Nakon dovršetka prijave na probnu instancu MF-a, na raspolaganju su brojne mogućnosti sustava u pogledu spremanja, obrade, analize i prikaza podataka. U današnjem tekstu ćemo se prije svega orijentirati na samo spremanje podataka, kako bismo mogli demonstrirati lakehouse i warehouse tehnologiju, njihovu međusobnu povezanost, ali i razlike.

Demonstraciju započnite tako da na početnoj stranici izaberete naredbu New Item, a nakon toga iz ponuđenog popisa dostupnih opcija Lakehouse. Kao rezultat izvođenja prethodne operacije, nakon nekog vremena potrebnog za automatsku konfiguraciju, pojavit će se vaše prvo lakehouse skladište podataka. Kako bismo mogli što jednostavnije demonstrirati rad s podacima (bez potrebe za upisivanjem vlastitih primjera), možete odmah izabrati punjenje tog spremišta s primjerima podataka. Opcija je dostupna na pozadini početne stranice skladišta.

Microsoft Fabric moduli: nude vam brojne tehnologije

Kolekcije podataka

Korisnicima je na raspolaganju nekoliko različitih demo zbirki podataka. Ako želite što jednostavnije pratiti primjere iz ovog teksta, onda izaberite kolekciju podataka s podacima o taksi vožnjama izmišljene kompanije koja nudi takve usluge.

Kao rezultat izvođenja prethodne operacije u lijevom dijelu stranice, u hijerarhijskom prikazu dostupnih tablica u sustavu, pojavit će se stvarne tablice s podacima. Za svaku od tablica možete u tom lijevom dijelu prikaza pregledati njezinu strukturu (nazive stupaca i slično), a u desnom dijelu same podatke u uobičajenom tabličnom obliku prikaza.

Klikom na oznaku s tri točke na vrhu svake kolone, podatke u kolonama možete po želji sortirati ili pretraživati, ali bi to otprilike bilo sve što možete napraviti. U ovom trenutku neku drugu priliku, spomenimo (kao primjer) da su takvi podaci u lakehouse tablicama izravno dostupni za različite vrste obrade u okviru MF cjevovoda (pipelines).

Međutim, što ako želite koristiti podatke na nešto fleksibilniji način? Na primjer, umjesto da filtriranje podataka izvodite preko izbornika na vrhu svakog stupca tablice, zar ne bi bilo zgodno da možete postavljati različite vrste SQL upita? Jer je to jezik kojeg već dobro poznajete otprije.

To je mjesto na kojem u igru ulazi warehouse dio MF-a. Ako pogledate prateću sliku uz tekst, ili to sami provjerite u MF-u (pokrenuli ste ga i napunili demo podacima, zar ne), možete primijetiti da se u spremištu podataka osim lakehouse dijela, nalazi i odgovarajući semantički model, odnosno SQL Analytics dio. Ako sada pokušate pregledavati sadržaj istoimene tablice, na raspolaganju vam je i mogućnost postavljanja SQL upita. Na primjer, najnormalnije možete upisivati različite oblike SQL SELECT naredbi, uključujući WHERE ili ORDER BY dijelove. To je upravo ono što nudi povezanost warehouse i lakehouse dijelova u okviru istog sustava, to jest MF-a.

Lakehouse: Prvo je potrebno izabrati i aktivirati ovaj modul

Lakehouse i warehouse

Treba istaknuti da na ovaj način ipak nisu izravno dostupne sve mogućnosti SQL jezika koje je moguće koristiti izravno u relacijskoj bazi kao što je SQL Server. Na primjer, napredna SQL MERGE naredba. A neki drugi dijelovi, iako formalno postoje (kao što je JOIN dio za povezivanje tablica), postaju praktično neupotrebljivi kad ih se pokuša koristiti u vrlo složenim primjerima. Na primjer, povezivanje većeg broja tablica pomoću JOIN dijela je izvedivo, ali samo do određenog stupnja složenosti. Nakon toga se naredba najčešće počinje izvoditi „beskonačno dugo“, to jest, sve skupa postaje neupotrebljivo.

U slučaju da je potrebno izvođenje vrlo složenih obrada nad podacima, to možete napraviti prepisivanjem tih istih SQL naredbi u odgovarajući Notebook element, ili pisanjem odgovarajućeg Python, Scala ili R koda, čime postižete još veći stupanj fleksibilnosti u obradi. Ali to je već tema za neku drugu priliku.

Demo podaci: Na početku korištenja postoji mogućnost uvoza demo podataka

Lakehouse tablice: Pregled podataka i dostupne opcije

Da bi čitava stvar bila još ljepša, uz pomoć odgovarajuće ikone u warehouse dijelu možete generirati niz znakova za povezivanje (takozvani Connection String) pomoću kojeg se na MF warehouse dio možete spojiti preko standardnog desktop alata za tu namjenu (SQL Server Management Studio).

A to onda znači da su vam na raspolaganju sve mogućnosti alata u pogledu uređivanja SQL koda na mnogo napredniji način nego što je to moguće izravno u MF. Još jednu stvar koju svakako treba uzeti u obzir kod paralelnog korištenja lakehouse i warehouse dijela je određeno vrijeme potrebno da se između njih napravi sinkronizacija podataka. Ako korištenjem neke od dostupnih tehnologija obrade, kao što su cjevovodi, u Parquet (znači lakehouse) tablicu uvezete veliki broj slogova (reda veličine nekoliko stotina tisuća slogova i više), ti isti podaci nisu odmah dostupni u warehouse SQL upitima. Na primjer, ako probate napraviti SQL SELECT upit za provjeru dijela takvih podataka, može vam se dogoditi da ih ne vidite, iako je s prijenosom podataka u lakehouse tablice sve bilo u redu.

Parquet format: Podatkovni format u kojem su spremljeni podaci iz tablica

Održavanje tablica: Optimizacija i uklanjanje starih podataka

Drugim riječima, potrebno je određeno vrijeme da ti isti podaci „sazriju“ i u warehouse dijelu, odnosno da se izvede odgovarajuća sinkronizacija podataka. Nakon određenog vremena (recimo, nekoliko minuta), potpuno ista SQL naredba prikazat će podatke koje ste očekivali, iako u međuvremenu nije bilo nikakve obrade ni izmjene podataka. Vrijedi i obrnuto. U slučaju brisanja velike količine podataka, moguće je da i dalje vidite njihovu fantomsku kopiju u vlastitih upitima.

Budući da je kvalitetu podataka dobivenu iz postavljenog upita u najmanju ruku neozbiljno temeljiti na „sazrijevanju“ podataka, sasvim je logično da mora postojati mehanizam kojim se takva operacija zahtijeva po potrebi. Riječ je o dobro poznatoj naredbi Refresh dostupnoj u hijerarhijskoj strukturi prikaza tablica u warehouse dijelu, ili o posebnom elementu za sinkronizaciju semantičkih podataka u okviru cjevovoda. Na taj način možete biti sigurni da su u određenom trenutku podaci jednaki i u lakehouse i u warehouse dijelu.

Nadamo se da vam je nakon današnjeg teksta jasnije kako navedena dva dijela sustava za spremanje podataka međusobno djeluju u praksi, kako bi se moglo iskoristiti ono najbolje od oba dijela.

Semantic model: dostupan je kao nadogradnja osnovnih Parquet tablica

SQL upit: Preko semantičkog modela na raspolaganju je mogućnost postavljanja SQL upita

Vezani sadržaj:

CCleaner
Detoks Windowsa

Popularni alat za održavanje računala ima nove funkcionalnosti.
Što je Gibberlink i zašto je napravio takvu pomutnju u svijetu?
Skynet pred vratima: Gibberlink

Kad računala odluče komunicirati na vlastiti način
Kako poboljšati performanse gaming laptopa
Najkorisniji savjeti za najbolje performanse

Gaming laptopi su danas iznimno popularni. Donosimo esencijalnu kolekciju najkorisnijih savjeta i trikova koji će vam pomoći da poboljšate performanse svojeg gaming laptopa i održite ga u top formi tijekom višegodišnjeg korištenja.
Intervju: Dominik Cvetkovski
Gaming studio ANIQ u 2026. izdaje pucačinu SHROT

ANIQ ne želi otkriti toplu vodu, već stvara zabavni FPS po uzoru na Duke Nukem, Doom, Serious Sam i još neke igre, pri čemu je uz humor fokus na brzom uranjanju u akciju.
Intervju: Arkensight AI platforma
AI rješenje za obradu vizualnih podataka na testu kod europskih partnera

Domagoj Ćorić, koji je na VIDIAWARDS-u odabran među „30 ispod 30“, CEO je startupa Arkensight koji nudi softver za analizu vizualnih podataka kamera s dronova i drugih izvora.

na vrh članka

// VIDI X radionice

VIDI Project X #48: VIDI X mikroračunalo i MySQL server

// možda će vas zanimati

Koliko radne memorije nam treba 2025. godine
Gigabajta nikad dosta Na radnoj memoriji ne valja štedjeti! Istražili smo koliko nam radne memorije treba za optimalan rad modernog računala, koje su razlike…
Savjeti za kupnju laptopa
Kakav laptop kupiti za školu, fakultet, posao i zabavu? VIDI doktor vam daje savjete o kupnji idealnog laptopa za školu i fakultet te…
CCleaner
Detoks Windowsa Popularni alat za održavanje računala ima nove funkcionalnosti.
Što je Gibberlink i zašto je napravio takvu pomutnju…
Skynet pred vratima: Gibberlink Kad računala odluče komunicirati na vlastiti način
Intervju: Dinko Reić
AI već sada rješava probleme koje su radili junior pa i mid developeri AI je sjajan alat koji puno pomaže u “jednostavnim stvarima”…
VIDI AI kuharica
Postoje li recepti za AI kuhinju? Početna prašina oko generativnog AI se donekle slegla i još nas većinom nije zamijenila umjetna inteligencija. No, i dalje…
VIDI AI kuharica - Pregled AI alata
Pregled AI alata Popis AI alata po kategorijama namjene.
VIDI AI kuharica - Uvoz i pristup podacima u…
Prikupljanje, priprema i korištenje podataka Što ako imate svoju vlastitu kolekciju podataka koju biste htjeli učiniti dostupnom drugim osobama korištenjem LLM (Large Language…
Intervju Lana Dinić - Flagship Pioneering
Američki biotech fond vidi potencijal u domaćim startupima Za startupe je ključno vidjeti na koje se sve načine njihova inovacija može monetizirati, uz dobru…

Newsletter prijava

Popularno

Acer AMD Android Apple asus Dell galaxy Gaming Grafička kartica hardver HP Huawei intel Kućište laptop Lenovo LG Logitech Matična ploča Microsoft Miš mobitel Monitor nVidia palac gore za kupnju pametni sat Pametni telefon Philips Prijenosnik Procesor Računalo recenzija sadržaj Samsung slušalice smartfon Smartphone Sony SSD tablet televizor test Tipkovnica Uvodnik vidi vidilab vijesti VR časopis časopis Vidi

100% HARDVER. SVE ŠTO O HARDVERU TREBATE ZNATI.

VIDI je jedan od najpopularnijih brandova vezanih uz tehnologiju u regiji s tradicijom dužom od 30 godina. Godišnje u VIDILAB-u testiramo preko 1000 uređaja/gadgeta

Pročitajte više o nama

Softverska tema

Microsoftov pogled na skladišta podataka

Microsoft Fabric

Microsoft Fabric: Na raspolaganju je korištenje besplatne verzije u trajanju od 60 dana

Microsoft Fabric moduli: nude vam brojne tehnologije

Kolekcije podataka

Lakehouse: Prvo je potrebno izabrati i aktivirati ovaj modul

Lakehouse i warehouse

Demo podaci: Na početku korištenja postoji mogućnost uvoza demo podataka

Lakehouse tablice: Pregled podataka i dostupne opcije

Parquet format: Podatkovni format u kojem su spremljeni podaci iz tablica

Održavanje tablica: Optimizacija i uklanjanje starih podataka

Semantic model: dostupan je kao nadogradnja osnovnih Parquet tablica

SQL upit: Preko semantičkog modela na raspolaganju je mogućnost postavljanja SQL upita

Vezani sadržaj:

Detoks Windowsa

Skynet pred vratima: Gibberlink

Najkorisniji savjeti za najbolje performanse

Gaming studio ANIQ u 2026. izdaje pucačinu SHROT

AI rješenje za obradu vizualnih podataka na testu kod europskih partnera

// VIDI X radionice

// možda će vas zanimati

Newsletter prijava

Popularno

100% HARDVER. SVE ŠTO O HARDVERU TREBATE ZNATI.