Data lake funguje jako centrální úložiště, které umožňuje ukládání jakéhokoliv typu dat, často v nezpracovaném formátu raw. Může to být video, obrázek, dokument, graf, prostě cokoliv, co byste chtěli vložit do databáze nebo nějakým způsobem uložit. Data lake při ukládání dat spojuje data s identifikátory a tagy metadat pro rychlejší načítání.
Existuje mnoho způsobů, jak použít data lakes. Můžete používat všechna strukturovaná i nestrukturovaná data a vytvářet modely, aby je šlo použít v jejich nezpracované podobě. Pokud tato data však chcete používat pro analytické a reportovací účely, je potřeba data vyčistit a uložit do databáze či datového skladu. V tomto ohledu dává smysl využívat data lake hlavně v oblasti machine learning a AI, kteří z něj vytěží nejvíce.
Data lakes obvykle seskupují data na clusteru levného a škálovatelného komoditního hardwaru, což umožňuje ukládání dat pro případ budoucí potřeby bez obav o kapacitu úložiště. Clustery mohou existovat buď lokálně či v cloudu.
Občas lidé zaměňují Data lakes s data warehouse, ale mezi sebou mají mnoho rozdíl. Ty mohou poskytnout velké výhody pokud si firma zvolí správně. A to obzvláště když big data a procesy big dat stále migrují z lokálních úložišť do cloudu.
Pokud využíváte data lake pouze k zaznamenávání transakcí, měli byste přejít na databázi. Pokud pracujete s velkým množstvím dat, které vaše databáze nezvládá, zvažte integraci datového skladu. A v poslední řadě, pokud máte všechna tato data, se kterými si nevíte rady, jsou nestrukturovaná či polostrukturovaná, nevejdou se do databáze, pak bychom Vám doporučili data lake.
Pokud si stále nevíte rady a chtěli byste Vaše otázky prodiskutovat, napište nám a rádi se s Vámi spojíme.