Data Quality (datová kvalita) byla dlouhou dobu velice populární téma pro velké firmy, stejně jako snad každá oblast týkající se dat. S příchodem nástrojů a technologií, které zpřístupnily práci s daty i mnohem menším hráčům bez obrovských data engineeringu či data analytics a podobně, začaly datovou kvalitu řešit i mnohem menší firmy na trhu.
Z tohoto důvodu není trh s nástroji, které by řešily datovou kvalitu a zároveň by si je mohly dovolit i menší firmy, natolik vyspělý (trh).
Pro firmu s 500 zaměstnanci není takový problém začít pracovat s nástroji například od Atacamy, která poskytuje nástroje na metadata management, což zahrnuje i Data Quality Management. Bohužel spoustu těchto nástrojů směřuje vyloženě cestou business to enterprise a typický integrátor nebo reseller jsou firmy typu velké čtyřky (accenture, deloitte atd.)
Nejen z tohoto důvodu vzniká mnoho řešení vytvořenými malými interními týmy, kde bohužel integrace těchto řešení často klade velké nároky na datové inženýry.
Kategorie datové kvality
Data Quality se velice často řadí pod kategorii metadata management. Je to z důvodu, že ke kontrole datové kvality se velice často používají právě metadata, např. velikost tabulek, datum poslední změny, samotná schémata atd. Datová kvalita obecně řeší problém toho, že pokud používáte ETL (ELT) pipeline, nebo i jen prostě pracujete s daty, potřebujete se na tyto data spolehnout, případně vědět, jak moc se na tyto data můžete spolehnout. Jelikož při práci s daty může nastat nepřeberné množství problémů, ať už z technické či lidské stránky.
Uživatel, který pracuje s datasetem ať už v BI nástroji, emailingu, nebo v jakémkoliv jiném nástroji nechce řešit, že první věc na kterou narazí je, že půlka produktů ve skladu nemá nákupní cenu. Nebo že tržby v datasetu jsou sice ze čtyř zdrojů, ale každý zdroj používá jiný formát času. A navíc datový inženýr, který datasety spojil se tuto skutečnost rozhodl ignorovat, nebo se i datasety v průběhu času změnily.
Novinky či zajímavosti v datové kvalitě – Jak v ní lze zapojit AI
Tak jako do každého technologického odvětví se i do datové kvality dostávají pojmy umělé inteligence, ale častěji spíše machine learningu. Je to hlavně ze 2 důvodů:
- První je zjednodušit integraci kontroly dat. Protože psát, které checky se mají provést u které tabulky, může být velice zdlouhavé. Stačí vlastnit i jenom pár stovek datasetů. Zde jednoduchý algoritmus, který dokáže identifikovat například sloupce obsahující telefonní čísla, datumy, apod., doporučit na tyto sloupce nejčastější testy.
- Druhý důvod je, že identifikujeme trendy, ať už při práci právě s metadaty nebo i s daty. Při každé iteraci se do datasetu zapíše 150 – 200 řádků a najednou se jich zapsalo 2000. To znamená, že nastala nestandardní situace a je možné, že jsme například stejné řádky zapsali 10x místo 1x. Měli bychom o této situaci vědět a případně jí ručně zkontrolovat.
Toto jsou běžné problémy, na které nás systém zabývající se datovou kvalitou může okamžitě upozornit. Poté se dané události může věnovat ať daný člověk nebo další algoritmus, který nám pomůže alert potvrdit či vyvrátit.
Data Quality a Digitální architekti
V Digitálních architektech tomu nově venujeme velkou pozornost datové kvalitě, protože jsme dosáhli snad nejhorší fáze. Klienti nám psali “tento graf se mi nezdá”, “něco mi tady nesedí” anebo ”tady je to špatně”…
Tyto dotazy nám berou velké množství času a jsou velice oprávněné. Když používám reporting, musím se na něj spolehnout.
Momentálně řešíme datovou kvalitu separátně od dalšího metadata managementu. Jelikož si myslíme, že datová kvalita je zásadní pro všechny naše klienty bez rozdílu na vyspělost a velikost.
Myslím si, že jsme v této oblasti urazili kus cesty, ale stále jsme na začátku. V tomto odvětví trh v následujících letech zaznamená významný vývoj, a jsem zvědav, jaké změny nás v nejbližší době čekají.