Umělá Inteligence a Data Quality

Stejně jako snad každá oblast týkající se dat, tak i datová kvalita byla dlouhou dobu téma, kterému se věnovaly pouze velké firmy. S příchodem nástrojů a technologií, které zpřístupnily práci s daty i mnohem menším hráčům bez obrovských data engineeringu či data analytics a podobně, začaly datovou kvalitu řešit i mnohem menší firmy na trhu. 

Z tohoto důvodu není trh s nástroji, které by řešily datovou kvalitu a zároveň by si je mohly dovolit i menší firmy, natolik vyspělý (trh).

Pro firmu s 500 zaměstnanci není takový problém začít pracovat s nástroji například od Atacamy, která poskytuje nástroje na metadata management, což zahrnuje i Data Quality Management. Bohužel spoustu těchto nástrojů směřuje vyloženě cestou business to enterprise a typický integrátor nebo reseller jsou firmy typu velké čtyřky (accenture, deloitte atd.)

Nejen z tohoto důvodu vzniká mnoho řešení vytvořenými malými interními týmy, kde bohužel integrace těchto řešení často klade velké nároky na datové inženýry.

Data Quality se velice často řadí pod kategorii metadata management. Je to z důvodu, že ke kontrole datové kvality se velice často používají právě metadata, např. velikost tabulek, datum poslední změny, samotná schémata atd. Datová kvalita obecně řeší problém toho, že pokud používáte ETL (ELT) pipeline, nebo i jen prostě pracujete s daty, potřebujete se na tyto data spolehnout, případně vědět, jak moc se na tyto data můžete spolehnout. Jelikož při práci s daty může nastat nepřeberné množství problémů, ať už z technické či lidské stránky.

Uživatel, který pracuje s datasetem ať už v BI nástroji, emailingu, nebo v jakémkoliv jiném nástroji nechce řešit, že první věc na kterou narazí je, že půlka produktů ve skladu nemá nákupní cenu, nebo že tržby v datasetu jsou sice ze čtyř zdrojů, ale každý zdroj používá jiný formát času a datový inženýr, který datasety spojil se tuto skutečnost rozhodl ignorovat a nebo se i datasety v průběhu času změnily.

Novinky či zajímavosti v Data Quality – Jak v ní lze zapojit AI

Dnes se, tak jako do každého technologického odvětví, i do datové kvality dostávají pojmy umělé inteligence, ale častěji spíše machine learningu. Je to hlavně ze 2 důvodů:

  • První je zjednodušit integraci kontroly dat, jelikož psát, které checky se mají provést u které tabulky, může být velice zdlouhavé, pokud vlastníte i jenom pár stovek datasetů. Zde jednoduchý algoritmus, který dokáže identifikovat například sloupce obsahující telefonní čísla, datumy, apod., doporučit na tyto sloupce nejčastější testy.
  • Druhý důvod je identifikace trendů, ať už při práci právě s metadaty nebo i při práci s daty. Při každé iteraci se do datasetu zapíše 150 – 200 řádků a najednou se jich zapsalo 2000. To znamená, že nastala nestandardní situace a je možné, že jsme například stejné řádky zapsali 10x místo 1x. Měli bychom o této situaci vědět a případně jí ručně zkontrolovat. 

Toto jsou běžné problémy, na které nás systém zabývající se datovou kvalitou může okamžitě upozornit. Poté se dané události může věnovat ať daný člověk nebo další algoritmus, který nám pomůže alert potvrdit či vyvrátit.

Data Quality a Digitální architekti

V Digitálních architektech jsme se začali datovou kvalitou velice zabývat, jelikož jsme se dostali do té snad nejhorší fáze → klienti nám psali “tento graf se mi nezdá”, “něco mi tady nesedí” anebo ”tady je to špatně”… 

Tyto dotazy nám berou velké množství času a jsou velice oprávněné. Pokud používám reporting musím být schopen se na něj spolehnout.

Momentálně řešíme datovou kvalitu separátně od dalšího metadata managementu. Jelikož si myslíme, že datová kvalita je zásadní pro všechny naše klienty bez rozdílu na vyspělost a velikost.

Myslím si, že jsme v této oblasti urazili kus cesty, ale stále jsme na začátku. V tomto odvětví se trh v následujících letech bude velice vyvíjet a jsem zvědav, čeho se v nejbližší době dočkáme.

Přejít nahoru
Scroll to Top