Docela často se potkávám s otázkou, kde začít, jestli můžu doporučit nějaké zdroje, a tak podobně, když se někdo začne zajímat více zajímat o data analýzu. V dnešní době je zdrojů opravdu mnoho, a tím spíš záleží na tom vybrat si ty správné – zkusím tedy udělat výběr toho, co považuji za základní a už osvědčené, a na závěr možná pár zajímavějších směrů co stojí za zvážení. A možná překvapivě ale v dnešní digitální době budu směřovat spíše na „klasiku“ – knížky. Přeci jen se dnes do knižní podoby nedostane (naštěstí) každý blog.
A začneme rovnou klasikou klasik v data odvětví. Kimballem, ano tím Kimballem.
Ralph Kimball – The data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
Setkal jsem se už s tím, že někteří tuto knihu považují za zastaralý přístup k tomu, jak budovat datové sklady. No možná, každopádně je to must read, zvláště pokud modelování myslíte alespoň trochu vážně.
Bill Inmon – Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
Když tu máme Kimballa nesmí chybět Inmon, často jsou stavěni proti sobě jako rozdílné přístupy. Mě se ale spíše vyplatilo čerpat z obou a využívat jejich kombinaci (musíte mít ale správné důvody). A také je fajn pochopit oba světy, často potkáte zaryté zastánce jednoho nebo druhého směru.
Hans Rosling – Factfulness: Ten Reasons We’re Wrong About the World—and WhyThings Are Better Than You Think
Už dříve jsem ji tu vyzdvihoval. Je velmi důležitá, pro zcela zásadní a často opomíjenou část datové analýzy – interpretaci. Také ukáže, jak velký rozdíl je mezi tím, co lidé obecně tuší a co je realita.
Učebnice statistiky
Alespoň úvod, ale statistika je základ. Rozhodně musíte mít zcela jasno v základních statistických pojmech – a vědět jejich limity a slabá místa. A taky je to vhodné doplnit o matematiku – zvláště pak analýzu.
Steve Wexler – The Big Book of Dashboards: Visualizing Your Data Using Real-World Business Scenarios
Převážně pro ty, co se chtějí zaměřit trochu na vizualizaci, interpretaci a využití dat v businessu, ostatním doporučuji minimálně prolistovat.
Andy Kirk – Data Visualisation: A Handbook for Data Driven Design
V oblasti vizualizací velmi známý autor, a opět spíše pro vizualizace, zde ale spíše o tom jak správně data vizualizovat, a jaké vizualizace jsou nejvhodnější a proč.
Udemy
Na Udemy je opravdu hodně hodně tutoriálů – stačí si jen vybrat technologii a projít si pár nejoblíbenějších. Doporučuji však vždy zkombinovat i s nějakým officiálním tutoriálem, nebo knihou. Udemy tutoriály často opomíjejí jednu zásadní otázku – PROČ to tak funguje a co je podtím. Alternativou k Udemy je Coursera – https://www.coursera.org/home Někdo má radši Udemy někdo Courseru – vyzkoušejte klidně obě.
Cloud – například Azure Learn
Velmi dobré přehledy možných technologiích se dají nalézt v tutoriálech a materiálech pro Cloudy – zvlášťě rád mám Aure Learn – není úplně nej na hledání chyb a zdůvodnění proč, ale poskytuje často velmi dobrý přehled o tom, jak se dají řešit některé use-casy – a díky tomu velmi dobře porovnává hlavní určení některých technologií a jejich výhody.
Pro úplný začátek můžu doporučit dva kurzy –
Azure Data Fundamentals – https://docs.microsoft.com/en-us/learn/certifications/azure-data-fundamentals
Jde o poměrně dobře a pochopitelně zpracovaný úvod do cloudu – provede různými tématy od dostupnosti, přes konfiguraci po cost management. Je high level, ale právě to mi přijde, že začátečníci potřebují – získat nejdřív přehled co se děje.
Azure Fundamentals – https://docs.microsoft.com/en-us/learn/paths/az-900-describe-cloud-concepts/
Zde je právě zmiňovaný přehled technologií a k čemu se hodí a jak s nimi pracovat.
Závěrem
Snad si vyberete. Každopádně to nejdůležitější – snažte se jít co nejvíc “ke zdroji” nebo k expertům, kteří vědí o čem mluví – a snažte se vyhnout novinářům a knížkám typu “Expertem v XXX za 7 dní!” nebo “XXX for Dummies” někdy mohou vypadat, že dobře vysvětlují, ale často neposkytnout dostatečně hluboký pohled do střev, a někdy bohužel i chybné postupy. Mimochodem kultura jak analyzovat, psát kód nebo dokumentovat je dost důležitá a dost často se podceňuje.