こんな時間からBlogを書き出してしまった、、、akuwanoです。 データパイプラインの面倒を見ている方、、、こんな事はありませんか? 「あれ、このデータ、なんか変な値が入ってるじゃん、、、」とか「ストリーミングでじゃんじゃんデータが流れてくるのに品質チェックってどうやるの?」 そう、今日はそんな悩みを解決してくれるかもしれない、DatabricksのLabのOSS「DQX」についてご紹介! データ品質チェックの理想と現実 データエンジニアの皆さん、データ品質のチェックってどうやってます? 「まずはデータを取り込んで、、、後で集計してチェックせな、、、あ、問題だ、、、遡って調査しますね、、、」というのはキツイですよね! そんな時こう思うわけです「データが入ってくるタイミングでリアルタイムに品質チェックできたらいいのになぁ」 そんなときこそDQXです! DQX参上! DQXはDatabri