[go: up one dir, main page]

タグ

akuwanoのブックマーク (8,888)

  • データ品質チェックを簡単にやってこー。DQXでスマートなデータ品質管理を!

    こんな時間からBlogを書き出してしまった、、、akuwanoです。 データパイプラインの面倒を見ている方、、、こんな事はありませんか? 「あれ、このデータ、なんか変な値が入ってるじゃん、、、」とか「ストリーミングでじゃんじゃんデータが流れてくるのに品質チェックってどうやるの?」 そう、今日はそんな悩みを解決してくれるかもしれない、DatabricksのLabのOSS「DQX」についてご紹介! データ品質チェックの理想と現実 データエンジニアの皆さん、データ品質のチェックってどうやってます? 「まずはデータを取り込んで、、、後で集計してチェックせな、、、あ、問題だ、、、遡って調査しますね、、、」というのはキツイですよね! そんな時こう思うわけです「データが入ってくるタイミングでリアルタイムに品質チェックできたらいいのになぁ」 そんなときこそDQXです! DQX参上! DQXはDatabri

    データ品質チェックを簡単にやってこー。DQXでスマートなデータ品質管理を!
    akuwano
    akuwano 2025/09/29
    データ品質チェックやってこ
  • Lakebase徹底考察、彼はなぜDatabricksに生まれたのか、、、?

    仰々しいタイトルw そんな大きな事言うことはないんですが(おい)僕個人としてもLakebaseがDatabricksの中で何をするものなのかを考えてみたくなりました。 Databricksの公式見解ではありませんが、一つの意見として御覧くださいね! まずは使ってみよう! コンピュートの所からデータベースのインスタンスを、、、選んで作成! ポチポチですぐデータベースができるんやで。 次はLakebaseをUnity Catalogで管理するように設定! これでUnity Catalog上で”kuwano_lakebase”という形で見れるようになりますね。同時にkuwano_lakebaseという名前でPostgreSQL上にデータベースが作成されます(既存DBを使うこともできます) じゃあ接続 OAuthトークンの発行し、 ログイン成功だああああああああああああああああああ!!! data

    Lakebase徹底考察、彼はなぜDatabricksに生まれたのか、、、?
    akuwano
    akuwano 2025/06/14
    かきましたん
  • マルチクラウドとさくらさんと私が思ったこと

    どうもどうも、最近国産クラウドの話が盛り上がっていたので、私自身多少クラウドの世界に身をおいていたこともあり少し考える所もあるのでちょっと書いてみましたネ! 国産クラウドって昔いっぱいあったよね そうですよね、15年前くらいには日にもいっぱいクラウドがありました。VMWareを使っていたIaaSや、CloudStack、OpenStackなどを使ったIaaS、独自プラットフォームとして作られたクラウドもあったと思います(さくらさんは独自ですよね) 今は殆どなくなってしまいました、、、? ですが、今はいくつかのクラウドはなくなり、いくつかのクラウドは存在感を失い、と言う結果になっているように思えます。(外から見ている印象なのでそうじゃないよ!という人もいるかと思いますが) その理由はこれが一つあると思っています。 https://twitter.com/kuwa_tw/status/184

    マルチクラウドとさくらさんと私が思ったこと
    akuwano
    akuwano 2025/02/19
    さくらさん
  • 技術書典17で「はじめてのデータブリックス 〜Databricksではじめるデータ基盤ガイド〜」がでます!

    このページ数で1,000円って、かなりお買い得感がある。何冊刷ったかによるが、1冊あたりの製原価500円近くするだろうし、技術書典の販売手数料20%(200円)を考えると、実質無料!! 売り切れる前に買おうw はじめてのデータブリックスhttps://t.co/ctUFMkTVAX — Takuro SASAKI (@dkfj) October 28, 2024 しかも実質無料らしい!w 前回のは、データウェアハウスに特化したになっていました! 最初のとしてとっつきやすいかなというのもあったりで、まずはデータウェアハウスから、という感じだったのですが、今回のは決定版! Databricksを始めるためにはどうするか!Databricksとはなんなのか!何ができるのか!についてお話していきます! コンセプトとしては初めてDatabricks触る人向けにあるデータセットをテーマにそれ

    技術書典17で「はじめてのデータブリックス 〜Databricksではじめるデータ基盤ガイド〜」がでます!
    akuwano
    akuwano 2024/10/28
    みんなで書いた本がでます!!!
  • Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)

    こんにちわ!Databricksはじめたいけど情報が、、、ない、、、?という方?あるよー!ここにあるよー! というわけで、Databricks関連情報をまとめていきたいと思います。 書籍 まずはこれ「データブリックス-クイックスタートガイド」Databricksとはなぜ生まれてきたのか、どういうアーキテクチャなのか、といった最初の一歩がうまく書かれているです。 Unity Catalogなどが入る前のなので若干古いのですが、アーキテクチャの思想や基的な部分についてはわかりやすいのでぜひ。僕もここから入りました。 つぎはこれ、「Apache Spark 徹底入門」、Apache Sparkの書籍ですが、Databricksの情報も入っております。まずは基となるSparkの知識を仕入れつつDatabricksの情報も仕入れていきましょう! 同人誌 有志の方々が出版されているDatabr

    Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)
    akuwano
    akuwano 2024/09/15
    書きました!
  • 技術発信ってしたほうがいいのん?どうなん?

    結論からいえば「好きにすればよろしい」なんですよね。でもなんとなく書いとくか、と思ったので駄文ですがザッと書い… 結論からいえば「好きにすればよろしい」なんですよね。 でもなんとなく書いとくか、と思ったので駄文ですがザッと書いていくのである。 技術選定の話 この前燃え上がってましたよね「MySQLを使うと会社が潰れる」のエントリ。その後筆者さんはニュアンスを変えて上げ直してましたけど結局消したみたいです。この流れでいくつかBlogもみましたけど喧々諤々しているイメージです。 なんで燃え上がったかというのは「OSSやプロダクトに敬意を」とかそういう話も目にしましたけど、自分が思うのはこれだけです。「他の人が見たときにネガティブになるような話をしたらネガティブな反応が返ってくるよ」です。 多分この話をミーティングで直接されてもこんな反応帰ってこないと思いますよ。気を使うから。 だけどSNSは匿

    技術発信ってしたほうがいいのん?どうなん?
    akuwano
    akuwano 2024/09/07
    書きました
  • マルチクラウド時代のデータベースについて学べる、、、だけじゃない!「マルチクラウドデータベースの教科書」で現代のアーキテクチャを考える

    元々レビューアとしても参加させていただいていたのですが、レビューした内容が取り込まれていてよりよく昇華していました、、、! ということでこのを読んだ感想と、読む中で考えていたことなんかを書いていければと思います! 「マルチクラウドデータベースの教科書」 最初にこのの紹介をしていければと思います! まず現代においてマルチクラウドという選択肢は一般化してきていると感じます。AWSを使いつつ、Google Cloudも使うとか、Azureを使うとか、OCIも最近は入ってくるのでしょうか? そのための理由はいくつかあって、機能面で得意なクラウドが別であるとか、そもそもクラウドロックインをしたくないとか、色々あるはずです。 ロックインとは?という論点もあるとは思いますが、その中でデータベースからみた、マルチクラウドとは?マルチクラウドを行う際にデータベースは何を考慮すべきなのかなどがまとめてある

    マルチクラウド時代のデータベースについて学べる、、、だけじゃない!「マルチクラウドデータベースの教科書」で現代のアーキテクチャを考える
    akuwano
    akuwano 2024/08/10
    かきました!
  • 僕たちはサービスの終わりとどう付き合っていくのか

    I hear you and we are making improvements so this is clearer for customers. The services I'm referring to are: S3 Select, CloudSearch, Cloud9, SimpleDB, Forecast, Data Pipeline, and CodeCommit. — Jeff Barr ☁️ (@jeffbarr) July 31, 2024 このポストから具体的にはこれらのサービスが対象になるようです。 S3 Select CloudSearch Cloud9 SimpleDB Forecast Data Pipeline CodeCommit 特にCloud9はよくハンズオンに使うインタフェースに使うのに便利だったので惜しまれる声をよく耳にしました。 (これは関係

    僕たちはサービスの終わりとどう付き合っていくのか
    akuwano
    akuwano 2024/08/02
    書きマスタ
  • みんなに紹介するー!新しく転校してきた Databricks さんだ!

    いや、もうタイトルは迷子だよ。 こんにちは!みなさんお元気ですか! 職業柄Databricksによく触るわけな… いや、もうタイトルは迷子だよ。 こんにちは!みなさんお元気ですか! 職業柄Databricksによく触るわけなんですけど(そらそうだ)正直、メチャクチャDatabricks好きなわけです、良いと思ったのでDatabricksに入ったわけだし。 だけどまだまだDatabricksについて知らない方もたくさんいらっしゃるんですよね、なので今日はDatabricksって何がいいのか、とかそれは誤解かもしれないなぁ、とかそういうのを徒然なるままに書いていくよ! 何がいいんだろうね? まずいいところを思いつく所から書いていきたいと思いますね! まずは何を言ってもデータレイクハウスによるクラウドストレージを使いつつトランザクションや、バージョン管理を行えるアーキテクチャを最初からとっている

    みんなに紹介するー!新しく転校してきた Databricks さんだ!
    akuwano
    akuwano 2024/07/14
    書きました!!
  • RDB?NoSQL?NewSQL?ってどれがいいの?

    お疲れ様です、桑野です。 なんとなく思ったことをつれづれなるままに書くしりーず。 これで何かを主張したい、決めたいわけではなくて思考実験です(汗 この議論結構繰り返すんですよ Xとかで定期的にこれやる、「RDBがデータもきれいに持てるし、何よりSQL使えるのがいいよね」「いやいや、用途ごとにユースケースにあったNoSQLを使えるのが良いよやっぱ」「NewSQLはNoSQLのスケーラビリティと、使い慣れたSQLも使えるので最強だ」とか。そういう奴。 悲しいけどそれ戦争なのよね?(違 言ってることはみんな正しい まずいいたいのは、みんな間違ってるわけじゃないってこと。なぜかというとみんなバックグラウンドが違っていてそのバックグラウンドで何かを選択するしかないわけだし。 でも戦って決めないといけないわけじゃない Xとかだとなんか舌戦になってて、戦うべきことなのだろうか?って思う。(Xの性な気はす

    RDB?NoSQL?NewSQL?ってどれがいいの?
    akuwano
    akuwano 2024/05/19
    書きました😄
  • 本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー

    おはようございます。やっぱヒノキっぽいんだよなぁ、、、(花粉 ということで鼻ズルズルマンです。 Dropboxはオンプレ回帰した? 最近良く聞きます、Dropboxはオンプレ回帰した、クラウドはコストが高いから最近オンプレに戻る企業が増えている、とか。 一つ一つの記事やツイートをイチイチピックアップはしないですが、とにかくよく聞くわけです。 でも思うんですよね、「そんなわけないのでは?」だってよく考えてみてください、テックが強い組織であればあるほど適材適所でクラウドを使ったほうがいい所も見えてきます。 現代のアーキテクチャでクラウドがハマる部分が全くないシステムはありません。一時的なリソース確保と開放、管理のいらないインフラ、様々なサービス。これを利用しないなんてことあるのかな?ってことなわけです。無理にオンプレのみで頑張るのが論理的か?という話かもしれません Dropboxがオンプレに移

    本当にDropboxはオンプレ回帰なのだろうか? - 256bitの殺人メニュー
    akuwano
    akuwano 2024/04/21
    書きました!
  • 僕の理解するデータレイクハウスとはなにか? - 256bitの殺人メニュー

    こちらの記事はDatabricks Advent Calendar 2023の23日目の記事です! 何年ぶりにかくねん、、、8年ぶり!!!!!???? 嘘やろ、、、、😨 という衝撃はおいておいて、8年ぶりともなると色々変わっているわけで、一番大きいのは僕は会社をAmazon Web Services JapanからDatabricks Japanに変わりました。 転職の理由というのはポジティブな理由もネガティブな理由もあると思いますが、そういう細かいことはおいておいて(おくんかい)決め手になったのはこれです。 「Databricksというサービスに技術的なアドバンテージを感じたから」 SAとしていえばこういえるかもしれません、 「SAとして働いてる自分を想像して、Databricksをお客さまにオススメするときのイメージが付いたから」 でもあります。 とにもかくにもDatabricksと

    僕の理解するデータレイクハウスとはなにか? - 256bitの殺人メニュー
    akuwano
    akuwano 2023/12/23
    書きました😊
  • Udemy初夏のビッグセール! 最新トレンドのChatGPTから定番トピックまで、おすすめ講座を紹介 - はてなニュース

    文章生成AI画像生成AI2022年に登場すると、たちまち世界中で話題が沸騰しました。中でもChatGPTは、実際に記事を書かせる出版社が現れる、人類社会への危機だとして使用禁止を訴える人々が出るなど、さまざまな熱狂と混乱を引き起こしています。 その技術は非常に便利で有効なものであり、今後急速に広がっていくことは間違いありません。ならば、AIについて学び、積極的に利用し、共存するための知識を身につける私たちの姿勢こそが、これからの時代に必要なはずです。 オンライン学習プラットフォーム「Udemy」には、既にそうした新しい技術やサービスに関するノウハウが詰まった各種講座がそろっています。最新のAIで何ができるのか、今すぐその手で実際に学び始めましょう。 Udemyでは、2023年5月16日(火)~2023年5月24日(水)の間、初夏のビッグセールを開催します! セールの対象となる講座は1,

    Udemy初夏のビッグセール! 最新トレンドのChatGPTから定番トピックまで、おすすめ講座を紹介 - はてなニュース
    akuwano
    akuwano 2023/05/20
  • 俺んとこ 来ないか?『俺たちの本当にやりたかったDevDay』を開催することにした - Sweet Escape

    というわけでやります。 connpass.com まだ詳細は決まってないけど良かったら来てね。 今回はこのイベントにまつわる話です。ダラダラと書いたので長いです。 はじめに 2023年の6月21日から22日にAWSの開発者向けイベントであるAWS DevDayが開催される。このAWS DevDayではCall for Proposal(CFP)という形でセッションが公募されている。 細かいルールとかはこちらを見ていただくとして、採択されるかどうかには一般の人からのリアクションの数も参考にするという。 さて、転職してからはめっぽう外部で登壇するってことは減っている。 これは今の僕は有限である時間の割り当て先としてそういった活動ではなくプロダクト開発に直接的に関係することにあてたいからだ。 とはいいつつもたまにはそういうこともして世の中にアピールしておかないとなってことで僕もCFPを出した。以

    俺んとこ 来ないか?『俺たちの本当にやりたかったDevDay』を開催することにした - Sweet Escape
    akuwano
    akuwano 2023/04/27
  • 「それ、どこに出しても恥ずかしくないTerraformコードになってるか?」 / Terraform AWS Best Practices

    2021年9月30日AWS Dev Day Online Japanの登壇資料 動画はこちら: https://www.youtube.com/watch?v=0IQ4IScqQws

    「それ、どこに出しても恥ずかしくないTerraformコードになってるか?」 / Terraform AWS Best Practices
    akuwano
    akuwano 2021/10/12
  • これがCassandra

    macOSの仮想化技術について ~Virtualization-rs Rust bindings for virtualization.framework ~

    これがCassandra
    akuwano
    akuwano 2021/10/10
  • 質の高い技術文書を書く方法 - As a Futurist...

    大学や大学院で論文の書き方を鍛え上げた人たちには遠く遠く及ばないが、僕の様なはぐれもの1でも最近は Amazon 社内で文書の質が高いと評価してもらえるまでにはなった。Software Engineer として、コードでのアウトプットはもちろん大事だけど、文書のアウトプット(およびそれによって得られた実際のアウトプット)は同じだけ重要である2。今回は自分が最近どういうところに気をつけて技術文書を書いているのか、ということについて数年後の自分が忘れてないことを確かめられる様にまとめておく。 そもそも文書とは? 英語だと document。ここで指す(技術)文書とは、人間が読む文体で書かれた技術に関連する情報、といったものだ。具体的に言うと以下の様なものを想定している: 新しいプロジェクトの骨子を説明する資料 会議の叩き台となる 1 枚ペラ 番環境に変更を加えるにあたっての包括的な情報や具体

    質の高い技術文書を書く方法 - As a Futurist...
    akuwano
    akuwano 2021/01/28
  • ぐるなびにあった2億ファイルをAWSにデータ移行しました - ぐるなびをちょっと良くするエンジニアブログ

    こんにちは!店舗開発チームの滝口です。 ぐるなびでは、認証・認可のプラットフォーム開発に携わったのち、現在はレストランデータの運用をしつつ、ぐるなび掲載ページや、店舗向け管理画面の開発をしています。 はじめに このたび、オンプレで稼働していた「非構造化データストレージ(通称:UDS)」をAWSに移行しました。 UDS は NAS に保存されているファイルを REST API を介して CRUD 操作できるシステムで、ぐるなびで掲載している店舗の画像や CSSJavascript 等の保存に利用されています。 この記事では NAS に保存されたファイルをどのようにして AWS に移行したのか、その移行方式や AWS アーキテクチャを紹介します。 目次 はじめに 目次 UDS 基情報 今回使った主な AWS AWS を活用して実現したいこと AWS 導入におけるアーキテクチャ AWS

    ぐるなびにあった2億ファイルをAWSにデータ移行しました - ぐるなびをちょっと良くするエンジニアブログ
    akuwano
    akuwano 2020/07/15
  • 面白法人カヤックにおけるビルディングブロックとしてのAmazon ECSの活用とサービス間連携の工夫 | Amazon Web Services

    Amazon Web Services ブログ 面白法人カヤックにおけるビルディングブロックとしてのAmazon ECSの活用とサービス間連携の工夫 開発者がアプリケーションを開発・パッケージング・デプロイするための強力な手法として、コンテナ技術はその代表的な1つに挙げられます。そしてそのようなコンテナ技術における様々なユースケースをサポートすべく、AWS では Amazon Elastic Container Service (Amazon ECS) に代表される多様なサービスを提供しています。 Amazon ECS はコンテナの運用管理を容易にするマネージドサービスです。他の AWS サービスとの組み合わせにより多様なワークロードをサポートするシステムを素早く構築可能です。一例として、 AWS Secrets Manager を利用した秘匿情報の連携が挙げられます。これにより、IDやパ

    面白法人カヤックにおけるビルディングブロックとしてのAmazon ECSの活用とサービス間連携の工夫 | Amazon Web Services
    akuwano
    akuwano 2020/02/28
  • Unpublished Event

    akuwano
    akuwano 2020/02/03
    CDK Meetup 第二回開催します! DMM さんなどCDKをプロダクトで使ってらっしゃるお客さまのお話がきけますー!