[go: up one dir, main page]

タグ

前処理に関するsh19910711のブックマーク (4)

  • Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita

    はじめに AWS UpdateでAmazon SageMaker Data Wranglerに画像の前処理機能が追加されました。 Data WranglerはAmazon SageMaker Studioの機能の一つで、データの前処理が行えるサービスです。 従来はファイルタイプとしてcsv, parquet, json, jsonl, orcに対応していたようですが、「image」が追加されました。 利用イメージは以下のようになります。 やってみる 「S3からインポート → 重複削除 → ノイズ付与 → S3にエクスポート」という流れを試してみます。 インポートするS3バケット内に同じ画像データを2枚用意しました。 この画像に処理を行い、エクスポートするまでを試してみます。 データインポート データソースをS3としてインポートします。File typeは「image」を選択しました。 イン

    Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita
    sh19910711
    sh19910711 2024/04/23
    "Data Wrangler: SageMaker Studioの機能の一つで、データの前処理が行えるサービス / 組み込みの変換も用意 + 今回は重複削除とノイズ付与 / カスタムで作成したスクリプトをステップに追加することもできる" 2023
  • tidymodelsを使った機械学習 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    tidymodelsを使った機械学習 - Qiita
    sh19910711
    sh19910711 2024/04/20
    "tidymodels: 機械学習もtidyに行いたい人向け + パッケージごとに異なる変数を使っているのを統合可能 / 何を予測させるかの指示と、正規化などの前処理をrecipeに指定 / min_nは後でハイパラ探索するのでtune()とする" 2023
  • 特徴量選択の3つの基本戦略 - Qiita

    はじめに Pythonではじめる機械学習にて、自動特徴量選択の手法についてまとめられていた。 有用な特徴量だけを残して残りを捨てて、特徴量の数を減らすことで、汎化性能を向上することができる。 その基的な戦略が下記の3つ。 単変量統計 個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する。 個々の特徴量を個別に考慮する。そのため、他の特徴量と組み合わさって意味を持つような特徴量は捨てられる。 特徴量が多すぎてモデルを作ることができない場合や、多くの特徴量が全く関係ないと思われるような場合には、この手法が有効。 sklearn では、 SelectPercentile を用いる。 モデルベース特徴量選択 教師あり学習モデルを1つ用いてここの特徴量の重要性を判断し、重要なものだけを残す手法。 特徴量選択に用いる教師あり学習モデルと最終的に使う教師あり学習モデルと同じでなく

    特徴量選択の3つの基本戦略 - Qiita
    sh19910711
    sh19910711 2024/04/17
    "SelectPercentile: 他の特徴量と組み合わさって意味を持つような特徴量は捨てられる / SelectFromModel: RandomForestで特徴量の重要度を元に選択しロジスティック回帰 / RFE: 基準が満たされるところまで1つずつ特徴量を加えていく" 2017
  • WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”

    ARG 第7回Webインテリジェンスとインタラクション研究会 企画セッション2「不揃いなデータ達の分析を行う前のTips」

    WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
  • 1