[B! 評価] sh19910711のブックマーク

Item2vecを用いた商品レコメンド精度改善の試み | メルカリエンジニアリング

こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。普段はメルカリのホーム画面などに表示されるレコメンドパーツの改善を担当しています。今回はメルカリの莫大なユーザーログデータと、出品された商品に付与されているメタデータ(詳細後述)を活用したレコメンドロジック改善事例をご紹介します。商品メタデータについてメルカリではユーザーの商品検索体験を向上させるため、出品された商品に対して様々なメタデータを付与しています。ファッションアイテムだと色や生地感、家電だと型番といった、主として商品の属性をあらわす様々なデータをメタデータと呼称しています。今回、私は本やマンガに紐づいているメタデータ (以下、タイトルデータと記載) に着目しました。メルカリアプリ内では、本やマンガに商品が属するシリーズを表現するメタデータが付与されています。例えば「キング

sh19910711 2025/10/25

2022 / "ログとタイトルデータを突き合わせつつ、Item2Vecというレコメンドの手法を利用することでユーザーの興味にあった本やマンガのレコメンド / 膨大なログが日々蓄積されるサービスとは非常に相性がいい"

リンク

ウォンテッドリーにおける推薦システムのオフライン評価の仕組み

第35回 MLOps 勉強会：https://mlops.connpass.com/event/297976/ ウォンテッドリーでは、多様なユーザーと会社の理想的なマッチングを実現するために、会社訪問アプリ「Wantedly Visit」の推薦システム開発に力を入れています。今回の発表では、推薦チ…

sh19910711 2025/10/25

2023 / "サービスで閲覧する募集の並び順は、推薦モデルの結果をそのまま返すのではなく、その上に何かしらの後処理を行った結果を返している / 実際にユーザーが見るものと異なる推薦結果を評価してしまっている"

リンク

UI/UXが無意識に検索行動に与える影響について

検索技術勉強会「Search Engineering Tech Talk #1」でお話した内容です。株式会社メルカリ Tairo Moriyama（森山大朗） https://twitter.com/tairo

sh19910711 2025/10/25

2019 / "検索しているのは、買いたい人だけじゃないらしい / NDCGでメルカリ検索結果の良し悪しを決めると順位でスコアをDiscountし過ぎてしまう"

リンク

エージェントの継続的改善のためのメトリクス再考

生成 AI オブザーバビリティのはじめの一歩での登壇資料です https://jaguer-o11y-sre.connpass.com/event/364247/

sh19910711 2025/10/18

"理想的な入出力を小規模に定め、徐々に拡大していきながら、解決すべき課題やサポートすべきユースケースについて理解を深める / 未知のユースケースの検出"

リンク

位置インデックス情報を操作して LLM に長文と錯覚させたらどうなるか？ - ABEJA Tech Blog

ABEJAでデータサイエンティストをしている藤原です。今回も LLM のロングコンテキスト言語処理（Long-context language modeling; LCLM）に関連するブログになります。前回のブログはこちらです。様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析 - ABEJA Tech Blog 近年の LLM ではオープン・クローズド問わずより長大なコンテキストを正確に扱えるモデルが増えてきています。このようにロングコンテキストLLMが増えてくると、次はどのようにしてモデルのLCLM性能をどう評価すべきかが課題になります。しかしながら、たとえばモデルの生成結果を実際に自分で読んで確かめようと思っても、128kトークンもある入出力のテキストに目を通すのはかなり時間がかかってしまいます。そこで今回は LCLM 評

sh19910711 2025/10/05

"LCLM 評価: 長大な入力を正確に処理する能力 + 長大な出力を一貫して生成する能力 / PoSE: 位置インデックスの値のリストにスキップを加えて「遠い位置関係を擬似的に体験させる」ことを目的"

リンク

対話要約研究の最前線前編〜データセットと評価指標の紹介〜 - RevComm Tech Blog

本記事の著者はResearch Engineerの大野です。最近は、ホロウナイトというゲームをやっていましたが、もう少しでクリアというところで敵が倒せず諦めました。はじめに RevCommは電話営業や顧客応対の通話を支援するAI搭載型のIP電話「MiiTel」を提供しています。この製品は、通話の文字起こしを保存する機能を備えており、RevCommは数千時間の対話データに接しています。この対話データに対する支援の1つとして対話要約が考えられます。対話要約とは、入力された対話から、その主要な概念を含むより短い文書（要約）を自動的に作成することです。ユーザは、要約を作成する手間が省けたり、あるいは要約を読むことで対話の概要をより早く理解できるなどの利点があります。これから前編と後編の2回に分けて、対話要約に関する記事を書きます。今回の記事では、はじめにいくつかの対話要約のデータセットを

sh19910711 2025/10/05

2023 / "BLEU: 共通する単語n-gramの数に着目し、類似度を計算 + 単語だけでなく、連続する2単語・3単語・4単語に着目 / Huggingface社のライブラリであるevaluateに実装"

リンク

プロンプトのデプロイ後の品質管理：LLM運用を便利にするLangfuseのトレース機能

LLMの出力結果を本番デプロイした後に把握できてますか？ LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯誤したプロンプトを勢いでデプロイしてしまうことも少なくないのではないでしょうか。それでも、ユーザーの想定外の入力などにも一定レベルの出力ができているかは確認しておきたいですよね。そんなときにLangfuseがとても便利だったので、今回は運用のイメージと共にコアとなるトレース機能を紹介します。 Langfuseの運用イメージサービス上で実施された出力をトレースとして確認。テストケースとして良さそうサンプルがあればそれを収集。実験を実行してLLM-as-a-Jdugeで評価。改善サイクルを回すといったフロー

sh19910711 2025/09/20

"監視したい関数にデコレーターをつけて、LnagChainであればRunnableにLangfuseのCallbackを追加 / トレースごとにURLがあるのでサッと関係者に出力結果のURLを共有して報告できるのも便利"

リンク

ベースライン的なレコメンドモデルを作るのに RecTools が便利そう

レコメンド用のツールについてレコメンド界隈はみんなが使っている定番のライブラリというものがないように思う。例えば、自然言語処理では（色々と文句を言われることもあるが）Hugging Face が標準的に使われるようになっている。それに比べると、レコメンドはとりあえずこれ使っておけ、と言えるものが思い浮かばない。ロジック/モデル部分中心のものであれば implicit や RecBole などポピュラーなライブラリはいくつかあるが、それに与えるデータの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがちな気がしている。大規模サービスを運営していて KPI を0.1%でも向上させることに意味があるようなテック企業を除けば、一般的な協調フィルタリングや評価指標を実装すればまずは十分だろうし、そうなると中核となるデータの処理方法も概ね共通してくる。

sh19910711 2025/09/20

"データの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがち / RecTools: レコメンドシステムを構築するプロセス全体をカバーするようなライブラリ"

リンク

Phi-4 QLoRAファインチューニングプロジェクト：「的確性」を軸としたLLM評価手法の検討

はじめにチャットボット開発に取り組む中で、一つの課題を感じました。高性能かつ軽量なLLMであるMicrosoft Phi-4が生成する回答は確かに正確で丁寧なのですが、時として必要以上に詳しく、冗長になってしまうのです。ただし、単純に出力を短くすれば良いというわけではありません。重要なキーワードや文脈を失い、かえって誤解や不正確な情報を提供してしまうリスクがあります。私が目指していたのは、「丁寧さを保ちながら、簡潔で的確な回答を実現する」という、一見矛盾するような改善でした。この取り組みを進める過程で、従来のLLM評価手法の課題に直面し、LLM-as-a-Judgeという手法を参考に簡単な評価システムを構築してみました。今回は、その過程で学んだことを共有させていただきたいと思います。第1章：ファインチューニングへの挑戦 1.1 問題の整理実際にPhi-4をチャットボットに組み込ん

sh19910711 2025/09/16

"Phi-4が生成する回答は確かに正確で丁寧なのですが、時として必要以上に詳しく、冗長になってしまう / 質問の本質を理解し、簡潔でありながら必要十分な情報を正確かつ明快に提供する能力"

リンク

Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering

自己紹介初めまして。京都大学工学部情報学科４回生の羽路悠斗です。8/16~9/9にAIスペシャリストコースの就業型インターンシップに参加しておりました。普段は、テーブルデータの分析・機械学習エンジニアのアルバイトと、深層学習のプロジェクト型アルバイトをしています。Kaggleでは銀メダル２枚のKaggle Expert で、金メダルを獲れるよう精進しています。卒業研究では、表情認識への画像生成の活用に取り組む予定です。本記事では、インターンシップで取り組んだ、ライブ配信アプリ「Pococha」の推薦の工夫について、執筆したいと思います。取り組んだテーマ本インターンシップで取り組んだテーマは、「ライブ配信アプリPocochaにおけるロングテールプラットフォームを実現するための推薦モデルの開発」です。 Pocochaのプロダクト設計においては、「ロングテール」なサービスを作ることを大

sh19910711 2025/09/16

2022 / "ジニ係数: 元々は所得の不平等さを測る指標 + 配信者の出現回数を所得とみなして適用 + 小さいほど、より平等を表す"

リンク

ベイジアンABテストのためにARPUのモデリングに挑戦してみた - DMM inside

｜DMM inside

sh19910711 2025/09/15

2022 / "指数分布は再生性を持ち、指数分布の和はガンマ分布に従い / 売上の和、購買ユーザー数といった集計された値のみを用いてモデリングすることができ / 頻度主義のABテストの方が楽"

リンク

効果検証の事前設計と結果の管理について - Timee Product Team Blog

こんにちは、タイミーのデータアナリティクス部でデータアナリストをしている夏目です。普段は主にタイミーのプロダクトに関する分析業務に従事しています。本日はタイミーにおいて、効果検証設計を施策前に正しく行える仕組みづくりと効果検証設計・結果を一元的に管理できるデータベースについてご紹介します。解決したかった課題タイミーでは、プロダクト、マーケティング、営業組織などで様々な施策が行われています。しかしながら、それらの施策の結果を判断する効果検証には課題も多く存在しています。今回は以下の２つの課題にフォーカスしてブログを書きます。効果検証設計が事前になされていない施策があった効果検証設計や検証結果がバラバラに保管され、会社として知見が溜まっていなかったまず１つ目の「効果検証設計が事前になされていない施策があった」に関してです。タイミーではアナリストの数も限られており、事前に全ての施策に

sh19910711 2025/09/12

2024 / "効果検証設計・結果を記入するテンプレートを作成 / Scenarioを事前に書くことによって、どのようなMetricを見るべきかが明らかになり、またそれらのMetricを計測するための手段が逆算される"

リンク

DeepEval (LLM-as-a-Judge) を PoC してみた & 所感

はじめに生成 AI を活用した機能の開発では、生成 AI が生成するアウトプットの質を維持・改善するためのタスクに携わることがあります。たとえば、システム内で AI に与える指示（プロンプト）をチューニングしたり、タスクを実行する AI のモデルをより良いものに変更するといったタスクです。一見シンプルに聞こえるタスクですが、実際の作業には想像以上の手間がかかります（本当に）。チューニングやモデル変更によって回答の質が下がるとユーザーに影響が出てしまうため、本当に質が向上しているのか、反対に質が低下している恐れはないのか、は慎重に検証する必要がありますが、この検証を人間が行うと評価に時間がかかったり、主観によるばらつきが発生したりする課題があります。そこで注目されているのが「LLM-as-a-Judge」という手法で、人の代わりに LLM が LLM の評価をするというアプローチで

sh19910711 2025/09/12

"組み込みの評価指標の提供、任意の評価指標の作成もサポート"

リンク

予測の不確実性を定量化できるConformal Predictionをサクッと解説する - Timee Product Team Blog

こんにちは、タイミーでデータサイエンティストとして働いている小栗です。今回は、機械学習モデルの予測の不確実性を定量化する手法であるConformal Predictionについてご紹介します。 Conformal Predictionとは機械学習モデルの予測値がどの程度信頼できるか知りたい場面は多いと思います。医療診断のように誤った予測が重大な問題につながる状況でモデルを使用する場合、予測の不確実性を定量化してそれを元に判断できると嬉しいです。 Conformal Prediction（以下CP）はUncertainty Quantification（不確実性の定量化。以下UQ）のパラダイムの1つであり、モデルの予測値の集合/区間を統計的に厳密に作成します。 Conformal Predictionで生成される予測集合の例。出典: Angelopoulos, Bates (2022)

sh19910711 2025/09/07

2024 / "CP: 予測集合の中に真の結果を含むことをユーザーが指定したエラー率で保証できる / 1990年代にすでに提唱されていましたが、特にここ数年で機械学習コミュニティで人気が出てきた"

リンク

単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか？~

不確実性の定量化(Uncertainty Quantification)の説明と、その手法の中でも単一の深層学習モデルを使った手法について紹介します。

sh19910711 2025/09/07

"DUQ: 入力の特徴ベクトルとクラスのセントロイドとの距離に基づいて不確実性を推定"

リンク

「相関係数」ってなんですか？ -意味と利点と欠点をわかりやすく- - Data Science by R and Python

「相関」って何．統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか？教科書（という名のWikipedia）にはこういう風に書かれています。相関係数（そうかんけいすう、英: correlation coefficient）とは、2 つの確率変数の間の相関（類似性の度合い）を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。ここでは、相関ではなく、相関係数という言葉を用いていますね。「相関」というのは、2つ以上のもとがあるときに、それら

sh19910711 2025/09/06

2014 / "「ピアソン相関」の考え方は「線形関係」を発見 / 「より大きい」と「より小さい」の表現しかありません。その大きさについて議論をすることはできないことに注意"

リンク

「カテゴリカル変数の相関係数」をご存知ですか？

統計学には様々な分析手法がありますが、変数間の相関関係の強さを定量的に測るための「相関係数（ピアソンの積率相関係数）」は非常に有名でよく使われています。通常、連続変数（量的変数）間の相関関係を定量評価するために使われる相関係数ですが、カテゴリカル変数（質的変数）に対して使える相関係数も存在します。私が所属する株式会社 GA techno logies ではマンションの設備の充実度のスコアリングといったことも行っており、マンションの設備データは「宅配ボックスの有無」「インターネット対応かどうか」「浴室のタイプ（"3 点ユニットバス", "2 点ユニットバス", "独立洗面台"）」など様々なカテゴリカル変数が含まれています。本記事でご紹介する「カテゴリカル変数の相関係数」は私自身も業務で使用しており、個人的に興味深い手法だと思うのでご紹介します。（※なおタイトルでは「カテゴリカル変数」と書

sh19910711 2025/09/06

"相関の希薄化: 相関の強さを過小評価する方向にバイアスがある / データの測定誤差よる相関の希薄化の問題を最初に発見したのは Spearman (1904)"

リンク

LLMの性能を測る指標をベンチマーク結果から取得する方法について、論文を読みました。 - CCCMKホールディングス TECH LABの Tech Blog

こんにちは、CCCMKホールディングス TECH LABの三浦です。昨年参加したAI・機械学習カンファレンス"NeurIPS2024"のポスターセッションで発表されていた論文の中で、面白いアプローチだな、と印象に残っている論文がいくつかあります。そのうちの1つがこちらの論文です。 Title: Observational Scaling Laws and the Predictability of Language Model Performance Author: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto Submit: 17 May 2024 (v1), last revised 1 Oct 2024 arXiv: https://arxiv.org/abs/2405.10938 今回の記事では、最初にこの論文で紹介さ

sh19910711 2025/09/03

"モデルxベンチマークの行列に対し、主成分分析(PCA)を実行 / 第一主成分は全てのベンチマークに関係するLLMの一般能力、第二主成分は推論、第三主成分はプログラミング能力に関連"

リンク

検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム - Ahogrammer

Risk-Reward Trade-offs in Rank Fusionを読んでいて、検索システムの結果を統合するために使える教師なしのランク融合アルゴリズムについて書きたくなったのでまとめました。最近では、RAGの性能を改善するためにハイブリッド検索が使われることがありますが、その内部で各検索システムの結果を統合するために使うことができます。実際に計算する方法と合わせて紹介します。記事の構成は以下のとおりです。最初に、検索の文脈からランク融合アルゴリズムについて例を交えて紹介した後、実際に計算する方法を紹介します。アルゴリズム CombSUM CombMNZ Borda RRF 実際に計算したいときは？参考資料アルゴリズム本記事で紹介するアルゴリズムはスコアベースと順位ベースの2つに分けられます。スコアベースのアルゴリズムは、検索システムが出力するスコアを利用するのが特徴的で