[go: up one dir, main page]

タグ

searchに関するmakotokagaのブックマーク (3)

  • 米Yahoo!、「自分のサーチエンジンが作れる」検索APIを公開

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 画像検索における「初音ミク」問題の正解となる答え(最終版)

    3. インデックス対象の時期特定の理由 「初音ミク」という言葉自体、発売日前にほとんど書かれるものではなかった為、8/31(発売日)前に検索対象化できる形で言葉ときちんとセットで提示されていた画像がそうそうあったとは思えません (ブログ検索結果の期間をづらしてそう判断しました: 検索結果/期限が過ぎると見えなくなるでしょうが)。 ちなみに、↑の検索結果の一番初めのブログ記事(07/12 メディアファージ事業部 ブログ)を書いた人は、「初音ミク」の中の人の一人のようなので、そこ(07/12)からが理論的には「初音ミク」を検索対象にするチャンスが検索エンジンに与えられ始めた時期になります。 ただ、仮にその「内部情報出し」後の時期をクロールしていても、あくまで激烈にブレークしたのはリリース後のニコニコの展開があったからなので、検索エンジンが「初音ミク」という形で認識できる画像はなかった可能性は高

  • 1