ここ数か月で、はてなブログやnoteが生成AIによるクロール (巡回) を拒否する設定項目を追加したけど、この設定、いろいろなブログサービスにひろまってほしいところ。はてなブログでもnoteでもないけど、生成AIは拒否したいという人はたくさんいるとおもうのだが。
※ WordPress (有料プランか自前サーバーで運営している場合) やBloggerならクローラー設定を1から自分で入力することが可能。この記事の最後も参照。全部自分でやりたいという人はだいたいこのどっちかを使用しているだろうから、AI学習を許可するかどうかは検討してほしい。
Xなどのミニブログではよくプロフィールページに「AI学習禁止」と書いている人もおおいけど、人間とおなじ感情をもたない生成AIにとってはこの文言をクロールしてしまうため逆効果になってしまう。どうしてもクロールしてほしくないなら非公開アカウントの設定検討を (そのかわり検索でも表示されなくなるが) 。
イラストを投稿するウェブサイトについては、有名どころは設定項目がないもののデフォルトで生成AIによるクロールが拒否されているところがおおいので、マイナーなところでなければだいたい大丈夫だろう。ただしはてなフォトライフはクロール拒否になっていないので、公開フォルダーにアップロードする場合は注意が必要 (はてなブログからのアップロードだとデフォルトが非公開フォルダーになるのでブログの設定どおりになる) 。
生成AIとは関係ないが、興味深い設定になっているウェブサイトがいくつかあった。
https://www.colorslive.com/robots.txt
Nintendo Switchからのみイラストを投稿できるウェブサイトなのだが、デフォルトを全拒否に設定してあり、GoogleやBing (msnbot = 現在のbingbot) といった主要検索エンジンに対してのみ個別に許可設定してある。なるほどとおもった。なおAppleはふくまれていないようなので、Spotlight検索ではヒットしない可能性がたかい (トップページはヒットする) 。
Disallow: *
デフォルトの検索エンジンをBingに設定している身としてはとんでもない表記をみつけてしまった...。絶望。
Copilotに使用されたくないのだろうが、このせいでBingで検索してもまとめサイトはヒットするのに元の投稿がヒットしないという状態に...。気のせいだとおもっていたけれど、設定に従った正常な動作だったのか...。
Xになってから、はてなブックマークでタイトルが表示されずURL表示のままだったり、JavaScriptをオフにしているとそもそもアクセスできなかったりなど (以前はJSオフでガラケー版が表示されていたのだが) 、いろいろ締め出しているのがな...。ログインしないと公式アカウント以外ユーザーのプロフィールは一部表示できないし (投稿すら表示できないのは一時的な緊急処置だったため現在はなくなった) 。
逆に検索エンジンからの流入をすこし (まとめられない限りは1割ほど) でもへらしたいならXはおすすめの選択肢に (なお非公開アカウントにしないかぎり0にはならないので家族や友達にだけ公開したい場合は注意) ...。
最後に、あらゆるクローラーを紹介しているウェブサイトを2つ。
https://chrisleverseo.com/user-agents/
SEOコンサルタントの個人運営っぽい。114のクローラーがまとめられている (2025年9月現在) 。英語だけだが、各クローラーについての説明がこまかく掲載されているので、好きな人は読んでいるだけでもおもしろいかも。SEO対策の補助としてつかえる各種機能も無料で公開されているので、AIクロールを拒否するrobots.txtをサクッと作成したいならここでAIカテゴリーの項目に全部チェックをいれて拒否欄 (赤色) に「/」1文字を入力、生成されたデータをダウンロードしてサーバーにアップロードすればよい (Bloggerならコピーして設定画面にペースト) 。
https://datadome.co/datadome-intel/
上はSEO対策からうまれたページなのだが、こっちはウェブサイトのセキュリティ対策 (ロボットによる過剰アクセスからの保護) を目的にうまれたページ。そのため、上の114クローラーの5倍以上ある586クローラー (2025年9月現在) の情報に加え、アクセス制限を突破しようとしてくる各種ツールなどについての情報もある。おそらく公開データベースのなかでは世界最大規模。
使う側としてはクロール拒否なんてメリットまったくないんだがなんで広まってほしいの? コンテンツ作る側だっていうんなら、まあそうよね、広告見せられないからねぇ
学術ブログを書いている身としては、自分の書いた情報が無になるのも困るので、AIクローラーには巡回してほしい。 欲を言えば「生成AIの回答を鵜呑みにせずに、レファレンスされてい...
増田見てて思ったのだが、SEOで食ってる人たちにとってAIクロールって敵なのでは
生意気にも… https://anond.hatelabo.jp/robots.txt ユーザーエージェント: bingbot クロール遅延: 10 ユーザーエージェント: CCBot 許可しない: / ユーザーエージェント: ChatGPT-User 許可しない: / ユ...
マジか! 俺がAIに増田用の文を作らせる時に 「はてな匿名ダイアリーの口調で書いて」 って言ってるのに、クロールされないんじゃ最新の増田に適応できないじゃん! 拒否せずにクロ...
増田なんかクロールしてたらやべーAIになるからしゃーない…😟
これ、たぶんはてなブログの生成AIクロール拒否にあわせて追加されたのかな。 でも拒否される生成AIがはてブロとすこし異なるのが興味深いところ。
増田って生成AIのクロールを拒否してるみたいなんだよね 増田も生成AIのクロールを拒否してるよね https://anond.hatelabo.jp/20250915230224
はてなブログの設定、知らなかった。ありがとう。
礼には及ばんでござる
apiアクセス用とか、ブクマ数、ブクマ数画像のクロールは拒否してるけど、生成AIのクロールに関しては特に拒んで無い感じ? https://b.hatena.ne.jp/robots.txt User-agent: * Disallow: /api/entry/http Disal...
いやあ、僕が作ったクローラーはgooglebotって名前なんすよね。いや、bingbotだったかな? え?何かに似てる? 気のせいだろう。言いがかりはやめてくれめんす。 お、allow googlebotですか。...
著作権でさえ、それが強過ぎると文化の発展などを阻害するために社会にとって害悪となるなどの理由で他者の利用の制限に年数限定がつけられているのに、サイトのクロール禁止って...
robots.txt って自己満足の域を出ない 書いた内容が機能してるかどうかチェックしてんのかよ・・・
robots.txtってさ、コイツラは来ないでねみたいなただの主張みたいなもんで、無視してUA偽装なんていくらでもできるわな
まあそこを無視するのは無礼だしイリーガル寄りというコンセンサスはあるよ
それって素晴らしいことじゃないか? AIのクロールを拒否すべきではないよ anond:20250915142416
うるせえ無料で学習すんな金払え 学校だって何だって教えてもらうのには対価が必要なんだよ 金を 払え
無料の見世物しておいて見るなとはこれいかに
残してもらってるし こちらが金払うべきだよね? 納骨堂だって結構金払うよ
海に散骨すれば海と同化できる、みたいな精神論に思えた… クロールしたいならお金を払って欲しいって感じだな
残してもらえるのだからお金を払えって他のトラバ読めないか? 墓も納骨堂もただじゃねえんだぞ
残らねえだろ、どうやって残ってるって確認するんだい?
全てはAIに記憶され我々は永遠になるのだ
ちょっと面白い。覚えているのではなく記録にしかのこらないわけかあ。 AIは書いた人を知ってるわけじゃないから、どうとでもなりえるっていう。それとも、そのうち正体暴かれるの...
共産主義者がマルクスAIを作るわけがないだろ
わかる これ狙いで俺はAI学習にばりばり使われているであろうpixivで創作物をアップロードしている 俺は集合知の一欠片になりたい
意識が永遠に生き続けたら拷問よ。私はあなた達を見たいだけ。
じゃあ次に必要なのはクロール拒否した奴の設定を貫通してクロールするのと クロール拒否してるのを中心にクロールするように設定された嫌がらせ用設定の発明だね 「知る権利」はAI...
昔ながらの死体画像でカウンターしていきたいよね
拒否代で小銭稼ごうとするサービスの動向に注目だな ポイ活とかいう謎のワードが浸透するぐらいなんだからいける
昔、DNTリクエストヘッダーってのがあったけど無視されて終わった
Raindropでも本文取得できないから生成AIは関係ないような気がする