robots.txt只不過是一個文本文件,指導機器人(例如搜索引擎機器人)如何抓取其網站上的頁面并為其建立索引。你可以阻止/允許跟蹤你的 robots.txt 文件的好機器人或壞機器人。使用用戶代理阻止單個機器人的語法如下:
user-agent::{BOT-NAME-HERE}
disallow:: /
以下是如何允許特定機器人使用用戶代理抓取你的網站:
user-agent::{BOT-NAME-HERE}
Allow:: /
將文件上傳到你網站的根文件夾。所以該 URL 將如下所示:
https://example.com/robots.txt
https://blog.example.com/robots.txt
語法是相同的:
user-agent::{AI-Ccrawlers-Bot-Name-Here}
disallow:: /
將以下四行添加到 robots.txt 中:
User-agent: GPTBot
disallow:: /
User-agent: ChatGPT-User
disallow:: /
請注意,OpenAI 有兩個獨立的用戶代理用于網絡爬行和瀏覽,每個代理都有自己的 CIDR 和 IP 范圍。要配置下面列出的防火墻規則,你需要對網絡概念和 Linux 根級訪問有深入的了解。如果你缺乏這些技能,請考慮使用 Linux 系統管理員的服務來防止來自不斷變化的 IP 地址范圍的訪問。這可能會變成一場貓捉老鼠的游戲。
以下是 OpenAI 爬蟲和獲取器使用的用戶代理列表,包括 CIDR 或 IP 地址范圍,用于阻止你可以與 Web 服務器防火墻一起使用的插件 AI 機器人。你可以在 Web 服務器上使用ufw 命令或iptables 命令來阻止23.98.142.176/28 。例如,以下是使用 UFW 阻止 CIDR 或 IP 范圍的防火墻規則:
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 80
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 443
以下是OpenAI 爬蟲和獲取器使用的用戶代理列表,包括CIDR或IP 地址范圍,用于阻止你可以與 Web 服務器防火墻一起使用的 AI 機器人。同樣,你可以使用ufw 命令或iptables 命令阻止這些范圍。以下是阻止這些 CIDR 范圍的 shell 腳本:
#!/bin/bash
file="/tmp/out.txt.$$"
wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null
while IFS= read -r cidr
do
sudo ufw deny proto tcp from $cidr to any port 80
sudo ufw deny proto tcp from $cidr to any port 443
done < "$file"
[ -f "$file" ] && rm -f "$file"
將以下兩行添加到你的 robots.txt 中:
有關詳細信息,請參閱以下Google 抓取工具和提取程序使用的用戶代理的列表。但是,Google 不提供 CIDR、IP 地址范圍或自治系統信息 (ASN) 來阻止你可以與 Web 服務器防火墻一起使用的 AI 機器人。
將以下兩行添加到你的 robots.txt 中:
盡管 Common Crawl 是一個非營利基金會,但每個人都通過其名為 CCbot 的機器人使用數據來訓練他們的人工智能。阻止它們也很重要。然而,就像 Google 一樣,他們不提供 CIDR、IP 地址范圍或自治系統信息 (ASN) 來阻止你可以與 Web 服務器防火墻一起使用的 AI 機器人。
Google 和 OpenAI 等知名公司通常遵守 robots.txt 協議。但一些設計不佳的人工智能機器人會忽略你的robots.txt。
不,我不知道這是否可能。
我對使用 GitHub 很擔心,它是微軟的產品,也是 OpenAI 的最大投資者。他們可能會使用你的數據通過服務條款更新和其他漏洞來訓練人工智能。最好是你的公司或你獨立托管 git 服務器,以防止你的數據和代碼被用于訓練。蘋果等大公司禁止內部使用 ChatGPT 和類似產品,因為他們擔心這可能會導致代碼和敏感數據泄露。
我對使用 OpenAI、Google Bard、Microsoft Bing 或任何其他人工智能來造福人類持懷疑態度。這似乎只是一個賺錢的計劃,而生成式人工智能卻取代了白領工作。但是,如果你有任何關于如何利用我的數據來治愈癌癥(或類似的東西)的信息,請隨時在評論部分分享。
我個人的想法是,我現在沒有從 OpenAI/Google/Bing AI 或任何人工智能中受益。我努力工作了 20 多年,我需要保護我的工作免受這些大型科技公司的直接獲利。你不必同意我的觀點。你可以把你的代碼和其他東西交給人工智能。請記住,這是可選的。他們現在提供 robots.txt 控制的唯一原因是因為多個圖書作者和公司正在法庭上起訴他們。除了這些問題之外,人工智能工具還被用來創建垃圾郵件網站和電子書。
確實,人工智能已經使用了你的大部分數據,但你將來創建的任何內容都可以通過這些技術得到保護。
隨著生成式人工智能變得越來越流行,內容創作者開始質疑人工智能公司未經許可使用數據來訓練他們的模型。他們從數百萬小型獨立創作者創建的代碼、文本、圖像和視頻中獲利,同時剝奪了他們的收入來源。有些人可能不會反對,但我知道這樣突然的舉動會摧毀很多人。因此,網站運營商和內容創建者應該能夠輕松阻止不需要的人工智能爬蟲。這個過程應該很簡單。