OpenAI爬虫狂扫致小企业网站瘫痪

周六，Triplegangers公司首席执行官奥列克桑德·托姆丘克（Oleksandr Tomchuk）收到公司电商网站宕机的通知。起初这看似一次分布式拒绝服务攻击（DDoS），但调查显示是OpenAI的爬虫机器人导致了这一问题。

"我们拥有超过65,000件产品，每件产品都有独立页面，每个页面至少包含三张照片。"托姆丘克向TechCrunch表示。OpenAI发送了数万个服务器请求，试图下载所有内容，包括数十万张照片及其详细描述。

OpenAI使用了600个IP地址进行数据抓取。"我们仍在分析上周的日志，实际数量可能更多，"他说，"他们的爬虫正在压垮我们的网站，这实际上就是一次DDoS攻击。"

Triplegangers是一家仅有七名员工的公司，经过十多年努力建立了全网最大的"人类数字替身"数据库。该数据库包含从真实人体模型扫描获得的3D图像文件。公司主要面向3D艺术家、游戏开发者等客户，提供从手部到头发、皮肤和完整身体等3D文件和照片资源。

该公司总部位于乌克兰，同时在美国佛罗里达州坦帕市注册运营。尽管公司服务条款明确禁止未经授权的机器人抓取，但这种保护形同虚设。网站必须通过正确配置robot.txt文件，并设置特定标签来阻止OpenAI的GPTBot及其他爬虫（如ChatGPT-User和OAI-SearchBot）。

Robot.txt（机器人排除协议）旨在告知搜索引擎不应抓取的内容。OpenAI称会遵守这些配置，但警告称其机器人可能需要24小时才能识别更新后的robot.txt文件。

到周三，经过多天的应对，Triplegangers完成了robot.txt文件配置，并通过Cloudflare账户阻止了GPTBot等多个爬虫。然而，公司仍无法确认OpenAI已获取的具体内容，也无法要求删除这些数据。OpenAI既未回应TechCrunch的置评请求，也未推出此前承诺的退出工具。

这对Triplegangers构成了特殊挑战。"我们的业务涉及严格的权利问题，因为我们扫描真实的人，"托姆丘克强调，"根据欧洲GDPR等法规，他们不能随意使用网上的任何人的照片。"

托姆丘克提醒其他小型在线企业："大多数网站都不知道自己被这些机器人抓取了数据。现在我们必须每天监控日志活动来发现这些机器人。这些公司应该先征求许可，而不是直接抓取数据。"