业内人士称 ChatGPT 毁了网络共享根基，内容所有者不愿再分享

智能机器人 2024-12-30 17:33www.robotxin.com人工智能机器人网

随着人工智能技术的迅猛进步，网络爬虫的应用领域正在发生深刻变革。曾经主要用于搜索引擎索引的网络爬虫，如今被各大科技公司用于收集训练数据，以开发先进的人工智能模型。

内容创作者们逐渐意识到，他们的劳动成果正被这些科技公司无偿使用，用于孵化新的AI工具，而现有的爬虫协议已无法有效阻止这种行为。这种情况不仅可能影响内容所有者在线分享内容的积极性，更可能从根本上改变互联网的现有生态。

自20世纪90年代末诞生的爬虫协议（robots.txt），作为一种简单代码，曾允许网站所有者指示搜索引擎的爬虫哪些页面可以抓取，哪些不可以。这一协议现已成为网络世界里的非官方规则之一。

爬虫的主要职责原本是索引信息，优化搜索引擎结果。谷歌、必应等搜索引擎的爬虫会收集网络内容并生成索引信息，供亿万用户搜索使用。这也是互联网的繁荣基础——创作者在网络上分享内容，依靠用户访问获取收益。

生成式人工智能和大语言模型的崛起正在迅速改变这一局面。这些新兴工具并未对内容创作者提供支持，反而成为了他们的挑战。网络爬虫现在收集在线信息，生成大规模数据集，而这些数据集被各大科技公司免费用于开发AI模型。比如CCBot为CommonCrawl提供数据，而GPTbot则为OpenAI提供信息。谷歌将其大语言模型的训练数据称为“无限集合”，这其中大部分来源于CommonCrawl的C4数据集。

这些公司利用这些免费数据训练AI模型，使其学会回答用户问题。这一模式与原先通过爬虫建立索引信息、让用户访问原始内容的模式大相径庭。如果内容创作者发现免费数据被爬虫收集，他们将失去继续分享内容的动力。GPTbot已被许多网站屏蔽，包括亚马逊、爱彼迎、Quora等。对CommonCrawl数据集的CCBot的屏蔽也在逐渐增加。

尽管网站所有者可以通过部署爬虫协议来阻止特定爬虫，但这种方式并不理想。“这是件有点粗糙的工具，”WordPress前高管、科技投资者、数字营销公司Yoast创始人约斯特·德·瓦尔克表示。这个工具没有明确的法律依据，而且容易被操纵和忽略。由于各大企业对高质量人工智能数据的巨大需求，爬虫协议容易被更改或忽略。

计算机科学教授尼克·文森特指出：“网上的一切信息都被模型吸进真空。”他警告说，接下来的时间里我们需要以不同的方式评估这些模型的使用和影响。

一些大公司和网站已经开始做出回应，部署爬虫协议来阻止特定的网络爬虫。网站无法强制执行爬虫协议，任何爬虫都可以无视该文件继续收集数据。纽约大学技术法律与政策诊所主任杰森·舒尔茨表示，“Robots.txt不太可能被视为禁止使用网站数据的法律。”其主要是为了保护网站不被搜索引擎编入索引，而非防止内容被用于训练AI。

我们需要寻找新的解决方案来保护内容创作者的权益。在人工智能飞速发展的时代，我们必须确保创作者的劳动成果得到应有的尊重和回报。这将是我们共同面对的挑战和机遇。数据之雷区：CommonCrawl与人工智能的博弈

从OpenAI公布首个GPT模型的那一刻起，我们似乎进入了一个无法回避的数据与人工智能的“雷区”。早在2018年，OpenAI便通过BookCorpus数据集训练了模型，而这一切可以追溯到非营利组织CommonCrawl的多年努力。CommonCrawl始于2008年，并于2011年公开了庞大的数据集，通过其CCBot爬取公开信息。如今，它拥有最大的数据存储库，自那时以来已从超过千亿个网页中抓取和保存信息。

CommonCrawl的数据滋养了众多人工智能项目，包括谷歌的Bard、meta的Llama以及OpenAI的ChatGPT等。这背后隐藏着一个巨大的风险。虽然许多大型科技公司宣称使用这些数据是为了开发人工智能模型，但许多人也担忧数据的真实用途和未来的商业化问题。数据收集、存储和使用过程中的版权问题尤其受到关注。像作家、视觉艺术家甚至源代码开发人员这样的原创创作者，已经开始对未经授权就使用他们作品的公司如OpenAI、微软和meta等进行维权。这不仅引发了公众对于数据使用和版权的热议，也使得各大公司的数据策略变得微妙复杂。对此，纽约大学的舒尔茨指出：网络爬虫的目的和使用方式难以被统一规范监管，其背后的版权问题尤为棘手。“合理使用原则”在网络爬虫和人工智能项目中受到了前所未有的质疑和挑战。对此，知识共享组织首席执行官斯蒂勒表示：“我们面临的是一个雷区。”她强调：“我们现在正在努力解决所有这些问题，但人工智能时代的公共空间将会如何，仍是一个未知数。”知识共享组织也提到了对于版权流通性、授权以及信任问题的关切和不确定性。“如何向整个互联网授权？”也成为了诸多专家和机构面临的问题之一。尽管如此，斯多勒补充道：“与我交谈过的每一位律师都说，许可并不能解决问题。”目前各大公司正在探讨如何奖励创作者，但人工智能时代的未来走向仍然充满了未知和挑战。这一雷区的问题或许没有简单的答案，我们正处在大数据和人工智能变革的前沿阵地。互联网正处于一场变革的边缘，大型科技公司的网络爬虫技术已让其掌握大量数据资源。而内容创作者们却在这种趋势中逐渐失去话语权，无力掌控局势的发展。这一切似乎预示着互联网即将发生翻天覆地的变化。

如果信息的发布等同于将自己的数据无偿贡献给那些与自己竞争的人工智能模型，那么这种行为的热情可能会大大降温。许多曾经的日常活动可能会被迫停滞，因为人们开始意识到自己的付出可能被用于提升对手的技术实力。

已有迹象显示，程序员们正在减少在问答网站Stack Overflow上的活跃程度。他们发现，自己辛苦回答的问题被人工智能模型轻易解决，这些模型通过吸收网络上的知识来提升自己的能力。这导致许多程序员开始重新评估自己的付出与回报。

斯蒂勒对此表达了担忧，他预测在线创作内容的未来可能会走向类似现在的流媒体模式，内容被锁在付费订阅服务中，成本不断攀升。在他看来，这种趋势的发展如果不加以控制，可能会导致公共空间的关闭，留下更多的“有围墙的花园”，让更多的人无法接触和分享知识。这种情况并不是知识与创造力的理想发展路径，我们必须警惕并寻求改变。

上一篇：新年第一单敲定三星向本土机器人厂商投资约3.2亿下一篇：智能扫地机器人技术革新与市场趋势报告_2025概览

业内人士称 ChatGPT 毁了网络共享根基，内容所有者不愿再分享

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术