马斯克对OpenAI训练ChatGPT一直就是颇有微词的,而训练ChatGPT需要大量的实际数据做支撑,此前有消息称AIGC都是通过抓取一些平台的真实数据来训练AI,这也更符合人们的实际感知和行为意识,对于AI能够更好地理解人类具有重要的帮助。而此前的推特,包括Meta的Threads,甚至包括Instagram等等,都有大量的数据可以借用。
不过,马斯克此前就已经表示,推特不允许第三方数据公司抓取自己的数据用于训练AI。今日,马斯克在加固了自身的这个壁垒。X公司(推特)日前更新了服务条款,在未经许可的前提下,任何第三方都不得在X平台上抓取数据来培训人工智能(AI)模型。该条款将于9月29日起生效。根据新条款,未经事先书面许可,无论出于何种目的,都不得在X平台上进行任何形式的数据抓取行为。而之前,X公司允许外界通过robots.txt文件对平台数据进行抓取。
众所周知,robots.txt文件可向机器人爬虫提供指令,告诉它们可以访问网站的哪些部分。但在过去的几个月里,X公司修改了robots.txt文件,删除了除谷歌以外的所有爬虫机器人指令。2015年,X公司与谷歌达成了一项协议,允许谷歌在搜索结果中显示推文。
此前,推特已经对四家实体提起诉讼,指控它们从事数据抓取活动,导致推特的服务器严重紧张,用户体验恶化。推特当时称:“抓取会干扰网站和移动App的合法运营,因为它发出了数百万个请求,对服务器带来很大负载,并损害了真正用户的体验。“此外,这一次,X还允许X使用用户发布的信息来训练其人工智能模型。马斯克称,X只会使用公开的信息来训其练人工智能模型,不会使用任何私有的内容。也就是说,对于自身平台的数据,虽然来自于用户本身,但是不妨碍马斯克训练自己的AI。这也被认为是马斯克要追赶ChatGPT的一种积极布局。
值得关注的是,8月份,ChatGPT来自全球的桌面、移动网站访问量环比下滑3.2%,降至14.3亿次,之前两个月每个月下滑约10%。自3月以来,访客在ChatGPT网站停留的时长也在不断下滑,从平均8.7分钟降至8月份的7分钟。5月份OpenAI推出iOS版本ChatGPT应用,被认为从ChatGPT网站分走一些流量。随着一些限制的出现,对于OpenAI来说,下一步将会变得更加扑朔迷离了。