查看原文
其他

AI“三道闸”:海外新闻媒体打响“保卫战”| 德外视窗

娄立原 于海娇 德外5号 2023-09-24


海外新闻媒体与OpenAI正在展开“技术冷战”......


《卫报》近日报道,CNN、纽约时报和路透社已经阻止了OpenAI推出网络爬虫GPTBot。但美国的电视新闻节目《可靠消息》(Reliable Sources)发现,迪士尼、彭博社、《华盛顿邮报》、《大西洋月刊》、Axios、Insider、ABC新闻、ESPN、康泰纳仕(Condé Nast)、赫斯特(Hearst)和Vox Media等头部媒体也悄然采取了防御性举措,来保护其内容版权。


新闻媒体联盟总裁兼首席执行官丹妮尔·科菲表示,代表美国近 2000 家出版商的新闻媒体联盟认为,新闻媒体在版权保护方面有坚实的法律基础。然而,他们担心像 OpenAI 这样的公司可能会进一步颠覆已经陷入困境的新闻行业。


根据号称是市场上最准确的人工智能内容检测工具Originality.ai(准确率达到了 96%)的最新数据,在OpenAI的网络爬虫产品发布几周后,全球超过10%的新闻网站已经屏蔽了它。



新闻媒体打响AI“保卫战”


面对生成式AI的冲击,海外新闻业存在悲观和乐观的两种态度。在悲观者看来,ChatGPT的横空出世代表着对新闻业的冲击。而在乐观者看来ChatGPT能使新闻业更加便捷自动化,新闻媒体可以自由创作更复杂、更有吸引力的内容。


目前,多数海外传媒多站在悲观者的立场,比如,路透社、彭博社、CNN、《卫报》《纽约时报》等海外著名新闻媒体近期在其网站的根目录配置文件中禁止ChatGPT等生成式AI爬取其网页内容。印度的一些主流媒体如《印度时报》《印度斯坦时报》《帕斯卡日报》《印度教徒报》也进行了效仿,保护网站免受ChatGPT的母公司OpenAI的网络扫描爬取工具GPTbot的访问。一家头部数字新闻媒体透露,媒体行业正在阻击的对象不仅是OpenAI,所有生成AI大模式在未经许可的情况都会被拒之门外,解决内容被违规使用及滥用问题已经迫在眉睫。


而乐观派的代表——美联社走了一条不同的路线,美联社在本月已与OpenAI签订合作协议,授权OpenAI使用部分美联社的文本档案,同时美联社也将利用OpenAI的技术和产品专业知识。据外媒报道,美联社是第一家与主要人工智能平台达成(收费)协议的主要媒体。


这些海外媒体巨头接下来究竟会采取什么行动还有待观察。据报道,《纽约时报》可能采取更为激烈的方式——起诉OpenAI。


一位外媒高管表示:“互联网上充斥着低质量的垃圾信息。而传统媒体,却以事实为导向,提供高质量的内容。”新闻媒体的内容对于努力为用户提供准确信息ChatGPT等人工智能模型来说,是非常有价值的,甚至是至关重要的。


虽然如此,但面对新闻媒体的强烈抵制,主要科技媒体被迫做出妥协。近期ChatGPT的母公司OpenAI表示接受新闻网站对其的屏蔽行为,也不再爬取新闻网站内容文本,但声称之前所获得的数据不会删除。Facebook和Instagram的母公司Meta也推出了一项新政策,允许用户表示他们的个人信息不被用于训练AI模型。


对待此事,埃隆·马斯克(Elon Musk)秉持一贯强烈的个人化风格。他对推特平台(X)施加了防爬虫限制,解决他所称的AI公司为了构建模型对其平台进行“极端水平的数据爬取”,马斯克表示数据爬取使得他的公司要部署更多的服务器,增加了一定成本。然而,他却允许旗下的AI创业公司xAI使用推特平台的公共推文来训练模型。



AI“三道闸”


美国新闻媒体行业协会The News Media Alliance(NMA))总裁兼首席执行官丹妮尔·科菲(Danielle Coffey)新闻机构确实对这项迅速发展的技术感到担忧。


第一,流量截留,既有商业模式可能被颠覆。英国专业出版协会(Professional Publishers Association)首席执行官Sajeeda Merali接受《新闻公报》(Press Gazette)采访时表示,过去新闻媒体允许Google等搜索引擎抓取内容,以获得商业回报:搜索引擎会将读者引导至新闻媒体网站,在网站内,他们可以展示广告,吸引读者成为订阅者,或者进行活动宣传以及其他联盟合作,从而创造联盟收入。


ChatGPT这种聊天机器人的采用可能会彻底改变用户与新闻内容的互动方式。现在,由于ChatGPT取得了突破性的进展,用户可以直接通过对话获取有效信息,使得该应用异常火爆,人们开始不再依赖传统搜索引擎进行信息查询检索。然而ChatGPT在未经许可的情况下利用了新闻媒体网页内容来构建“大型语言模型”,从而能够学习如何用自然语言与用户进行对话并给出一个综合、全面、有效的答案,这也是其备受欢迎的原因。ChatGPT提供的清晰且简短的答案比从新闻网站查阅几篇长文所带来的用户体验更佳。但是ChatGPT并不会向用户显示所给信息的来源,更不会把新闻媒体的链接展示出来。


此外,微软、微软已将人工智能技术整合到搜索业务中谷歌搜索引擎,新闻媒体普遍担忧以后可能大部分用户不再会点击新闻链接,只是阅读科技巨头所给出的标题,届时新闻网站的推荐流量将遭遇重创,这将彻底颠覆新闻业的商业模式。在过去的几个月里,新闻消费下滑、手机销量下降、生成式人工智能截留流量等因素,造成在线新闻媒体收入下行。


第二,AI“黑箱”引发媒体信任危机Merali还强调,AI公司如何使用媒体内容来训练他们的工具缺乏透明度。迄今双方并没有就使用哪些内容来训练AI模型达成协议。“在了解了内容如何被使用之前,很难确定这些内容的价值。但目前情况有点像黑洞。”


如果没有政府干预,那么这将对该行业(新闻媒体)的可持续、健康以及繁荣发展产生相当严重的不利影响。内容创作者将无法从内容创作中获利。”他表示,正在寻找创新性的解决方案,确保行业以正确的方式运转,并使新闻内容得到价值认可。


Meral表示,新闻媒体一直在测试和分享使用AI工具的实验结果,这些工具可以“潜在地改善他们的工作流程或潜在地帮助他们更好地了解读者,以便提供更相关的内容”。


“所以我们并不是一个一成不变的行业,不想有任何变化。我认为在如何使用它方面已经进行了很多创新,但这关乎公平竞争。”


第三,AI生成内容存在较大缺陷。一是ChatGPT的数据采集范围有限。ChatGPT目前用于训练的内容数据截至2021年底,近两年的问题不能够精准回答。此外,ChatGPT不能访问互联网诞生之前就有的内容,比如不能通过图书、报纸等纸质媒介进行学习,这意味着其对任何历史问题的回答都可能产生参差不齐的结果。ChatGPT还不能对当前互联网实时更新的内容进行访问和爬取。ChatGPT只能查阅互联网上的数字资料,不能对直接对消息来源处进行实地采访,也不能拿出一本图书馆的书本来核查事实。


二是生成内容的可信度不够。人们对AI大规模生产虚假信息的潜在风险忧心忡忡。可靠的消息来源和可信度是好新闻的基石,ChatGPT可能会生成不全面和带有偏见性的新闻内容,这将会是新闻业的灾难。如果上述问题得不到有效解决,整个媒体生态及媒介信息环境将面临危机。


生成式AI通过嵌入搜索引擎、APP和如今无处不在的智能设备等方式,利用了从新闻媒体获取的内容数据,围剿新闻媒体,一旦培训AI模型的权威信息来源变成真空,困惑的AI将成为错误信息的孵化器。没有高质量内容的支撑,我们的未来注定是黯淡的。

呼吁监管新政出台


面对科技巨头们的冲击,海外新闻媒体表示,他们并非只是想要“闭关锁国”,而是更愿意与技术平台公平合作,以获取他们想要的价值,同时要求政府出台相关法案以保证他们的利益。


在英国,多个新闻媒体组织联合向英国首相里希·苏纳克(Rishi Sunak),呼吁健全实施合作条款的法律基础,“以确保人工智能系统的所有者声明他们如何使用新闻媒体的内容,以便能够识别哪些内容被爬取用于训练,从而解决补偿问题”。在给首相的信中还写道:“如果没有透明的合作条款,版权所有人就无法知道其内容是如何被使用的,这会影响到随后将进行的合作谈判,政府必须迅速采取行动建立正确的监管机制。”


与此同时,印度政府在今年2月成立了一个委员会,提出了一项数字竞争法案来遏制大型科技公司的反竞争行为。一个印度媒体协会DNPA(Digital News Publishers Association)的秘书长苏雅塔·古普塔(Sujata Gupta)表示:“我们的首要目标是在版权保护、促进创新和向印度国民自由传播具有可信度的新闻之间取得平衡。我们希望印度政府即将出台的数字治理与竞争法案能够考虑到技术领域发生的最新变化,这些变化将对媒体的收入和版权产生影响,技术平台和新闻媒体间需要双赢才行。”


结语


目前尚处在生成式AI应用发展的早期阶段,传媒业很难确定“来者”是敌是友,挑战与机遇并存。信息技术发展至今,早已不能以“互联网+”“数字+”来定义技术对传媒业的影响,AI在变革信息交互模式的同时,开始冲击传媒业的根基,亦让传媒业向内审视:生成式AI形成降维打击的源头——优质内容资产的版权价值,“借船出海”与“造船出海”的选择题将再次摆上台面......


转载引用声明:
请原文转载或不加修改地引用文中数据、结论及数据说明,并注明来源。除此之外的任何自行加工与解读均不代表CTR观点,对由此产生的不良影响,CTR保留诉诸法律的权利。

延伸阅读


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存