如今■■★★◆,随着人工智能重塑格局,科技巨头们面临着一个关键选择★★◆:是接受这些既定原则,还是拒绝它们。Linux 基金会最近也试图定义「开源人工智能」★◆,这表明关于传统开源价值观如何适应人工智能时代的争论已日益激烈。
在「开源」这件事上,非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表,其定义的开源包括十余个关键条款,如自由再分发■■■■◆、源代码可获得、允许修改和衍生作品等◆◆。自 1998 年定义「开源」标签并成立以来,OSI 对开源软件的定义已被开发人员广泛接受。
对于机器学习系统★◆■★■,模型权重也是一个重要因素。OSI 在开源定义中表述道★★◆:
代码:用于训练和运行系统的完整源代码★◆◆★◆◆。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。
数据信息:用于训练系统的数据的足够详细的信息,以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供■■。特别是,必须包括:
这一定义直接直击 Meta 推动的 Llama 大模型★◆◆。虽然在生成式 AI 领域里,Llama 一直被广泛宣传为最大的开源 AI 模型,Llama 的使用条款中支持公众下载和使用,但其商业用途受到一定限制(对于拥有超过 7 亿用户的应用程序),且不提供对训练数据的访问★★,这导致其不符合 OSI 的无限制使用、修改和共享自由标准。
本周◆◆,人工智能领域迎来了对于「开源」的官方定义■◆◆。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1■◆◆■◆★.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中★◆◆■,经常出现的模糊用法。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
对此,Meta 发言人 Faith Eischen 对此表示◆◆◆★■,虽然「在很多事情上都同意合作伙伴 OSI 的观点」★◆■◆◆,但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义★■★■◆,人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。
独立研究员和开放源代码创建者 Simon Willison 说:「既然我们已经有了一个强有力的定义★◆◆★■,也许我们可以更积极地那些『开源洗白(open washing)』并宣称自己的工作是开源的公司◆■■◆★。」
这些自由既适用于功能齐全的系统,也适用于系统的离散元素◆■◆■■。行使这些自由的先决条件是能够对系统进行修改◆■★■★◆。
例如★◆◆,如果使用■◆◆★◆★,则必须包括用于处理和过滤数据的代码、用于训练的代码(包括使用的参数和设置)★◆、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
不过,无论技术的定义如何◆★★★★,Meta 表示仍将继续与 OSI 和其他行业组织合作,以负责任的方式推动 AI 朝着可访问和免费的方向发展。
长期以来,OSI 一直为开源软件的构成设定行业标准,但人工智能系统包含传统许可未涵盖的元素,例如模型训练数据。现在,要使 AI 系统被视为真正的开源系统,它必须提供★◆★◆◆:
值得关注的是在此机制下,一直以来开源大模型的标杆 Llama 3 也不符合本规则■★◆■■。
再进一步,对于机器学习系统可修改的形式★◆■★◆■,OSI 也进行了定义。必须包含以下所有元素■■■■★★:
OSI 执行董事 Stefano Maffulli 表示★■■,该公司花了两年时间咨询全球专家,通过与机器学习和自然语言处理的学界专家■◆★、哲学家、Creative Commons 的内容创作者等合作完善了这一定义。
最后,OSI 表示,开源 AI 定义不需要特定的法律机制来确保模型参数可供所有人免费使用★■★★★■。它们可能本质上是免费的◆★,或者可能需要许可证或其他法律文书来确保它们的可用。预计随着时间的推移,法规对于 AI 开放的定义也将变得更加清晰。
对机器学习系统进行修改的范围也包括权重◆★★◆◆◆。「开源模型」和「开源权重」必须包括用于导出这些参数的数据信息和代码■■◆★。
Hugging Face 首席执行官 Clément Delangue 称◆■★★◆:「 OSI 的定义对于围绕人工智能开放性展开讨论有巨大帮助,特别是在涉及训练数据的关键作用时★■◆。」
用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据◆■★◆,披露数据的来源◆◆◆◆★★、其范围和特征◆◆★★◆■、数据的获取和选择方式,标签程序、数据处理和过滤方法;
*请认真填写需求信息,我们会在24小时内与您取得联系。