广东省应对技术性贸易壁垒信息平台
当前位置:广东省应对技术性贸易壁垒信息平台最新动态国外资讯

美国商务部商业数据治理委员会发布《生成人工智能和开放数据:指南和最佳实践》

信息来源:江苏省技术性贸易措施信息平台    发布日期:2025-02-08    阅读:48次
字体:
0

2024年1月16日,美国商务部商业数据治理委员会发布《生成型AI和开放数据:指南和最佳实践》,为发布供生成式AI系统使用的开放数据提供指导,确保商务部数据在生成式AI时代能有效利用。

一、背景

商务部与开放数据资产:美国商务部是主要的开放数据生产者,其数据涵盖人口、经济、环境等多领域,有超15万个开放数据集,包括文本、表格、地理空间等多种格式。长期以来,商务部致力于提高数据质量和可访问性,如40年前将数据电子化,近年依据法案以机器可读格式发布数据。如今,为适应生成式AI应用发展,持续改进数据发布实践。

人工智能与生成式人工智能发展:人工智能旨在使计算机算法具备类人智能行为,机器学习和深度学习是其重要分支,生成式AI则是深度学习中的模型子集,可生成新内容。生成式AI应用有潜力使开放数据更易用,但也存在如编造虚假信息等问题,且其基础模型训练资源消耗大。商务部希望通过本指南使开放数据适配生成式AI系统,降低创新成本。

指南制定过程:鉴于生成式AI发展,商务部数据治理委员会于2023年成立工作组。因现有数据存在格式、元数据、文档和可访问性不一致及许可等问题,工作组发布信息请求(RFI)并举办研讨会,收到37份来自各界的提交内容。本指南参考RFI回应及专家意见,虽主要针对商务部,但对其他数据发布者也有价值,且定义了相关术语如生成式模型、系统和应用等,并分析了商务部开放数据在生成式 AI 系统中的训练、测试验证、微调及数据检索和实时响应等应用方式。

二、指南与最佳实践

1、文档记录

提供全面数据资产背景:全面记录数据集信息至关重要,包括数据用途、限制、偏差、数据字典、来源及处理步骤等,有助于深入理解数据,提升AI模型训练与数据检索的准确性和可靠性。实施持久标识符(PID)可确保数据及相关文档的稳定引用,即便数据更新也能准确追踪。每次数据发布后及时更新文档并进行版本控制,详细记录数据变化情况,同时提供数据处理的开源代码,增强数据处理过程的透明度与可重复性。

最大化文档可用性和可访问性:采用人类和机器可读的双格式提供文档,人类可读格式便于研究人员等理解数据,机器可读格式则利于自动化数据处理。在合适场景下优先选用开源软件格式,如R或Python,避免使用专有软件,以增强数据的可获取性、透明度和互操作性,促进生成式AI系统对数据的有效利用。

2、数据和元数据格式

发布全面结构化数据和元数据:在数据集元数据中纳入如发布者、来源、权限、更新日期等与生成式AI相关的关键信息,同时添加详细的变量级元数据,涵盖应用逻辑、依赖信息、分布信息等,提升数据的机器可理解性,为AI模型训练和数据处理提供有力支持。遵循常用元数据模式和标准(如DCAT-US、Schema.org等)发布数据和元数据,确保数据在不同系统间的互操作性。使用标准缺失数据值,避免因缺失值表示不一致导致的误解,并确保文件命名规范、清晰,便于数据管理和检索。

最大化数据和元数据可用性:以机器可读格式生成数据和元数据,满足开放数据法案要求,采用如CSV、JSON等常用开放数据格式,确保数据传播不受特定软件限制。对于地理空间数据、图像和视频数据等,分别选用合适的开放格式(如 shapefiles、GeoPackages、标准化图像和视频格式)进行发布,避免使用PDF和过度依赖专有软件格式(如XLSX),以提高数据的可访问性和互操作性。

3、数据存储和传播

以一致格式传播开放数据:考虑到生成式AI系统对大量数据的需求,压缩或提供便捷下载方式以减少大型数据集的访问障碍,采用ZIP、Apache Parquet等开源且语言无关的文件格式进行压缩,提高数据访问效率。在数据发布中附带详细的书面文档,为生成式AI模型训练和微调提供丰富背景信息,增强数据的实用性。

将开放数据存储在易于检索位置:提供多种数据检索方式,如RESTful API和直接下载。RESTful API便于数据科学家和开发者编程检索特定数据子集,提高数据检索的灵活性和效率;直接下载则适用于需要完整数据集进行本地处理的用户。确保数据网站定期更新,优化网站结构(如设置合理的sitemaps、一致的URL命名)、保证安全证书有效、合理配置robots.txt文件以及采用HTML格式发布文档等,提高网站的可爬取性,方便搜索引擎和自动化工具发现和索引数据。

4、数据许可和使用

以易懂格式发布开放数据权利和许可:明确界定并以机器可读格式发布生成式AI相关的数据使用政策,涵盖专利、隐私等限制条件,协调部门间制定统一的知识产权声明和许可模板,确保数据使用的一致性和规范性。在商务部网站根目录设置robots.txt文件,规范网络爬虫对数据的访问行为,同时结合其他机制(如API密钥、访问控制)有效管理数据检索。在数据集元数据中准确链接数据许可证和权利信息,区分开放数据许可证和版权许可证,避免数据使用的混淆,确保数据使用符合法律规定和用户预期。

协作开发和更新数据许可证和使用政策:商务部内部各实体应与法律部门紧密合作,共同制定和更新数据许可证和使用政策,加强部门间沟通协作,避免政策不一致。在更新政策时及时共享信息,提高政策的透明度和一致性。具体措施包括更新许可模板、制定详细的元数据和机器可读许可证应用指南,以及在商务部现有知识产权资源中设立专门的“IP 和数据许可”部分,为数据使用提供全面的模板和最佳实践参考。

5、数据质量和完整性

为高质量数据检索准备开放数据:在数据集元数据中明确指示数据质量评估情况,便于用户筛选和理解数据可靠性。建立自动化数据质量控制流程,检查数据缺失值、类型一致性和格式问题,并确保AI相关元数据完整,结合手动审查确保数据质量。优化API设计,确保其高效返回相关信息,数据格式符合模型要求,提供丰富的元数据和上下文信息,并具备高并发处理能力和良好的文档及工具支持,为基于检索增强生成(RAG)架构的AI模型提供高质量数据。

持续评估开放数据准确性:开发针对AI/ML应用领域的基准数据集,用于评估模型性能和数据检索、解释效果,克服现有基准数据集的局限性。提供针对商务部常用数据集的提示库,指导生成式AI模型如何与实时数据交互,提高模型响应的准确性和可靠性。与生成式AI应用开发者合作,通过优化模型训练和调整,确保在生成响应时优先使用商务部的权威数据,避免因数据来源问题导致的错误信息传播。

三、未来工作

1、探索数字签名

在开放的商务部数据环境中,强烈建议实施数字签名。数字签名作为一种加密机制,能够有效验证数据来源的可信度,确保数据在传输和存储过程中未被篡改。这对于维护数据集的完整性和准确性至关重要,因为被篡改或伪造的数据可能会给机器学习模型带来严重的偏差和漏洞。通过采用数字签名,商务部可以增强其数据集的真实性和可靠性,营造一个更安全的数据生态系统,提升用户对使用开放数据进行AI/ML系统开发(包括生成式AI应用)的信任度。

2、创建AI就绪性评估指标

尽管商务部期望在整个部门内推行现有的指南,但目前缺乏评估数据资产是否符合生成式AI就绪性的具体指标或清单。例如,需要建立一个技术标准来明确商务部应努力达到的AI就绪性水平,以及制定网站可爬取性的检查清单等。通过确立这些评估指标,商务部将拥有清晰、可操作的目标,以便衡量工作进展并精准识别需要改进的领域,从而切实确保数据资产能够满足生成式AI的应用需求。

3、开发开放数据使用教育材料

商务部虽然已经拥有一定数量的教育资源,如各类教育网站和培训项目,但随着其开放数据与AI模型开发和使用的交集日益增多,仍需进一步加强对学生、研究人员和公众的教育资源建设。这包括开发新的培训课程、教程、材料,以及举办更多的研讨会和培训活动,以提升用户对商务部开放数据在生成式AI应用中的理解和使用能力。

4、与其他机构合作开展开放数据和AI就绪性工作

商务部认识到其他联邦机构也在积极探索实现AI就绪性,因此期待与这些机构分享自身经验和成果。例如,国家科学基金会的NAIRR试点项目就是一个正在进行的合作案例,该项目整合了商务部下属的NOAA和USPTO的AI就绪数据资产。通过与其他机构的合作,商务部能够促进开放数据和AI就绪性工作在更广泛范围内的协同发展,实现资源共享和优势互补。

5、与AI和开放数据专家协作进行迭代

当前的指南仅仅是一个迭代过程的开端,为了持续改进商务部的开放数据以更好地适应生成式AI应用,需要与AI和开放数据专家进行定期的、广泛的反馈交流。商务部欢迎来自公众、政府、学术界、工业界和其他利益相关者的反馈意见,涵盖数据和元数据格式、数据存储和传播、数据许可和使用以及数据完整性和质量等各个方面,以便不断优化指南内容,使其始终保持相关性和有效性。

6、创建与数据用户沟通的标准渠道

商务部应建立标准化的方式向数据用户传达数据集的变更信息,例如创建一个可供用户跟踪的标准页面或设立电子邮件列表。同时,提供通用的反馈机制(如在线表单)也至关重要,以便数据用户能够就数据变更提出疑问、报告问题或为即将发布的数据提供建议。此外,还应积极培育开放数据用户社区,鼓励用户参与数据的改进和优化工作,例如通过举办类似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活动,为数据用户提供交流和反馈的平台。



广东技术性贸易措施微信公众号
关注“广东技术性贸易措施”,获取更多服务。

本文包含附件,您需要登录后,才能查看此附件内容!
如果您还不是会员,请先注册

最新国外资讯
最新国内资讯
最新工作动态
最新风险预警
广东省农食产品技术性贸易措施(WTO/SPS)信息平台 广东省农业标准化信息服务平台
x