12月30日,国家数据局发布《数据领域常用名词解释(第一批)》,里面对数据、原始数据、数据资产、数据交易、公共数据、数据仓库、数据湖、密态计算、区块链等40 个可信数据空间相关名词作了官方释义。

数据领域常用名词解释(第一批)

1.数据,是指任何以电子或其他方式对信息的记录。数据在不同视角下被称为原始数据、衍生数据、数据资源、数据产品和服务、数据资产、数据要素等。

2.原始数据,是指初次产生或源头收集的、未经加工处理的数据。

3.数据资源,是指具有价值创造潜力的数据的总称,通常指以电子化形式记录和保存、可机器读取、可供社会化再利用的数据集合。

4.数据要素,是指投入到生产经营活动、参与价值创造的数据资源。

5.数据产品和服务,是指基于数据加工形成的,可满足特定需求的数据加工品和数据服务。

6.数据资产,是指特定主体合法拥有或者控制的,能进行货币计量的,且能带来经济利益或社会效益的数据资源。

7.数据要素市场化配置,是指通过市场机制来配置数据这一新型生产要素,旨在建立一个更加开放、安全和高效的数据流通环境,不断释放数据要素价值。

8.数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。

9.数据处理者,是指在数据处理活动中自主决定处理目的和处理方式的个人或者组织。

10.受托数据处理者,是指接受他人委托处理数据的个人或者组织。

11.数据流通,是指数据在不同主体之间流动的过程,包括数据开放、共享、交易、交换等。

12.数据交易,是指数据供方和需方之间进行的,以特定形态数据为标的,以货币或者其他等价物作为对价的交易行为。

13.数据治理,是指提升数据的质量、安全、合规性,推动数据有效利用的过程,包含组织数据治理、行业数据治理、社会数据治理等。

14.数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。

15.公共数据,是指各级党政机关、企事业单位依法履职或提供公共服务过程中产生的数据。

16.数字产业化,是指移动通信、人工智能等数字技术向数字产品、数字服务转化,数据向资源、要素转化,形成数字新产业、新业态、新模式的过程。

17.产业数字化,是指传统的农业、工业、服务业等产业通过应用数字技术、采集融合数据、挖掘数据资源价值,提升业务运行效率,降低生产经营成本,进而重构思维认知,整体性重塑组织管理模式,系统性变革生产运营流程,不断提升全要素生产率的过程。

18.数字经济高质量发展,是指围绕加快培育新质生产力,以数据要素市场化配置改革为主线,通过协同完善数据基础制度和数字基础设施、全面推进数字技术和实体经济深度融合、持续提升数字经济治理能力和国际合作水平,实现做强做优做大目标的数字经济发展新阶段。

19.数字消费,是指数字技术、应用支撑形成的消费活动和消费方式,既包括对数智化技术、产品和服务的消费,也包括消费内容、消费渠道、消费环境的数字化与智能化,还包括线上线下深度融合的消费新模式。

20.产业互联网,是指利用数字技术、数据要素推动全产业链数据融通,赋能产业数字化、网络化、智能化发展,推动业务流程、组织架构、生产方式等重组变革,实现产业链上下游协同转型、线上线下融合发展、全产业降本增效与高质量发展,进而形成新的产业协作、资源配置和价值创造体系。

21.城市全域数字化转型,是指城市以全面深化数据融通和开发利用为主线,综合利用数字技术和制度创新工具,实现技术架构重塑、城市管理流程变革和产城深度融合,促进数字化转型全领域增效、支撑能力全方位增强、转型生态全过程优化的城市高质量发展新模式。

22.“东数西算”工程,是把东部地区经济活动产生的数据和需求放到西部地区计算和处理,对数据中心在布局、网络、电力、能耗、算力、数据等方面进行统筹规划的重大工程,比如人工智能模型训练推理、机器学习等业务场景,可以通过“东数西算”的方式让东部业务向西部风光水电丰富的区域迁移,实现东西部协同发展。加快推动“东数西算”工程建设,将有效激发数据要素创新活力,加速数字产业化和产业数字化进程,催生新技术、新产业、新业态、新模式,支撑经济高质量发展。

23.高速数据网,是指面向数据流通利用场景,依托网络虚拟化、软件定义网络(SDN)等技术,提供弹性带宽、安全可靠、传输高效的数据传输服务。

24.全国一体化算力网,是指以信息网络技术为载体,促进全国范围内各类算力资源高比例、大规模一体化调度运营的数字基础设施。作为“东数西算”工程的2.0版本,具有集约化、一体化、协同化、价值化四个典型特征。

25.元数据,是定义和描述特定数据的数据,它提供了关于数据的结构、特征和关系的信息,有助于组织、查找、理解、管理数据。

26.结构化数据,是指一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的,并且可以使用关系模型予以有效描述。

27.半结构化数据,是指不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层的一种数据化结构形式。

28.非结构化数据,是指不具有预定义模型或未以预定义方式组织的数据。

29.数据分析,是指通过特定的技术和方法,对数据进行整理、研究、推理和概括总结,从数据中提取有用信息、发现规律、形成结论的过程。

30.数据挖掘,是数据分析的一种手段,是通过统计分析、机器学习、模式识别、专家系统等技术,挖掘出隐藏在数据中的信息或者价值的过程。

31.数据可视化,是指通过统计图表、图形、地图等图形化手段,将数据中包含的有用信息清晰有效地传达出来,以便于数据使用者更好地理解和分析数据。

32.数据仓库,是指在数据准备之后用于永久性存储数据的数据库。

33.数据湖,是指一种高度可扩展的数据存储架构,它专门用于存储大量原始数据和衍生数据,这些数据可以来自各种来源并以不同的格式存在,包括结构化、半结构化和非结构化数据。

34.湖仓一体,是指一种新型的开放式的存储架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析。

35.隐私保护计算,是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等。常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。

36.安全多方计算,是指在一个分布式网络中,多个参与实体各自持有秘密数据,各方希望以这些数据为输入共同完成对某函数的计算,而要求每个参与实体除计算结果、预期可公开的信息外均不能得到其他参与实体的任何输入信息。主要研究针对无可信第三方情况下,安全地进行多方协同的计算问题。

37.联邦学习,是指一种多个参与方在保证各自原始私有数据不出数据方定义的可信域的前提下,以保护隐私数据的方式交换中间计算结果,从而协作完成某项机器学习任务的模式。

38.可信执行环境,是指基于硬件级隔离及安全启动机制,为确保安全敏感应用相关数据和代码的机密性、完整性、真实性和不可否认性目标构建的一种软件运行环境。

39.密态计算,是指通过综合利用密码学、可信硬件和系统安全相关技术,实现计算过程数据可用不可见,计算结果能够保持密态化,以支持构建复杂组合计算,实现计算全链路保障,防止数据泄漏和滥用。

40.区块链,是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。

扩展阅读:

11月22日,国家数据局发布了《国家数据基础设施建设指引(征求意见稿)》,《指引》针对国家数据基础设施、隐私保护计算、区块链、数据使用控制、可信数据空间、数场、数联网、数据元件、数据安全技术等名词作了官方释义。

一、国家数据基础设施概念内涵

纵观人类经济发展史,每一轮产业变革都会孕育新的基础设施。农业经济时代,基础设施主要是农田水利设施。工业经济时代,公路、铁路、港口、机场、电力系统等成为新的基础设施。数字经济时代,网络设施、算力设施、应用设施等构建了数字基础设施。当前,数据成为关键生产要素,催生新的技术—经济范式,重塑产业发展方式,推动数字基础设施向数据基础设施延伸和拓展。建设和运营国家数据基础设施,进一步促进数据“供得出、流得动、用得好、保安全”,对于支撑数据基础制度落地、构建全国一体化数据市场、培育发展新质生产力具有重要意义。

国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。国家数据基础设施在国家统筹下,由区域、行业、企业等各类数据基础设施共同构成。网络设施、算力设施与国家数据基础设施紧密相关,并通过迭代升级,不断支撑数据的流通和利用。

二、数据流通利用技术

在数据流通利用领域,目前常用的技术路线主要包括隐私保护计算、区块链、数据使用控制等。

1.隐私保护计算

隐私保护计算指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等;常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。

2.区块链

区块链是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。

3.数据使用控制

数据使用控制是指在数据的传输、存储、使用和销毁环节采用技术手段进行控制,如通过智能合约技术,将数据权益主体的数据使用控制意愿转化为可机读处理的智能合约条款,解决数据可控的前置性问题,实现对数据资产使用的时间、地点、主体、行为和客体等因素的控制。

三、数据流通利用实践方案

在数据流通利用领域,目前业界的实践方案主要包括可信数据空间、数场、数联网、数据元件等。

1.可信数据空间

可信数据空间是指数据资源开放互联、可信流通的一类数据流通利用设施,其以数据使用控制为核心,以连接器为技术载体,以实现数据可信交付,保障数据流通中“可用不可见”“可控可计量”为目标,具备数据可信管控、资源交互、价值创造三大核心能力。

2.数场

数场是依托开放性网络及算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能,支持多场景应用的一种综合性数据流通利用设施。以高效流通、价值释放、繁荣生态为核心,实现数据可见、可达、可用、可控、可追溯,具备开放性、融合性、扩展性等特点。

数场从点、线、面、场、安全五个维度构建标准化技术框架。点是数据主体进入数场的接入点。线是数场内连接各主体、各平台的数据高速传输网,实现数场内各主体之间的互联互通。面是数场中数据主体、传输网络的集合,是实现数据大规模流通、高效安全利用的核心。由点到线、由线到面构成数场基础设施。场是基于数场基础设施构建的数据应用、场景化创新,以及相关能力、流程、规范的统称。安全是覆盖点、线、面、场的动态全流程保护措施。数场在技术架构上包括接入点、功能平台、管理平台、安全保障、网络传输等基础服务平台。

3.数联网

数联网由数据流通接入终端、数据流通网络、数据流通服务平台构成,提供一点接入、广泛连接、标准交付、安全可信、合规监管、开放兼容的数据流通服务。

4.数据元件

数据元件提供统一标准、自主可控、安全可靠、全程监管的数据存储和加工服务,支持采用标准化工序完成数据产品规模化加工、生产和再利用,适用于大规模数据加工和生产场景。数据元件作为连接数据供需两端的“中间态”,将原始数据与数据应用“解耦”,基于数据元件相关组件,实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。

四、数据安全技术

数据安全技术为数据收集、存储、处理、传输、共享和销毁等全生命周期提供安全保障,包括数据备份与恢复、应用数据加密、数据泄露检测、流转监测、身份认证与访问控制、数据脱敏、数据水印、数据安全态势感知等。

11月22日,国家数据局发布了《可信数据空间发展行动计划(2024—2028年)》,《行动计划》对可信数据空间、隐私计算、密态计算、数据沙箱、数据价值评估模型、智能合约、数据标识等23 个可信数据空间相关名词作了官方释义。

1.可信数据空间

可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。本文件所称可信数据空间、数据空间、空间的含义相同。

2.可信管控能力

可信数据空间核心能力之一,支持对空间内主体身份、数据资源、产品服务等开展可信认证,支持对数据流通利用全过程动态管控,支持实时存证和结果追溯。

3.资源交互能力

可信数据空间核心能力之一,支持不同来源数据资源、产品和服务在可信数据空间的统一发布、高效查询、跨主体互认,实现跨空间的身份互认、资源共享和服务共用。

4.价值共创能力

可信数据空间核心能力之一,支持多主体在可信数据空间规则约束下共同参与数据开发利用,推动数据资源向数据产品或服务转化,并保障参与各方的合法权益。

5.可信数据空间运营者

在可信数据空间中负责日常运营和管理的主体,制定并执行空间运营规则与管理规范,促进参与各方共建、共享、共用可信数据空间,保障可信数据空间的稳定运行与安全合规。可信数据空间运营者可以是独立的第三方,也可以由数据提供方、数据服务方等主体承担。

6.数据提供方

在可信数据空间中提供数据资源的主体,有权决定其他参与方对其数据的访问、共享和使用权限,并有权在数据创造价值后,根据约定分享相应权益。

7.数据使用方

在可信数据空间中使用数据资源的主体,依据与可信数据空间运营者、数据提供方等签订的协议,按约加工使用数据资源、数据产品和服务。

8.数据服务方

在可信数据空间中提供各类服务的主体,包括数据开发、数据中介、数据托管等类型,提供数据开发应用、供需撮合、托管运营等服务。

9.可信数据空间监管方

指履行可信数据空间监管责任的政府主管部门或授权监管的第三方主体,负责对可信数据空间的各项活动进行指导、监督和规范,确保可信数据空间运营的合规性。

10.数据生态体系

空间参与各方依据既定规则,围绕数据资源的流通、共享、开发、利用开展价值共创的生态系统,包括数据提供方、数据使用方、数据服务方、可信数据空间运营者等主体。

11.使用控制

一种可信管控技术,通过预先设置数据使用条件形成控制策略,依托控制策略实时监测数据使用过程,动态决定数据操作的许可或拒绝。

12.隐私计算

一种可信管控技术,允许在不泄露原始数据的前提下进行数据的分析和计算,旨在保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私计算的常用技术方案有多方安全计算、联邦学习、可信执行环境、密态计算等。

13.数据沙箱

一种可信管控技术,通过构建一个应用层隔离环境,允许数据使用方在安全和受控的区域内对数据进行分析处理。

14.密态计算

通过综合利用密码学、可信硬件和系统安全的可信隐私计算技术,其计算过程实现数据可用不可见,计算结果能够保持密态化,以支持构建复杂组合计算,实现计算全链路保障,防止数据泄漏和滥用。

15.智能合约

基于计算机协议的合同形式,以信息化方式传播、验证和执行,支持无需第三方的可信交易,确保交易的可追踪性和不可逆转性。

16.数据标识

一种资源互通技术,通过为数据资源分配唯一标识符,实现快速准确的数据检索和定位,实现数据全生命周期的可追溯性和可访问性。

17.语义发现

一种资源互通技术,通过自动分析理解数据深层含义及其关联性,实现不同来源和类型数据的智能索引、关联和发现。

18.元数据智能识别

一种资源互通技术,将元数据从一种格式转换为另一种格式,包括并不限于对数据的属性、关系和规则进行重新定义,以确保数据在不同系统中的一致性和可理解性。

19.数据价值评估模型

一种从多维度衡量数据价值的算法模型,综合考虑数据的质量、来源、用途等因素,评估数据对业务经济效益的影响。

20.共性服务

可信数据空间的共性功能需求,可以提供通用化的服务,包括并不限于接入认证、可信存证、资源目录等功能,适宜统一建设。

21.接入认证

一种可信数据空间共性服务,按照统一标准,对接入可信数据空间的主体、技术工具、服务等开展能力评定,确保其符合国家相关政策和标准规范要求。

22.可信存证

一种可信数据空间共性服务,保存数据流通全过程信息被记录并不可篡改,为清算审计、纠纷仲裁提供电子证据,确保全过程行为可追溯

23.资源目录

一种可信数据空间共性服务,按照统一接口标准建设,提供数据、服务等资源的发布与发现能力。可同时被多个可信数据空间使用。