构建包容的AI，不能忽视这26亿“离线者”

2025年7月7日

包容性人工智能必须跨越世界各地的语言和文化障碍。 Image: Photo by NASA on Unsplash

Harrison Lung

Group Chief Strategy Officer, e&

人工智能必须建立在具包容性和代表性的数据之上，而这一切始于“接入”。
要实现人工智能的可持续、安全扩展，现代化数据基础设施至关重要。
构建包容性的人工智能，需要协作治理，更需要对伦理设计的长期承诺。

随着人工智能重塑全球经济，一个日益明确的事实是：人工智能的强大、公平性和洞察力，都源于其所学习的数据。而今天，数据仍无法讲述完整的人类故事——在一个近26亿人仍无法接入互联网的世界中，用于训练人工智能的数据尚未涵盖人类经验的全部多样性。

以语言为例。全球约有7000多种语言，但大多数人工智能聊天机器人只有其中约100种语言的训练语料。根据国际倡导组织民主与技术中心的数据，英语虽然仅为全球不到20%的人口所使用，却占据了近三分之二的网络内容，并且仍然是大语言模型的主要驱动力。这不仅仅是包容性的问题，更是数据不完整的问题。由于数字化水平参差不齐，许多代表性不足的语言缺乏结构化的数字内容，这使得人工智能系统难以从中学习。

数据缺失问题不仅仅是技术疏忽，更是一种社会风险。如果缺乏有意识的设计，人工智能将继续将世界上大部分群体排除在外。这不仅将加剧现有的不平等，也会导致我们错失代表性不足群体的丰富视角。

要弥合这一鸿沟，我们必须根本性地改变我们构建人工智能的方式。这意味着要开发适合不同语言生态系统的多样化工具和模型。以Jais为例的区域性语言模型和像Falcon这样开源的模型，都是努力呈现非英语使用人群的语言语境和文化特性，并将文化相关性融入人工智能设计核心的优秀范例。

包容性人工智能的起点：提升联通性

构建包容性人工智能始于“接入”。目前，全球仍有三分之一人口缺乏稳定的网络连接，使得这些群体在驱动经济的算法中“隐形”。尽管全球68%的人已接入网络，55亿人在线，5G覆盖率已达到全球人口的51%，但差距依然巨大。在低收入国家，5G普及率仍然只有4%。

为了缩小这一差距，e&集团已承诺将投入超过60亿美元，到2026年在中东、非洲和亚洲的16个国家/地区扩展负担得起的网络接入。但提升联通性不是终点，而是起点。正如我们最近与IBM联合开展的研究《中东和北非地区的人工智能优势：跃升和引领的机会》中所述，开发强大的数据基础设施，是确保“新接入人群”能在人工智能系统中被“看见、听见、代表”的关键一步。

从碎片化到联合模型

中东北非地区正处于关键转折点。各国政府已推出雄心勃勃的人工智能战略，投资基础设施建设，并培育创新生态系统。人工智能的普及正在加速，但人们对数字基础设施的信任却在动摇。中东和北非地区首席执行官的信心在一年内从82%下降到64%。

人工智能的推广普及正在加速，但人们对数字基础设施的信任却在下降。 Image: e&集团和IBM共同发布的《中东和北非地区的人工智能优势：跃升和引领的机会》

这表明，迫切需要从孤立的遗留系统转向可扩展的、支持人工智能的数据架构。例如，联合数据模型提供了一条前进的道路，使组织能够在不损害隐私或所有权的前提下，实现跨境共享洞察。要实现这类模式的成功，必须从设计初期就将互操作性、本地文化差异和合规性纳入系统架构之中。

信任是设计出来的，不是假设出来的

我们的研究还发现，数据隐私（48%）和监管合规（43%）是中东和北非地区首席执行官采用生成式人工智能的最大障碍。这些并非空穴来风。随着人工智能在公共服务、金融、医疗保健和教育领域日益深入，“信任”变得至关重要。碎片化的法规、过时的治理结构以及不断升级的网络安全威胁可能会阻碍进展，并削弱公众信心。

正因如此，负责任的人工智能必须从一开始就被纳入系统设计，而不是事后才作为补救措施被添加。如今，控制、保护和合乎道德地管理国家数据资产的能力，已成为国家的战略核心问题。自适应治理框架、实时监控和审计以及员工培训至关重要。在某些情况下，部分国家甚至可能会追求更大的数字主权，以确保对关键数据基础设施、人工智能模型和决策流程的本地控制，符合国家价值观、法规和长期战略利益。

无论是通过主权模式、区域伙伴关系还是自适应治理框架，目标都是相同的：打造值得信赖、合乎道德且具有包容性的人工智能系统。

战略性公私伙伴关系的力量

任何单一参与者都无法独自构建具有包容性的人工智能。要在这一方面取得实质性进展，必须依靠协作的生态系统，而公私合作对于扩大负责任的创新至关重要。我们与世界经济论坛爱迪生联盟的合作使我们能够迅速扩大影响力。仅爱迪生联盟就通过增强互联互通和数字金融工具赋能了超过3000万人，提前一年超额完成了我们的影响力承诺。

通过帮助人们接入网络并参与数字经济，我们也让他们的声音被纳入训练人工智能的数据集和系统中。因为当人们彼此连接、被统计并被情境化地呈现时，随之而来的人工智能系统必然会变得更加公平和有效。