
08 通用技术发展现状
大模型虽是当前AI主流技术,但在受业务约束的垂直场景,传统机器学习、语音、知识图谱、NLP与计算机视觉等传统小模型,以更优的可控性和成本优势,仍能实现更高效且可量化的商业收益。
●机器学习:全球机器学习技术发展格局中,美国企业凭借长期技术积累占据领先地位。以谷歌、Meta为代表的科技巨头,依托深度学习与神经网络领域的核心优势,通过开源框架(如TensorFlow)和前沿技术(如Transformer架构、Gemini多模态模型)构建全球生态。谷歌聚焦多模态融合(如Gemini系列模型)与自监督学习(如SimCLR),并探索通用AI的边界;Meta则通过Llama系列模型的开源策略推动技术普惠,同时强化AI伦理治理(如AI安全评估框架)。相比之下中国企业如百度(文心一言)、阿里巴巴(电商推荐系统)以场景驱动为核心,通过模型小型化(如模型蒸馏和参数高效微调技术,使小型模型性能接近大模型的同时降低计算成本)和高效化部署(如边缘端轻量化方案)实现技术落地。同时,中国在人机协作(如AdaptiveVIO系统结合在线持续学习与传统优化算法,提升机器人动态环境适应性)与可持续性发展(如联邦学习在隐私保护中的应用)领域展现出独特优势。机器学习的未来趋势正加速向多模态融合(跨模态任务协同)、自监督与无监督学习(减少标注依赖)模型小型化与高效化(边缘端部署)演进,中美企业通过差异化路径共同塑造这一智能化浪潮。
●智能语音:中国智能语音技术已进入应用落地阶段,并在多个领域形成全球领先优势。以科大讯飞、百度为代表的头部企业,依托深度学习与大数据积累,实现从语音识别(ASR)到自然语言处理(NLP)再到语音合成(TTS)的全链条突破。科大讯飞的"中文语音识别系统"支持25种方言,百度的多语言识别技术覆盖全球主要语种,推动语音交互在智能家居、智能车载、在线教育等场景的深度渗透。未来,中国智能语音技术将向多模态交互(结合视觉、触觉等感官)、边缘计算支持(减少数据传输延迟和带宽占用)、个性化情感化升级(基于用户行为习惯自动调整交互模式;通过语音情感分析识别用户情绪,调整回应语气)、场景应用深化(如垂直领域定制化)演进。
●知识图谱:目前,中国知识图谱技术已进入规模化应用阶段,成为人工智能和大数据领域的核心基础设施。政策层面,"十四五"规划及《人工智能知识图谱知识交换协议》等标准的发布,为行业提供明确的政策支持和技术规范。技术方面,多模态知识图谱隐私计算与动态更新技术逐步成熟,推动知识图谱在金融、医疗、政务等领域的深度落地。例如,阿里云依托通义千问大模型生态,通过知识图谱增强模型推理能力(如结合图神经网络),并用于电商个性化推荐、供应链风险分析等场景;在金融和政务领域,海致星图通过"图模融合"技术(如动态知识更新)解决金融风控中的复杂关系分析问题(如企业关联图谱和反欺诈场景);柯基数据知识图谱平台已针对医疗、文旅、军工、政务、出版等各个领域的痛点,提出相应解决方案(如医疗领域的MedicalCopilot产品线,包括医疗智能信息库产品、医疗学术ChatBot产品和Clinicallnsight情报平台)。
未来,图模融合将成为核心方向:(1)大模型将提升对复杂知识图谱的构建能力以及增强对复杂知识图谱的理解能力;(2)探索多态大模型与知识图谱的融合,以及多模态知识图谱的构建和应用,并研究其在大模型中的应用;(3)发展模型对复杂知识图谱的知识表示和推理能力,如基于大模型的知识问题和推理,开发基于大模型的知识问答系统,使其能够理解复杂问题,并在知识图谱上进行推理,给出答案。
●自然语言处理:自然语言处理技术(NLP)正以“场景无界化"和"技术平民化"的双重势能重构产业格局,预计2025年中国NLP市场规模将突破400亿元,占全球份额26%成为仅次于美国的第二大市场。技术创新上,清华大学联合中南大学、北京邮电大学及腾讯微信AI实验室提出APB框架,通过稀疏注意力机制与局部KV缓存压缩技术,解决了长上下文远距离语义依赖问题,在无性能损失的前提下大幅度提升超长文本预填充效率。模型架构上,预训练语言模型成为热点研究方向。例如:华为盘古NLP大模型发布718B MOE混合专家模型,在知识推理、工具调用等领域表现突出,其高效长序列处理、低幻觉生成、快慢思考融合及Agent特性显著升级,进一步提升用户体验未来,NLP将向模型轻量化与个性化发展,通过压缩技术(如知识蒸馏)适配终端设备,并针对行业开发定制模型;多模态融合趋势下,NLP将与视觉、语音技术结合,应用于智能安防、会议系统等场景;低资源语言处理也将借助数据增强与迁移学习取得突破,推动全球语言交互。
●计算机视觉:中国计算机视觉技术展现出强劲的创新势头和产业化能力(2023年中国计算机视觉行业规模达572亿元),尤其以商汤科技、云从科技、海康威视等头部企业为代表,在图像特征提取、动态视觉处理、多模态感知融合等细分领域形成独特优势。例如:(1)商汤科技依托自研的“烛龙3.0"多模态认知引擎,通过视觉、触觉热力学等多源数据的纳秒级同步(延迟<0.3ms),实现复杂场景下的高精度环境感知。(2)云从科技在金融安防领域占据领先地位,其3D结构光技术打破苹果垄断,并通过动态识别技术适配公安布控系统,实现毫秒级异常行为预警。(3)依图科技的医疗影像分析技术获FDA认证,静态人像比对准确率达99.97%;旷视科技的Face++人脸识别技术LFW准确率99.6%,物流分拣系统效率提升200%。未来技术演进中,扩散模型将在创意图像生成、3D场景重建等领域持续深化应用(如清华腾讯的SceneSplatter技术通过动量引导实现高保真3D生成),而生成对抗网络则在实时视频增强轻量化图像修复等场景保持不可替代性(如NVIDIA Difix3D+通过单步扩散模型修复3D重建伪影)。同时,多模态融合与边缘智能(如轻量化模型部署在端侧设备)将成为技术演进的核心方向,进一步拓展医疗、工业、元宇宙等新兴场景的边界。
中国大模型能力不断提升,与国外的差距逐步缩小。根据《2025 Al Index》显示,2023年美国顶尖人工智能模型大幅领先中国同类产品,在MMLU、MMMU、MATH和HumanEval等比较基准中,中美模型性能差距分别为17.5pct、13.5pct、24.3pct和31.6pct,而2024年末,这一差距大幅收窄至0.3pct、8.1pct、1.6pct和3.7pct。另一方面,中国大模型行业正经历结构性变革,大语言模型向多模态演进、通用大模型向垂直领域渗透的趋势已成为行业共识。截至2024年11月,根据《生成式人工智能暂行办法》进行备案的309款生成式大模型中,大语言/视觉/多模态模型占比分别为78%、12%和10%;通用/垂直大模型占比分别为28%和72%。国产大模型正打破传统“单模态训练+跨模态对齐”的技术路径,实现多模态数据的原生融合。例如:百度文心大模型4.5采用多模态异构专家建模技术,通过自适应分辨率视觉编码和时空重排列三维旋转位置编码,使多模态理解效果提升30%。与此同时,模型支持的模态类型从早期的图文音三模态扩展至全模态。例如:中科院紫东太初2.0新增视频、传感信号、3D点云等模态处理能力,在工业质检场景中可同时分析生产线视频流、设备振动信号和零件3D模型,将故障预测准确率提升至98.7%。
此外,国产模型通过存算一体芯片适配和动态卸载技术显著降低多模态推理成本。尽管通用大模型具备广泛的知识库和强大的泛化能力,但其在医疗、金融、制造等专业领域的深度知识不足、决策可解释性低、行业逻辑缺失等问题日益凸显。例如,通用模型可能无法准确理解医疗术语、金融法规或制造业工艺参数,导致"幻觉”频发或任务失败。因此,垂直领域大模型成为行业落地的关键路径。这些模型通过领域数据微调、专业知识注入和专用工具集成,显著提升了专业场景的准确性和可靠性。例如:京东言犀大模型融合70%的通用数据和30%的数智供应链原生数据具备更高的产业属性;中关村科金通过构建金融、制造、政务等十余个垂直领域的智能体矩阵,将大模型嵌入企业业务流程(如智能投顾、差旅助手、情报分析),直接推动效率提升(如中关村氪金与宁夏交建交通科技研究院打造全国首个交通基建垂类大模型"灵筑智工",基于上万份行业规范、工程技术文档等高质量数据训练而成,行业推理准确度较通用大模型提升40%以上)。大语言模型向多态演进和通用模型向垂直深化,本质上是AI技术从"通用智能”向"专用智能"跃迁的必然路径。这一过程中多模态技术拓展了模型的感知边界,垂直模型则深化了行业的智能深度。未来,两者的融合将催生更多"行业级 AGI(通用人工智能)"——例如结合多模态交互与行业知识库的智能诊疗系统,或整合视觉检测与供应链数据的智能制造平台。
从技术形态看,全球大模型发展正经历从闭源垄断向开源普惠的范式转变。早期以OpenAl的GPT系列、Google的Gemini等为代表的闭源模型通过技术封装构筑"认知鸿沟",在2024年前以LaMa-1为代表的开源模型性能大幅落后于GPT-4等闭源模型(2024年1月Chatbot Arena Leaderboard显示顶尖闭源模型领先8.0个百分点)。Meta的LLaMa系列虽推动技术民主化,但商业授权限制(如禁止商业用途)形成新的壁垒。随着开源生态不断完善,开源模型的能力正快速追赶闭源模型——截至2025年2月,顶尖闭源模型与开源模型的性能差距已缩小至1.7个百分点,这一趋势得益于开源社区的迭代速度加快。中国在此进程中成为开源生态的核心驱动力,展现出独特的技术突破路径与产业渗透力。
技术创新层面,阿里、深度求索、腾讯、智谱等众多企业与浙江大学等科研机构积极投入研发,成果斐然。在2025年6月全球最大开源社区Hugging Face发布的AI开源贡献榜上,阿里Qwen跻身全球第五以及DeepSeek位列第九,是TOP10中唯二的非美国企业。阿里Qwen系列不断突破创新,在自然语言理解、多模态交互等关键领域,展现出与全球顶尖大模型相媲美的实力。其中,Owen3开源首月下载量就突破1,250万次,截至2025年6月,全球开发者基于Qwen系列二次开发的衍生模型数量达到13万个,超越Meta的Lama成为全球最大开源模型族群。深度求索的DeepSeek系列同样表现卓越,技术指标位居全球前列,尤其在复杂逻辑推理方面,展现出领先优势,其V3模型通过创新架构与数据蒸馏技术,重构了大模型的"成本-性能"曲线,训练成本仅为557.6万美元,远低于Meta Llama-3.1与OpenAGPT-4o的训练成本,且推理性能直逼一流模型。在产业生态构建上,开源大模型已深入千行百业,为各行业的智能化转型提供有力支撑。以腾讯混元3D 2.1为例,开源后兼容Unreal Engine引擎,极大地推动影视工业数字化转型,提升影视特效生成效率目前,中国正积极构建开源与闭源协同发展的良好局面。一方面,大力推进开源生态建设,众多企业与机构纷纷投身开源浪潮,如阿里、深度求索、零一万物等企业通过开源优质模型,吸引全球开发者参与,形成技术创新的强大合力。另一方面,闭源模型也在发挥重要作用,部分企业基于自身核心技术与数据优势,开发闭源模型,在特定领域提供定制化、高价值的服务。这种“开源验证+闭源落地”的策略,既通过开源生态激活技术创新,又通过闭源模型保障商业价值,最终实现技术民主化与产业专业化的平衡。
大模型在各行业的落地主要依赖于"能力契合、ROI可量化和数据算力充足"三大要素。首先,模型能力必须与行业需求高度匹配,能够有效解决实际问题,如自动化处理、智能预测或优化决策等。其次,投入产出比必须清晰可量化,以确保项目的长期可持续性和经济效益,这也是企业决策者关注的核心因素之-。最后,行业必须具备充足的数据资源和算力支持,尤其是在需要处理大规模数据或进行复杂计算的场景下,强大的计算能力和高质量的数据是大模型成功落地的基础。综合来看,只有当这三大要素在具体行业中有机结合,才能推动大模型的高效应用,实现行业效能的显著提升。
举例而言,金融、医疗等行业已展示了大模型应用的潜力,这些行业的共同点是都拥有高价值的专业数据和充足的预算支持,同时业务需求明确,能够在自动化、精准预测和决策支持等方面产生显著效益。
从行业应用视角,互联网、金融、制造、消费零售和教育五大行业在实现大模型落地与规模化部署方面领先,五大行业金额贡献合计占比超70%,是当前大模型商业化的领军行业。
根据2024年网信办发布的《生成式人工智能服务管理暂行办法》,截至2025年3月全国已有451个生成式人工智能服务完成备案,其中超80%为垂直领域定制化解决方案,仅19%为通用模型,标志着AI应用正从“通用能力"向“场景化落地"深度演进。
大模型应用层产品按商业成熟度可分三类:嵌入式应用通过为现有成熟软件赋能实现高效变现,成熟度最高;原生AI应用以模型为核心创造新服务,商业模式仍在探索成熟度居中;智能硬件则结合物理载体,潜力巨大但商业化挑战最大,处于早期萌芽。
面向消费者的网页版大模型应用呈现出显著的头部集中效应。其中,ChatGPT以近47亿次月访问量占据绝对领先地位,微软新必应以约15.3亿次紧随其后,两者共同构成了流量的第一梯队。其后,DeepSeek、Gemini、Perplexity、Character.ai、Claude等应用获得了上亿级别的访问量,形成了第二梯队,但与头部两者相比差距明显,更大量的AI应用则分享着剩余的长尾流量。
AI对话助手与AI搜索引擎是当前网页端A应用的两大主导形态,合计贡献了超八成总流量。其主要归因于信息查询和交互式问答是用户最高频、最基础的网络核心需求AI搜索和AI助手恰好高效满足了这一点;同时,这两类应用场景通用性强,用户基数庞大,加之领先产品通过先发优势或整合原有入口已成功积累了大量用户并验证了其核心价值。
在超大规模GPU集群训练中,算力损失率通常会从小规模的10-20%攀升至20-30%甚至更高,成为硬件投资回报的关键制约。最大化可用算力可借助负载均衡等技术,将GPU利用率稳固推升至80%+。
算力损失率(Compute Power Loss Rate)通常指在实际运行过程中,理论可用算力与实际发挥出的算力之间的差异比例。简单来说,就是系统中由于各种原因导致部分计算资源没有被有效利用,从而损失掉的那一部分算力的比例。
在训练大语言模型(比如 GPT、LLaMA、文心一言这类模型)时,通常会用到大规模GPU集群,比如数百到上万张GPU。理论上,整个集群的总算力非常惊人,但实际训练时,总会有一部分算力损失掉。常见导致算力损失的原因:
以算力切片与潮汐调度为代表的资源管理技术,正推动算力实现持续的优化升级。算力切片技术与潮汐调度技术根据业务负载变化,实现计算资源的弹性化伸缩,确保算力资源的高效与精细化利用。
算力切片,就是把整块算力资源按照一定规则切成多个"虚拟小单元”,分别独立调度、分配和使用。算力切片是通过硬件隔离、虚拟化技术或调度系统,在物理算力资源上创建逻辑独立、性能有保障的小型算力单元,以支持多租户共享、弹性分配、按需计费和精细化调度。
通用GPU虽算力强劲,但全生命周期TCO极高、推理效率仅30%-50%且受CUDA生态锁定,带来成本与供应风险;而定制化ASIC通过专用架构设计大幅提升性能——成本比和能效,正成为高效推理的更优选。
GPU整体拥有成本持续攀高。NVIDIA H100 单卡公开售价已超3万美元,按4年折旧并摊入机柜、液冷、电源、网络与运维等费用,一张卡全生命周期 TCO 可达约 5.3 万美元若部署 10 万张,首期资本支出易跳升至数十亿美元,年电费就超过 1.2亿美元。
NVIDIA 在数据中心加速卡市场占有率逾90%,CUDA 软硬件闭环使云厂商与大模型公司在采购价格、交付周期和未来路线图上高度依赖单一供应商,一旦产能受限或遇出口管制,成本和项目进度面临系统性风险。
通用 GPU 为兼顾图形渲染与科学计算,集成大量并行小核和复杂缓存逻辑,但在典型I/O 受限、批量深度有限的推理场景下,算力利用率常仅30%-50%,大部分晶体管与功耗处于闲置状态,性能、价格与能耗三角失衡。针对确定性推理需求的定制化 ASIC(如谷歌 TPUv5e)采用"手术刀式”设计,仅保留与模型高度相关的矩阵运算和稀疏计算单元优化片上存储与互连;在 Llama-3 推理测试中,单瓦性能-成本比较 H100 提升约 70%且规模化生产可使单片成本再降60%6-70%。
开源大模型与闭源大模型主要围绕"创新与生态共享"和"商业利益与安全考量"展开。开源模型提倡透明开放,吸引各领域专家联合贡献开发力量,闭源模型则更加关注数据安全和商业层面的效益。
企业在模型部署上以71.5%的占比显著倾向开源方案,且40%的决策者因其可托管于自有基础设施而尤为青睐部分开源模型,以实现更高的数据隐私与安全可控性。
MaaS正在成为企业调用AI能力和未来云厂商竞争的核心入口。其通过API大幅降低企业使用AI的门槛,并能有效带动laaS和PaaS等底层云服务的营收,将成为驱动AI全产业链营收高速增长的关键引擎。
MaaS模型即服务,通过可扩展的、按需付费的API提供预训练机器学习模型,使开发者能够在无需自建基础设施或深厚专业知识的情况下,快速集成和部署先进的 AI 能力。
大模型应用已由通用能力输出阶段转向行业深化阶段。首先,通过领域专属数据进行精调训练,以提升模型在垂直行业的精准度;其次,将精调后模型能力深度赋能风控等业务流程,以实现降本增效。
企业采纳大模型的视角,已从早期侧重模型性能、倾向于“先采后用的探索模式,转向以明确的业务场景和可量化的价值实现为核心驱动。因此,需求侧企业愈发重视云服务厂商的端到端交付能力。