腾讯混元大模型发布现场。(图片由主办方提供)
腾讯混元大模型LOGO。
深圳商报首席记者 袁静娴
9月7日,2023腾讯全球数字生态大会在深圳国际会展中心(宝安)举行。会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。
腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品,已经接入腾讯混元大模型测试,并取得初步效果。
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上表示,腾讯将迈入“全面拥抱大模型”时代。以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。腾讯产业互联网将通过智能增强、数据增强、连接增强,持续助力产业增强。
本次大会主题为“智变加速,产业焕新”,聚焦产业未来发展新趋势。大会展示了腾讯云音视频、腾讯云原生、腾讯云数据库等自研技术的最新进展,以及金融、政务、教育、能源、农业等行业的实践。
混元全链路自研技术
“从第一个token开始从零训练,混元大模型掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。”腾讯集团副总裁蒋杰表示,目前,业界大模型在场景中的应用依然有限,主要集中在容错率高、任务简单的休闲场景。腾讯在算法层面进行了一系列自研创新,提高了模型可靠性和成熟度。
针对大模型容易“胡言乱语”的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;超长文处理方面,通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
此外,腾讯还自研了机器学习框架Angel,使训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。
得益于全链路自研技术,腾讯混元大模型能够理解上下文的含义,并且有长文记忆能力,可以流畅地进行专业领域的多轮对话。除此之外,它还能进行文学创作、文本摘要、角色扮演等内容创作,做到充分理解用户意图,并高效、准确地给出有时效性的答复。
在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评66个能力项,在“模型开发”和“模型能力”两个重要领域的综合评价均获得了当前的最高分。在主流的评测集MMLU、CEval和AGI-eval上,混元大模型均有优异的表现,特别是在中文的理科、高考题和数学等子项上表现突出。
用户将可打造自己的大模型
会上,腾讯展示了混元大模型应用在各类场景的多种可能。比如,腾讯会议基于混元大模型打造了AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。
在文档处理方面,腾讯混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。同时,混元还能够一键生成标准格式文本,精通数百种Excel公式,支持自然语言生成函数,并基于表格内容生成图表。
在广告业务场景,腾讯混元大模型支持智能化的广告素材创作,能够适应行业与地域特色,满足千人千面的需求,实现文字、图片、视频的自然融合。此外,基于混元大模型的能力,广告智能导购能够帮助商家在企业微信等场景,提升服务质量和服务效率。
据了解,今年6月,腾讯云推出了模型即服务(MaaS)解决方案,提供涵盖模型预训练、模型精调、智能应用开发等一站式的行业大模型服务。
记者获悉,腾讯云已于近日全面接入Llama 2、Bloom等20多个主流模型,和混元一样,都支持直接部署调用。这意味着,用户将可以根据实际需求,基于混元、也可以基于开源模型,打造自己专属的行业大模型。