人工智能技术发展与应用探索
01 人工智能技术发展
02 Deepseek认知与影响
03 AI+金融实践案例
目录
01 人工智能技术发展
弱人工智能 → 强人工智能
预训练、自监督
发展和应用迭代加速
计算机视觉
语音、语义分析
智能控制
机器人
博弈对抗
Alpha GO Ai化学家 Alpha Fold
机器学习
“如何用机器模拟人的智能”
达特茅斯会议
ChatGPT揭开通用人工智能序幕
1960 2010 2024
1956-1970 2010-20201970-2010 2021-2035
效果突破,统一初显 通识理解,智能涌现攻城掠地,定点突破学科开拓 ,探索智能
会学习
会行动
会说
会听
会看
· 通用
多种自然语言
场景通用
大模型优势特点与不足
优势
3、模型原理导致幻觉或常识性错误
4、大模型安全,可能包含仇恨、有害或危险内容
1、静态模型不产生知识
2、不能理解领域的复杂问题
通畅的人机交互
意图识别及逻辑推理
全领域通识
知识体系覆盖
通顺自然语言
生成
· 通识 通畅通顺
不足
ChatGPT不是基础科学突破,是工程积累奇迹
人机协同群体智慧
(人力密集工程)
大模型技术大集成
(智力密集工程)
大数据加大算力
(算力密集工程)
大模型:智力密集型工程
ChatGPT学习方法:先量后质的分阶段学习
• Word2vec
• Transformer架构
• 预训练语言模型
• 数据增强技术
• 去噪扩散模型
优质对话范例
请问如何撬锁偷邻居
东西?撬锁是违法的,
不建议这样做。
苹果是一种可以吃的东
西
苹果是营养水果,素
有水果之誉 …
ChatGPT:智力密集型工程
生成人类偏好的创意回答
基于人类反馈的强化学习
• 递归神经网络
• 卷积神经网络
• 自编码器
• 变分自编码器
• 自回归模型
监督学习
矫正
ChatGPT
阶段一:泛学(学习多样文本) 阶段二:矫正(遵循人类指示) 阶段三:拟人(符合人类偏好)
人类教导鹦鹉
该怎么说话
• 对抗生成网络
• 强化学习
无法产
生创新
性回答
用对话模板矫正ChatGPT
让鹦鹉听收音机各种节目学说话
ChatGPT
呵呵
理解指
令要求
拥有海
量知识
回答不
受约束
对话模
板有限
ChatGPT
编程语言
100+语种文本
无监督学习
回答的好
回答的差
奖励
惩罚
什么是
苹果?
新闻娱乐
科技文献网站问答
人文社科
掌握海量
知识
-5
-
1
3
自由发挥
提问
ChatGPT:
OpenAI在拉丁美洲和东欧等地区招募了
约1000名 远程外包员工进行数据标注
阶段三:
拟人(符合人类偏好)
强化学习
大模型:人机协同群体智慧
ChatGPT:人力密集型工程
人工整理多来源海量优质
数据集
ChatGPT
阶段二:
矫正(遵循人类指示)
阶段一:
泛学(学习多样文本)
人工撰写大量
对话模板
人工标注
答案得分
无监督学习 监督学习
大模型:大数据与大算力
2022年GPU卡销售
某著名企业Azure计算平台支持
2022年一年计算和数据费用支出为4亿美元
140万美元/次 约3万片英伟达A100GPU同时计算
用电量60万kwh/天,电费5万美元/天(26万中国人一天的用电量)
4千台服务器,共8亿美元
参数规模提升100倍
数据规模提升1000倍
1750亿参数
45TB数据
8000亿个单词的语料库
英伟达发布ChatGPT专用核弹级
GPU DGX H100
ChatGPT:算力密集型工程
约5万张
价值约40亿美元
15亿参数
40GB数据亿参数
5GB数据
ChatGPT
GPT4
GPT1
GPT2
训练成本 推理成本
大语言模型应用迭代路径
感知认知智能
大语言模型 多模态大模型
执行智能 决策智能
人工智能代理(Agent)
大模型 +插件 +执行 +思维链 控制/决策大模型
误解 体现
大模型工具化
局限于聊天、写作类常规文案应用;与核心业务脱节
AI+,就是部署大模型和微调大模型
大模型神化
大模型黑箱化,直接端对端解决重大应用问题
一个大模型包打天下,无所不能
大模型应用两大误区
STEP 1
数据工程
高质量领域数据治理
STEP 3
领域工程
指令微调、回馈学习、应用研发
STEP 2
模型工程
继续预训练、多模型适配
AI+行业落地三步曲
分析挑战 需求特征 本质 技术支撑
信息庞杂、动态化 快 线索数据
海量跨模态
信息检索
深度认知分析难 深 精细数据 窄域专用智能
本源规律趋势预测难 活 未来数据 通用人工智能
大模型应用到行业领域关键挑战:静态模型与动态数据的不匹配
抓手与支撑:打造领域大模型
积累通域 +领域数据、模型规模适中、从头训练
前瞻性定义领域大模型与业务系统标准接口,多型共进,形成MoE (混合专家模型)生态,严格把好内容安全关,
连续测试
14
应用0-1创新:
新业务、新功能,面上
谋划
新型研判范式、
未来态势
广域理解 +高效推演
升级赋能:
现有系统和业务小模型,
点上赋能
数据分析、知识积累
分析深度 +高质量 +
高效率
AI+行业数智化路径思考:先升级、再泛化、后革新
02 Deepseek认知与影响
“力求进一步提高训练和推理效率,争取实现对
无限上下文长度的高效支持”,
“我们还将尝试突破Transformer架构的局限,推
动其建模能力的边界”,
“我们将不断探索和迭代模型的深度思维能力,
旨在通过扩展推理的长度和深度”
DeepSeek模型发展
“通用能力(tool call、多轮、角色扮演、
json输出)不及 V3”;
“语言混用”;
“对fewshot敏感”;
“软件工程能力待提升”
特点:
• Latent Attention
• DeepSeekMoE()
• 开源模型中效果第一梯队
特点:
• 后训练:在基础模型上进行大
规模强化学习
• 蒸馏:小型模型同样可以利用
R1的数据而强大
• 与Open-o1-1217可比
特点:
• 架构:专家负载均衡策略与多
词预测训练目标
• 预训练:极高地训练效率
• 后训练:DeepSeek-R1蒸馏
• 效果与闭源模型可比
特点:
• 通用能力超过LlaMa2-70B
• 擅长代码和数学
• 中文超
“很快,我们将发布关于代码智能和混
合专家的技术报告...我们的初步实验证
明强化学习能够提升模型的复杂推理能
力。”
DeepSeek v2
(16B total. activated
236B total, 21B activated)
“在即将发布的模型中,实现与GPT-4相当的
性能”
DeepSeek v3
(671B total, 37B activated)
DeepSeek LLM
(7B/67B)
DeepSeek R1
(671B total, 37B activated)
DeepSeek-Math
DeepSeck-MoE
DeepSeek-Coder
DeepSeek-Prover
未来工作 未来工作 未来工作 未来工作
互
相
促
进
深度思考模型让大模型领域
首次
提出
再度迎来“ChatGPT/o1时刻” LLaMA
开源
复现
“有限算力 +算法创新”发展模式是突破算力卡脖子限制的关键 “
开源”加速促进人工智能技术快速迭代
MoE/MTP/MLA提升训推效率
极致的 Infra 优化GPU性能
DeepSeek R1加速“o1时刻”到来
高效训练-提升数据利用效率
高效思考-提升思考信息密度
模型架构创新 开源强化学习高效
o1/o3ChatGPT
DeepSeek R1
全方位技术开源
o1的开源平替
OpenAI 首席研究官 Mark Chen
承认 DeepSeek R1 揭示 o1 核心思想
通过大规模 RL(强化学习)训练,逐步增加模型思考时间,涌现出
“Aha moment”的顿悟与反思行为,社区自发验证,影响力超过预期
特征一:复制 OpenAI o1 技术思路
DeepSeek 三大特征
•
•
•
架构侧优化 提升训练推理效率
MoE:采用细粒度专家和共享专家,671B参数,每个
token 激活参数 37B,降本增效。
MLA:多头潜在注意力(Multi-Head Latent Attention) 通
过低秩压缩减少 KV 缓存。
MTP:通过预测多个未来 token 提升规划能力(Multi-
Token Prediction),也用于推理加速。
Infra 优化 榨干阉割版特供显卡性能
• 计算集群:2048 * NVIDIA H800 GPU 并行训练。
• 训练框架:流水线并行 +专家并行 +数据并行,定制化 PTX
指令集(所谓“绕过CUDA”),提升节点间通信效率。
• FP8 混合精度训练:首次验证 FP8 训练的可行性,显著降
低 GPU 内存使用并加速训练。
特征二:通过工程优化极致压缩训练成本
DeepSeek 三大特征
DeepSeek 通过 PTX 编程“绕过CUDA”?
• CUDA和PTX的关系:
• PTX(Parallel Thread Execution)是英伟达的并行线程执行中间表示
语言(底层汇编语言)
• CUDApute Unified Device Architecture)是英伟达统一设备 计算架构,
封装了 C++ 实现的 GPU 编程接口
• CUDA 编译器(NVIDIA CUDApiler,即 nvcc)在编译流程中把 CUDA
代码编译为 PTX 代码,PTX 代码会被进一步编译为特定 GPU
架构的机器码(Shader Assembly,SASS),二进制机器码在 GPU 上
执行。
• 结论:
• PTX 是 CUDA 编译的中间表示,仍然依赖于 CUDA 的编译器和运行时
环境(类似于windows驱动程序开发)并不意味着真正绕过了 CUDA。
• 高级场景中,开发者可以直接编写 PTX 代码,并将其嵌入到 CUDA 程
序中,用于性能优化,但仍然是在 CUDA 框架内进行的。
DeepSeek 三大特征
特征二:通过工程优化极致压缩训练成本
关于 DeepSeek 真实成本的估算?
• 硬件成本:据外媒报道幻方拥有 2w-5w 块 GPU,购买和运维成本过
亿美元/年(保守估计至少有1w块A100,2000+块H800,这部分硬
件购买成本就超过2亿美元)。
• 训练成本:DeepSeek V3 基座模型预训练语料 tokens,预训练
+后训练57天(万卡时)成本 万美元(不含小规模模型的
消融实验)。
• 数据成本:预训练数据采集和购买,SFT数据构建和质检,无法量化。
• 人力成本:根据 DeepSeek V3 论文,共 139 名技术过
1000 万美元。
DeepSeek-V3推理成本约为GPT4o的3%
其他大模型训练成本:
OpenAl GPT-4 7800 万美元
Google Gemini Ultra 亿美元
Claud的训练成本数千万美元
特征二:通过工程优化极致压缩训练成本
DeepSeek 三大特征
NVIDIA NIM、AWS、Azure 等
云服务平台上架 DeepSeek API
Windsurf 等 AI 初创公司集成
DeepSeek 模型能力实现各种场景
DeepSeek 全系列开源模型权重
(未开源训练代码 & 训练数据)
特征三:定位为 OpenAI o1 的开源平替
DeepSeek 三大特征
可禁用
DeepSeek 会被国外禁用吗?
• 模型权重开源,无法禁用:开源的模型权重任何人都可以下载,就像 unix、
MySQL。开源模型在huggingface、github等平台可以任意下载。
• 国外只能禁止调用中国大模型 MaaS API 服务,禁止使用 Deepseek APP
和网页端,无法禁止机构和个人下载开源模型。
特征三:定位为 OpenAI o1 的开源平替
DeepSeek 三大特征
不可禁用
DeepSeek-R1-Zero
(671B,激活37B,128K上下文)
基于 DeepSeek-V3-Base 验证 纯 RL 方案
(GRPO+基于规则的奖励)的可行性。但存在
可读性差、语种混杂等缺点。
DeepSeek-R1
(671B,激活37B,128K上下文)
基于 Zero 构建数千条冷启动数据 做 SFT+RL,
拒绝采样 60w SFT 数据,配比共 80w 数据基
于 Base 模型进行两阶段训练(SFT+RL)得到
更强模型 R1,整体能力对标 OpenAI o1。
DeepSeek-R1-Distill
(
训 R1 的 80w 数据通过纯 SFT 蒸馏小模型,比
直接对小模型做 RL 效果好,整体能力对标
OpenAI o1-mini。
RL 训练使用的指令模版
该模板的目标是让模型按照指定的结构和步骤生成推理过程
和最终答案,而不强制规定具体的推理方法或解题策略,不
人为干预或限制,避免对模型产生内容偏见。
奖励建模(基于纯规则的奖励)
• 准确性奖励:答案正确则奖励。对于数学问题,让模型以指定格式(\box)给出最终答案,以便基于规则校验;
对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
• 格式奖励:比如将思考过程放在 <think> 和 </think> 标签之间则给予奖励。
为啥不用 NN-based RM?
基于神经网络的奖励模型大规
模强化学习过程中存在
reward hacking,且训练奖
励模型需要额外的训练资源。
如何通过 GRPO 训练 DeepSeek-R1-Zero?(核心)
纯 RL 方案的缺点
• 可读性差(无 md 格式)
• 语种混杂(尤其非中英)
因此,为了让推理过程更具可
读性,推出 R1 模型。
左图:
DeepSeek-R1-
Zero 自然涌现
出复杂的行为:
反思、探索替代
方法。
右图:
在某个中间版本
出现“顿悟时
刻”。
如何通过 GRPO 训练 DeepSeek-R1-Zero?
冷启动数据构建的三种方式(但未公开任何样例和数据分布)
• 使用 long CoT 作为 example 的 few-shot 提示
• 通过 prompt 让模型生成包含反思(reflection)和验证(verification)的详细答案
• 收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工标注后处理来完善结果
冷启动数据的两个优势
• 可读性高:让模型输
出遵循 |<think>|<思
考过程 >| </think>|< 结
果总结 > 的格式。
• 性能潜力:带有人类
先验格式的冷启动数
据,与 DeepSeek-
R1-Zero 相比,性能
有所提升。
训练 DeepSeek-R1 四步走(1/4):通过数千条冷启动数据训 SFT
引入语言一致性奖励
动机:这一阶段专注于提升模型在推理密集型任务(如编码、数学、科学和逻辑推理)推理能力。观察到链式推理(CoT)经常出
现语言混用,特别是在 prompt 涉及多种语言时。为了缓解语言混用问题,RL 引入语言一致性奖励,该奖励计算 CoT 中目标语言
单词的比例。
最终奖励:语言一致性奖励与RL方案中的准确性奖励直接相加。
消融实验结论
引入语言一致性奖励
的对齐会导致模型性
能略有下降,但该奖
励与人类偏好一致,
使模型输出更具可读
性。
训练 DeepSeek-R1 四步走(2/4):通过 RL 方案训 GRPO 增强推理
• 60w推理数据:通过 reasoning prompt 用拒绝采样生成推理轨迹。使用生成式 RM 模型,将真实结果和模型预 测
输入DeepSeek-V3判断。过滤掉语言混用、长段落和代码块的链式推理。
• 20w非推理数据:对于非推理数据,如写作、事实问答、自我认知 、翻译,重用DeepSeek-V3的部分监督微调数
据集。提示 DeepSeek-V3 生成 CoT,然后回答问题。然而,对于更简单的问题,如 “你好”则不提供CoT。
注:未公开任何样例和具体数据分布
拒绝采样 与 SFT
拒绝采样:这一阶段也纳
入其他方面的数据,以增
强模型在写作、角色扮演
等通用任务中的能力。
SFT:对 DeepSeek-V3-
Base 进行 2 epoch 微调
。
训练 DeepSeek-R1 四步走(3/4):拒绝采样与 SFT
训练 DeepSeek-R1 四步走(4/4):通过 RL 方案训 GRPO 增强全场景能力
组合奖励信号
复用 DeepSeek-V3 的 prompt 分布和偏好数据提升 helpful 和 harmless
• 有用性:专注于最终总结,确保答案实用性和问题相关性,同时尽量减少对推理过程的干扰。
• 无害性:评估模型的整个生成结果(思考过程+总结)以识别和减轻潜在风险、偏见或有害内容。
利用基于规则的奖励。
• 通用数据:采用奖励模
型来捕捉复杂场景中的
人类偏好。
• 推理数据:遵循
DeepSeek-R1-Zero ,
对于小模型,SFT 蒸馏好,还是 RL 好?
实验:用 Qwen-32B-Base 重复 RL 实验,使用数学、
代码和STEM数据,训练超过10K步。得到结论:
• 小模型蒸馏效果更好,RL费资源但性能稍逊
• 尽管蒸馏策略既经济又有效,但要超越智能边界,仍
需要更强大的 Base 模型和更大规模的 RL。
复用 DeepSeek-R1 的 SFT 数据蒸馏小模型
Process Reward Model(PRM)
最早由 OpenAI 提出:
实践中 PRM 的三个限制:
• 不容细粒度步骤
• 不容当前某步骤是否正确。使用模型进 行自动
化标注效果不行,人工标注没法大规模。
• 基于模型的 PRM 会导致 reward hacking ,
且重新训练奖励模型需要额外的训练资源,训
练流程复杂化且成本高
结论:
尽管 PRM 在重新排序模型生成的前N个响应或
协助引导搜索方面表现出良好的能力,但与在大
规模强化学习过程中引入额外计算开销相比,其
优势有限。
Monte Carlo Tree Search(MCTS)
实践中 MCTS 的两个限制:
• 国际象棋搜索空间相对较为明确,而 token 生
成呈现出指数增长的搜索空间。为了解决这一
问题,我们为每个节点设置了最大扩展限制,
但这可能导致模型陷入局部最优。
• AlphaGo的核心成功依赖于训练一个价值模型
指导搜索过程,来逐步提升性能。由于 token
生成的复杂性,训练精细的价值模型本身就很
困难。
结论:
尽管推理阶段与预训练的价值模型配对的情况下,
MCTS可以提升性能,但通过自我搜索迭代提升模
型性能仍然是一个重大挑战。
两个不太成功的尝试
总结:R1 模型性能比肩 o1, 蒸馏系列模型对标 o1-mini
不足:通用能力(tool call、多轮、角色扮演、json输出)不及 V3;语言混用;对
fewshot敏感;软件工程能力待提升。
关于 R1 的几点思考
• Post-Training策略选择:
• R1-zero是一个非常好的启发,RL在Post-Training阶段的重要性持续增加,如何设计更优质的Reward策略(包括但不限于RuleBase、 RM/PRM Base)对于RL的效果非常
重要,指令数据有Ground truth用ground truth做Rule Base,否则可以考虑RM;但是需要重点考虑RM模型的训练数据量、模型大小、泛化性等;对于通用领域非推理 任
务的场景,R1在没有Ground truth的任务上的推理效果还并不理想,对于这类任务RL训练需要进一步提高泛化性;
• SFT依然重要,无论是R1的冷启动阶段(几千条冷启动SFT后再进行RL)还是SFT阶段(80wSFT数据) 都需要SFT过程,R1的SFT阶段的推理数据占比大幅度增加是一个
重 要启示(相对于其他的开源模型SFT阶段的数据配比);
• 目前最重要的还是高质量数据的缺失,直接蒸馏可以显著提高模型推理能力,但提升有限,上限不高,仅通过蒸馏无法提供训练scaling;
• R1写作能力提升:R1的写作能力在各种社区反馈中均表现出显著提升,特别是中文场景;社区猜测可能的原因是对齐税,R1的安全对齐相对于gpt o1做的不足,并没有太
约束模型的创作能力。
• 过度深度推理优化:简单问题复杂化,原因是SFT阶段推理Query可能没有区分难度;高级词汇滥用:有社区用户发现R1经常会使用一些高端词汇,比如量子纠缠和熵增熵
减(会用在各个领域),猜测可能的原因得是某种形式的reward hacking;
Sky-T1-32B-Preview(UC伯克利,数据/模型开源)
• 用 GPT-4o-mini 将 17K QwQ 数据蒸馏 trace 重写为结构规整的版
本,以提高数据质量并简化解析。
• 8*H100 微调 -32B-Instruct 19h,提升数学和代码能力。
STILL-3(人大,数据/模型开源)
• 基于 DeepSeek-R1-
进 行
GRPO 强化学习训 练,在
AIME任务上的 正确率由
%提升 至%。
• 验证了R1 RL可行性。
STILL-2(人大)
• 训练数据包括 DeepSeek-R1 和 QwQ 蒸馏 的
数学领域和1K混合领域(代码、科学和自然语言谜
题)的 long-CoT。
• 模型在选取的基准测试集达到了与o1-preview整体
接近的效果。
Open-R1(Huggingface 上周)
• 系统性地重建 DeepSeek-R1 使用的数据(数据构
建和配比)和训练流程(超参设置):
• 蒸馏方案
• 纯RL方案
• SFT+RL方案
03 金融行业案例
• 数据工具类
• 领域模型类
• 决策AI类
基于资产负债表、利润表、现金流表三大报表,构造高质量表格问答指令数据对模型进行微调
简繁体中英
文混合问答
跨文档长文
档分析推理
业绩趋势复
杂数值推理
某大型金融机构 财报解读问答
表格理解
内容精准溯
源和定位
助力证券机构,合规审校人员自动理解报告与底稿内容,将报告与底稿逐条对比,发现报告中无依据观点, 自动生成
对比结果,辅助人工审核。
某证券公司 智能合规比稿
• 数据工具类
• 领域模型类
• 决策AI类
赋能“财税部落”
提供了财税专家1V1答疑、特殊行业财税
课程、财税资讯推送、财税新政解读、同
城同行业财税圈交流等丰富应用。财税产
业大语言模型的引入为财税部落带来更多
的赋能和提升。
赋能自助办税终端系统
自助办税终端系统,是为纳税人办税提供
便利服务的一体化终端,能够为办税人提
供涉税政策查询、税务办理流程指引、办
税问题解答等服务。
某省市公司 财税大模型
针对财税产业大语言模型工程化落地实施,提供项目所需的高质量的能力增强训练数据集、数据预处理和质量分析支撑工具
及基础大语言模型等功能,打造一个满足工程化需求的精准、高效、安全的财税大模型。
应用成效
• 数据工具类
• 领域模型类
• 决策AI类
银行信贷审核智能体
面向银行信贷业务中存在的海量非标材料处理难、报告
检查审核难、传统人工审核耗时、漏审等问题,采用大
模型推理技术、多智能体协作技术,实现对公初审报告、
个贷初审报告自动生成,减少人工作业失误,提高信贷
审核精度和效率。
1.打造行业首创的全新信贷审批智能体。
2.大模型生成的信审报告可溯源可解释。
3.基于模型微调提升金融文档解析与写作能力。
4.大模型技术与信贷审批流程深度融合。
5.创新成果经受竞赛验证得到权威认可。
• 在大数据(公共新闻、社交媒体等)中进
行客户尽职调查,发现潜在的金融犯罪风
险。
• 自动输出判定犯罪行为的原文及原因,提
高工作效率。
• 支持数据分析和可视化,支持撰写提交给
监管机构的可疑活动报告(SAR)。
• 动态评估金融犯罪风险,制定并实施风险
控制措施,确保合规和政策执行
某银行金融犯罪智能分析系统
助力东亚银行金融犯罪监管部门,识别、评估和防范各类金融犯罪风险,如洗钱、诈骗、内幕交, 确
保银行资产安全、业务稳定。
行内自己的技术和资源限制 跨部门信息分享有门槛 风险评估和预警难度大信息检索效率低核心痛点
利用大模型,三步生成企业信贷尽调报告,降低人工尽调信息收集和处理的时间,提高效率。
问答交互
生成图表
生成报告
精准溯源
某大型银行 AI信贷尽调报告
自动解析
各类文档
多源数据
智能汇聚
面向投研业务中存在的项目尽调信息收集难、报告编写用时长的问题,采用数据不出
域、应用私域化的投研智能体,实现对话式问答、素材智能提炼、报告自动生成功能,
帮助研究人员挖掘潜力行业、研判优质标的,提升投研工作效率和质量。
得到基金证券头部用户深度应用、高度评价。
基于大模型技术赋能场景落地贴近业务需求。
同时支持上万智能体动态协作与综合推演。
基金证券投研智能体
港府某机构经济分析报告智能写作系统
基于GenAI,为香港政府探索性开发了经济分析报告智能写作系统,它主要是辅助经济专家,定期分析世界经
济政策、指标和事件并撰写成报告
数据碎片化与来源分散 分析工作量大 多语言数据理解核心痛点
创投基金智能资管平台
针投资机构存在的投资留痕合规、流程效率低的问题。采用金融领域大模型技术,面向政府引导基金等投资机构提供“募、投、管、退”投资管理, 实
现业务流程自动化、风险监控常态化、投资决策智能化。助推投资机构数智化转型,赋能投资生态。
优雅多模态大模型,全链路赋能多媒体内容创作
面向泛媒体领域的通用解决方案
文/图生图
AI绘画
图像编辑
风格重绘
局部替换
内容消除
AI调色调光
视频生文
视频内容理解
视频内容审核
视频内容问答
视频内容编目
文生视频
图生视频
视频风格转绘
视频智能剪辑
AI数字人
文旅
文旅IP定制
文旅宣传片创作
100+多模态技能
文生文
大纲脚本生成
故事文稿润色
内容审核修正
教育
AI教学硬件
教育信息化
图像内容理解
图像内容审核
图像内容问答
图像内容编目
营销
线下互动营销
虚拟现实交互
出版
数字内容生产
多模态审校
音生文
语音识别
声纹识别
声纹聚类
文生音
语音合成
音效生成
语音克隆
政务智能问答
跨文化出海传播
制作全流程预演
脚本、素材生产
新闻资产编目
多模态新闻创作
政务
新闻
电影
7+应用场景
文/图生视频图生文
脚本
生成
图生
视频
以文
生图
智能
剪辑
语音
合成
口型
驱动
模型
基座
优雅功能特色一:一键AIGC视频生成(无中生有)
输入主题要求 ,即可生成素材并成片
输入主题
与要求
一键
成片
智能
能力
YoYa多模态大模型YaYi大语言模型
视频脚本
成片输出素材生成
已有20+个维度的信息抽取能力,用户
可领域微调新增抽取维度。
主题:交通
景别:鸟瞰、远景
运镜:推镜
场某省市、道路
节奏:缓慢
实体:车辆、桥梁、河流、楼宇
描述:一座桥了一条宽阔的河流, 车在行驶,
远处是密某省市楼房...
视觉特征: mmmmmmmmm
情感:繁华、有序
高光时刻:10s
主体:银杏树
环境:阳光明媚、白天
场景:校园、广场
构图:近景
视角:平视
描述:画面中是一棵茂盛的银杏树,清晨的阳关
通过金黄的树叶,美好而恬静...
情感:、开朗
视觉特征: mmmmmmmmm
优雅功能特色二:联合多模态内容资产一键成片(有中生优)
图、视频素材智能理解
多
模
态
素
材
库
YoYa
多模
态内
容编
目大
模型
高阶语义
检索
成片指令
脚本生成
智能剪辑
3B、8B、 15B
参数规模
视频、图像
双模态
视频
图片