智库文档所有分类

（50页PPT）人工智能技术发展与应用探索.pptx.ppt

下载

管理咨询顾问

50页 | 11.57MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

人工智能技术发展与应用探索 01 人工智能技术发展 02 Deepseek认知与影响 03 AI+金融实践案例目录 01 人工智能技术发展弱人工智能 → 强人工智能预训练、自监督发展和应用迭代加速计算机视觉语音、语义分析智能控制机器人博弈对抗 Alpha GO Ai化学家 Alpha Fold 机器学习 “如何用机器模拟人的智能” 达特茅斯会议 ChatGPT揭开通用人工智能序幕 1960 2010 2024 1956-1970 2010-20201970-2010 2021-2035 效果突破,统一初显通识理解,智能涌现攻城掠地,定点突破学科开拓 ,探索智能会学习会行动会说会听会看 · 通用多种自然语言场景通用大模型优势特点与不足优势 3、模型原理导致幻觉或常识性错误 4、大模型安全，可能包含仇恨、有害或危险内容 1、静态模型不产生知识 2、不能理解领域的复杂问题通畅的人机交互意图识别及逻辑推理全领域通识知识体系覆盖通顺自然语言生成 · 通识通畅通顺不足 ChatGPT不是基础科学突破，是工程积累奇迹人机协同群体智慧（人力密集工程）大模型技术大集成（智力密集工程）大数据加大算力（算力密集工程）大模型：智力密集型工程 ChatGPT学习方法：先量后质的分阶段学习 • Word2vec • Transformer架构 • 预训练语言模型 • 数据增强技术 • 去噪扩散模型优质对话范例请问如何撬锁偷邻居东西？撬锁是违法的，不建议这样做。苹果是一种可以吃的东西苹果是营养水果，素有水果之誉 … ChatGPT：智力密集型工程生成人类偏好的创意回答基于人类反馈的强化学习 • 递归神经网络 • 卷积神经网络 • 自编码器 • 变分自编码器 • 自回归模型监督学习矫正 ChatGPT 阶段一：泛学（学习多样文本）阶段二：矫正（遵循人类指示）阶段三：拟人（符合人类偏好）人类教导鹦鹉该怎么说话 • 对抗生成网络 • 强化学习无法产生创新性回答用对话模板矫正ChatGPT 让鹦鹉听收音机各种节目学说话 ChatGPT 呵呵理解指令要求拥有海量知识回答不受约束对话模板有限 ChatGPT 编程语言 100+语种文本无监督学习回答的好回答的差奖励惩罚什么是苹果？新闻娱乐科技文献网站问答人文社科掌握海量知识 -5 - 1 3 自由发挥提问 ChatGPT: OpenAI在拉丁美洲和东欧等地区招募了约1000名远程外包员工进行数据标注阶段三：拟人（符合人类偏好）强化学习大模型：人机协同群体智慧 ChatGPT：人力密集型工程人工整理多来源海量优质数据集 ChatGPT 阶段二：矫正（遵循人类指示）阶段一：泛学（学习多样文本）人工撰写大量对话模板人工标注答案得分无监督学习监督学习大模型：大数据与大算力 2022年GPU卡销售某著名企业Azure计算平台支持 2022年一年计算和数据费用支出为4亿美元 140万美元/次约3万片英伟达A100GPU同时计算用电量60万kwh/天，电费5万美元/天（26万中国人一天的用电量） 4千台服务器，共8亿美元参数规模提升100倍数据规模提升1000倍 1750亿参数 45TB数据 8000亿个单词的语料库英伟达发布ChatGPT专用核弹级 GPU DGX H100 ChatGPT：算力密集型工程约5万张价值约40亿美元 15亿参数 40GB数据亿参数 5GB数据 ChatGPT GPT4 GPT1 GPT2 训练成本推理成本大语言模型应用迭代路径感知认知智能大语言模型多模态大模型执行智能决策智能人工智能代理（Agent）大模型 +插件 +执行 +思维链控制/决策大模型误解体现大模型工具化 局限于聊天、写作类常规文案应用；与核心业务脱节 AI+，就是部署大模型和微调大模型大模型神化 大模型黑箱化，直接端对端解决重大应用问题 一个大模型包打天下，无所不能大模型应用两大误区 STEP 1 数据工程高质量领域数据治理 STEP 3 领域工程指令微调、回馈学习、应用研发 STEP 2 模型工程继续预训练、多模型适配 AI+行业落地三步曲分析挑战需求特征本质技术支撑信息庞杂、动态化快线索数据海量跨模态信息检索深度认知分析难深精细数据窄域专用智能本源规律趋势预测难活未来数据通用人工智能大模型应用到行业领域关键挑战：静态模型与动态数据的不匹配抓手与支撑：打造领域大模型 积累通域 +领域数据、模型规模适中、从头训练 前瞻性定义领域大模型与业务系统标准接口，多型共进，形成MoE (混合专家模型)生态，严格把好内容安全关，连续测试 14 应用0-1创新：新业务、新功能，面上谋划 新型研判范式、 未来态势 广域理解 +高效推演升级赋能：现有系统和业务小模型，点上赋能 数据分析、知识积累 分析深度 +高质量 + 高效率 AI+行业数智化路径思考：先升级、再泛化、后革新 02 Deepseek认知与影响 “力求进一步提高训练和推理效率，争取实现对无限上下文长度的高效支持”， “我们还将尝试突破Transformer架构的局限，推动其建模能力的边界”， “我们将不断探索和迭代模型的深度思维能力，旨在通过扩展推理的长度和深度” DeepSeek模型发展 “通用能力（tool call、多轮、角色扮演、 json输出）不及 V3”； “语言混用”； “对fewshot敏感”； “软件工程能力待提升” 特点: • Latent Attention • DeepSeekMoE() • 开源模型中效果第一梯队特点: • 后训练:在基础模型上进行大规模强化学习 • 蒸馏:小型模型同样可以利用 R1的数据而强大 • 与Open-o1-1217可比特点: • 架构:专家负载均衡策略与多词预测训练目标 • 预训练:极高地训练效率 • 后训练:DeepSeek-R1蒸馏 • 效果与闭源模型可比特点: • 通用能力超过LlaMa2-70B • 擅长代码和数学 • 中文超 “很快，我们将发布关于代码智能和混合专家的技术报告...我们的初步实验证明强化学习能够提升模型的复杂推理能力。” DeepSeek v2 (16B total. activated 236B total, 21B activated) “在即将发布的模型中，实现与GPT-4相当的性能” DeepSeek v3 (671B total, 37B activated) DeepSeek LLM (7B/67B) DeepSeek R1 (671B total, 37B activated) DeepSeek-Math DeepSeck-MoE DeepSeek-Coder DeepSeek-Prover 未来工作未来工作未来工作未来工作互相促进深度思考模型让大模型领域首次提出再度迎来“ChatGPT/o1时刻” LLaMA 开源复现 “有限算力 +算法创新”发展模式是突破算力卡脖子限制的关键 “ 开源”加速促进人工智能技术快速迭代 MoE/MTP/MLA提升训推效率极致的 Infra 优化GPU性能 DeepSeek R1加速“o1时刻”到来高效训练-提升数据利用效率高效思考-提升思考信息密度模型架构创新开源强化学习高效 o1/o3ChatGPT DeepSeek R1 全方位技术开源 o1的开源平替 OpenAI 首席研究官 Mark Chen 承认 DeepSeek R1 揭示 o1 核心思想通过大规模 RL（强化学习）训练，逐步增加模型思考时间，涌现出 “Aha moment”的顿悟与反思行为，社区自发验证，影响力超过预期特征一：复制 OpenAI o1 技术思路 DeepSeek 三大特征 • • • 架构侧优化提升训练推理效率 MoE：采用细粒度专家和共享专家，671B参数，每个 token 激活参数 37B，降本增效。 MLA：多头潜在注意力（Multi-Head Latent Attention）通过低秩压缩减少 KV 缓存。 MTP：通过预测多个未来 token 提升规划能力（Multi- Token Prediction），也用于推理加速。 Infra 优化榨干阉割版特供显卡性能 • 计算集群：2048 * NVIDIA H800 GPU 并行训练。 • 训练框架：流水线并行 +专家并行 +数据并行，定制化 PTX 指令集（所谓“绕过CUDA”），提升节点间通信效率。 • FP8 混合精度训练：首次验证 FP8 训练的可行性，显著降低 GPU 内存使用并加速训练。特征二：通过工程优化极致压缩训练成本 DeepSeek 三大特征 DeepSeek 通过 PTX 编程“绕过CUDA”？ • CUDA和PTX的关系： • PTX（Parallel Thread Execution）是英伟达的并行线程执行中间表示语言（底层汇编语言） • CUDApute Unified Device Architecture）是英伟达统一设备计算架构，封装了 C++ 实现的 GPU 编程接口 • CUDA 编译器（NVIDIA CUDApiler，即 nvcc）在编译流程中把 CUDA 代码编译为 PTX 代码，PTX 代码会被进一步编译为特定 GPU 架构的机器码（Shader Assembly，SASS），二进制机器码在 GPU 上执行。 • 结论： • PTX 是 CUDA 编译的中间表示，仍然依赖于 CUDA 的编译器和运行时环境（类似于windows驱动程序开发）并不意味着真正绕过了 CUDA。 • 高级场景中，开发者可以直接编写 PTX 代码，并将其嵌入到 CUDA 程序中，用于性能优化，但仍然是在 CUDA 框架内进行的。 DeepSeek 三大特征特征二：通过工程优化极致压缩训练成本关于 DeepSeek 真实成本的估算？ • 硬件成本：据外媒报道幻方拥有 2w-5w 块 GPU，购买和运维成本过亿美元/年（保守估计至少有1w块A100，2000+块H800，这部分硬件购买成本就超过2亿美元）。 • 训练成本：DeepSeek V3 基座模型预训练语料 tokens，预训练 +后训练57天（万卡时）成本万美元（不含小规模模型的消融实验）。 • 数据成本：预训练数据采集和购买，SFT数据构建和质检，无法量化。 • 人力成本：根据 DeepSeek V3 论文，共 139 名技术过 1000 万美元。 DeepSeek-V3推理成本约为GPT4o的3% 其他大模型训练成本： OpenAl GPT-4 7800 万美元 Google Gemini Ultra 亿美元 Claud的训练成本数千万美元特征二：通过工程优化极致压缩训练成本 DeepSeek 三大特征 NVIDIA NIM、AWS、Azure 等云服务平台上架 DeepSeek API Windsurf 等 AI 初创公司集成 DeepSeek 模型能力实现各种场景 DeepSeek 全系列开源模型权重（未开源训练代码 & 训练数据）特征三：定位为 OpenAI o1 的开源平替 DeepSeek 三大特征可禁用 DeepSeek 会被国外禁用吗？ • 模型权重开源，无法禁用：开源的模型权重任何人都可以下载，就像 unix、 MySQL。开源模型在huggingface、github等平台可以任意下载。 • 国外只能禁止调用中国大模型 MaaS API 服务，禁止使用 Deepseek APP 和网页端，无法禁止机构和个人下载开源模型。特征三：定位为 OpenAI o1 的开源平替 DeepSeek 三大特征不可禁用 DeepSeek-R1-Zero （671B，激活37B，128K上下文）基于 DeepSeek-V3-Base 验证纯 RL 方案（GRPO+基于规则的奖励）的可行性。但存在可读性差、语种混杂等缺点。 DeepSeek-R1 （671B，激活37B，128K上下文）基于 Zero 构建数千条冷启动数据做 SFT+RL，拒绝采样 60w SFT 数据，配比共 80w 数据基于 Base 模型进行两阶段训练（SFT+RL）得到更强模型 R1，整体能力对标 OpenAI o1。 DeepSeek-R1-Distill （训 R1 的 80w 数据通过纯 SFT 蒸馏小模型，比直接对小模型做 RL 效果好，整体能力对标 OpenAI o1-mini。 RL 训练使用的指令模版该模板的目标是让模型按照指定的结构和步骤生成推理过程和最终答案，而不强制规定具体的推理方法或解题策略，不人为干预或限制，避免对模型产生内容偏见。奖励建模（基于纯规则的奖励） • 准确性奖励：答案正确则奖励。对于数学问题，让模型以指定格式（\box）给出最终答案，以便基于规则校验；对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。 • 格式奖励：比如将思考过程放在 <think> 和 </think> 标签之间则给予奖励。为啥不用 NN-based RM？基于神经网络的奖励模型大规模强化学习过程中存在 reward hacking，且训练奖励模型需要额外的训练资源。如何通过 GRPO 训练 DeepSeek-R1-Zero？（核心）纯 RL 方案的缺点 • 可读性差（无 md 格式） • 语种混杂（尤其非中英）因此，为了让推理过程更具可读性，推出 R1 模型。左图： DeepSeek-R1- Zero 自然涌现出复杂的行为：反思、探索替代方法。右图：在某个中间版本出现“顿悟时刻”。如何通过 GRPO 训练 DeepSeek-R1-Zero？冷启动数据构建的三种方式（但未公开任何样例和数据分布） • 使用 long CoT 作为 example 的 few-shot 提示 • 通过 prompt 让模型生成包含反思（reflection）和验证（verification）的详细答案 • 收集 DeepSeek-R1-Zero 的可读格式输出，并通过人工标注后处理来完善结果冷启动数据的两个优势 • 可读性高：让模型输出遵循 |<think>|<思考过程 >| </think>|< 结果总结 > 的格式。 • 性能潜力：带有人类先验格式的冷启动数据，与 DeepSeek- R1-Zero 相比，性能有所提升。训练 DeepSeek-R1 四步走（1/4）：通过数千条冷启动数据训 SFT 引入语言一致性奖励动机：这一阶段专注于提升模型在推理密集型任务（如编码、数学、科学和逻辑推理）推理能力。观察到链式推理（CoT）经常出现语言混用，特别是在 prompt 涉及多种语言时。为了缓解语言混用问题，RL 引入语言一致性奖励，该奖励计算 CoT 中目标语言单词的比例。最终奖励：语言一致性奖励与RL方案中的准确性奖励直接相加。消融实验结论引入语言一致性奖励的对齐会导致模型性能略有下降，但该奖励与人类偏好一致，使模型输出更具可读性。训练 DeepSeek-R1 四步走（2/4）：通过 RL 方案训 GRPO 增强推理 • 60w推理数据：通过 reasoning prompt 用拒绝采样生成推理轨迹。使用生成式 RM 模型，将真实结果和模型预测输入DeepSeek-V3判断。过滤掉语言混用、长段落和代码块的链式推理。 • 20w非推理数据：对于非推理数据，如写作、事实问答、自我认知、翻译，重用DeepSeek-V3的部分监督微调数据集。提示 DeepSeek-V3 生成 CoT，然后回答问题。然而，对于更简单的问题，如 “你好”则不提供CoT。注：未公开任何样例和具体数据分布拒绝采样与 SFT 拒绝采样：这一阶段也纳入其他方面的数据，以增强模型在写作、角色扮演等通用任务中的能力。 SFT：对 DeepSeek-V3- Base 进行 2 epoch 微调。训练 DeepSeek-R1 四步走（3/4）：拒绝采样与 SFT 训练 DeepSeek-R1 四步走（4/4）：通过 RL 方案训 GRPO 增强全场景能力组合奖励信号复用 DeepSeek-V3 的 prompt 分布和偏好数据提升 helpful 和 harmless • 有用性：专注于最终总结，确保答案实用性和问题相关性，同时尽量减少对推理过程的干扰。 • 无害性：评估模型的整个生成结果（思考过程+总结）以识别和减轻潜在风险、偏见或有害内容。利用基于规则的奖励。 • 通用数据：采用奖励模型来捕捉复杂场景中的人类偏好。 • 推理数据：遵循 DeepSeek-R1-Zero , 对于小模型，SFT 蒸馏好，还是 RL 好？实验：用 Qwen-32B-Base 重复 RL 实验，使用数学、代码和STEM数据，训练超过10K步。得到结论： • 小模型蒸馏效果更好，RL费资源但性能稍逊 • 尽管蒸馏策略既经济又有效，但要超越智能边界，仍需要更强大的 Base 模型和更大规模的 RL。复用 DeepSeek-R1 的 SFT 数据蒸馏小模型 Process Reward Model（PRM）最早由 OpenAI 提出：实践中 PRM 的三个限制： • 不容细粒度步骤 • 不容当前某步骤是否正确。使用模型进行自动化标注效果不行，人工标注没法大规模。 • 基于模型的 PRM 会导致 reward hacking ，且重新训练奖励模型需要额外的训练资源，训练流程复杂化且成本高结论：尽管 PRM 在重新排序模型生成的前N个响应或协助引导搜索方面表现出良好的能力，但与在大规模强化学习过程中引入额外计算开销相比，其优势有限。 Monte Carlo Tree Search（MCTS）实践中 MCTS 的两个限制： • 国际象棋搜索空间相对较为明确，而 token 生成呈现出指数增长的搜索空间。为了解决这一问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优。 • AlphaGo的核心成功依赖于训练一个价值模型指导搜索过程，来逐步提升性能。由于 token 生成的复杂性，训练精细的价值模型本身就很困难。结论：尽管推理阶段与预训练的价值模型配对的情况下， MCTS可以提升性能，但通过自我搜索迭代提升模型性能仍然是一个重大挑战。两个不太成功的尝试总结：R1 模型性能比肩 o1, 蒸馏系列模型对标 o1-mini 不足：通用能力（tool call、多轮、角色扮演、json输出）不及 V3；语言混用；对 fewshot敏感；软件工程能力待提升。关于 R1 的几点思考 • Post-Training策略选择： • R1-zero是一个非常好的启发，RL在Post-Training阶段的重要性持续增加，如何设计更优质的Reward策略（包括但不限于RuleBase、 RM/PRM Base）对于RL的效果非常重要，指令数据有Ground truth用ground truth做Rule Base，否则可以考虑RM；但是需要重点考虑RM模型的训练数据量、模型大小、泛化性等；对于通用领域非推理任务的场景，R1在没有Ground truth的任务上的推理效果还并不理想，对于这类任务RL训练需要进一步提高泛化性； • SFT依然重要，无论是R1的冷启动阶段（几千条冷启动SFT后再进行RL）还是SFT阶段（80wSFT数据）都需要SFT过程，R1的SFT阶段的推理数据占比大幅度增加是一个重要启示（相对于其他的开源模型SFT阶段的数据配比）； • 目前最重要的还是高质量数据的缺失，直接蒸馏可以显著提高模型推理能力，但提升有限，上限不高，仅通过蒸馏无法提供训练scaling； • R1写作能力提升：R1的写作能力在各种社区反馈中均表现出显著提升，特别是中文场景；社区猜测可能的原因是对齐税，R1的安全对齐相对于gpt o1做的不足，并没有太约束模型的创作能力。 • 过度深度推理优化：简单问题复杂化，原因是SFT阶段推理Query可能没有区分难度；高级词汇滥用：有社区用户发现R1经常会使用一些高端词汇，比如量子纠缠和熵增熵减(会用在各个领域)，猜测可能的原因得是某种形式的reward hacking； Sky-T1-32B-Preview（UC伯克利，数据/模型开源） • 用 GPT-4o-mini 将 17K QwQ 数据蒸馏 trace 重写为结构规整的版本，以提高数据质量并简化解析。 • 8*H100 微调 -32B-Instruct 19h，提升数学和代码能力。 STILL-3（人大，数据/模型开源） • 基于 DeepSeek-R1- 进行 GRPO 强化学习训练，在 AIME任务上的正确率由 %提升至%。 • 验证了R1 RL可行性。 STILL-2（人大） • 训练数据包括 DeepSeek-R1 和 QwQ 蒸馏的数学领域和1K混合领域（代码、科学和自然语言谜题）的 long-CoT。 • 模型在选取的基准测试集达到了与o1-preview整体接近的效果。 Open-R1（Huggingface 上周） • 系统性地重建 DeepSeek-R1 使用的数据（数据构建和配比）和训练流程（超参设置）： • 蒸馏方案 • 纯RL方案 • SFT+RL方案 03 金融行业案例 • 数据工具类 • 领域模型类 • 决策AI类基于资产负债表、利润表、现金流表三大报表，构造高质量表格问答指令数据对模型进行微调简繁体中英文混合问答跨文档长文档分析推理业绩趋势复杂数值推理某大型金融机构财报解读问答表格理解内容精准溯源和定位助力证券机构，合规审校人员自动理解报告与底稿内容，将报告与底稿逐条对比，发现报告中无依据观点，自动生成对比结果，辅助人工审核。某证券公司智能合规比稿 • 数据工具类 • 领域模型类 • 决策AI类赋能“财税部落” 提供了财税专家1V1答疑、特殊行业财税课程、财税资讯推送、财税新政解读、同城同行业财税圈交流等丰富应用。财税产业大语言模型的引入为财税部落带来更多的赋能和提升。赋能自助办税终端系统自助办税终端系统，是为纳税人办税提供便利服务的一体化终端，能够为办税人提供涉税政策查询、税务办理流程指引、办税问题解答等服务。某省市公司财税大模型针对财税产业大语言模型工程化落地实施，提供项目所需的高质量的能力增强训练数据集、数据预处理和质量分析支撑工具及基础大语言模型等功能，打造一个满足工程化需求的精准、高效、安全的财税大模型。应用成效 • 数据工具类 • 领域模型类 • 决策AI类银行信贷审核智能体面向银行信贷业务中存在的海量非标材料处理难、报告检查审核难、传统人工审核耗时、漏审等问题，采用大模型推理技术、多智能体协作技术，实现对公初审报告、个贷初审报告自动生成，减少人工作业失误，提高信贷审核精度和效率。 1.打造行业首创的全新信贷审批智能体。 2.大模型生成的信审报告可溯源可解释。 3.基于模型微调提升金融文档解析与写作能力。 4.大模型技术与信贷审批流程深度融合。 5.创新成果经受竞赛验证得到权威认可。 • 在大数据（公共新闻、社交媒体等）中进行客户尽职调查，发现潜在的金融犯罪风险。 • 自动输出判定犯罪行为的原文及原因，提高工作效率。 • 支持数据分析和可视化，支持撰写提交给监管机构的可疑活动报告（SAR）。 • 动态评估金融犯罪风险，制定并实施风险控制措施，确保合规和政策执行某银行金融犯罪智能分析系统助力东亚银行金融犯罪监管部门，识别、评估和防范各类金融犯罪风险，如洗钱、诈骗、内幕交，确保银行资产安全、业务稳定。行内自己的技术和资源限制跨部门信息分享有门槛风险评估和预警难度大信息检索效率低核心痛点利用大模型，三步生成企业信贷尽调报告，降低人工尽调信息收集和处理的时间，提高效率。问答交互生成图表生成报告精准溯源某大型银行 AI信贷尽调报告自动解析各类文档多源数据智能汇聚面向投研业务中存在的项目尽调信息收集难、报告编写用时长的问题，采用数据不出域、应用私域化的投研智能体，实现对话式问答、素材智能提炼、报告自动生成功能，帮助研究人员挖掘潜力行业、研判优质标的，提升投研工作效率和质量。得到基金证券头部用户深度应用、高度评价。基于大模型技术赋能场景落地贴近业务需求。同时支持上万智能体动态协作与综合推演。基金证券投研智能体港府某机构经济分析报告智能写作系统基于GenAI，为香港政府探索性开发了经济分析报告智能写作系统，它主要是辅助经济专家，定期分析世界经济政策、指标和事件并撰写成报告数据碎片化与来源分散分析工作量大多语言数据理解核心痛点创投基金智能资管平台针投资机构存在的投资留痕合规、流程效率低的问题。采用金融领域大模型技术，面向政府引导基金等投资机构提供“募、投、管、退”投资管理，实现业务流程自动化、风险监控常态化、投资决策智能化。助推投资机构数智化转型，赋能投资生态。优雅多模态大模型，全链路赋能多媒体内容创作面向泛媒体领域的通用解决方案文/图生图 AI绘画图像编辑风格重绘局部替换内容消除 AI调色调光视频生文视频内容理解视频内容审核视频内容问答视频内容编目文生视频图生视频视频风格转绘视频智能剪辑 AI数字人文旅文旅IP定制文旅宣传片创作 100+多模态技能文生文大纲脚本生成故事文稿润色内容审核修正教育 AI教学硬件教育信息化图像内容理解图像内容审核图像内容问答图像内容编目营销线下互动营销虚拟现实交互出版数字内容生产多模态审校音生文语音识别声纹识别声纹聚类文生音语音合成音效生成语音克隆政务智能问答跨文化出海传播制作全流程预演脚本、素材生产新闻资产编目多模态新闻创作政务新闻电影 7+应用场景文/图生视频图生文脚本生成图生视频以文生图智能剪辑语音合成口型驱动模型基座优雅功能特色一：一键AIGC视频生成（无中生有）输入主题要求 ,即可生成素材并成片输入主题与要求一键成片智能能力 YoYa多模态大模型YaYi大语言模型视频脚本成片输出素材生成已有20+个维度的信息抽取能力，用户可领域微调新增抽取维度。主题：交通景别：鸟瞰、远景运镜：推镜场某省市、道路节奏：缓慢实体：车辆、桥梁、河流、楼宇描述：一座桥了一条宽阔的河流，车在行驶，远处是密某省市楼房... 视觉特征： mmmmmmmmm 情感：繁华、有序高光时刻：10s 主体：银杏树环境：阳光明媚、白天场景：校园、广场构图：近景视角：平视描述：画面中是一棵茂盛的银杏树，清晨的阳关通过金黄的树叶，美好而恬静... 情感：、开朗视觉特征： mmmmmmmmm 优雅功能特色二：联合多模态内容资产一键成片（有中生优）图、视频素材智能理解多模态素材库 YoYa 多模态内容编目大模型高阶语义检索成片指令脚本生成智能剪辑 3B、8B、 15B 参数规模视频、图像双模态视频图片

合作伙伴

管理咨询顾问

关注进入主页

联系我们

智库文档公众号

客服微信

合作伙伴

管理咨询顾问

标签

联系我们

意见反馈