🧭
先看这份研报的核心结论
核心事件: 10月20日DeepSeek开源DeepSeek-OCR模型,这是一个3B参数规模的视觉-语言模型(VLM),专为实现高效视觉-文本压缩而设计
📌
核心要点
核心事件: 10月20日DeepSeek开源DeepSeek-OCR模型,这是一个3B参数规模的视觉-语言模型(VLM),专为实现高效视觉-文本压缩而设计
技术突破: 首次提出"上下文光学压缩(Contexts Optical Compression)"概念,通过文本转图像实现信息的高效压缩,目前已在Hugging Face平台开源
核心价值: 验证了视觉token可以更高效地表达信息,提供AI降本新思路 在端到端测试中以最少的视觉token数达到业界领先性能 有望打破算力约束,重新定义大模型上下文处理方式
💡
为什么值得继续看
DeepSeek-OCR通过光学二维映射技术验证了视觉token可以更高效地表达文本信息,在保持高精度的同时显著降低token消耗,为AI大模型降本提供了全新思路
⚠️
风险提示
⚠️ 风险提示 1. AI技术发展不及预期: 大模型创新伴随参数量及模态的增速能力天花板尚未达到,但模型效果本身仍存瓶颈及问题,若AI技术发展不及预期,投入厂商存在失败风险
下游应用需求不及预期: 人工智能本质是通过供给创新催生需求扩容,目前大模型仍处于商业模式摸索期,若本轮技术变革无法真实带动下游需求,投入厂商将受到影响