moonshot-v1-vision-preview – 月之暗面推出的多模态图片理解模型-爱论文

moonshot-v1-vision-preview是什么

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，模型完善了 moonshot-v1 模型系列的多模态能力，具备强大的图像识别能力，能精准区分复杂细节，如相似的蓝莓松饼和吉娃娃图片。在文字识别方面，模型表现优异，能准确识别潦草手写内容，如收据单、快递单等。moonshot-v1-vision-preview能分析图像中的数据，如柱状图的科目成绩，从美学角度评价图表。模型基于API调用，支持多轮对话、流式输出等特性。

moonshot-v1-vision-preview的主要功能

图像识别：准确识别出图像中的复杂细节和细微差别，即使是相似度较高、人眼较难区分的对象，如蓝莓松饼和吉娃娃图片，模型也能精确地区分和识别。OCR文字识别能力：在OCR文字识别和图像理解场景中表现突出，比普通的文件扫描和OCR识别软件更加准确。能识别收据单、快递单等文档中潦草的手写内容，准确提取文字信息。图像数据提取与分析：精准识别图像中的数据信息，如柱状图中的科目名称、分数数值等，进行数据对比分析。还能识别图像的样式格式、颜色等美学元素，从美学角度对图像进行评价。API调用：基于API调用，用户能将模型集成到自己的应用中。

moonshot-v1-vision-preview的项目地址

项目官网：https://platform.moonshot.cn/docs/guide/use-kimi-vision-model产品体验：Kimi智能助手

moonshot-v1-vision-preview的使用说明

模型支持的特性包括：多轮对话，流式输出，工具调用，JSON Mode，Partial Mode以下功能暂未支持或部分支持联网搜索：不支持Context Caching：不支持创建带有图片内容的 Context Cache，支持使用已经创建成功的 Cache 调用 Vision 模型URL 格式的图片：不支持，目前仅支持使用 base64 编码的图片内容。

moonshot-v1-vision-preview的模型定价

moonshot-v1-8k-vision-preview：1M tokens ￥12.00moonshot-v1-32k-vision-preview：1M tokens ￥24.00moonshot-v1-128k-vision-preview：1M tokens ￥60.00

moonshot-v1-vision-preview的应用场景

内容审核与分类：自动识别和分类图像内容，适用于电商平台的商品管理、科研教育的动植物识别，及平台内容的审核。文档与数据处理：高效提取文档和表格中的文字信息，适用于合同、发票的文档处理，及成绩表、财务报表的数据分析。医学与工业应用：辅助医学影像分析，提高诊断准确性；进行工业产品缺陷检测，提升生产质量。智能交互服务：在智能客服、教育辅助和智能家居领域，基于多模态交互提供更智能、便捷的服务。美学与设计评估：从美学角度分析图像，为广告、网页设计提供改进建议，辅助艺术创作，提升视觉效果。