开云app官网入口网址·(中国)官方网站

开云app官网入口网址·(中国)官方网站 你的位置:开云app官网入口网址·(中国)官方网站 > 新闻资讯 >

开云体育并大概为坐标和属性提供厚实的 JSON 输出-开云app官网入口网址·(中国)官方网站

发布日期:2025-07-26 10:03    点击次数:141

IT 之家 1 月 28 日音讯开云体育,阿里通义千问官方当天发文通知,开源全新的视觉融会模子 Qwen2.5-VL —— Qwen 模子眷属的旗舰视觉道话模子,推出了 3B、7B 和 72B 三个尺寸版块。

Qwen2.5-VL 的主要性格如下:

视觉融会:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和虫豸,还大概分析图像中的文本、图表、图标、图形和布局。

代理:Qwen2.5-VL 径直算作一个视觉 Agent,不错推理并动态地使用用具,初步具备了使用电脑和使用手机的能力。

融会长视频和捕捉事件:Qwen2.5-VL 大概融会进步 1 小时的视频,况兼此次它具备了通过精确定位辩论视频片断来捕捉事件的新能力。

视觉定位:Qwen2.5-VL 不错通过生成 bounding boxes 或者 points 来准详情位图像中的物体,并大概为坐标和属性提供厚实的 JSON 输出。

结构化输出:关于发票、表单、表格等数据,Qwen2.5-VL 复旧其本色的结构化输出,惠及金融、生意等规模的哄骗。

据官方先容,在旗舰模子 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个规模和任务的基准测试中发达出色,包括大学水平的问题、数学、文档融会、视觉问答、视频融会和视觉 Agent。Qwen2.5-VL 在融会文档和图表方面具有上风,况兼大概算作视觉 Agent 进行操作,而无需特定任务的微调。

另外,在较小的模子方面,Qwen2.5-VL-7B-Instruct 在多个任务中异常了 GPT-4o-mini,而 Qwen2.5-VL-3B 算作端侧 AI 的后劲股,异常了之前版块 Qwen2-VL 的 7B 模子。

阿里通义千问官方暗意,与 Qwen2-VL 比较,Qwen2.5-VL 增强了模子对技艺和空间圭臬的感知能力,并进一步简化了收罗结构以提高模子限度。后续将进一步莳植模子的问题措置和推理能力开云体育,同期整合更多模态,使模子变得愈加智能,并向大概处理多种输入类型和任务的概括万能模子迈进。