微软方面宣布，开源视觉基础模型Florence-2--零时古怪为您提供最新的热点新闻资讯

继此前在2023年11月发布视觉基础模型Florence-2后，日前微软方面宣布正式对该模型进行开源。目前该模型的所有权重代码已经公布在开源平台Hugging Face上，并在MIT许可下开放使用，这意味着开发者可自由地分发、修改和使用该模型，无论用于商业、还是私人用途。

据了解，Florence-2支持各种视觉分析应用，能够根据提示，完成字幕、对象检测、分割等各种计算机视觉和语言的任务。Figure首席执行官将其称之为，“计算机视觉领域的重大突破”。

具体而言，Florence-2采用了序列到序列架构，并集成图像编码器和多模态编码器。这种设计使得其适用于各种视觉任务，无需对特定任务的架构进行修改，符合NLP界以一致的底层结构进行多功能模型开发的理念。

同时为了训练Florence-2，微软方面还创建了全新的多任务图像数据集FLD-5B。据了解，这一数据集中包含了1.26亿张图像、5亿个文本标注、13亿个文本-图像区域标注，以及36亿个文本短语-图像区域标注，跨横跨了不同的任务。FLD-5B中的每一张图像都由Florence数据引擎标注了文本、图像区域-文本对以及文本短语-图像区域三元组，涵盖了多个空间层次、从概括到详细的渐进粒度，以及多语义，让模型从不同角度实现了更全面的视觉理解能力。

性能表现方面，在零样本多任务评估中，对于图像级任务，Florence-2-L在COCO字幕基准测试中获得了135.6 CIDEr分数，而且参数量仅为Flamingo模型（800亿参数）的1%左右。对于区域级的groundng和指代表达理解任务，Florence-2-L则刷新了SOTA的成绩。在Flickr30k Recall@1上，它比16亿参数的Kosmos-2模型提高了5.7，在Refcoco、Refcoco+和Refcocog上分别比其提高了约4%、8%和8%的绝对值。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴
	IDC一季度国内智能手机市场排名来了！OPPO重回第一
	价格涨飞了专业相机市场正式复苏交易单价稳步上涨
	高通面向移动和XR设备推出全新游戏画面增强技术
	官方解释来了!李小龙回应华为P60 Pro充电器设计争议
	AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相
	演员严宽：拥有问界M5快一年了我的评价是遥遥领先！
	3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池
	对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构
	联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

零时古怪 - 中国第一时事资讯综合门户

微软方面宣布，开源视觉基础模型Florence-2

相关推荐

亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴

IDC一季度国内智能手机市场排名来了！OPPO重回第一

价格涨飞了专业相机市场正式复苏交易单价稳步上涨

高通面向移动和XR设备推出全新游戏画面增强技术

官方解释来了!李小龙回应华为P60 Pro充电器设计争议

AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相

演员严宽：拥有问界M5快一年了我的评价是遥遥领先！

3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池

对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构

联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

评论