近日,在全球权威的ICDAR Robust Reading大赛榜单中,紫光华智凭借领先的AI技术优势,在文本行检测与识别两项任务中均斩获第一,并一举刷新榜单记录,超越了榜单内其他知名AI公司和国内外学术研究机构,展现了紫光华智在自然场景文本检测与识别领域的创新突破能力。

▲ 紫光华智位居文本行检测榜单No.1

▲ 紫光华智位居文本行识别榜单No.1
ICDAR-ReCTS:全球OCR领域权威大赛
自然图像中的文本带有许多重要的语义信息,对文本的自动检测和识别也受到越来越多的关注。在街景招牌中,为了美观或突出某些元素,招牌中的汉字排列方式和字体与其他场景存在明显差异,排列方向不同、布局分布不规则、字体类型多样等难题极大制约了文本检测与识别的准确率。
ICDAR-ReCTS(International Conference on Document Analysis and Recognition)是首次提出大规模自然场景中英文招牌数据集的比赛,也是全球OCR领域最具挑战性、权威性的比赛之一,涵盖了各种复杂场景,吸引着众多国内外知名AI企业、学术研究机构参与。
紫光华智:以创新突破AI技术边界
为提升自然场景文本检测与识别能力,紫光华智基于深度学习算法,充分运用多层特征融合、跨层连接等技术,将不同级别特征结合,并运用文本注意力块来捕捉像素的长范围相关性以获得更可靠分割结果;同时,结合多尺度融合、注意力机制、多模型融合等先进技术及基础数据分析,对难例样本进行数据增强,实现了对图片像素低、质量差、艺术字体等识别效果的大幅提升。显著提高了自然场景文本检测与识别准确度,并成功跃居检测与识别两项榜单榜首。

▲ 各类复杂场景的文本检测与识别
技术与应用融合,使AI服务于实战
作为领先的AI视觉产品和解决方案提供商,紫光华智不仅注重核心技术的研发与投入,更注重技术与实际场景的融合应用,构筑二者间的相互进化机制,使技术真正服务于实战,通过实战反哺技术进化。
面对不同业务场景的实际需求,紫光华智将领先的文本检测与识别技术充分应用。
在道路交通场景,非机动车管理费神费力,不同地区非机动车牌格式和文本字符差异巨大,紫光华智车牌识别算法可自动读取车牌信息,实现非机动车的智能化管理,同时有效遏制了非机动车偷盗事件的发生。针对机动车管理,紫光华智车牌识别算法为监管部门在交通违法识别、高速违停等违法事件管理提供了有效帮助。

▲非机动车牌智能识别

▲ 机动车牌智能识别
在教育、金融等场景,不同证件票据格式不一,字符类型多样,字段长短不一,识别难度巨大。紫光华智文本识别算法可精确读取证件票据的文本信息,避免了人工手动录入产生的错误,同时大幅提升了输入工作效率,提高了工作智能化水平。

▲ 教育行业文本识别应用
在城市街道中,沿街商铺为了吸引客户存在设置多个招牌、招牌颜色各异、招牌大小不一、随意变更招牌等问题,不仅影响市容市貌也存在安全隐患。紫光华智街面OCR识别算法可准确识别不同招牌的文本和语义信息,提升城市智能化管理能力和效率,助力城市精细化管理。


▲街面招牌识别
除此之外,紫光华智也在积极布局企业、医疗、能源等更多行业场景,充分发挥AI核心技术优势,不断拓宽和挖掘AI技术应用的广度与深度,推进技术成果向实战价值的有效转化,覆盖更多行业需求,助力百行百业实现数字化转型。
好文章,需要你的鼓励
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
谷歌发布基于Gemini 3的快速低成本模型Flash,并将其设为Gemini应用和AI搜索的默认模型。新模型在多项基准测试中表现优异,在MMMU-Pro多模态推理测试中得分81.2%超越所有竞品。该模型已向全球用户开放,并通过Vertex AI和API向企业及开发者提供服务。定价为每百万输入token 0.5美元,输出token 3美元,速度比2.5 Pro快三倍且更节省token用量。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。