近日,在全球权威的ICDAR Robust Reading大赛榜单中,紫光华智凭借领先的AI技术优势,在文本行检测与识别两项任务中均斩获第一,并一举刷新榜单记录,超越了榜单内其他知名AI公司和国内外学术研究机构,展现了紫光华智在自然场景文本检测与识别领域的创新突破能力。
▲ 紫光华智位居文本行检测榜单No.1
▲ 紫光华智位居文本行识别榜单No.1
ICDAR-ReCTS:全球OCR领域权威大赛
自然图像中的文本带有许多重要的语义信息,对文本的自动检测和识别也受到越来越多的关注。在街景招牌中,为了美观或突出某些元素,招牌中的汉字排列方式和字体与其他场景存在明显差异,排列方向不同、布局分布不规则、字体类型多样等难题极大制约了文本检测与识别的准确率。
ICDAR-ReCTS(International Conference on Document Analysis and Recognition)是首次提出大规模自然场景中英文招牌数据集的比赛,也是全球OCR领域最具挑战性、权威性的比赛之一,涵盖了各种复杂场景,吸引着众多国内外知名AI企业、学术研究机构参与。
紫光华智:以创新突破AI技术边界
为提升自然场景文本检测与识别能力,紫光华智基于深度学习算法,充分运用多层特征融合、跨层连接等技术,将不同级别特征结合,并运用文本注意力块来捕捉像素的长范围相关性以获得更可靠分割结果;同时,结合多尺度融合、注意力机制、多模型融合等先进技术及基础数据分析,对难例样本进行数据增强,实现了对图片像素低、质量差、艺术字体等识别效果的大幅提升。显著提高了自然场景文本检测与识别准确度,并成功跃居检测与识别两项榜单榜首。
▲ 各类复杂场景的文本检测与识别
技术与应用融合,使AI服务于实战
作为领先的AI视觉产品和解决方案提供商,紫光华智不仅注重核心技术的研发与投入,更注重技术与实际场景的融合应用,构筑二者间的相互进化机制,使技术真正服务于实战,通过实战反哺技术进化。
面对不同业务场景的实际需求,紫光华智将领先的文本检测与识别技术充分应用。
在道路交通场景,非机动车管理费神费力,不同地区非机动车牌格式和文本字符差异巨大,紫光华智车牌识别算法可自动读取车牌信息,实现非机动车的智能化管理,同时有效遏制了非机动车偷盗事件的发生。针对机动车管理,紫光华智车牌识别算法为监管部门在交通违法识别、高速违停等违法事件管理提供了有效帮助。
▲非机动车牌智能识别
▲ 机动车牌智能识别
在教育、金融等场景,不同证件票据格式不一,字符类型多样,字段长短不一,识别难度巨大。紫光华智文本识别算法可精确读取证件票据的文本信息,避免了人工手动录入产生的错误,同时大幅提升了输入工作效率,提高了工作智能化水平。
▲ 教育行业文本识别应用
在城市街道中,沿街商铺为了吸引客户存在设置多个招牌、招牌颜色各异、招牌大小不一、随意变更招牌等问题,不仅影响市容市貌也存在安全隐患。紫光华智街面OCR识别算法可准确识别不同招牌的文本和语义信息,提升城市智能化管理能力和效率,助力城市精细化管理。
▲街面招牌识别
除此之外,紫光华智也在积极布局企业、医疗、能源等更多行业场景,充分发挥AI核心技术优势,不断拓宽和挖掘AI技术应用的广度与深度,推进技术成果向实战价值的有效转化,覆盖更多行业需求,助力百行百业实现数字化转型。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。