近日,在全球权威的ICDAR Robust Reading大赛榜单中,紫光华智凭借领先的AI技术优势,在文本行检测与识别两项任务中均斩获第一,并一举刷新榜单记录,超越了榜单内其他知名AI公司和国内外学术研究机构,展现了紫光华智在自然场景文本检测与识别领域的创新突破能力。

▲ 紫光华智位居文本行检测榜单No.1

▲ 紫光华智位居文本行识别榜单No.1
ICDAR-ReCTS:全球OCR领域权威大赛
自然图像中的文本带有许多重要的语义信息,对文本的自动检测和识别也受到越来越多的关注。在街景招牌中,为了美观或突出某些元素,招牌中的汉字排列方式和字体与其他场景存在明显差异,排列方向不同、布局分布不规则、字体类型多样等难题极大制约了文本检测与识别的准确率。
ICDAR-ReCTS(International Conference on Document Analysis and Recognition)是首次提出大规模自然场景中英文招牌数据集的比赛,也是全球OCR领域最具挑战性、权威性的比赛之一,涵盖了各种复杂场景,吸引着众多国内外知名AI企业、学术研究机构参与。
紫光华智:以创新突破AI技术边界
为提升自然场景文本检测与识别能力,紫光华智基于深度学习算法,充分运用多层特征融合、跨层连接等技术,将不同级别特征结合,并运用文本注意力块来捕捉像素的长范围相关性以获得更可靠分割结果;同时,结合多尺度融合、注意力机制、多模型融合等先进技术及基础数据分析,对难例样本进行数据增强,实现了对图片像素低、质量差、艺术字体等识别效果的大幅提升。显著提高了自然场景文本检测与识别准确度,并成功跃居检测与识别两项榜单榜首。

▲ 各类复杂场景的文本检测与识别
技术与应用融合,使AI服务于实战
作为领先的AI视觉产品和解决方案提供商,紫光华智不仅注重核心技术的研发与投入,更注重技术与实际场景的融合应用,构筑二者间的相互进化机制,使技术真正服务于实战,通过实战反哺技术进化。
面对不同业务场景的实际需求,紫光华智将领先的文本检测与识别技术充分应用。
在道路交通场景,非机动车管理费神费力,不同地区非机动车牌格式和文本字符差异巨大,紫光华智车牌识别算法可自动读取车牌信息,实现非机动车的智能化管理,同时有效遏制了非机动车偷盗事件的发生。针对机动车管理,紫光华智车牌识别算法为监管部门在交通违法识别、高速违停等违法事件管理提供了有效帮助。

▲非机动车牌智能识别

▲ 机动车牌智能识别
在教育、金融等场景,不同证件票据格式不一,字符类型多样,字段长短不一,识别难度巨大。紫光华智文本识别算法可精确读取证件票据的文本信息,避免了人工手动录入产生的错误,同时大幅提升了输入工作效率,提高了工作智能化水平。

▲ 教育行业文本识别应用
在城市街道中,沿街商铺为了吸引客户存在设置多个招牌、招牌颜色各异、招牌大小不一、随意变更招牌等问题,不仅影响市容市貌也存在安全隐患。紫光华智街面OCR识别算法可准确识别不同招牌的文本和语义信息,提升城市智能化管理能力和效率,助力城市精细化管理。


▲街面招牌识别
除此之外,紫光华智也在积极布局企业、医疗、能源等更多行业场景,充分发挥AI核心技术优势,不断拓宽和挖掘AI技术应用的广度与深度,推进技术成果向实战价值的有效转化,覆盖更多行业需求,助力百行百业实现数字化转型。
好文章,需要你的鼓励
技术无知正在阻碍全球经济增长。在关键利益相关者中,技术无知增长最快且影响最为严重。CIO必须了解利益相关者对技术的认知水平,通过提升其IT素养来实现技术的全部潜力。文章提出三个关键问题:用户是否理解日常使用的技术、用户是否清楚自己的技术需求、以及如何处理无法从技术变革中受益的利益相关者。
Character AI联合耶鲁大学开发的OVI系统实现了音视频的统一生成,通过"孪生塔"架构让音频和视频从生成之初就完美同步。该系统在5秒高清内容生成上显著超越现有方法,为多模态AI和内容创作领域带来突破性进展。
OpenAI宣布从11月4日开始向印度用户免费提供一年ChatGPT Go订阅服务。该计划月费不到5美元,于8月在印度推出,是OpenAI最实惠的付费订阅方案。印度拥有超过7亿智能手机用户,是OpenAI仅次于美国的第二大市场。ChatGPT Go提供比免费版本多10倍的使用量,包括生成回复、创建图像和上传文件功能。
这项由南洋理工大学研究团队开发的DragFlow技术,首次实现了在先进AI模型FLUX上的高质量区域级图像编辑。通过创新的区域监督、硬约束背景保护和适配器增强等技术,将传统点对点编辑升级为更自然的区域编辑模式,在多项基准测试中显著超越现有方法,为图像编辑技术带来革命性突破。