[转发] ICDAR 2023-DSText视频OCR比赛

AI 2年前 (2023) admin

499 0 0

赛事介绍

ICDAR 2023-DSText（Video Text Reading Competition for Dense and Small Text，稠密小文本场景下视频文本识别）国际学术竞赛将于2023年2月15日正式开赛。

ICDAR（International Conference on Document Analysis and Recognition）是全球文档图像分析识别领域公认的权威学术会议，从1991年起每两年召开一次，今年是第17届，将于2023年9月20-25日在美国加利福尼亚州，圣何塞市举行。

自2003 年ICDAR 设立“Robust Reading Competitions”系列学术竞赛以来，该竞赛就成了评测和检验自然场景/网络图片文本自动提取与智能识别最新技术研究进展的重要国际赛事及基准，竞赛中的诸多方法对光学字符识别（Optical Character Recognition，OCR）技术发展具有强大推动力。场景文字识别具有广泛应用场景，例如：拍照翻译、图像检索、街景地标识别、室外场景理解等。但由于自然场景图像中的文字字体多样、排列不规范、形状及色彩多变、背景复杂、图像对文字的干扰大等等因素，使得场景文字检测与识别仍然是计算机视觉及文档图像分析与识别领域中一个极具挑战的研究问题。高技术难度、高实际应用性，也使该系列竞赛受到科研院校、科技公司的广泛关注，至今已有119个国家的7821支队伍参与。

近年来，随着视频技术和相关应用的快速发展，视频领域对于OCR的需求越来越大，例如视频检索，视频导航，自动驾驶等。然而视频OCR技术目前的发展却远远不能满足需求，存在众多的挑战，包括精度、推理速度以及对于视频中模糊小文本的鲁棒性。

本次ICDAR 2023-DSText国际学术竞赛将聚焦稠密和小目标的视频文字的检测与识别，旨在进一步推动自然场景下视频文字识别算法发展与进步。

数据集

B站Demo YouTube Demo

ICDAR2023-DSText数据集来自于YouTube，包括50个训练视频，50个测试视频，主要针对稠密和小文本场景下的挑战，每个视频长度在10-30s之间，平均每一帧含有23个文本，这样的文本浓度远超于先前数据集(平均每帧5个文本)，具有较大的挑战和学术研究价值（如下图所示）。

竞赛任务

本次大赛设置如下两个任务（选手可任意选一个任务参赛、也可同时参加两个比赛任务）：

视频文本跟踪

该任务需要模型同时检测和跟踪视频中的文本，模型输出主要需要含有两个对象：旋转矩形框（四坐标点表示）和同一个文本在不同帧需要给出一个相同的ID。

端到端视频文本识别

基于文本跟踪任务，模型还需要输出对应的识别结果。

具体可以参考官方网站细节说明。

比赛时间

2022年12月30日：竞赛官网完整正式版上线
2023年2月15日：竞赛正式开赛；训练集（50个视频）开放下载
2023年3月15日：测试集(50个视频)开放下载；开放结果提交入口
2023年3月20日：结果提交截止，开放提交竞赛方法描述报告（1页左右）
2023年3月25日：竞赛方法描述报告提交截止
2023年3月31日：竞赛结果宣布

参赛资格

大赛面向全球开放，ICDAR 2023-DSText所有主办方的相关人员所在的高校实验室或者公司对应的组禁止参赛。
大赛以组队或个人形式报名参赛。
任何作弊行为会被取消参赛资格，包括：提交手工标注结果，利用测试数据标注后训练模型，虚假信息报名，比赛方法描述中有虚假内容。
可以使用除BOVText[1]，RoadText-1k[2]以外所有的额外公开数据集。

报名注册方式

详细见竞赛官网：https://rrc.cvc.uab.es/?ch=22&com=introduction

主办单位

浙江大学
快手科技
中国科学院
西班牙巴塞罗那自治大学计算机视觉中心
新加坡国立大学
印度统计研究所
华中科技大学

[转发] ICDAR 2023-DSText视频OCR比赛

[1] Wu Weijia, Yuanqiang Cai, Debing Zhang, Sibo Wang, Zhuang Li, Jiahong Li, Yejun Tang, and Hong Zhou. “A bilingual, OpenWorld video text dataset and end-to-end video text spotter with transformer.” arXiv preprint arXiv:2112.04888 (2021).

[2] Reddy, Sangeeth, Minesh Mathew, Lluis Gomez, Marçal Rusinol, Dimosthenis Karatzas, and C. V. Jawahar. “Roadtext-1k: Text detection & recognition dataset for driving videos.” In 2020 IEEE International Conference on Robotics and Automation (ICRA), pp. 11074-11080. IEEE, 2020.