海量社交图片与视频的文字识别与关键词检测

案例来源:腾讯
会议地点:上海
分享时间: 2019-05-18 16:50-17:50

黄珊  |

腾讯 社交OCR研究中心负责人

黄珊博士,2017年3月加入腾讯成为社交OCR研究中心负责人。主要研究方向为海量社交场景多语种文字检测与识别。带领OCR基础研发团队,致力于多语种文字检测与识别算法在精度与速度的优化,目前接入腾讯平台海量复杂场景图片数据每天30亿,视频10亿。同时致力于带领团队进行一带一路国家的小语种OCR识别,并且积极联动语音识别,机器翻译团队打造多媒体信息一体化智能理解体系。

课程概要

海量社交图片与视频的准确理解,对设计以包含语音、图片、视频内容理解的整体算法框架及各个模块算法精度、速度都提出了极大的挑战。这里,我们负责图片、视频场景的文字识别与关键词检测,同时结合NLP理解以保证社交图片的健康度。近几年来深度学习发展迅猛,在计算机视觉领域取得了一再的突破。针对社交场景图片的复杂排版、字形多变等问题,我们引入各种优化的卷积神经网络、循环神经网络等基础网络,基于最前沿的检测、分割、Seq2Seq算法框架,解决文字检测、定位与识别的问题。在文字检测的网络分支上叠加多任务学习策略,在有限资源下解决关键词检测问题,有效的补充了多变复杂场景下的OCR识别难题,并申请了专利。视频场景中,我们首创式引入并优化了孪生网络解决视频文字关键帧检测问题,上线于每天数十亿的视频理解项目,并申请了专利。

听众收益

1.最前沿的文字检测与识别技术在海量场景下的落地解决方案
2.最前沿的关键词检测技术
3.视频场景下的文字关键帧提取技术

黄珊  |

腾讯 社交OCR研究中心负责人

黄珊博士,2017年3月加入腾讯成为社交OCR研究中心负责人。主要研究方向为海量社交场景多语种文字检测与识别。带领OCR基础研发团队,致力于多语种文字检测与识别算法在精度与速度的优化,目前接入腾讯平台海量复杂场景图片数据每天30亿,视频10亿。同时致力于带领团队进行一带一路国家的小语种OCR识别,并且积极联动语音识别,机器翻译团队打造多媒体信息一体化智能理解体系。

课程概要

海量社交图片与视频的准确理解,对设计以包含语音、图片、视频内容理解的整体算法框架及各个模块算法精度、速度都提出了极大的挑战。这里,我们负责图片、视频场景的文字识别与关键词检测,同时结合NLP理解以保证社交图片的健康度。近几年来深度学习发展迅猛,在计算机视觉领域取得了一再的突破。针对社交场景图片的复杂排版、字形多变等问题,我们引入各种优化的卷积神经网络、循环神经网络等基础网络,基于最前沿的检测、分割、Seq2Seq算法框架,解决文字检测、定位与识别的问题。在文字检测的网络分支上叠加多任务学习策略,在有限资源下解决关键词检测问题,有效的补充了多变复杂场景下的OCR识别难题,并申请了专利。视频场景中,我们首创式引入并优化了孪生网络解决视频文字关键帧检测问题,上线于每天数十亿的视频理解项目,并申请了专利。

听众收益

1.最前沿的文字检测与识别技术在海量场景下的落地解决方案
2.最前沿的关键词检测技术
3.视频场景下的文字关键帧提取技术

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup