黄珊 |
腾讯 社交OCR研究中心负责人
黄珊博士,2017年3月加入腾讯成为社交OCR研究中心负责人。主要研究方向为海量社交场景多语种文字检测与识别。带领OCR基础研发团队,致力于多语种文字检测与识别算法在精度与速度的优化,目前接入腾讯平台海量复杂场景图片数据每天30亿,视频10亿。同时致力于带领团队进行一带一路国家的小语种OCR识别,并且积极联动语音识别,机器翻译团队打造多媒体信息一体化智能理解体系。
课程概要
海量社交图片与视频的准确理解,对设计以包含语音、图片、视频内容理解的整体算法框架及各个模块算法精度、速度都提出了极大的挑战。这里,我们负责图片、视频场景的文字识别与关键词检测,同时结合NLP理解以保证社交图片的健康度。近几年来深度学习发展迅猛,在计算机视觉领域取得了一再的突破。针对社交场景图片的复杂排版、字形多变等问题,我们引入各种优化的卷积神经网络、循环神经网络等基础网络,基于最前沿的检测、分割、Seq2Seq算法框架,解决文字检测、定位与识别的问题。在文字检测的网络分支上叠加多任务学习策略,在有限资源下解决关键词检测问题,有效的补充了多变复杂场景下的OCR识别难题,并申请了专利。视频场景中,我们首创式引入并优化了孪生网络解决视频文字关键帧检测问题,上线于每天数十亿的视频理解项目,并申请了专利。
听众收益
1.最前沿的文字检测与识别技术在海量场景下的落地解决方案
2.最前沿的关键词检测技术
3.视频场景下的文字关键帧提取技术
黄珊 |
腾讯 社交OCR研究中心负责人
黄珊博士,2017年3月加入腾讯成为社交OCR研究中心负责人。主要研究方向为海量社交场景多语种文字检测与识别。带领OCR基础研发团队,致力于多语种文字检测与识别算法在精度与速度的优化,目前接入腾讯平台海量复杂场景图片数据每天30亿,视频10亿。同时致力于带领团队进行一带一路国家的小语种OCR识别,并且积极联动语音识别,机器翻译团队打造多媒体信息一体化智能理解体系。
课程概要
海量社交图片与视频的准确理解,对设计以包含语音、图片、视频内容理解的整体算法框架及各个模块算法精度、速度都提出了极大的挑战。这里,我们负责图片、视频场景的文字识别与关键词检测,同时结合NLP理解以保证社交图片的健康度。近几年来深度学习发展迅猛,在计算机视觉领域取得了一再的突破。针对社交场景图片的复杂排版、字形多变等问题,我们引入各种优化的卷积神经网络、循环神经网络等基础网络,基于最前沿的检测、分割、Seq2Seq算法框架,解决文字检测、定位与识别的问题。在文字检测的网络分支上叠加多任务学习策略,在有限资源下解决关键词检测问题,有效的补充了多变复杂场景下的OCR识别难题,并申请了专利。视频场景中,我们首创式引入并优化了孪生网络解决视频文字关键帧检测问题,上线于每天数十亿的视频理解项目,并申请了专利。
听众收益
1.最前沿的文字检测与识别技术在海量场景下的落地解决方案
2.最前沿的关键词检测技术
3.视频场景下的文字关键帧提取技术