报告题目: 从计算机视觉到跨媒体计算,从单通道感知到跨媒体认知 报告人: 田枫 内容简介
帮助计算机“看到”并理解图像、视频、三维模型等可视媒体内容,一直是计算机领域的研究热点。计算机视觉的研究目标就是用计算机代替人对目标进行跟踪、识别、分析、处理,从图像中提取有用的信息,这是一项具有挑战性任务。在过去的四十年里,有成千上万的智慧和创造性思维为此奋斗。尽管如此,我们仍远未能够建立一个通用的“视觉机器”。近年来,随着互联网的迅猛发展,我们能够在网上(如新浪微博、QQ空间)看到越来越多的媒体数据(文本、图像、视频等)融合在一起,“跨媒体”成为表达主题或事件的一种新形式。比如一部刚要上映的电影,在网上不仅有它的评论,还能看到它的宣传海报和预告片,包括文字、图片、视频等各种媒体数据都有。这种多种媒体数据的结合,就是我们说的“跨媒体”。跨媒体计算技术是使用计算机综合处理文本、图形、图像、声音、视频图像等多种不同类型媒体的信息,通过挖掘不同媒体间的关联关系,实现不同类型媒体之间的模态互补、内容跨越和语义关联。实际上,英国心理学家麦格克等人已经证明:人类对外界信息的认知是通过整合不同感官信息而形成的整体性理解,任何感官信息的缺乏或不准确将导致大脑对外界信息的理解产生偏差。这个现象也被称为“麦格克效应”。就像“眼观六路,耳听八方”是人类与生俱来的能力,我们要把听到的东西和看到的东西结合在一起,才能更好地理解、判断事物。因此,我们认为,从计算机视觉到跨媒体计算,就是从单通道感知迁移到跨媒体认知,两个研究领域相辅相成,不可分割。报告分两部分,第一部分介绍计算机视觉领域的一些有趣的研究工作;第二部分介绍介绍跨媒体计算领域的一些有趣的研究工作。 报告人简介 田枫,教授,北京航空航天大学计算机应用技术专业工学博士学位,新加坡国立大学访问学者。研究方向为计算机视觉和多媒体计算。主持和参与国家自然科学基金、黑龙江省自然科学基金等各类科研项目40余项;在 IJCAI等国际会议,《自动化学报》、《软件学报》、《计算机研究与发展》、《电子学报》、《计算机辅助设计与图形学学报》等中文期刊,《J VIS COMMUN IMAGE R》等外文期刊发表计算机视觉和多媒体计算领域论文 30 余篇。现为中国计算机学会计算机应用专委会委员,黑龙江省计算机学会智能人机交互专委会委员。