清华大学人工智能研究院成立智能信息获取研究中心
文库划重点:这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心之后成立的第六个研究中心。
2019年6月19日,清华大学人工智能研究院智能信息获取研究中心成立仪式暨学术交流会在信息科学技术大楼多功能厅举行。这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心之后成立的第六个研究中心。清华大学副校长、人工智能研究院管委会主任尤政院士,人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌,并为智能信息获取研究中心主任计算机系马少平教授颁发了聘书。
尤政院士与张钹院士致辞
成立仪式在人工智能研究院常务副院长孙茂松教授的主持下,首先请清华大学副校长、人工智能研究院管委会主任尤政院士与人工智能研究院院长张钹院士为清华大学人工智能研究院智能信息获取研究中心的成立致辞。
尤政院士在致辞中指出,在当前信息爆炸时代,人类有限的认知能力和近乎无限的海量信息之间矛盾日益显著。智能信息获取研究旨在实现人与信息的高效匹配,在这一领域的技术突破和应用已经也必将继续对社会发展和大众生活产生巨大影响。希望智能信息获取研究中心更好地集中优势力量,以智能信息处理研究为切入点,取得一批具有重大影响的原创成果,培养一批人工智能领域的优秀人才,带动对人工智能的深入研究与应用,更好地服务于国家和清华的人工智能发展战略。
张钹院士代表清华大学人工智能研究院致辞。他表示,当今社会的信息获取,尤其是从互联网上进行信息获取,几乎成为了每个人生活与工作不可或缺的部分。信息获取研究中心团队近 20 年中在相关研究领域已经取得了显著成绩,但也还有很多待研究解决的新问题等待着我们去克服。发展人工智能的理论与技术是极其艰难的,并非一朝一夕能够完成,希望研究中心继续努力,为国家与社会做出更大的贡献。
致辞结束后,尤政院士与张钹院士在大家的热烈掌声之下,共同为智能信息获取研究中心揭牌。然后向智能信息获取研究中心主任计算机系马少平教授颁发了聘书,同时聘请新加坡国立大学蔡达成教授与加拿大蒙特利尔大学聂建云教授作为学术顾问。
全面揭晓智能信息获取研究中心
紧接启动仪式之后,智能信息获取研究中心主任马少平教授向我们介绍了中心的各方面情况,包括关注领域、研究内容以及人员构成。马教授表示,智能信息获取研究中心旨在研究如何智能地帮助人们更简单和高效地获得、分析和处理信息:
3个关注重点
开展相关理论研究:结合认知心理学、经济学等相关领域,探究人类信息获取行为的内在规律,研究支持智能信息获取、处理和分析的基础理论和方法;
构建数据计算平台:建设包含互联网数据、用户行为数据的数据平台和支持智能检索、个性化推荐、智能问答、对话系统的智能计算平台;
促进学术交流合作:举办开放的、国际化的与人工智能和信息获取相关学术活动,增进学术交流;普及智能信息获取和处理分析技术,促进产学合作。
主要研究内容
智能信息检索:理解用户背后多样化信息需求来帮助用户快速有效地访问和利用海量互联网信息;
个性化推荐与用户建模:挖掘用户属性、兴趣偏好,主动为每个用户对信息进行智能过滤和推荐,解决信息过载的问题;
智能问答和智能对话系统:得用户能够通过问答、对话等更自然的方式与信息系统进行交互;
用户行为分析与挖掘:通过对海量用户在线行为信息进行收集、处理和挖掘,利用其中蕴含的丰富群体智慧信息开展用户行为分析,形成信息闭环,不断提升智能信息获取系统的性能。
6个代表性成果
基于用户的搜索引擎新能评价及满意度分析:如何在存在诸多偏置的环境下对搜索引擎的性能进行有效和准确的评价是一个挑战性的问题,中心基于收益与代价因素,设计二者融合的用户满意度研究体系与用户停止评价策略。相关研究获得了顶级国际会议 SIGIR2017 的最佳学生论文奖。
针对互联网搜索的深度点击模型与异质结果排序:搜索结果页中丰富多样的多模态结果(文本、图像、视频、新闻、百科知识……)使得传统基于文本相似度的排序方式面临极大挑战,中心基于文本、视觉以及结构等多种类型的信息,对异质结果进行重排序。相关研究论文在重要国际会议 CIKM 2018 上获得全面最佳论文奖。
个性化推荐中的用户行为和满意度研究:用户的行为被广泛应用于推荐系统的训练和评价中,但其与用户实际偏好和满意度之间存在差异。针对该问题,中心设计了深入的用户实验并结合大规模真实日志分析,全面探究了行为、偏好和满意度之间的关系,并引入质量和用户负向体验的效应,改善了隐式反馈的构建和在线评价指标,提出了质量和负向体验的识别模型。相关研究论文发表在 SIGIR 2018,WWW 2019,SIGIR 2019 等顶级会议上。
可解释的推荐算法研究及应用:推荐结果的可解释性一直是推荐领域重点关注的研究内容。针对这一课题,一方面,中心尝试从用户的主观偏好来解释推荐结果,利用用户的历史评论和社交关系等信息给出推荐解释;另一方面,中心还从知识图谱中挖掘除了商品间的关系信息,尝试利用这些客观的商品互补/互斥关系来进行推荐的解释。相关研究论文发表在 WSDM 2015,CIKM 2018,WWW 2018,WWW 2019 等顶级国际会议上。
常识知识驱动的开放领域对话生成:常识只是在许多自然语言处理任务中起到了至关重要的作用。此项工作中,我们提出了一种全新的开放领域对话生成模型,来展示大规模的常识知识如何促进自然语言的理解与生成。这是将大规模常识知识引入对话生成任务的首次尝试。与其他独立利用知识库三元组或实体的模型不同,中心提出了图注意力模型,将知识图谱的信息结构化地作为一个整体进行表示。相关研究论文在顶级国际会议 IJCAI 2018 上获杰出论文奖。
情绪化聊天机器人:情绪智能是人类智能行为的重要特征。在对话系统中感知情绪和表达情绪对于提高对话系统的一致性和交互性十分重要。中心提出了情绪化对话内容生成模型,首次在大规模神经对话生成模型中考虑了情感因素,并采取情绪状态嵌入、内部记忆、外部记忆等技术控制文本中的情感表达。论文发表在 AAAI 2018。
之后,马教授还向我们介绍了研究中心开放的数据集,包括互联网语料,搜索数据,专业领域,输入法语料四方面的资源,可供学界和业界研究使用。
五大学术专场报告
随后,学术研讨交流会进入学术专场报告环节。首先由来自加拿大蒙特利尔大学的聂建云教授带来了题为「Representation learning in information retrieval – What to represent」的特邀报告。聂建云教授以信息检索领域中文档和查询词的表示学习为切入点,深入探讨了传统的内容匹配和基于神经网络的内容表示两种检索思路的优劣与结合方式,指出两类特征对于检索来说同样重要。此外,聂教授还特别指出,研究数据、匹配信息的融合方式以及知识的应用方式在信息检索研究中仍然是巨大挑战,期待研究中心在相关领域取得更大突破。
接着由清华大学张敏副教授围绕「个性化推荐中的可解释性与公平性」展开报告。张敏副教授介绍了团队在特征、评论、商品三个层次上,将用户产生内容及基于知识图谱的规则推理学习与推荐算法相融合,开展的可解释性推荐方法研究成果;同时还介绍了在推荐公平性方面,团队在深入理解用户行为、改进推荐算法和改善评价指标方面的研究工作。她指出,可解释性和公平性是当前信息检索、特别是个性化推荐领域的研究重点和热点;而提出可解释性和公平性是两个紧密关联的具有挑战性的问题。这也呼吁更多研究者们一起加入到相关研究中来,以提升用户对推荐内容的满意度。
然后是清华大学刘奕群副教授做了题为「群体智能支撑的互联网搜索技术」的报告。在报告中,刘奕群副教授首先强调了搜索对信息化社会和信息安全具有重要的意义,并简要回顾了研究团队在利用群体智能改进互联网搜索技术方面取得的一系列进展。随后,刘奕群副教授介绍了团队在用户行为指导的机器阅读模型和相关性计算两方面最新研究成果,阐述了通过分析人类认知行为,改进计算模型的新研究范式。
来自业界的搜狗公司副总裁许静芳博士也带来了相关主题的报告——「问答—精准信息的智能获取方式」。在报告中,许静芳博士先简单介绍了对信息获取方式的演化历程,指出随着交互方式和用户习惯的变化,问答引擎在为用户带来精准信息方面扮演着越来越重要的角色。因此,问题的表达、答案的连接和答案的生成是问答研究中面临的主要挑战。针对这些挑战,许静芳博士也向我们介绍了当前相关的研究进展,同时也期待能与研究中心在相关方向取得更多研究成果。
最后一个学术报告由清华大学黄民烈副教授针对「对话系统中的强语义、弱语义」做了探讨。黄民烈副教授介绍了在智能对话场景下,强语义信息与弱语义信息在相关研究中的优劣和应用情况,并展示了当前课题组通过结合知识图谱信息、神经计算等手段在应对这些挑战的研究进展与成果。他指出,语义问题、一致性问题和交互性问题是现在对话机器人研究领域的主要挑战。
本次会议出席嘉宾还有华宇元典公司总经理邹劭坤、首席技术官李东海等。大会结束时,马少平教授对于学界和业界同仁的积极参与表示了感谢,并表示智能信息获取研究中心今后将整合多学科交叉的优势力量,深入开展相关研究,以促进清华和国家信息获取和人工智能研究与发展为宗旨,打造一个具有广泛影响力的学术研究平台与学术交流中心。
收录于哈希力量,手机站省略本文固定网址