少壮工夫老始成。
纸上得来终觉浅,
绝知此事要躬行。
同学们,你们是不是厌倦了“学习是为了考试”的模式?你们是不是有很多想法,却苦于无处实现?你们是不是想到推研和出国联系导师时,已有的研究经历将为自己的申请增色不少?
如果是这样,请你关注我们的“实习生计划”。我们这里有良好的科研实验条件、挑战性的课题、自由的研究氛围、融洽的团队气氛等待着你的加入。
我们在做什么
我们这拥有几乎所有的中文报纸的电子数据。基于海量的新闻数据,我们将构建一个全新的“新闻语义网”;它将为用户提供更准确的新闻搜索,以及智能导航。例如,我们可以很方便的回答多个新闻人物之间的关系;我们可以将新闻的重要要素,例如事件的类别,时间,地点和人物等,回答给用户,而不需要用户阅读新闻本身。这项内容涉及:信息提取技术,文本挖掘,信息检索,语义网等。
同时,我们在构建一种新的数据的存储系统。如你们在课程上所学,目前的大量的数据是存储在关系型数据库系统中,例如IBM DB2,Oracle,MS SQL等等。然而为了使用这些关系数据库,我们需要预先定义模式结构(即表结构)。然而Web上的数据千奇百怪,因而很难提前定义模式。为此人们提出了一种新的数据格式RDF(Resource Description Framework)。如何存储海量的RDF数据,如何在RDF数据上建立索引来提高查询效率。这项内容涉及:数据库和语义网。
你将做什么
如果你加入到我们的实习生计划,你将和这儿的老师和研究生一起,讨论研究问题,参与系统的实现,以及撰写学术论文。你将可以根据你的兴趣,选择一个你喜欢,擅长的方向。我们这老师都有多年海外留学经验,目前已经发表国际期刊/会议十余篇,加入我们,你将学习到如何从事学术研究,提前培养自己的学术能力,这将为你出国申请套词提供的背景。
你们中的优秀者,我们将优先考虑其推免研究生的资格,还有机会获得“王选奖学金”。同时你们如果考虑出国深造,我们将根据你们的表现,提供具体而且的推荐。
课题一:中文智能语义检索引擎
你有听说“Trueknowledge”网站吗?它是目前国际上具有代表性的基于语义数据的Q/A系统。给一个自然语言问题,例如“Who was the president of United States in 1981 ?”, Trueknowledge不是给你一堆不知所云的网页,而是直接告诉你答案(Ronald Reagan和Jimmy Carter,因为81年是美国大选年!)。这就是知识问答系统的魅力所在!这个系统中涉及到自然语言的理解,文本挖掘和海量语义数据的存储和检索算法。
我们正在构建一个海量中文语义智能检索系统,请加入我们吧!
课题二:中文海量语义数据集构建
现在已经成为了数据为王的时代,收集和整理海量语义数据,是构建课题一中文智能检索系统的核心。这里面涉及到网络数据的抓取,语义信息的提取,数据质量的控制等。
联系我们
请将你(不限于计算机专业)的简历以及成绩单发至 邹磊 zoulei@pku.edu.cn。
http://www.icst.pku.edu.cn/intro/leizou/index.html
简历中请你着重叙述如下方面:
1. 以下课程(如果上过)你的掌握情况:编程语言(C/C /Java),数据结构,算法设计,数据库,数据挖掘。
2. 以前的项目经验(如果有)。
3. 数学基础。
4. 你的详细联系方式,包括电话和email,以便我们和你联系。