资源详情
课程大纲
自然语言处理和深度学习领域的特点是适合读的成熟教材很少,但有浩瀚如烟的一大堆论文构成整个知识体系的各种细节,自然语言处理领域有一些国外的著作,但基本是面向英语等字母文字,涉及汉语处理的几乎没有,中文著作成熟度很低,所以体系化这些知识,是学习者面对的首要困难。其次,这些领域大多涉及深涩艰难的数学算法,比如自然语言处理里用到的各种概率图模型:隐马尔科夫,最大熵,条件随机场等,深度学习里面涉及到的受限玻尔兹曼机,自编码器,卷积神经网络,深度置信网络等,数学基础稍差的人,估计即使花上几年去读,也不可能取得多大的自我进展。知识难以理解的程度超出了很多学习者的极限。所以我开设这两门课的“卖点”就是:用最通俗的语言,讲解这些机器领域里最深奥的知识,使即使数学基础不扎实,理解能力不超群的大众,也能通过课程掌握这些前沿领域的细节技术,并且应用在自己的场景里去完成某些事情。这不是一项轻松愉快的讲授任务,但按照以往在炼数成金上讲授诸多同样具有难度的课程的经验,以及各位同学的鼓励鞭策,又给我无穷的力量和信心,坚持下去把课程做完做好。
自然语言处理是机器学习当前最神秘,最红火,最具难度,也最让引人关注的分支。在搜索引擎,语音识别,情感分析,大批量文档处理,机器翻译,自动应答等各个领域有着前程无可限量的应用。可以试想一台能理解自然语言,并且和人类能用语言纯熟交流的机器,那还能叫机器么?文本挖掘(Text Mining)是数据挖掘以及自然语言处理技术衍生的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得众多具有商业价值的知识。我们用计算机去处理文字,语音,理解语言,这些本来是高等生物人类才能做的事情,使到系统能产生“机器也具有人类同样的智慧”的震惊效果,无需置疑肯定会给顾客和观众留下极其深刻的印象。
课程大纲:
第1课 自然语言处理与文本挖掘概述。强大的系统后面都有一个强大的语料库。形式语言,机器诗人是怎样炼成的?
第2课 自动机及其应用,文稿自动校正,歧义消除 第3课 语言模型,平滑方法。应用案例:语音识别,分词消岐 第4课 概率图模型,生成式模型与判别式模型,贝叶斯网,马尔科夫链,隐马尔科夫模型HMM,应用案例:语音识别与分词
第5课 马尔科夫网,最大熵模型,条件随机场CRF,实现HMM和CRF的软件。应用案例:使用最大熵消除歧义,使用CRF进行标注
第6课 汉语分词专题。世界上最难的语言名不虚传 第7课 命名实体识别,词忄生标注,从文本里挖出最重要的内容 第8课 句法分析,找出句子的重点
第9课 语义分析与篇章分析,让机器象语言学家那样思考
第10课 文本分类,情感分析。应用案例:互联网自动门户,评论倾向忄生分析 第11课 信息检索系统,搜索引擎原理,问答系统,应用案例:客服机器人是怎么造出来的? 第12课 文本深度挖掘:自动文摘与信息抽取
第13课 机器翻译与语音识别技术介绍。IBM Watson系统的认知智慧
授课对象: 对文本挖掘与自然语言处理感兴趣者,潜在研究者,爱好者,职业方向准备转型高级数据分析师,迈向数据科学家的朋友。最好是学习过炼数成金上《机器学习》课程或具备类似能力。
收获预期: 熟悉文本挖掘与自然语言处理技术,懂得怎样运用到自己的实际工作,将数据挖掘能力从有限的结构化数据延伸到非结构化的海量文字材料。个人技术能力和数据分析能力有明显增长
授课讲师: tigerfish,知名数据库网站ITPUB创始人,知名数据分析网站炼数成金创始人。数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。他将带领他的数据分析团队完成整个授课工作。