欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
我国“最神秘”的大学,建校几十年,曾经在地图上都搜不到?家乐福

我国“最神秘”的大学,建校几十年,曾经在地图上都搜不到?

大学是干什么的?为社会培养专用人才的,社会需要什么样的人才,大学就培养什么样的人才。所以,我国大学总类五花八门,有理工类,师范类,国防类,航空航天类等,其中有一类大学,最为神秘,一般都是国家机密,关系着国家的安全,它就是兵工类大学!我国比较知名的兵工类大学共有7所,分别是:北京理工大学,南京理工大学,中北大学,长春理工大学,沈阳理工大学,西安理工大学,重庆理工大学。其中有一所被称为“人民兵工第一校”!以前在地图上都查不到,它就是――中北大学!中北大学位于山西省,是山西省重点大学,国家二级保密单位,一直以来,都是兵工重点院校,非常神秘,实力雄厚,共有硕士点71个,博士点30个,博士后流动站6个,主要院系有机电工程学院,机械工程学院,材料科学与工程学院,化学工程与技术学院等,不少专业都是同类军工专业中的领头羊,全校学生3万多人,每年为国家培养出近万名优秀毕业生,对我国军工事业的发展做出了巨大的贡献!中北大学之所以能够取得的这么高的地位,最主要的一个原因就是它的师资力量强大,在职教师2500人左右,其中80%以上都是博士研究生学历,20%的老师都具有海外留学经历,中科院院士8人,国家国防科军工专家20人,正是这群优秀教师,组成了多个优秀教学团队,其中信息处理系列课程教学团队,弹药工程与爆炸技术专业教学团队,都是全国知名的教学团队,正是在这么一堆知名教师的带领下,中北大学才能蓬勃发展,排名连年攀升!目前,中北大学在全省的排名第三,仅次于山西大学和太原理工,在全国排名150左右,其实,不少人觉得中北大学的排名其实还能够更高的,因为它的实力确实是很强,只是,由于它的兵工特殊性,很多科研成果和资料都是保密的,自然影响评估,所以,它应该是山西第一,最起码能够达到211的水平。你觉得中北大学的排名是不是应该更高?

附赘悬疣

如何成为一名心理咨询师?

#心理咨询师#引言什么?连个咨询师都不是的你,居然写了一篇文章叫“如何成为一名心理咨询师”?没错!而且,您看了之后,绝对会成为一名心理咨询师。找到动机我觉得在探索“如何成为一名心理师”之前,一定要找到自己的动机。不管做什么事,都要找到动机。动机是激发我们朝着目标行动,并维持这种行动的动力。我写过一篇“我为什么想成为一名心理咨询师”的文章,详细介绍了我的动机。探索动机的过程,是曲折的。找到动机的结果,是明确的。我的动机是:l 帮助别人,让爱人康复;l 个人成长,让自己快乐;l 自我实现,登天的感觉。第一步,盲目一点如何成为一名心理咨询师呢?在找到动机之后,一定要盲目一点!一、预警信息好多!相信大家一定已经接触了很多预警信息。我梳理了一下,成为一名咨询师所要面对的挑战。1.政策问题2017年国家取消心理咨询师资格考试,现存的、有证的,只有5~10%在从事这个行业。拿了二级证相当于幼儿园毕业,可以去参加义务教育。入行需要有大学文凭。行业不规范……结论,那么没证、没文凭的,您就别来了吧。2.金钱问题有人4年花了40万。培养一个精神分析师至少要70万。读个MAP(应用心理学硕士),平均每年学费10万,还要参加其他培训,也要花钱。入行后也要接受督导,做个人体验。3.时间问题培养一名精神分析师,要7年。就算成为精神分析师了,个案量不到3000小时都算新手。前十年基本都是入行初期。4.投入产出问题真有迫切的想法和快捷的需求,不如去找一个咨询师,这是最较经济的。5.职业规划问题建立理论体系,培养临床心理咨询能力,选择什么疗法?6.专业成长问题需要实习,参加工作坊,学习微课。同时要读各种题材的书,且是大量的读。7.入职之后的问题咨询师可以看作计时工或计件工,大多数咨询收入低,钱景不明朗。工作辛苦,头发白的很快。需要建设人脉。需要寻找个案!二、如何对待这些预警信息?首先,摆正态度!这些专家的观点都是对的!是看信息的我们,错了!我们在错误的时间,看到了正确的信息。那么,应该什么时候,接受这些预警信息呢?我认为是应该入行之后,有些飘飘然的情况下,需要降降温的情况下,来看这些信息。专家说的都是实话、真话、对的话!曾奇峰老师在《幻想即现实》里有一篇文章的题目是“别说太正确的话”。这些话的特点是,“说的人越说越高兴、越过瘾,听的人越听越难受,最难受的是,不舒服了,连反击的可能性都没有”。其次,正确解读。成为一名咨询师,需要投入大量的时间。是的,我没有时间。大家都很忙,谁有时间?成为一名咨询师,需要投入大量的金钱。是的,我没有钱。谁觉得钱多?不差钱的,也不用自己爬楼、搜索帖子、找答案了,直接把最顶级的专家叫到家里,一对一的培训,多好?!君不见多少已经入行的,要转行,你还要杀进来?什么行业不都是进进出出吗?我们的本科同学,有多少在干本专业?退一万步,你入行了也养活不了自己。退一万步,不管什么行业,从业了,进单位了,不都得先实习,跟着师傅吗?哪个上来就财务自由了?多少年之后才能财务自由?此时的你,财务自由了吗?相信大家已经明白了。这些问题是进入大多数行业,都会面对的问题,只是表现形式不一样。进入任何行业,都需要投入时间、投入金钱、投入精力,承担刚入行的压力。这个世界没有谁能给谁保证,如果全盘考虑清楚了,怎么做会得到什么样的结果。人生会不会有点乏味?因此,成为心理咨询师的第一步,盲目一点!你可以!第二步,自信一点被誉为“精神分析播种机”的曾奇峰老师,劝伍罡老师入行的时候,给了伍老师一个评价“老伍有天赋,赶快改行吧”。几年后,伍老师才知道,曾老师一共对七万多人说过同样的话,只有他当真了。新精神分析主义的代表人物,爱利克·埃里克森大学预科毕业后,他违背继父要他成为一名医生的愿望,从事艺术专业,并周游整个欧洲大陆。后来成为了美国神经病学家、发展心理学家和精神分析学家。我也分别跟一位心理治疗师和一位心理咨询师,介绍了我的情况,表达了我想转行,跟他们学习的意愿。没有人说,你的专业不对,你的年龄太大,你有没有时间,有没有钱,敢不敢承担压力。感谢这两位老师,给了我巨大的支持!成为心理咨询师的第二步,自信一点!你可以!第三步,勇敢一点相信大家都经历过挫折,经历过担心、害怕,但我相信,我们都勇敢过!回忆一下,我们的前半生,是不是也有过,好像怎么都过不去的坎呢?结果呢?我们勇敢的做了,事情解决了!不用件件如此,一件就够了!记住这种感觉!成为心理咨询师的第三步,勇敢一点!你可以!第四步,行动一点带着我们的盲目、我们的自信、我们的勇敢,行动吧!因为,如果不向着目标行动,我们就永远也实现不了目标。怎么行动呢?我想分两种情况讨论!第一种,年轻的或者愿意all in的!读全日制的学位吧!找能考上的、最好的学校,读个学位,好好学习,一步步的来!相信你在读学位的过程中,就会慢慢找到方向,找到感觉。相信你,一定能成为一名优秀的咨询师。第二种,年纪大的!再分一下吧。1)经济宽裕点的。读个在职学位。有个专业的学位挺好,而且在拿学位的同时,还能把基础打好!2)经济不那么宽裕的。以我为例,谈谈对学位和报班的一些想法吧。学位我之前想读个在职的学位。延缓我念头的原因有二:(1)在职的学位也得考试,还得找导师。针对我这还没入门的小白来说,考试有压力。没有人脉背景,找导师估计也费劲。(2)有大拿告诉我,可以自考个心理学本科。我一开始不大接受自考本科,后来接受了,发现北京的自考终止了!又一个霹雳!培训本来已经打算报个班了,而且准备初、中、高,一路学下去。后来有老师说,培训参加太多也没用。要先把基础打好。而且我找学习资源的能力还不错,何不自己先学学,看对哪个感兴趣,再具体的学?因此,我现在正在打基础阶段。一方面按自考的要求,学本科的课程。一方面按咨询师的培训,学培训的课程。虽然,我还没有成为一名咨询师。而且,前方的路可能还很长!但是,我相信我一定能成为一名咨询师!早晚而已!成为心理咨询师的第四步,行动一点!你可以!欢迎跟我交流,让我们一起在成为咨询师的道路上前进!我设置了,会成为心理咨询师的人,才可以给我点“赞”。不信,你试试。谢谢你关注心灵生长。独自前行,可以走得很快;结伴而行,才能走得更远。心灵生长的路上,有你、有我。让我们共同成长,相互扶携。如需本次分享的思维导图原文件和课程学习链接,请直接留言联系。

阿尼纳

两成开发者月薪超 1.7 万、算法工程师最紧缺|中国开发者年度报告

整理 | 郭芮责编 | 唐小引出品 | CSDN(ID:CSDNnews)“求知若饥,虚心若愚”——这个原本出自《全球概览》的俳句,因为乔布斯在斯坦福大学毕业演讲中的引用而备受推崇,流传成为 IT 界的至理名言之一。在编程界,亦有“代码胜于雄辩”、“Done is better than perfect”等警句,寥寥数语将编程工作者的形象特质描摹到了极致。程序员,就是技术至上、唯代码是瞻且必须不断武装自己的群体。21 世纪,高薪、高端、高技术范儿已成为程序员的固有标签,在这个新的元年,CSDN 将基于一年一度的开发者大调查数据,以全新的视角深入发掘中国开发者群体的整体现状、应用开发技术以及开发工具/平台的发展趋势,呈现更真实、更全面且更有学习价值的开发者画像。CSDN 最早从 2004 年开始针对中国开发者进行大规模调查,是迄今为止覆盖国内各类开发者人群数量最多,辐射地域、行业分布最广的调查活动。2019-2020 年中国开发者大调查针对软件开发技术、应用开发领域等方面对问卷进行了重新设计,在本次调研中有如下主要发现:30 岁以下开发者人数占比超八成,全国有 19.6% 开发者月薪超过 1.7 万元;六成开发者在使用 Java 语言,近五成开发者近期最想学 Python 语言;Spark、Redis 和 Kafka 正在成为企业大数据平台通用技术组件;区块链技术近两年是热点,比特币和以太坊是两种主流的区块链开发平台;人工智能技术日益受到企业和市场的关注,但 64% 企业尚未实现智能化,机器学习/深度学习算法工程师最为急缺;近七成开发者认为未来 5G 网络的传输速率能达到 4G 网络的 10 倍以上;Apache 项目和 Linux 是开发者较为喜欢的开源项目;半数开发者很少参与开源项目的开发、维护、运营和社区发展等。软件开发准入门槛持续降低,近 2 成开发者月薪超过 1.7 万30 岁以下开发者人数占比超八成,软件开发从业门槛持续降低从 2015 年到 2019 年的调研数据来看:30 岁及以下的开发者人群占比在 8 成以上,一直是软件开发领域的主力军;全国近半数的开发者工作在一线城市(北京、上海、广州、深圳、天津);物联网、软件、IT 制造三个技术领域涵盖了国内 84% 以上的开发者;本科及以上学历占 8 成;92% 的开发者是男性。和国外开发者年龄分布趋势大概一致,国内的软件开发群体一直呈现出越来越年轻化的特点。这是因为,一方面软件开发行业蓬勃发展,各行各业都需要软件开发相关人才,也有越来越多的毕业生选择从事该行业;另一方面,是因为编程语言、框架、云服务等基础设施的持续完善,从事软件开发的门槛在持续降低,更容易接纳新鲜血液,报告统计发现,本科学历是开发者的主力军,66% 的开发者拥有本科学历,而硕士研究生、博士研究生仅占 11%、1%。八成以上开发者月薪在 5 千~3 万元之间,19.6% 开发者月薪超过 1.7 万元通过结合受教育程度和薪资水平的数据特点来看,学历越高的人群中,月薪 1.7 万元以上的高收入比例越高。在一线城市(北京、上海、广州、深圳、天津)中,月薪超过 1.7 万元的开发者占比为 30%,该比例远高于国内其它城市。开发者属于相对高薪的职业,尤其是在一线城市中,但不同开发者之间收入差距较大。软件开发是一个智力密集型的工作,不同开发者能够提供的价值差别很大,这就使得一个优秀开发者的收入远高于普通开发者:硕士和博士毕业的高收入者比率要远高于本科及以下的;金融和互联网行业的高收入比率最高。自学是开发者持续学习的主要路径软件开发行业日新月异,只有保持持续学习才能跟上技术变化的脚步,终身学习是现代人保持竞争力甚至是维持生存的必要手段。从调研中可以看到,53% 的开发者会通过在未参加正式课程的情况下,自学一门新语言、框架或工具。但同时,也有半数的人参加过在职培训或者线下课程,相对于自学的灵活性而言,这类培训会更为系统和完整,对于长期的个人提升有所裨益,开发者可以适当选择。但与之相悖的是,只有不到 40% 的开发者,愿意为学习付费,这可能会导致参与的课程质量不够高。Java 雄踞语言榜,Visual Studio 受开发者欢迎Java 长盛:使用最多,开发者最想学从编程语言来看,Java 是最多人使用的语言,而 JavaScript 和 SQL 分别是第二第三位。这三门语言,使用场景都很广泛,Java 一方面后端开发最常使用,生态成熟度无人可比;另一方面,Java 依然是 Android 上最重要的开发语言,与之相比 ,新兴的 Kotlin 只有 2% 的开发者在使用。而 JavaScript 不仅是前端开发的必备语言,还用在 Web 开发、小程序开发等场景下。Java 和 Python 依然是开发者最希望学习的语言之一,只是相比之下,Python 的热度有所降低,这可能和机器学习没有去年那么火热有所关联。变化比较大的是 Go 语言,与去年相比,今年的调研中想学 Go 语言的开发者降低到了 4%,与之相似,Kotlin、R 的学习意愿也大幅降低。从这个趋势也可以看到,如今的开发者更意愿去学习一些相对成熟度、用途更为广泛的语言,对一些代表新模式的语言乐衷程度有所降低。七成以上在使用 Windows 操作系统,83% 在使用 MySQL 数据库72% 开发者在使用 Windows 操作系统,18% 在使用 Linux 系列操作系统。在存储服务的使用上,MySQL 继续扩大其使用率到达了 83%,几乎是开发者必备的技能。和去年相比,Elasticsearch 出现在数据库使用的调研中,在大数据时代,Elasticsearch 作为提供搜索服务的第一选型,也必然会被越来越多的开发者学习和使用。Node.js 是相对使用普遍的技术框架在 Web 开发上,前端使用 Vue.js 后端使用 Spring 是最常见的选型方案,与之相对应,Node.js 是最多被用到的框架,这和当今多端开发的趋势密不可分。后端用微服务架构,中间用 Node.js 粘合出适合 Web、Android、iOS 等不同端和场景使用的 APIs,是当下主流的部署方案之一,既可以前后端分离提高开发效率,又可以在保障服务稳定性的同时提升灵活性。而TensorFlow 成为开发者最期望学习的框架,这说明开发者依然对机器学习保持关注和热情。Visual Studio 是最为普遍使用的开发环境在开发环境的选择上,Visual Studio 是最为普遍使用的开发环境,这和微软对开发者的投入密不可分。微软投入了大量的研发力量,使得 Visual Studio 可以在各种操作系统进行各种编程语言的开发,其强大且完善的插件系统可以满足开发者的各种需求,使其可以超过 IntelliJ。大数据平台以私有云部署为主,Spark 使用率高达 44%私有云部署解决方案是企业构建大数据平台的主要方式随着分布式计算和云平台的逐步成熟,目前大部分公司都有能力搭建自己的大数据平台。调研数据显示,81% 企业在进行大数据相关的开发和应用,50% 的企业选择私有云解决方案来部署大数据应用,28% 的企业选择自主研发。仅 19% 企业使用商业发行版 Hadoop 版本搭建数据平台调查报告发现,有 30% 以上的企业并没有使用相对成熟的 Hadoop 技术搭建数据平台,这些企业的算法性能会很大程度上受限于低效的平台,更不可能开发出更高效的数据分析算法。但幸运的是大部分企业都基于商业版或者社区版 Hadoop 搭建了数据平台,这些公司的侧重点主要在应用发现和算法的设计层面,更有可能在不久的将来实现大数据的价值。Spark 是企业大数据平台最普遍的组件Apache Spark 是一个处理大规模数据的快速通用引擎,它可以独立运行,也可以在 Hadoop、Mesos、云端运行,它可以访问各种数据源包括 HDFS、Cassandra、HBase 和 S3,可以提升 Hadoop 集群中的应用在内存和磁盘上的运行速度。Spark 生态系统中除了核心 API 之外,还包括其他附加库,可以为大数据分析和机器学习领域提供更多的能力。本次调研中,Spark 是使用最普遍的大数据平台组件,使用率达到44%,而MapRece使用率仅为21%。分布式文件系统 HDFS 作为核心组件之一,使用率也达到了 39%。企业对大数据平台应用最多的场景是统计分析、报表生成及数据可视化,38% 企业使用ELK(ElasticSearch + Logstash + Kibana)实时日志分析平台。综上所述,目前大数据的发展热潮令人欢欣鼓舞。一个优秀的大数据团队,需要有对产品开发具有高敏感性同时对技术有一定理解的人才,同时需要理论基础极其扎实,能对实际问题进行抽象建模和算法设计的人才。只有双管齐下,在产品和技术方面进行深层次探索,才能真正实现大数据产业的繁荣。区块链质变,比特币逆袭以太坊成 TOP 1 开发平台22% 的开发者正在用或者准备用区块链技术解决技术问题区块链技术的发展,是一个量变到质变的过程。相比于 2018 年,对区块链和加密货币了解的人从 22% 增长到 32%,准备尝试用区块链技术解决一些问题的人数从 14% 增长到 16%,仅有 4% 的人对区块链完全不了解。43% 的受访者在从事公有链(比特币、以太坊等)的开发本次调研中,43% 的受访者在从事公有链(比特币、以太坊等)的开发。目前行业侧重发展的方向为解决方案、公链及联盟链,公有链由于其自带激励机制,对于普通开发者有直接的回馈,所以上面开发者占比高也比较合情理。行业解决方案从去年的 27% 增加到今年的 36%,说明传统行业开发者对区块链的认可度在增加。区块链本质上是技术,落地场景及实际应用才是连接社会效益的关键。比特币和以太坊是当前两种主流的区块链开发平台在行业开发者的印象中,以太坊一直是开发平台领域的头号玩家。但今年数据显示,以太坊从 2018 年的 44% 占比第一,降到 24%;比特币从 2018 年的 28%,上升到 35%,占比第一。比特币在行业内外仍然拥有最强共识,在闪电网络的加持下,大家也似乎感受到比特币离商用也不再遥远了。金融是普遍认为的行业应用方向金融行业是普遍认为的行业应用方向,占 36%。区块链本身具备的防篡改、可追溯的特点,能大大降低金融行业监管成本,不过金融的进入门槛相对也较高,需要各方面技术的配合。其次,智能硬件和物联网也被认为是主流应用方向,占 14%。不过相比其他众多已经很成熟的技术,依托区块链的解决方案在实际使用中,往往面临必要性缺失的问题,因此区块链应用发展仍任重道远。在区块链结合行业之前,更加要重视与其他新技术的结合和协同:物联网设备能够提供大量数据,5G 能够提供高速传输,存储可以解决区块存放的问题等。算法工程师最急缺,TensorFlow 占据 AI 深度学习框架榜首64% 的企业尚未实现智能化在经历了 2019 年的行业低谷期之后,无论是行业巨头还是新兴独角兽,都开始审视 AI 能够切实落地的场景。调研数据显示,14% 的企业尚无信息化基础,27% 的企业实现了事务处理数字化,22% 的企业具备商业智能基础设施,实现描述性分析。使用机器学习实现预测性分析和决策优化的企业占 16%,而在业务中全面使用 AI 系统、机器人和其他自动化工具的仅占 12%。机器学习/深度学习算法工程师最急缺在岗位分布上,由于深度学习是以大数据为基础的,而感知智能中的计算机视觉又是目前深度学习较为成熟的应用,所以,机器学习和深度学习工程师,以及数据工程师、计算机视觉工程师排行在前三位。当前最急缺的岗位也是机器学习/深度学习算法工程师、数据科学家/数据分析师/数据挖掘工程师岗位。53% 的开发者表示其团队急缺机器学习/深度学习算法工程师,37% 表示急缺数据科学家/数据分析师/数据挖掘工程师。TensorFlow是人工智能领域主流深度学习框架此次调研中,TensorFlow 使用普及率达到 48%。从技术本身的角度来看,较为成熟的 TensorFlow 成为 AI 工程师的首选深度学习框架,Torch/PyTorch由于其开发效率较高,也得到了较多支持。35% 开发者选用国产 AI 芯片应用于自己的 AI 开发在 AI 芯片领域,国内厂商也开始弯道超车,越来越多的开发者也开始关注国内 AI 芯片的进展。调查数据显示,选用国产 AI 芯片应用于自己的 AI 开发时最看重的因素方面,对主流 AI 框架的支持能力是最普遍的因素,占 35%。物联网云平台三足鼎立:阿里物联、华为云、百度 IoT69% 的开发者认为未来 5G 网络的传输速率能达到 4G 的 10 倍以上每一代新型的通信系统总是能带来更大的带宽。据报告显示,近七成开发者认为未来 5G 网络的传输速率能够达到 4G 网络的 10 倍以上。影响 5G 普及的三大因素:5G 套餐价格未定、运营商的开发程度、需要更换手机由于目前 5G 网络使用者较少,费用较低廉的套餐还没有推出,第一代 5G 终端不太成熟等原因,目前 87% 的开发者认为 5G 套餐费用过高,并且大部分开发者认为 5G 网络目前覆盖范围有限,因此将近 40% 的开发者正处于观望阶段。值得一提的是,本次调查中 62% 的开发者认为,5G 时代应该加强对个人隐私的保护,这反映出目前社会对数据隐私越来越重视的整体趋势。阿里物联和华为云是应用相对普遍的 IoT 云平台根据调查,2019 年物联网云平台呈现三足鼎立的趋势:阿里物联、华为云、百度 IoT 成为用户最多的三种物联网平台,并且和第四名中移物联远远拉开了差距,这和我们的实际使用体验一致。未来的基础物联网平台可能会继续呈现以偏硬件实现为主的华为云和以偏软件体验为主的阿里、百度物联平台的三足鼎立局面。物联网技术开发:Linux 和 Windows 是使用较多的操作系统Linux 和 Windows 是较普遍的操作系统,使用率分别为 51%、44%。目前在物联网设备开发过程中,Linux、Windows 和 Android 较为普遍,依然延续了 PC 平台的开发者操作系统份额。虽然华为、阿里等公司在 2019 年均发布了自己的物联网专用操作系统,但还并未得到开发者的大规模认可,大公司的物联网操作系统发展之路依然任重而道远。Wi-Fi 是应用最普遍的物联网通信技术在本次调研中,近距离通信(比如 Wi-Fi 和蓝牙)是现存物联网开发者最主要的通信方式。然而这种比重可能会随着未来 3~4 年内车联网的大规模商业化产生变化,汽车、工业物联、智能电网这类高移动性、高可靠和低延迟物联网场景会更适合需要整体规划的运营商网络。物联网行业和传统互联网行业不同,相比而言更加需要注重 “软硬结合”。物联网产品的硬件维护成本远远大于传统互联网行业,因此设计、实现出真正可靠、用户喜欢且实用的产品不仅仅涉及软件服务,也需要考虑硬件可靠性和实用性。这对于直接面向用户的物联网企业,特别是从传统互联网厂商或者硬件厂商转型的企业来说存在非常严峻的挑战,需要静下心来深入了解垂直市场的需求。六成开源开发者无收入,Apache 项目最受喜欢77% 开发者每周在开源上投入时间不超过 5 小时无论是大数据、区块链、人工智能还是物联网领域,其中最为重要的、最受欢迎的技术都是开源的。但是报告统计发现,有超过一半的开发者很少参与开源项目,每周在开源上投入不超过 5 小时的占 77%,其中,1 小时以内的占 31%。此外,65% 的开发者不曾在开源上获得收入,获得不错收入的仅占一成。开发者最喜欢的开源项目是 Apache25% 开发者最喜欢 Apache,24% 开发者最喜欢 Linux。作为全球最大的软件基金会,开发者用过的诸多项目,例如 Dubbo、Log4j、Maven、RocketMQ 和 Tomcat 等,均孵化自 Apache。国内开源的现状虽然近年来已经有了很大的发展,但是一个残酷的事实是,老兵正在离开这个行业,离开一线开发的队伍:报告数据显示,30 岁以下的开发者人数超过 82%,接触开源的时间在 5 年以内的开发者超过 83%。随着那些经验丰富的老兵转行或是进入管理层,不再写代码、也不再参与开源的事实也就凸显出来.....未来开源的建设,依然任重而道远。在数据中寻找共性,《2019 - 2020 中国开发者调查报告》全面且真实地展现中国开发者及技术现状,希望对您的学习或工作有所帮助。欢迎大家通过以下链接,在 PC 端免费下载完整版报告:https://download.csdn.net/download/xhwuli/12195346

梦千年

Python 分析在德的中国程序员,告别 996?

作者 | 李辉责编 | 胡巍巍今年5月27日, 一位据说在德国的中国程序员@将记忆深埋在微博公布:“半年时间,100多TB数据, 利用1024、91、sex8、PornHub、xvideos 等网站采集的数据对比Facebook、instagram、TikTok 、抖音、微博等社交媒体。我们在全球范围内成功识别了10多万从事不可描述行业的小姐姐。”热炒之下,这套Deep Learning系统瞬间炸了锅,顺便炸翻了在德国处于懵逼状态的一众平时安安静静老老实实的程序员:我们身边竟然藏着这样一个人?!这引起了我对在德中国籍程序员的行业分类以及专业方向等相关数据的好奇。长期以来德国一直面临着劳动力短缺,特别是工程技术方向,尤其是IT专业人才的极度缺乏,以至于德国政府将这些专业的人才获得欧盟蓝卡的最低年薪标准降到了税前41808欧元(2019)。换句话说,软件信息专业的同学毕业后在德国很容易找到工作,并且获得蓝卡工作居留许可。近年来身边来自印度,俄罗斯,中国的程序员也在逐年增加。那么中国程序员在德国到底从事那些行业呢?蓝卡和德国程序员数据先在网上找了一圈,没有找到特别针对中国籍程序员的数据分析,只找到关于蓝卡和在德国工作的程序员的数据分析。蓝卡数据2013-2018年,超过76000外籍人员持蓝卡在德国工作。2017年德国共有21727外国人申请蓝卡工作签证,其中中国国籍申请者占了近10%。这说明仅2017年,就有二千多中国籍雇员申请了蓝卡,这其中IT从业者占比未知。假设IT软件信息领域的中国雇员只占比其中10%,那么过去五年中就有约800名中国籍程序员拿到蓝卡。实际上根据生活和工作的接触,我保守估计在德中国籍程序员数量超过1500人。据2016年数据,欧盟蓝卡签证的所在申请国,84%位于德国,可以说几乎整个欧盟的外国工程师都来德国找工作了。在德国工作的程序员数据据来自Stack Overflow的德国IT数据分析,2016年全德国有超过120000软件开发人员,2017年暴增超过820000。不过82万这个数字不可信,毕竟德国总人口才八千多万,如果是将近1%的占比,德国不至于一直闹码农荒。可信的十几万程序员中,软件开发方向数据如下:Web开发占比65.51%,系统管理员位居第二,数据库管理员第三。仅仅这三个方向就吃掉了75%的占比,为什么德国程序员看起来很偏科,爆火的机器学习和数据分析才各占4%左右。这是因为德国IT行业大多为德国的支柱产业服务,如汽车、制药、机械、电子等,这些公司所需的企业内部管理软件如今多为SaaS构架,同时因为传统行业对云服务的怀疑和不信任态度,亦或安全原因,他们又维护着大量的企业私有服务器,和企业级数据库。所以不难理解前三甲总合占比之大。虽说国内的移动开发趋势这两年有点弱,但德国的iOS和Android移动开发就从来没有强过,因为缺乏B2C土壤,传统企业一般也不重视移动开发(未必需要),相关产业很多都外包于东欧或者印度,中国的团队。在德中国程序员数据分析网络上暂时没有发现任何关于这些可能存在的1500名中国程序员的数据,这就尴尬了,没数据怎么分析?—-本文只好结束—-等等,平时管理的几个德国的IT行业微信群不就是最好的数据源?群友加起来也有500多人了,样本虽不大,但毕竟还是遵循正态分布的。不过必须用Python 3开发一套脚本来收集和处理相关数据。在德中国程序员做什么专业方向&工作领域&开发语言和框架的数据采集如果使用匿名调查报告方式,扰民且又费时费力,此类信息只能从群昵称上打主意了,首先是发群公告规范群友昵称标准:昵称|行业或专业领域|擅长开发框架或语言举例:小呆|学生|想找数据分析工作中二|前端|nodejs, react大傻|机器学习|nlp老痴|自动驾驶|c++大部分群友按标准改了昵称,但是还有一部分死硬派坚决不改,又不能经常发群消息提醒,只能开发机器人自动提醒了。微信机器人Wxpy是一个包装得非常简洁的微信个人号 API, 在 itchat 的基础上,通过大量接口优化提升了模块的易用性,并进行丰富的功能扩展,一些常见的场景:运行脚本时自动把日志发送到你的微信群成员信息获取,邀请或者踢人跨号或跨群转发消息监听群聊或者单聊的信息通过脚本和第三方API交互,比如图灵聊天机器人、智能办公、智能家居开发需求获取群聊群成员信息找出所有群昵称不符合标准的群友随机抽取5人,在群里发布改昵称提醒消息同时将这次提醒的5人,存储进数据库每天早八点晚八点两次定时启动昵称检查脚本某人在将来被提醒次数超过10次,还不予配合不改昵称时,将自动踢出群新群友被邀请进入群时,立刻发送群规提示改昵称开发分解该任务所需第三方库如下:pip3 install wxpypip3 install apschelerpip3 install pymysqlpip3 install DBUtils1. 建库建表本文采用的是MySQL,后期可以扩展支持Postgre或者MongoDB。因为需要存储微信表情字符集,所以表的默认编码采用utf8mb4_unicode_ci。DROPTABLEIFEXISTS`wx_chat_group`;CREATETABLE`wx_chat_group` (`id`int(11) NOTNULL AUTO_INCREMENT,`name`VARCHAR(64) COLLATE utf8mb4_unicode_ci NOTNULLDEFAULT'',PRIMARY KEY`id` (`id`))ENGINE = InnoDBDEFAULTCHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;INSERTINTO`wx_chat_group` (`id`, `name`) VALUES (1, '德国IT职业信息分享群');-- 每次抽取的不合规格的昵称将存储如表以供计数DROPTABLEIFEXISTS`wx_chat_nickname_check`;CREATETABLE`wx_chat_nickname_check` (`id`BIGINT(20) NOTNULL AUTO_INCREMENT,`group_id`int(9) UNSIGNEDNOTNULL,`wx_puid`VARCHAR(16) COLLATE utf8_unicode_ci NOTNULLDEFAULT'',`nickname`VARCHAR(64) CHARACTERSET utf8mb4 COLLATE utf8mb4_unicode_ci NOTNULLDEFAULT'',`create_time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'Create time', PRIMARY KEY`id` (`id`),INDEX`idx_group_id` (`group_id`),INDEX`idx_create_time` (`create_time`))ENGINE = InnoDBDEFAULTCHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;2. 用户设置所有用户自定义变量存入conf文件里,如群名、临时存储路径、数据库接入信息,踢人阈值:[wechat]group_name_1=德国IT职业信息分享群group_id_1=1path_tmp=/opt/tmp/notice_random=5kick_max=10tuling_api_key=xxxxx[mysql]mysql_host=localhostmysql_port=3306mysql_user=rootmysql_pwd=xxxxmysql_database=wechat_group_ibot3. 监听群消息初始化群聊对象,并且监听群消息# 查找群聊,并且设置附加属性,以备后用def init_group(group_name, group_id):group = ensure_one(bot.groups().search(group_name)) group.ext_attr = lambda: None setattr(group.ext_attr, 'group_id', group_id) setattr(group.ext_attr, 'group_name', group_name)return group# 初始化微信机器人botbot = Bot(cache_path=True, console_qr=True)# unique chat person's idbot.enable_puid()# 读取自定义参数cf = configparser.ConfigParser()cf.read('wechat.conf')group_name_1 = cf.get('wechat', 'group_name_1')group_id_1 = cf.get('wechat', 'group_id_1')# 初始化群聊对象group_1 = init_group(group_name_1, group_id_1)# 监听类型为NOTE的群消息,如:"aa"邀请"bbb"加入了群聊@bot.register(group_1, NOTE)def welcome_for_group(msg):try: new_member_name = re.search(r'邀请"(.+?)"|"(.+?)"通过', msg.text).group(1)except AttributeError:return group_1.send(welcome_text.format(new_member_name, space_after_chat_at))# 保持bot持续运行bot.join()4. 昵称检查检查群友昵称,存入数据库并且发送提醒, 具体逻辑代码这里不予累述。def check_nickname(nickname):# 正则检验群昵称是否标准if re.match(r'([一-龥]|[ -~]|[sS])+|([一-龥]|[ -~])+|([一-龥]|[ -~])+', nickname):returnTrueelse:returnFalse......# 检查群友昵称def process_group_members(group):# 每次检查前先刷新群成员信息,避免用户改了昵称后再次被提醒# 但刷新会改变成员临时的内部puid,所以检查昵称必须同时结合puid和nicknamegroup.update_group(members_details=False) ......for member in group: nickname = member.name wx_puid = member.puidifnot check_nickname(nickname): invalid_member = GroupMember(nickname, wx_puid, 0) invalid_members.append(invalid_member) .....# 随机抽取不合格的5人 random_members = random.sample(invalid_members, k=5) ......# 将本次提醒群友存入数据库,供下次计数def insert_invalid_name(group_id, wx_puid, nickname): bot_db.execute("INSERT INTO wx_chat_nickname_check (`group_id`, `wx_puid`, `nickname`)"" VALUES (%s, %s, %s)", (group_id, wx_puid, nickname))# 获取昵称不合规群友被提醒计数def get_invalid_name_count(group_id, wx_puid, nickname): result = bot_db.get_count("SELECT id FROM wx_chat_nickname_check ""WHERE group_id = %s and (wx_puid = %s or nickname = %s)", (group_id, wx_puid, nickname))return result5. 数据库连接池这里的数据库连接使用了数据库连接池:DBUtils.PersistentDBDBUtils.PooledDB: 适用于多线程频繁开启关闭数据库连接DBUtils.PersistentDB:适用于单线程多次频繁连接数据库如果不采用线程池而是采取直连,那么运行一段时间后,脚本将出现该错误pymysql.err.OperationalError: 2006这里将DBUtils再次封装了一下,写了一个单例模式BotDatabase, 提供了query(select), execute(update, delete) 以及批处理execute等常用接口。6. 启动定时器# 早八点晚八点各执行检查一次def start_schele_for_checking_member(group):scheler = BlockingScheler() scheler.add_job(lambda: process_group_members(group), 'cron', hour=8, minute=1, timezone="Europe/Paris") scheler.add_job(lambda: process_group_members(group), 'cron', hour=20, minute=1, timezone="Europe/Paris")最终成果已知问题在消息中输入 @群员昵称 并不能真正让该群友收到@提示(显示推送提示),微信App里是在@群员昵称后自动加上了一个特殊的显示空白的字符u’′。但是经测试,加上这个符号也不行,推测是微信Web API基于防范垃圾推送,屏蔽了群提示接口。wxpy的bot在运行一段时间后会停止工作,出现连接服务器错误,必须重新登录,推测是微信Web API的Session安全机制导致的问题。数据清洗一段时间后大部分群友修改了昵称,于是有了在德中国程序员职业和专业方向的数据,经清洗后,导出CSV规格如下。数据分析该任务所需第三方库如下:pip3 install pandaspip3 install matplotlibpip3 install jiebapip3 install wordcloudpip3 install seabornpip3 install palettable开发需求在德程序员男女比例在德IT软件专业在职和学生比例分析在德程序员所处行业和专业方向程序猿和程序媛所处行业和专业方向对比分析在德程序员常用开发语言和框架程序猿和程序媛常用开发语言和框架对比在职和学生常用开发语言和框架对比开发分解1. 在德程序员男女比例,输出Pie Chartdefgen_pie_member_gender(self, csv_file):df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8') genders = df['gender'] col = [0, 0, 0]for g in genders:if g == 1: col[0] = col[0] + 1elif g == 2: col[1] = col[1] + 1else: col[2] = col[2] + 1 perccent_male = '{0:.2f}%'.format((col[0]/len(genders) * 100)) perccent_female = '{0:.2f}%'.format((col[1]/len(genders) * 100)) perccent_unknown = '{0:.2f}%'.format((col[2]/len(genders) * 100)) labels = [r'Male %s' % perccent_male,r'Female %s' % perccent_female,r'Unknown %s' % perccent_unknown] colors = ['lightskyblue', 'pink', 'gold'] plt.figure(figsize=(8, 6)) patches, texts = plt.pie(col, colors=colors, startangle=90) plt.legend(patches, labels, loc="best") plt.title('Gender of Member')# Set aspect ratio to be equal so that pie is drawn as a circle. plt.axis('equal') plt.tight_layout() path_image = os.path.join(self.path_analyse,'%s_member_gender_pie.png' % self.group_id) plt.savefig(path_image, format='png', dpi=100) plt.close()return path_image分析:在德中国程序猿和程序媛比率约为2:1,这个比例基本和中国籍蓝卡申请人男女比率持平。但是根据2018年中国程序员数据调查表,中国程序员群体中男女比例接近12:1。德国的各位猿,你们就偷乐吧。 2. 在德IT软件专业在职人员和学生比例,输出Pie Chart代码和上面雷同。分析:IT信息行业在职工作人员和在读学生比率为9比1,绝大部分人是在职工作的。 3. 在德程序员所处行业和专业方向,输出词云# 这里采用一个汉字停词库,近两千词@staticmethoddefload_stopwords(): filepath = os.path.join('./assets', r'stopwords_cn.txt') stopwords = [line.strip() for line in open(filepath, encoding='utf-8').readlines()]return stopwordsdefgen_wordcloud_info_nicknames(self, csv_file, column='branch', gender='all'): df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8') stopwords = set(STOPWORDS) stopwords.update(self.load_stopwords())# 可添加一些额外stopword,过滤词云结果 stopwords.add('学生')#自定义jieba分词词库,定义一些IT软件特殊术语 jieba.load_userdict("./assets/jieba_userdict.txt") col = df[column]# 将词云按限定图形布局 shape_file = './assets/member_info_shape.png' word_count = ""for c in col:if c isnot np.NaN: seg_list = jieba.cut(c, cut_all=False, HMM=True)for word in seg_list: word_count = word_count + word + " " mask = np.array(Image.open(shape_file)) font = r'./assets/heiti.ttf' word_cloud = WordCloud( margin=0, mask=mask, font_path=font, scale=1, stopwords=stopwords, random_state=42, background_color='white' ).generate(word_count) path_image = os.path.join(self.path_analyse,'%s_member_word_cloud_%s_%s.png' % (self.group_id, column, gender)) word_cloud.to_file(path_image)return path_image分析:大数据,数据分析,数据挖掘机器学习ML,人工智能AI,深度学习汽车,自动驾驶,CV(机器视觉)这三个大方向占比最大,说明中国码农在德国还是跟得上软件信息时代的变革的,并没有像一般德国码农那样一个技术吃一辈子。基于德系汽车制造业在电动车和自动驾驶领域的研发投入加重,越来越多的程序员也向这几个领域转型。一些传统企业如制造业,也开始用大数据来发现生产中潜在的工艺改进,或提前故障预警。云计算,和以上三个方向密切相关,从业人员却不多。这可能是因为德国本土鲜有自己的大规模云计算服务商,很多企业没有自己的私有云,而将云服务部署在AWS上,如AWS就和奔驰,大众等汽车厂商达成了云数据等方向的深度合作。互联网,电商这些领域在我另一篇文章中国程序员在德国里提过,在德国属于荒漠地带,从业人员数量少可以预见。咨询和SAP这两个领域,在德国企业里可以说是四平八稳,很多德国传统企业的IT项目多为外包,自己的IT团队只负责管理和规划,所以专业咨询人员必不可少。同时SAP系统在德国各行业的占有率非常高,而且SAP的定制功能强大,包罗万象,可以说,如果不考虑开发时间和成本,你想要什么流程,SAP都能给你二次开发出来。经济、金融、银行,由于英国脱欧,大批金融机构从伦敦搬到法兰克福,对程序员也是求贤若渴。图中还出现了区块链的身影。 4. 程序猿和程序媛所处行业和专业方向对比,导出云图处理步骤和上述雷同,所以将gen_wordcloud_info_nicknames进行扩展,按branch或者language过滤数据源。......if gender == 'male':df_male = df[df.gender == 1] col = df_male[column] shape_file = './assets/member_%s_%s_shape.png' % (column, gender)elif gender == 'female': df_male = df[df.gender == 2] col = df_male[column] shape_file = './assets/member_%s_%s_shape.png' % (column, gender)else: col = df[column] shape_file = './assets/member_info_shape.png'......生成图片:嗯?这是什么鬼,这两坨哪里能看出男女区别了?!作为有着钢铁直男审美的程序员决不能容忍这么丑陋的数据呈现,好在Python支持透明PNG图片叠加,先准备相应的Alpha透明度较高的图片。# 加载透明背景图片if gender == 'male':...... shape_alpha_file = './assets/member_%s_%s_shape_alpha.png' % (column, gender)elif gender == 'female': ...... shape_alpha_file = './assets/member_%s_%s_shape_alpha.png' % (column, gender)else: ...... shape_alpha_file = './assets/member_info_shape_alpha.png' ......# 预定义词云输出颜色集范围,突出男女有别if gender == 'male': word_cloud.recolor(color_func=self.color_func_blue, random_state=3)elif gender == 'female': word_cloud.recolor(color_func=self.color_func_red, random_state=3) word_cloud.to_file(path_image)# 将透明背景图叠加到云图上 background = Image.open(path_image) foreground = Image.open(shape_alpha_file) background.paste(foreground, (0, 0), foreground) background.save(path_image)这下数据呈现美观且直观多了。分析:在大数据,数据挖掘分析,机器学习上,猿媛平分秋色自动驾驶和机器视觉CV,猿占比稍微多一点媛更爱ERP、CRM、VWL、仓管、MES等企业级软件系统领域,还有BI和SAP领域软件测试少不了程序媛妹子比较意外的是从事嵌入式开发的女汉子不少猿从事的专业领域更广,不过这也可能是采样数据不够大的原因。5. 在德程序员常用开发语言和框架下面这三个分析代码一致,这里只贴出数据结果。5.1 在德程序员常用开发语言和框架分析:得益于大数据和AI的火热,Python当仁不让位居第一。Java、C和C++并驾齐驱。Java是德国传统企业里企业级应用系统开发语言首选,出于系统稳定和兼容性考虑C++和C在自动驾驶,医疗,机械,嵌入式系统领域是不可替代的当然不能忘了.Net在工业界PLC系统里基本是霸主地位Angualr、React、Vue、jQuery、TypeScript在企业级应用前端开发里使用广泛移动开发iOS和Android基本绝迹,原因之前也提了。以上占比分布基本是符合德国六个行业开发语言占比率的,依次为软件开发,信息技术,电商,汽车,咨询,金融。稍微反常的是德国的中国程序员在工作使用PHP的不多,可是会PHP在德国也是很容易找工作的嘛。5.2 程序猿和程序媛常用开发语言和框架对比分析:猿偏向后端开发,媛偏向前端开发在Java、C++、C上,猿媛旗鼓相当在数据库管理和SQL使用上,媛稍微多一点总体来说,在德程序媛的能力并不比程序猿弱,技术栈相当广,德国不愧是培养理工女汉子的国度。5.3 在职人员和学生常用开发语言和框架对比分析:加上这个对比,是因为之前担心一些热门语言是因为在读学生用得多,才占比高。不过从这个图看来,程序员们在工作中是确确实实使用到了这些技术栈,并不只停留在大学和科研领域。在德中国程序员说什么:聊天数据分析以上知道了在德中国程序员们做什么,那么来看看他们平时聊什么?数据采集开发需求监听并记录群聊入库开发分解1. 首先建表DROPTABLEIFEXISTS`wx_chat_history`;CREATETABLE`wx_chat_history` (`id`BIGINT(20) NOTNULL AUTO_INCREMENT,`group_id`int(9) UNSIGNEDNOTNULL,`msg_type`VARCHAR(16) COLLATE utf8_unicode_ci NOTNULLDEFAULT'Text',`wx_puid`VARCHAR(16) COLLATE utf8_unicode_ci NOTNULLDEFAULT'',`gp_user_name`VARCHAR(70) COLLATE utf8_unicode_ci NOTNULLDEFAULT'',`sender_name`VARCHAR(64) CHARACTERSET utf8mb4 COLLATE utf8mb4_unicode_ci NOTNULLDEFAULT'',`receiver_name`VARCHAR(64) CHARACTERSET utf8mb4 COLLATE utf8mb4_unicode_ci NOTNULLDEFAULT'',`msg`VARCHAR(2048) CHARACTERSET utf8mb4 COLLATE utf8mb4_unicode_ci NOTNULLDEFAULT'',`create_time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'Create time',PRIMARY KEY`id` (`id`),INDEX`idx_group_id` (`group_id`),INDEX`idx_create_time` (`create_time`))ENGINE = InnoDBDEFAULTCHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;2. 数据持久化通过监听群消息,将获取的消息录入数据库。# 将puid,nickname,消息等相应数据存入数据库def insert_chat_history(group_id, msg_type, wx_puid, gp_user_name, sender_name, receiver_name, msg):bot_db.execute("INSERT INTO wx_chat_history (`group_id`, `msg_type`, `wx_puid`, ""`gp_user_name`, `sender_name`, `receiver_name`, `msg`)"" VALUES (%s, %s, %s, %s, %s, %s, %s)", (group_id, msg_type, wx_puid, gp_user_name, sender_name, receiver_name, msg))def save_message(msg, group_id):# create_time = msg.create_time.strftime('%Y-%m-%d %H:%M:%S') member_name = msg.member.name wx_puid = msg.member.puid gp_user_name = msg.member.user_name message = ''# 常规消息if msg.type == TEXT: message = msg.text# 分享链接elif msg.type == SHARING: art_list = msg.articlesfor item in art_list: print(item.url + ' ' + item.title + ' ' + item.summary) message = item.url + '||' + item.title + '||' + item.summary insert_chat_history(group_id, msg.type, wx_puid, gp_user_name, member_name, '', message)# 监听群聊,包含自己发送的消息@bot.register(group_1, except_self=False)def reg_msg_for_group(msg): save_message(msg, group_id_1)# keep login by block threadbot.join()数据清洗定义函数,可以从数据库里提取指定时间段(如一个月)的数据,并生成csv以供下一步使用。defsave_chat_in_current_month(self, group_id):results = self.load_chat_history(group_id, self.fl_days[0], self.fl_days[1]) path_csv_file = os.path.join(self.path_analyse,'%s_chat_%s_%s.csv' % (self.group_id, self.fl_days[0], self.fl_days[1])) with open(path_csv_file, mode='w', encoding='utf-8') as csv_file: fieldnames = ['id', 'create_time', 'msg_type', 'wx_puid', 'sender_name', 'msg'] csv_writer = csv.writer(csv_file, delimiter=' ', quotechar='"', quoting=csv.QUOTE_MINIMAL) csv_writer.writerow(fieldnames)for row inresults: row_id = row[0] msg_type = row[1] wx_puid = row[2] sender_name = row[3] msg = row[4] create_time = row[5] msg = self.format_message(msg) csv_writer.writerow([row_id, create_time, msg_type, wx_puid, sender_name, msg]) csv_file.close()return path_csv_file最终生成的CSV格式文件:数据分析开发需求生成话题词云分析消息种类占比分析日均聊天曲线分析群员聊天活跃时间热点图开发分解1. 话题词云相关代码和上面相近,生成的云图:分析:德国中国两者工作生活的对比是永恒的话题,到底回国还是留德,经常是热点。因为是职业群,所以大部分话题还是集中在职场:公司、工作、老板、工资、技术IT领域不得不提领头羊美国,包括硅谷的工资。讨论贸易战少不了华为创业目前在留德华中也是个热门话题2. 消息种类占比,生成Bar Chartdefgen_bar_plot_msg_type(self, csv_file):df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8') df['msg_type'].value_counts().plot(kind='bar') plt.subplots_adjust(bottom=0.2) plt.title('Message Type [%s - %s]' % (self.fl_days[0], self.fl_days[1])) path_image = os.path.join(self.path_analyse,'%s_chat_msg_type_bar_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1])) plt.savefig(path_image) plt.close()return path_image分析:聊天以文字信息为主,没有出现其他灌水群的斗图行为。 3. 日均聊天频率,生成Bar Chartdefgen_bar_plot_chat_freq_day(self, csv_file):df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8') msg_count = len(df) time_list = self.cal_time_list_chat_freq_day(df) plt.figure(figsize=(18, 9)) plt.bar(time_list.keys(), time_list.values(), width=.8, facecolor='lightskyblue', edgecolor='white') plt.xticks(range(len(time_list)), time_list.keys())for x_axies intime_list: y_axies = time_list[x_axies] label = '{}%'.format(round(y_axies*1.0/msg_count*100, 2)) plt.text(x_axies, y_axies+0.05, label, ha='center', va='bottom') plt.title('Chat frequency in 24 hours [%s - %s]' % (self.fl_days[0], self.fl_days[1])) path_image = os.path.join(self.path_analyse,'%s_chat_freq_day_bar_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1])) plt.savefig(path_image) plt.close()return path_image分析:每日从六点开始活跃,估计是一部分人上班通勤坐车时有时间聊聊早七八点到公司开始工作,安静早九、十点开始活跃,到午休11点左右到达高峰午休后工作时间下午三点开始活跃,这时是德企里的下午茶时间晚9点饭后再次活跃一下4. 群员聊天活跃时间周热点图, 输出Heat Mapdefgen_heatmap_member_activity(self, csv_file):df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8') create_times = df['create_time'] week_online = [[0for j in range(24)] for i in range(7)]for li increate_times: week_online[int(mk_datetime(li, "%Y-%m-%d %H:%M:%S").weekday())][int(li[11:13])] += 1 week_online = np.array([li for li in week_online]) columns = [str(i) + '-' + str(i + 1) for i in range(0, 24)] index = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.', 'Sat.', 'Sun.'] week_online = pd.DataFrame(week_online, index=index, columns=columns) plt.figure(figsize=(18.5, 9)) plt.rcParams['font.sans-serif'] = ['SimHei'] sns.set()# Draw a heatmap with the numeric values in each cell sns.heatmap(week_online, annot=True, fmt="d", cmap="YlGnBu") path_image = os.path.join(self.path_analyse,'%s_activity_heatmap_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1])) plt.savefig(path_image, format='png', dpi=300) plt.close()return path_image分析:周一大家都很忙,或者装着很忙的样子周二下午开始活跃了周三上午也活跃起来周四,快到周末了,放松,全天活跃周五,上午欢乐时光,下午和德国同事一样,走的走跑的跑周末死一般沉寂从这个分析图可以看出,中国程序员上班是非常用心和责任感的,同时也非常遵守德企工作时间相关制度,坚决不加班,坚决朝九晚五。996是什么?能吃吗?认真地说,为工作和任务有限加班是可以的,但我非常反对无效的为加班而加班,把996作为KPI考勤标准的做法。德国大中型企业一般做法是员工自行调配加班时间,某段时间任务紧,加班时间多了的话可以将超时存起来,之后再换成休假;实在没空休假的可以换成工资,不过一般HR和工会不推荐这么做,超时太多将强制休假—-员工健康比工作重要。在德企小公司或咨询公司里,就不一定了,因为可能业绩和分红挂钩,或者小公司项目紧张,主动或被动加班是很常见的。绝大多数IT企业并不固定员工的上下班时间,而是采用核心时间制度,比如10-15这五个小时员工必须在岗,但员工可以自行决定上班和下班时间,早来早走,晚来晚走,自由度高。制作PDF总报表以上数据分析步骤生成了若干独立的图片报表,不便传阅,可以将其集中整理并且排版格式化到一个PDF总报表里,方便阅读。所需第三方库如下,可以将含图片的html页面完整输出成PDF文件。pip3 install pdfkitInstall wkhtmltopdfDebian/Ubuntu:> sudo apt-getinstall wkhtmltopdfRedhat/CentOS> sudo yum install wkhtmltopdfMacOS> brew install Caskroom/cask/wkhtmltopdf开发分解1. 准备HTML模板<!DOCTYPE html><htmllang="en"><head><metacharset="UTF-8"><style>h1 {text-align: center;}h2 {text-align: center;margin-top: 20px; }img {display: block;margin: 0 auto; } </style></head><body><h1>{{group_name}} 聊天数据分析</h1><h2>{{date_begin}} - {{date_end}}</h2><h2>24小时内聊天频率</h2><imgsrc="{{img_chat_freq_day}}"style="width:100%;"/><h2>消息类型</h2><imgsrc="{{img_chat_msg_type}}"style="width:80%;"/><h2>日均聊天数量</h2><imgsrc="{{img_chat_count_day}}"style="width:100%;"/><h2>群友活跃时间热点图</h2><imgsrc="{{img_chat_heating_act}}"style="width:100%;"/><divclass="divider_b"></div>......2. 生成PDF读取HTML模板,替换Pattern,生成PDFwith open('./assets/chat_analysis_%s.html' % lang, 'r') asfile:file_data = file.read() # 替换Pattern file_data = file_data.replace('{{date_begin}}', self.fl_days[0]) file_data = file_data.replace('{{date_end}}', self.fl_days[1]) file_data = file_data.replace('{{img_chat_history}}', Path(img_chat_history).name) file_data = file_data.replace('{{img_chat_freq_day}}', Path(img_chat_freq_day).name) ...... # 输出临时HTML文件with open(path_html, 'w') asfile:file.write(file_data) # 输出pdf pdfkit.from_file(path_html, path_pdf)3. 定时任务添加定时任务,每月第一天早八点自动启动数据分析任务,分析上个月数据,然后自动将PDF报表发到群里。# 08:10am at the first day of the monthscheler.add_job(lambda: process_schele(bot_db, bot, group_1), 'cron', month='1-12', day=1, hour=8, minute=1, timezone="Europe/Paris")# 发送文件到指定群里 group.send_file(file_path)最终PDF报表预览:总结通过数据分析可以非常直观地了解工作和生活在德国的中国程序员们,平时做什么工作,说什么话题。不过因为采样数量较小,某些分析无法采用更明确的类别数量占比图,分析结果难免有偏差,还请见谅。本文使用Python和相关库快速完成了数据采集,清洗和分析的工作,你可以基于该项目,扩展自己的数据分析模块,比如图灵聊天机器人,连接各类第三方服务。项目源代码已上传至 GitHub,欢迎指教和加星。 PS:@将记忆深埋 究竟在不在这几个IT群里,始终是个谜。 参考资料:Figures on the EU Blue Card76.000 Auslnder mit “Blauer Karte” in DeutschlandDer Stack Overflow Entwicklerreport 20172018年中国程序员数据调查表源码地址:https://github.com/mobabel/wechat-group-ibot注:文中聊天数据只短时间采集并供本文脱敏分析,后期清除不再继续监听。作者简介:李辉,德国硕士毕业后,在软件咨询业工作多年,涉猎全栈及移动开发构架。现从业物联网,在德国某一级汽车零配件供应商任高级软件工程师。德中工业4.0学会理事会理事。【END】CSDN 5G免费沙龙来啦!6月29日,微软(中国)首席技术官韦青、北京邮电大学信息与通信工程学院多媒体技术教研中心主任/博士生导师孙松林、爱立信中国研发部多天线高级专家朱怀松、爱立信中国研发部主任系统工程师刘阳等行业内顶尖的领军者、资深的技术专家们共聚一堂,共同探讨5G在物联网中的巨大潜能。

火童

推荐 :数据科学与大数据技术专业特色课程研究

在我国,数据科学与大数据技术专业的建设已成为新的热点话题。 在系统调研 世界一流大学数据科学专业建设现 状的基础上,从特色课程视角重点分析 加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学等 8所大学的数据科学专业,提出 数据科学与大数据技术这一新专业 应重视的10门特色课程,并分析了现阶段我 国 数据科学教育中 普遍存在的8种曲解现象及对策建议 。2016 年,教育部发布的《 2015 年度普通高等学校本科专业备案和审批结果》中就首次增设“数据科学与大数据技术专业”,并获批了北京大学、对外经济贸易大学及中南大学的新增专业申请。接着, 2017 年,中国人民大学等 32 所高校出现在第二批次的获批名单中。另, 全国高校大数据教育联盟的统计数据显示, 2017 年申请该专业的院校高达 263 所,其中工学 190 所,理学 73 所 [1] 。从申请资料看,国内数据科学专业是一门主要以统计学和计算机科学与技术专业为基础建设的全新专业。数据科学专业已成为我国现阶段高等教育的热点问题之一。但是,建设什么样的专业以及如何建设该专业仍为各高校面临的难点问题。在国外,数据科学( Data Science )专业是以数据分析学( Data Analytics )专业为基础发展而来的,可追溯至 2007 年北卡罗来纳州立大学( North Carolina State University )率先设立的数据分析硕士学位( Master of Science in Analytics ) [2] 。与统计学和计算机科学与技术等基础学科不同的是,数据分析学进一步抽象了这些底层科学中的数据问题,连接了包括统计学和计算机科学在内的基础学科与数据科学之间的空白,为数据科学这一新学科的出现奠定了直接基础。从“数据分析学”向“数据科学”的实质性过渡出现在 2013 年左右,比较有代表性的是纽约大学于 2013 年新开设的数据科学硕士专业( The Master of Science in Data Science ) [3] 。 之后,包括加州大学伯克利分校、约翰 · 霍普金斯大学、华盛顿大学在内的多个学校设立了数据科学专业。可见,国外一流大学的数据科学专业建设至少早于国内 三 年。为此,本文在调查分析世界一流大学数据科学专业的培养方案,重点分析数据科学专业中开设的特色课程,并对探讨我国数据科学专业建设的借鉴意义。1 数据调研及分析作者通过 Study Portal 进行调查发现,截止 2017 年 11 月,国外数据科学专业的本科、硕士、博士学位项目分别已达到 5601 、 4179 和 301 项,主要分布在美国、英国、澳大利亚、加拿大、德国和意大利等国家。但是,从课程体系和人才培养定位看,能够体现国外数据科学专业教育的本质与特色的是硕士层次的教育,比较有典型的学校有加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学,如表 1 所示。表 1 典型数据科学专业及其特色课程( Typical Data Science Programs and their Core Courses )学校学位名称特色课程加州大学伯克利分校 [4]信息与数据科学硕士( Master of Information and Data Science )Python 与数据科学 /Python for Data Science研究设计及数据与分析中的应用 /Research Design and Application for Data and Analysis数据存储与检索 / Storing and Retrieving Data应用机器学习 / Applied Machine Learning试验与因果分析 /Experiments and Causality大数据 —— 人与价值 / Behind the Data: Humans and Values( 纵向扩展及真正的 ) 大数据 / Scaling Up! Really Big Data数据可视化与沟通 / Data Visualization and Communication(数据科学)综合训练课程 / Synthetic Capstone Course约翰 · 霍普金斯大学 [5]数据科学理学硕士( Master of Science in Data Science )数据科学 /Data Science数据可视化 /Data Visualization随机优化与控制 /Stochastic Optimization and Control数据科学家的工具箱 / Data Scientist's Toolbox数据采集与清洗 /Getting and Cleaning Data探索性数据分析 /Exploratory Data Analysis可重复研究 /Reprocible Research实用机器学习 /Practical Machine Learning数据产品开发 /Developing Data Procts数据科学综合训练课程 /Data Science Capstone华盛顿大学 [6]数据科学理学硕士Master of Science in Data Science数据可视化与探索性分析 / Data Visualization & Exploratory Analytics应用统计与试验设计 /Applied Statistics & Experimental Design数据管理与数据科学 /Data Management for Data Science数据科学家常用的统计机器学习 /Statistical Machine Learning for Data Scientists面向数据科学的软件设计 /Software Design for Data Science可扩展的数据系统与算法 /Scalable Data Systems & Algorithms以人为中心的数据科学 /Human-Centered Data Science数据科学综合训练课程 /Data Science Capstone Project纽约大学 [7]数据科学理学硕士 MS in Data Science数据科学导论 / Intro to Data Science大数据 /Big Data面向数据科学的统计学与概率论 /Probability and Statistics for Data Science推理与表示 / Inference and Representation机器学习与计算统计学 / Machine Learning and Computational Statistics数据科学综合训练课程 / Capstone Project in Data Science基于优化的数据分析 /Optimization-based Data Analysis非光滑凸优化 /Convex and Nonsmooth Optimization斯坦福大学 [8]统计学 : 数据科学 理学硕士学位M.S.in Statistics:Data Science现代应用统计学 : 学习 /Modern Applied Statistics: Learning现代应用统计学 : 数据挖掘 /Modern Applied Statistics: Data Mining数据驱动型医学 / Data Driven Medicine现代统计学与现代生物学 /Modern Statistics for Modern Biology大数据商务智能 / Business Intelligence from Big Data基于数据的计算范式 /Paradigms for Computing with Data卡内基梅隆大学 [9]计算数据科学硕士学位Master of Computational Data Science云计算 /Cloud Computing高级云计算 /Advanced Cloud Computing多媒体数据库及数据挖掘 /Multimedia Databases and Data Mining移动与普适计算 /Mobile and Pervasive Computing大数据集的机器学习 /Machine Learning with Big Data Sets智能信息系统的设计与开发 /Design and Engineering of Intelligent Info Systems大数据分析学 /Big Data Analytics哥伦比亚大学(纽约) [10]数据科学理学硕士Master of Science in Data Science数据科学导论 /Introction to Data Science面向数据科学的计算机系统 /Computer Systems for Data Science探索性数据分析与可视化 /Exploratory Data Analysis & Visualization数据科学中的因果推理 / Causal Inference for Data Science大数据分析学 /Big Data Analytics数据科学综合训练及伦理 /Data Science Capstone & Ethics伦敦城市大学 [11]数据科学理学硕士MSc in Data Science数据科学原理 /Principles of data science大数据 /Big Data可视分析学 /Visual analytics数据可视化 /Data visualization神经计算 /Neural computing研究方法与专业问题 /Research Methods and Professional Issues高级并发编程 /Advanced Programming: Concurrency1.1加州大学伯克利分校该学校的数据科学专业由信息学院( School of Information )开设,专业名称为信息与数据科学,授予的学位为信息和数据科学专业硕士( Professional Master of Information and Data Science, MIDS ) [12] 。该专业主要侧重于培养学生的研究设计、数据清洗、存储与检索、挖掘与探索、数据可视化、道德与隐私、数据分析、沟通与呈现的能力,如图 1 所示。图 1 加州大学伯克利分校 MIDS 专业所关注的学生能力( Key Skill Areas of MIDS at UC Berkeley ) [12]为了达到上述人才培养目的,该专业开设基础课程、高级课程和综合训练课程等 3 类课程。其中 ,基础课程共有5门,即面向数据科学的Python语言(Python for Data Science)、面向数据与分析的研究设计(Research Design and Application for Data and Analysis)、面向数据科学的统计学(Statistics for Data Science)、数据存储与检索(Storing and Retrieving Data)以及应用机器学习(Applied Machine Learning);高级课程有7门,包括试验与因果分析(Experiments and Causality)、数据、人与价值(Behind the Data: Humans and Values)、(纵向扩展及真正的)大数据(Scaling Up! Really Big Data)、面向离散响应,时间序列和面板数据的统计方法(Statistical Methods for Discrete Response, Time Series, and Panel Data)、可扩展的机器学习(Machine Learning at Scale)、基于深度学习的自然语言处理(Natural Language Processing with Deep Learning)以及数据可视化与沟通(Data Visualization and Communication)。除了基础课程和高级课程,该学校还开设一门综合训练课程(Synthetic Capstone),培 养学生综合运用所学专业知识及解决现实问题的能力。从总体上看,人才培养定位在培养数据科学领域的领导者,侧重培养学生的运用新工具和新方法,从现实数据中获得洞见( Insights )以及如何有效地沟通与阐释自己的研究发现,进而改变他人行动和思想的能力。 该学校的数据科学专业的人才培养具有如下几个特点 :强调数据科学的多学科交叉特点 ,将社会科学,计算机科学,统计学,管理学和法学等多学科知识融入具体课程之中;凸显数据科学本身的讲解 ,注重提升学生的基于数据提出好问题的能力以及面向数据科学的研究设计、数据清理、存储与检索、交流与沟通、统计分析、道德与隐私、数据可视化以及数据挖掘与探索等关键技能;引入基于项目的学习方法 ,借鉴本校信息学院其他专业的培养经验,通过基于项目的教学方式,鼓励学生综合运用多种不同的工具和方法来解决复杂问题;强调动手实践能力的培养,为学生提供亚马逊 Web 服务和 IBM 大数据平台等实践平台。1.2 约翰 · 霍普金斯大学 该学校的怀廷工程学院( Whiting School of Engineering )开设名为数据科学( Data Science )的新专业,授予的学位为数据科学理学硕士( Master of Science in Data Science )。该专业的课程体系包含先修课程( Prerequisite Courses )、基础课程( Foundation Course )、必修课程( Required Courses )、选修课程( Electives )以及独立学习( Independent study )课程等近 60 门课程 [13] 。 基础课程有 2 门,即算法基础( Foundations of Algorithms )和统计方法与数据分析( Statistical Methods and Data Analysis );必修课程包括数据库系统原理、数据科学、数据可视化、优化导论( Introction to Optimization )、统计模型与回归、计算统计学;选修课分为机器学习和统计学两个大方向,共有 14 门主要课程,均为较为常见课程。 值得一提的是,该专业另提供了近 30 门扩展选修课程( Additional Selections ),供学生用于置换同一个领域的必须 / 选修课程,这些扩展课程均为统计学和计算机科学与技术专业常见课程。 独立学习( Independent study )课程主要包括独立动手实战( Capstone 项目)和独立学习( Independent Study )。从总体上看, 该学校的数据科学专业的人才培养具有如下几个特点 :从人才培养的目的看,专业旨在培养“有竞争力”的数据科学家,要求学生具备三方面的能力:综合运用计算机科学和应用数学的知识,分析与处理大规模数据集的能力;从复杂数据中快速洞察到有价值信息的能力和从信息中发现相关关系的能力;基于规范的技术和抽象的方法以及面向现实世界中的具体问题的建模能力[14]。强调学生对数据科学的理论基础的掌握程度,突出了三个主要领域:计算机科学与技术、统计学与应用数学。其中,对应用数学的重视是该学校数据科学专业的一大特色。从课程设计及内容选择看,该专业鼓励在每一门课程中引入来自现实世界的具体问题作为例题和主要关注点。例如,独立学习(Independent Study)课程中强调对具体行业中实际问题的处理能力。强调培养学生的数据全生命期管理、统计 分析和故事化描述能力。1.3华盛顿大学整合自己的应用数学系、生物统计学系、 Paul G. Allen 计算机科学与工程学院、以人为本的设计与工程系、统计系、信息学院 6 大院系以及电子科学研究所的资源,开设出了一种面向在职人员的夜大类数据科学专业项目,所授予的学位为数据科学理学硕士( Master of Science in Data Science )。该专业的课程设计较为简洁,包括 8 门核心课程以及 1 个 Capstone 项目。其中, 8 个核心课程分别是统计与概率论( Introction to Statistics & Probability )、信息可视化( Information Visualization )、应用统计与试验设计( Applied Statistics & Experimental Design )、面向数据科学的数据管理( Data Management for Data Science )、数据科学家常用的统计机器学习( Statistical Machine Learning for Data Scientists )、面向数据科学的软件设计( Software Design for Data Science )、可扩展的数据系统与算法( Scalable Data Systems & Algorithms )和以人为中心的数据科学( Human-Centered Data Science )。 Capstone 项目要求学生自己组队,并自主完成项目的选题、研究设计和研究过程等工作,侧重培养学生对大规模数据集的处理能力、从数据中获得洞察能力( Insights )以及与其他人分享自己所发现的洞见的能力 [15] 。从整体看,该学校的数据科学专业主要定位在应用型人才的培养,尤其是数据分析师和应用型数据科学家。人才培养的主要特点如下 :面向在职人员。该专业主要针对刚毕业的学生或在职人员开设,上课时间一般为业余时间,允许学生脱产或在职学习。重视团队协作能力。多数课程的作业均需要团队方式完成,而并非为个人独立完成。强调动手操作能力,加强学生运用Python和R进行数据分析的能力,部分作业还需要进行Java编程。突出以人为中心的数据科学与可视化(human-centered data science and visualization)能力,开设有专门《以人为中心的数据科学( Human-Centered Data Science)》。1.4纽约大学该学校的数据科学专业由数据科学中心(Center for Data Science)开设,授予的学位为数据科学理学硕士(Master of Science in Data Science) [16] 。 主要必选课程有数据科学导论、面向数据科学的统计学与概率论( Probability and Statistics for Data Science )、机器学习、大数据以及 Capstone 项目 。此外,该专业还要求学生从以下 6 门课程中选择 1 门: 推理与表示、深度学习、基于表示学习的自然语言处理、自然语言理解与计算语义、基于优化的数据分析( Optimization-based Data Analysis )、优化与计算线性代数 。值得一提的是, 该学校的数据科学专业设有多个培养方向( Track ) :大数据方向(Data Science: Big Data Track)设有自然语言理解与计算语义、信息可视化、大规模可视化分析、数据库导论、高级数据库系统等课程;数学与数据方向(Data Science: Mathematics and Data Track)设有基于优化的数据分析、推理与表示、数据科学中数学:图与网络(Mathematics of Data Science: Graphs and Networks)以及非光滑凸优化(Convex and Nonsmooth Optimization)等课程。自然语言处理方向(Data Science: Natural Language Processing Track)开设基于表示学习的自然语言理解、自然语言理解与计算语义、统计自然语言理解、推理与表示、深度学习、文本数据(Text as Data)、自然语言处理以及高级语言学等课程。物理学方向(Data Science: Physics Track)中开设的主要课程有推理与表示、实验物理研究(Experimental Physics Research)、理论物理研究(Theoretical Physics Research)、研究式阅读( Research Reading)、计算物理(Computational Physics)、统计物理、生物物理(Biophysics)、专题研讨课、天体物理学专题(Special Topics in Astrophysics)以及相变与临界现象(Phase Transitions and Critical Phenomena)。生物学方向(Data Science: Biology Track)重点讲解基础生物学、健康与疾病等基础知识,并要求选修生物学的课程 。纽约大学的数据科学专业的人才培养定位在 “ 下一代数据科学家 ” ,为具备数学、计算机科学和应用统计基础的学生提供了多个可选的培养方案,其主要特点如下 :设有多个培养方向,如大数据、数学与数据、自然语言处理、物理学和生物学等,其人才培养特别强调数据科学与其他专业的深度融合。重视对优化论的学习,在课程体系中设置了多个与优化论相关的课程,如《基于优化的数据分析( Optimization-based Data Analysis )》和《优化与计算线性代数( Optimization and Computational Linear Algebra )》、《非光滑凸优化( Convex and Nonsmooth Optimization )》。强调实践操作能力,重视来自现实世界的具体问题的处理能力。1.5斯坦福大学该学校的数据科学专业由统计系( Department of Statistics )和计算与数学学院 (Institute for Computational and Mathematical Engineering) 联合开设,授予的学位为数据科学方向的统计学理学硕士( M.S. in Statistics: Data Science )。共开设有 29 门课程 [17] , 分为以下 5 个模块 :基础课程模块:数值线性代数( Numerical Linear Algebra )、离散数学与算法、优化论、工程中的随机方法( Stochastic Methods in Engineering )以及随机算法与概率分析( Randomized Algorithms and Probabilistic Analysis );数据科学模块:统计推理导论、回归模型及方差分析导论、统计模型导论、现代应用统计学:学习以及现代应用统计学:数据挖掘;高级科学编程及高性能计算( Advanced Scientific Programming and High Performance Computing )模块,涉及的课程有高级科学编程( Advanced Scientific Programming )、并行计算导论、分布式算法与优化论、数值分析的并行方法、并行计算、并行计算机的架构及编程以及高级多核系统;专业选修( Specialized Electives )模块,设有以下课程:计算分子生物学中的表示与算法( Representations and Algorithms for Computational Molecular Biology )、数据驱动型医学( Data Driven Medicine )、面向现代生物学的统计学、社会与信息网络分析、机器学习、面向视觉认知的卷积神经网络( Convolutional Neural Networks for Visual Recognition )、海量数据集的挖掘、计算机图形学、地理统计学( Geostatistics )、基于大数据的商务智能( Business Intelligence from Big Data )、人类神经影像学方法( Human Neuroimaging Methods )和数据计算范式( Paradigms for Computing with Data );实战( Practical Component )模块,包括 Capstone 项目和独立学习项目。斯坦福大学此专业的人才培养目标侧重的是统计学家,而并非是数据科学家。其最突出的特点是将数据科学作为统计学的一个方向,将培养出面向数据科学的统计学家。因此,该专业与其他学校的数据科学专业不同,强调的是数据科学与统计学的深度融合。1.6哥伦比亚大学(纽约)该学校的数据科学专业由数据科学学院( Data Science Institute )开设,授予的学位为数据科学理学硕士( Master of Science in Data Science ) 。 课程体系可分为导论类课程、计算机科学、统计学、选修课程和 Capstone 课程等 5 大类。 导论类 课程的定位在计算机学和统计学的交叉课程,课程名称为《数据科学原理》;计算机科学类 课程包括面向数据科学的计算机系统( Computer Systems for Data Science )、数据科学中的机器学习、数据科学中的算法;统计学类课程 包括概率论、面向数据科学的概率统计( Probability & Statistics for Data Science )、探索性数据分析及可视化、统计推理与建模;选修课程为跨专业课程,鼓励学生跨专业选修哥伦比亚大学其他专业的课程, 比较受欢迎的选修课程包括翻译生物信息学( Translational Bioinformatics )、应用机器学习、数据科学中的因果推理、数据科学的要素、面向数据科学的机器学习产品、社会意义的计算模型( Computational Models of Social Meaning )、数据科学项目、大数据分析学、面向计算机可视化、语音和语言的深度学习( Deep Learning for Computer Vision, Speech, and Language )、金融大数据( Big Data in Finance )和可持续技术与智慧城市的演化( Sustainability Technology and the Evolution of Smart Cities ) ;Capstone 项目 的名称为数据科学 Capstone 与道德( Data Science Capstone & Ethics ),综合运用所学知识解决产业、政府和非盈利部门的实际数据和具体问题 [18] 。该专业的人才培养定位在数据科学家。主要特点有两个 :一是专业教育与专业认证的相结合。该学校不仅开设有数据科学硕士专业,而且还提供一项专业认证 —— 数据科学专业成就认证( The Certification of Professional Achievement in Data Sciences ),打通了二者的课程设置;二是专业教育与在线免费课程的相结合。作为线下专业课程的重要补充,该学校提供了在线开放课程 —— 数据科学与分析 X 系列课程( Data Science and Analytics XSeries ),介绍数据科学的最新工具及其在金融、健康医疗、产品开发、市场营销等领域中的应用。目前,已开设的在线课程有:数据科学与分析学中的统计思维( Statistical Thinking for Data Science and Analytics )、数据科学与分析学中的机器学习( Machine Learning for Data Science and Analytics )、数据科学与分析学中的驱动技术 : 物联网( Enabling Technologies for Data Science and Analytics: The Internet of Things )。1.7伦敦城市大学该学校的数据科学专业由数学、计算机与工程学院( School of Mathematics, Computer Science & Engineering )和计算机系( Department of Computer Science )联合开设,授予的学位为数据科学理学硕士( Master of Science in Data Science ),其课程体系由核心模块、选修模块和综合训练课程 3 部分组成。每个模块包括动手实验室教程和课程作业。其中, 核心模块包括数据科学原理( Principles of Data Science )、机器学习、大数据、神经计算( Neural Computing )、可视分析学、研究方法与专业问题( Research Methods and Professional Issues );选修课程有高级并发编程( Advanced Programming: Concurrency )、高级数据库、信息检索、数据可视化、数字信号处理及音频编程( Digital Signal Processing and Audio Programming )、云计算、计算机视觉、软件代理( Software Agents )等 。 综合训练课程与其他学校不同,并非以小组形式完成,而是以学生在指导教师或合作企业的指导下独立完成 。选题要求必须为来自实际部门的真实数据及现实问题 [19] 。该专业的人才培养定位在数据科学家,特别强调学生的 “ 洞察 ” 能力的培养,即从大规模数据中快速洞见有价值的、可以指导实际行动的 “ 洞见 ” 的能力 。 主要特色如下: 重点培养学生的3C精神, 尤其是好奇心, 通过掌握新技术来提升自己的职业竞争力。该专业的学员主要来自于经济学、统计学和计算机科学专业。强调数据科学的三个要素, 突出数据科学的跨学科性,开设课程涉及计算机科学、统计学、机器学习及实战应用。此外,该学校特别强调机器学习在数据科学中的重要地位,重视学生对机器学习和数据可视化的掌握和应用能力强调实习的重要性, 开设由PLU( Professional Liaison Unit)资助的专业实习项目(Professional Internships Program),将学生派送到NHS、Facebook、亚马逊、BBC的实际工作部门进行为期6个月的实习。重视产业真实数据及现实问题的处理能力。 该学校设有个人大作业(The indivial project),要求学生综合运用所学知识,选择来自产业、学术或政府的真实数据,解决现实世界中存在的具体问题。1.8卡内基梅隆大学该学校的数据科学专业人才培养分散在多个专业之中,如表 2 所示,其中直接用数据科学命名的专业为计算数据科学( Computational Data Science ) [20] 。计算数据科学专业由计算机学院开设,课程体系设有分析和系统 2 个方向,学生必须选修 5 门核心课程、 3 门选修课和 1 门 Capstone 项目。 分析方向的核心课程为智能信息系统、机器学习、大规模数据集的机器学习、搜索引擎和可扩展分析学;系统方向的核心课程为操作系统的实现、数据库应用、并行计算机架构及编程、分布式系统、大数据系统、高级存储系统、云计算及高级云计算、数据库系统的前沿问题及多媒体数据库 。表 2 卡内基梅隆大学的数据科学硕士专业 (Data Science Master's Table at Carnegie Mellon University) [20]学院 学位 时间 类型 背景要求 未来工作去向 海因茨学院公共政策硕士(政策分析方向)2 年专业硕士商业、科学或技术学位政府、咨询公司、智库信息系统管理硕士 ( 商务智能与数据分析方向 )1.5 年专业硕士具有工科学位和工作经验金融服务公司、科技公司、初创企业泰伯商学院工商管理硕士(商务分析方向)2 年专业硕士不同的背景(见正文)咨询公司、 IT 公司、财务数据分析公司等计算机科学学院语言技术研究院计算数据科学硕士1.5 年专业硕士计算机科学或其他相关专业高科技公司的软件工程职位智能信息系统硕士1 年专业硕士计算机科学或其他相关专业高科技公司的软件工程职位语言技术硕士2 年专业硕士计算机科学或其他相关专业软件工程工作、博士项目人机交互研究院与心理学系教育技术硕士1 年专业硕士心理学、教育学、计算机科学等专业各种相关工作机器学习系机器学习硕士1 . 5 年专业硕士计算机科学、统计或其他相关专业软件工程、财务工作、博士项目迪特里希人文社会科学学院统计实践硕士1 年专业硕士数学或统计数据相关专业咨询公司、金融公司、市场营销公司等该学校的人才培养侧重于专业中的数据科学家,强调的是与具体专业学科高度融合的人才培养。其主要特点有两个: 侧重融合式教育及专业中的数据科学家的培养。 与上述其他学校不同的是,该学校的数据科学专业分散在多个学位项目,如公共政策、信息系统管理、工商管理、计算数据科学、智能信息系统、语言技术、教育技术、机器学习和统计实践等。其中,以数据科学为命名的专业只有一个,即为计算数据科学(Computational Data Science)。强调跨学科方法(Interdisciplinary Approach): 重视统计学、计算机科学和具体应用领域之间的深入融合,所涉及的具体应用领域有公共政策、信息系统管理、商务分析、智能信息系统、语言技术、教育技术与应用学习。2 特色课程特色课程是一个新专业的存在标志之一。通过对上述 8 个学校的培养方案进一步深入调研发现, 数据科学与大数据技术专业的特色课程有 9 种: 2.1 数据科学的 “ 理论基础 ” 类课程 主要讲解正式学习数据科学之前必备的知识而对数据科学本身的介绍较少,主要定位是数据科学专业的先修课程,为学生学习数据科学课程奠定基础。常见的理论基础类课程有统计学、机器学习以及 Python 语言(或 R 语言)。“统计学”类课程: 主要讲解面向数据科学的应用统计学的知识,为学生深入学习数据科学理论奠定基础。 例如,华盛顿大学《应用统计与试验设计 ( Applied Statistics & Experimental Design) 》 [21] 主要学习离散和连续随机变量的推理统计方法,包括手段和比例差异的测试、线性和逻辑回归、因果关系以及重采样方法等。再如, 斯坦福大学开设两门统计学类课程,即现代应用统计学:学习 ( Modern Applied Statistics:Learning) 和现代应用统计学:数据挖掘 (Modern Applied Statistics:Data Mining) [22]。“机器学习”类课程: 主要讲解面向数据科学的应用机器学习的知识,为学生深入学习数据科学理论奠定基础。 例如,加州大学伯克利分校开设的应用机器学习 (Applied Machine Learning) [23]课程 认为机器学习是计算机科学与统计学交叉点之上发展迅速的领域,强调的是寻找数据中的模式。类似的课程 还有华盛顿大学的数据科学家常用的统计机器学习 (Statistical Machine Learning for Data Scientists )[24] 和 纽约大学的机器科学与计算统计学 ( Machine Learning and Computational Statistics) 等课程。Python 语言(或 R 语言)课程 ,主要讲解面向数据科学的数据分析语言及开源工具。例如, 加州大学伯克利分校开设的《面向数据科学的 Python 语言 (Python for Data Science) 》 [25]侧重 讲解的是数据科学工作所必需掌握的 Python 知识—— Python 基本语法及数据科学常用包的应用。2.2 数据科学的 “ 基础理论 ” 类课程 主要讲解数据课程本身的术语、理念、理论、方法、技术、工具和最佳实践应用,属于数据科学专业的入门性、导论类课程。例如, 约翰 · 霍普金斯大学《数据科学 (Data Science) 》 [26] 课程涵盖数据科领域的核心概念和技能,包括问题识别和通信、概率、统计推断、可视化、提取 / 变换 / 加载、探索性数据分析、线性和逻辑回归、模型评估以及常用机器学习算法等。该课程以有效沟通和可重复分析为指导思想,认为数据科学并不等同于统计学和机器学习的简单拼接,强调的是对数据科学自身的新知识的讲解。2.3 数据科学的 “ 领域应用 ” 类课程 主要讲解数据科学对某一学科领域的影响及其应用方法论或最佳实践。例如斯 坦福大学开设的《数据驱动型医学 ( Data Driven Medicine) 》 [27] 和 《基于大数据的商务智能 (Business Intelligence From Big Data) 》 [28] 课程,分别探讨的是如何将数据科学的理念、理论方法和技术应用于医学和商务智能领域。2.4 “数据呈现和沟通”类课程 主要讲解数据呈现与沟通能力在数据科学中的重要地位以及数据科学中常用的可视化表示与故事化描述方法。例如, 加州大学伯克利分校《数据可视化 (Data Visualization) 》 [29] 、 约翰 · 霍普金斯大学的《数据可视化 (Data Visualization) 》 [30] 以及 伦敦城市大学的《可视分析学 (Visual Analytics) 》 [31] 课程讲解可视化方法在数据科学专业中的应用。此外,数据的故事化描述能力也是数据科学家的基本功之一。 杜克大学 的交叉数据科学硕士专业认为数据的故事化描述与可视化表示同等重要,并开设课程 《数据逻辑、可视化表达与故事化描述( Data Logic, Visualization,and Storytelling )》 [32] 。2.5 “数据计算”类课程 主要讲解大数据环境下计算模式的变化及新的算法、技术、工具与平台。例如, 华盛顿大学的《可扩展的数据系统与算法 (Scalable Data Systems & Algorithms) 》 主要讲解面向大规模数据的可扩展算法。再如, 卡内基梅隆大学的《云计算 (Cloud Computing ) 》 [33] 课程不仅介绍云计算模式,还讲解数据中心,虚拟化,云存储和编程模型等主题。 斯坦福大学 也同样开设了关于数据计算方面的 《 基于数据的计算范式 (Paradigms for Computing with Data)》 [34] 课程。2.6 “数据管理”类课程 主要讲解数据管理,尤其是大数据时代的数据管理新挑战、新理念、新方法、新技术和新工具。例如, 华盛顿大学开设的《数据管理与数据科学 (Data Management for Data Science) 》 主要讲解的是数据模型、查询语言、数据库调优和优化、数据仓库以及并行处理等内容。再如, 加州大学伯克利分校开设的《数据存储与检索 (Storing and Retrieving Data ) 》 [35] 课程的涉及面很广,鼓励学生综合运用 Python 、关系数据库、 Hadoop 、 Map rece 、 Spark 和云计算 (AWS) 等多种技术,完成分布式数据处理、流式数据分析、图计算和大数据架构设计等工作。2.7 “数据分析”类课程 主要讲解数据分析,尤其是大数据分析的方法和技术。例如, 卡内基梅隆大学多媒体数据库及数据挖掘 (Multimedia Databases and Data Mining) ,华盛顿大学的大数据分析学 (Big Data Analytics) 以及哥伦比亚大学(纽约)的大数据分析学 (Big Data Analytics) [36] 均强调了大数据分析的主要挑战和新方法。值得一提的是,正如 Gartner 数据分析价值扶梯模型( Gartner's analytic value escalator )所示,因果分析是大数据数据分析中重要组成部分。例如, 哥伦比亚大学开设有《数据科学中的因果推理( Causal Inference for Data Science) 》 ,重点讲解因果分析在数据科学中的应用。此外,探索性数据分析成为数据科学专业的重要课程之一,如 约翰霍普金斯大学和哥伦比亚大学均开设有名为探索性数据分析( Exploratory Data Analysis ) 的课程。2.8 “数据产品开发”类课程 主要讲解数据产品开发方法、试验设计和优化论等知识。其中,数据产品开发是数据科学专业教育的重要抓手之一。例如, 卡内基梅隆大学的智能信息系统的设计与开发 (Design and Engineering of Intelligent Info Systems) 。在数据产品开发中,试验设计和优化论是必不可少的支撑课程,如 华盛顿大学和纽约大学分别开设有关试验设计( Design of Experiment )和优化论( Optimization ) 有关的课程。2.9 数据科学中“人文”类课程 主要讲解数据科学的研究与实践中的非技术和工程类问题,主要涉及大数据与数据分析相关的道德、隐私、法律、经济和社会影响。例如, 华盛顿大学开设的《以人为中心的数据科学( Human-Centered Data Science )》 课程 [37] 的内容涉及数据道德与隐私、算法偏倚、法律框架和知识产权保护、数据溯源和再现、数据管理与长久保存、大数据的用户体验和可用性测试、大规模协同中的道德问题、数据沟通以及数据科学的社会影响。10 综合训练类课程 主要讲解如何综合运用数据科学专业中学习的理论、方法、技术和工具解决具体行业中的实际问题,重点培养学生的实战能力。 加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、哥伦比亚大学(纽约)的综合训练课程成为《数据科学综合训练课程( Data Science Capstone )》 课程,均强调学生以团队工作的形式,选择解决具体行业中真实问题和真实数据,提升自己的数据洞见、数据产品开发和综合动手能力。3 启示与建议目前,我国数据科学与大数据技术专业建设仍处于起步阶段,其课程体系的设计中存在一些不足之处,甚至存在曲解现象。 我国大数据教育中存在的常见曲解以及以上分析的借鉴意义主要体现在 :3.1 曲解之一、数据科学 = 计算机科学 + 统计学 从目前国内部分高校的培养方案可看出,其数据科学专业课程体系主要由计算机科学和统计学两大学科领域的主干课程组成,而对数据科学本身的关注不够,并没有开出数据科学专业的特色课程。需要注意的是,计算机科学和统计学是数据科学的理论基础,而并非是数据科学特有的知识 [38] 。世界一流大学的数据科学课程设置看, 数据科学专业并非是计算机科学和统计学的简单拼凑,而更加突出的是数据科学本身 —— 数据科学的基础理论、数据加工、数据分析、数据计算、数据管理及数据产品开发 。 从本次调查分析发现,数据科学专业中应重视的新课程有: 数据科学 导论(Introction to Data Science)或数据科学原理(Principles of data science);数据可视化(Data Visualization)或可视分析学(Visual analytics);数据产品开发(Data Proct Development);探索性数据分析(Exploratory Data Analysis,EDA);大数据分析(Big Data Analytics);试验设计(Experimental Design 或 Design of Experiment);优化论(Optimization);因果分析(Causality);数据科学综合训练课程(Data Science Capstone) 。3.2曲解之二、照搬传统统计学和计算机科学专业的课程从国内部分高校公布的数据科学专业课程体系看,一般均设有两门基础课程 —— 统计学和机器学习,并直接将计算机科学和统计学专业的两门课程照搬到数据科学这一新专业之中,甚至教学大纲都没有做任何的改动。 但是,从上述一流大学的课程设置看,数据科学专业中讲解统计学和机器学习的方式与统计学和计算机科学等传统学科不同 。 以机器学习为例,加州大学伯克利分校和约翰霍普金斯大学的开设的课程名分别为《应用机器学习(Applied Machine Learning)》、《实用机器学习(Practical Machine Learning)》,强调的是从应用角度讲解机器学习;华盛顿大学开设课程名为《数据科学家常用的统计机器学习(Statistical Machine Learning for Data Scientists)》,强调的是从数据科学视角讲解统计学,突出的是数据科学与机器学习之间的关联;卡内基梅隆大学的课程名为《大数据集的机器学习(Machine Learning with Big Data Sets)》,强调的是面向大数据的机器学习。纽约大学开设的课程名为《机器学习与计算统计学(Machine Learning and Computational Statistics) 》,强调的是机器学习与统计学的深层融合,而并非是二者的简单拼凑。3.3曲解之三、大数据教育的重点是相关性分析由于大数据在相关性分析领域的应用案例和故事较多,部分高校的大数据教育中过分强调相关分析,而忽略了因果分析,甚至认为大数据或数据科学不善于或不包括因果分析。因此,因果分析的课程在国内数据科学与大数据技术专业的课程中极其罕见。 与此不同的是,国外数据科学专业中 “ 因果分析 ” 课程较为常见,体现了数据分析的多样性以及因果分析在数据科学中的重要地位: 加州大学伯克利分校开设有《试验与因果分析(Experiments and Causality)》;哥伦比亚大学的数据科学专业开设有《数据科学中的因果推理(Causal Inference for Data Science)》课程。3.4曲解之四、数据科学与大数据技术专业关注的是数据本身的管理在国内,部分学校的数据科学专业的人才培养方案与数据工程、数据仓库、商务智能等其他专业或方向的区别并非明显,课程设置仍定位在于数据工程师的培养,关注的科学问题是数据本身的管理。但是, 数据科学专业与数据工程专业不同,侧重的是“基于数据的管理”,而并非是“数据本身的管理”,其培养目的为数据科学家和数据分析师。 例如,斯坦福大学的《数据驱动型医学(Data Driven Medicine)》纽约大学的《基于优化的数据分析(Optimization-based Data Analysis)》约翰·霍普金斯大学的《数据产品开发(Developing Data Procts)》。3.5曲解之五、课程名中必须有“大数据”字样在国内, 从部分学校的大数据专业课程体系看, 为了区分和凸显新专业的特殊性,在每个课程的名称中简单机械地增加了 “ 大数据 ” 字样,如《大数据系统与算法》等。但是,从国外经验可以看出,数据科学专业的课程不一定要打 “ 大数据 ” 的旗号 ,例如:华盛顿大学开设的课程《可扩展的数据系统与算法(Scalable Data Systems & Algorithms)》,虽没有注明“大数据(Big Data)”字样,但充分体现了大数据系统和算法的核心需求和主要矛盾——可扩展性(Scalability)。斯坦福大学开设的课程“基于数据的计算范式(Paradigms for Computing with Data)”,虽然没有“大(Big)”字样,但抓住了数据科学的核心问题——基于数据的计算范式。3.6曲解之六、数据科学与大数据技术专业亟待标准化目前,国内多所高校的数据科学专业的培养方案趋于同质,相互参照得过多,并没有体现所在高校的优势。从国外课程体系的设计看,不同学校的数据科学与大数据技术专业的人才培养方案并非相同,而主要区别体现在所在高校的学科优势和人才培养的定位 。例如斯坦福大学结合自己在统计学、医学、生物学和商务智能的优势,开设出了一些特色课程:现代应用统计学:学习(Modern Applied Statistics: Learning);现代应用统计学:数据挖掘(Modern Applied Statistics: Data Mining);数据驱动型医学(Data Driven Medicine);现代统计学与现代生物学(Modern Statistics for Modern Biology);大数据商务智能(Business Intelligence from Big Data)。3.7曲解之七、数据科学专业纯属理工科目前, 国内部分学校的数据科学专业的课程设计中仅强调技术和工程问题,而忽略了人文和管理问题。但是,从国外数据科学专业课程设计看,数据科学不仅是技术和工程的问题,而且还涉及道德和法律的范畴, 例如:加州大学伯克利分校的课程《大数据中的人与价值(Behind the Data: Humans and Values)》;华盛顿大学的课程《以人为中心的数据科学(Human-Centered Data Science)》;哥伦比亚大学的课程《》数据科学综合训练及伦理(Data Science Capstone & Ethics》。3.8曲解之八专业的主要受众学生群体来自计算机科学、统计学或数据科学专业目前,国内数据科学专业的课程设计是专门为计算机科学、统计学或数据科学专业的学生设计的,而忽略了其他专业学生的需求。但是,从国外大学数据科学专业或课程的选修生源看,主要生源并非是上述三个专业,而其他专业的生源占绝大多数。纽约大学的数据科学专业的多个培养方向也证明了这一点。因此,在数据科学专业的课程设计中应适当考虑学生来源和去向,加强数据科学与领域知识的高度融合。参考文献 [1] 全国高校大数据教育联盟 .2017 申报 “ 数据科学与大数据技术 ” 专业本科院校数量再创新高 [OL].http://www.sohu.com/a/168748806_589639[2] Steve Pierson.Master’s Programs in Data Science and Analytics[OL](2017-12-3) .http://magazine.amstat.org/blog/2017/06/01/masters-programs2/[3] New York University.Academics[OL].https://cds.nyu.e/academics/[4] UC Regents. Data Science (DATASCI)[OL].(2017-11-21). http://guide.berkeley.e/courses/datasci/[5] Johns Hopkins Engineering for Professionals. Data Science[OL].(2017-11-21). https://ep.jhu.e/programs-and-courses/programs/data-science[6] University of Washington | Seattle, WA. Courses & Curriculum[OL].(2017-11-21). https://www.datasciencemasters.uw.e/details/courses/[7] New York University. MS in Data Science Courses[OL].(2017-11-21). https://cds.nyu.e/academics/ms-in-data-science/ms-courses/[8] Stanford University, Stanford, California 94305. M.S. in Statistics: Data Science. https://statistics.stanford.e/academics/ms-statistics-data-science[9] Carnegie Mellon University. Data Science Overview. [OL].(2017-11-21). https://www.cmu.e/graate/data-science/[10] GraateCurriculum.ColumbiaUniversity[OL].(2017-11-21).http://datascience.columbia.e/course-inventory[11] City, University of London. Data Science[OL].(2017-11-21).https://www.city.ac.uk/courses/postgraate/data-science-msc[12] UC Regents. Master of Information and Data Science[OL].(2017-11-21) .https://www.ischool.berkeley.e/programs/mids[13] Johns Hopkins Engineering for Professionals.Courses. Courses [OL].(2017-11-21). https://ep.jhu.e/programs-and-courses/programs/data-science[14] Johns Hopkins Engineering for Professionals.Courses. About [OL].(2017-11-21). https://ep.jhu.e/programs-and-courses/programs/data-science[15] University of Washington | Seattle, WA. Career Outlook. [OL].(2017-11-21) https://www.datasciencemasters.uw.e/details/[16] New York University.MS in DATA SCIENCE. [OL].(2017-11-21). https://cds.nyu.e/academics/ms-in-data-science/[17] Stanford University, Stanford, California 94305. M.S. in Statistics: Data Science [OL].(2017-11-21) https://statistics.stanford.e/academics/ms-statistics-data-science[18] Columbia University. Mission[OL].(2017-11-21). http://datascience.columbia.e/columbia-data-science[19] City, University of London. Objectives. [OL].(2017-11-21). https://www.city.ac.uk/courses/postgraate/data-science-msc[20] Carnegie Mellon University.Overview: Carnegie Mellon's Interdisciplinary Approach to Data Science[OL][2017-11-22].https://www.cmu.e/graate/data-science/[21] 2017 University of Washington | Seattle, WA. Course Descriptions[OL].(2017-11-21).https://www.datasciencemasters.uw.e/details/courses/course-descriptions/#DATA557[22] Stanford University, Stanford California 94305. STATS315B - Modern Applied Statistics: Data Mining[OL].(2017-11-21). http://scpd.stanford.e/search/publicCourseSearchDetails.do?method=load&courseId=1164541[23] UC Regents. Info 251Applied Machine Learning[OL].(2017-11-21). https://www.ischool.berkeley.e/courses/info/251[24] 2017 University of Washington | Seattle, WA. Course Descriptions[OL].(2017-11-21). https://www.datasciencemasters.uw.e/details/courses/course-descriptions/#DATA557[25] 2017 UC Berkeley School of Information. Python for Data Science[OL].(2017-11-21). https://datascience.berkeley.e/academics/curriculum/python-for-data-science/[26] Johns Hopkins Engineering for Professionals. 605.448 - Data Science[OL].(2017-11-21). https://ep.jhu.e/programs-and-courses/605.448-data-science[27] Stanford University. BIOMEDIN 215: Data Driven Medicine[OL].(2017-11-21). http://explorecourses.stanford.e/search?view=catalog&filter-coursestatus-Active=on&page=0&catalog=&academicYear=20172018&q=+Data+Driven+Medicine&collapse=[28] Stanford University. OIT 367: Business Intelligence from Big Data[OL].(2017-11-21) http://explorecourses.stanford.e/search?q=OIT%2b367&academicYear=20172018[29] UC Berkeley School of Information. Data Visualization[OL].(2017-11-21). https://datascience.berkeley.e/academics/curriculum/data-visualization/[30] Johns Hopkins Engineering for Professionals. 605.462 - Data Visualization[OL].(2017-11-21). https://ep.jhu.e/programs-and-courses/605.462-data-visualization[31] City, University of London. Core moles[OL].(2017-11-21). https://www.city.ac.uk/courses/postgraate/data-science-msc[32] Duke University.MIDS - Program Overview[OL].(2012-12-3).https:// datascience.ke.e/content/course-schele[33] Master of Computational Data Science. Masters - CDS - Curriculum[OL].(2017-11-21) https://mcds.cs.cmu.e/masters-cds-curriculum[34] Stanford University, Stanford, California 94305. Paradigms for Computing with Data[OL].(2017-11-21) https://statistics.stanford.e/courses/2014-2015-stats-290[35] UC Berkeley School of Information. Storing and Retrieving Data[OL].(2017-11-21). https://datascience.berkeley.e/academics/curriculum/storing-retrieving-data/[36] Columbia University. Graate Curriculum [OL].(2017-11-21). http://datascience.columbia.e/course-inventory[37] University of Washington .Human-Centered Data Science[OL][2017-12-1].https://www.datasciencemasters.uw.e/details/courses/course-descriptions/#DATA512[38] 朝乐门 . 数据科学理论与实践 [M]. 清华大学出版社 ,2017.END 版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。 关联阅读:原创系列文章: 1:从0开始搭建自己的数据运营指标体系 (概括篇) 2 :从0开始搭建自己的数据运营指标体系(定位篇) 3 :从0开始搭建自己的数据运营体系(业务理解篇) 4 :数据指标的构建流程与逻辑 5 : 系列 :从数据指标到数据运营指标体系 6: 实战 :为自己的公号搭建一个数据运营指标体系 7: 从0开始搭建自己的数据运营指标体系(运营活动分析) 数据运营 关联文章阅读: 运营入门,从0到1搭建数据分析知识体系推荐 :数据分析师与运营协作的9个好习惯干货 :手把手教你搭建数据化用户运营体系推荐 :最用心的运营数据指标解读干货 : 如何构建数据运营指标体系从零开始,构建数据化运营体系干货 :解读产品、运营和数据三个基友关系干货 :从0到1搭建数据运营体系数据分析、数据产品 关联文章阅读:干货 :数据分析团队的搭建和思考关于用户画像那些事,看这一文章就够了数据分析师必需具备的10种分析思维。如何构建大数据层级体系,看这一文章就够了干货 : 聚焦于用户行为分析的数据产品如何构建大数据层级体系,看这一文章就够了80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系从底层到应用,那些数据人的必备技能读懂用户运营体系:用户分层和分群做运营必须掌握的数据分析思维,你还敢说不会做数据分析本文来自数据分析,创业家系授权发布,略经编辑修改,版权归作者所有,内容仅代表作者独立观点。

观者如市

研究报道丨脑电镇痛指数与七氟烷呼气末浓度的相关性

首都医科大学三博脑科医院王保国教授指导在职博士研究生张建文副主任医师于2021年在英国Journalof International Medical Research上发表文章“脑电镇痛指数与七氟烷呼气末浓度的相关性(Zhang JW, Lv ZG, Zhang WW, Wang Z, Wang BG. Correlation between Pain Rating Index and End-Tidal SevofluraneConcentration ring Sevoflurane Anesthesia. J Int Med Res, 2021, 49 (2):300060520987769)”。脑电镇痛指数与七氟烷呼气末浓度的相关性张建文a,b吕志敢b张卫卫b王哲b王保国a,*a首都医科大学三博脑科医院麻醉科;b山西白求恩医院麻醉科*通讯作者摘 要目的:脑电镇痛指数(PRi)是基于小波分析技术的调控全身麻醉深度的新参数。本研究通过分析PRi与七氟烷呼气末浓度(ETsevo)的相关性,探讨PRi指导七氟烷麻醉镇痛深度调控的可行性。方法:本研究共纳入在山西白求恩医院择期气管插管全身麻醉的手术患者50例,男女不限,年龄40~60岁,美国麻醉医师协会(ASA)分级 Ⅰ~Ⅱ级,体重指数18~25 kg/m2。环甲膜穿刺注入2%丁卡因2.5 ml气管内表面麻醉后依次静脉推注咪达唑仑0.05 mg/kg、罗库溴铵0.6 mg/kg和依托咪酯脂肪乳0.3 mg/kg麻醉诱导,气管插管后吸入七氟烷维持麻醉, 调节挥发罐刻度使ETsevo分别为0.6、0.8、1.0和1.2倍最低肺泡有效浓度(MAC)时各维持15 min,观察记录各浓度下PRi值、平均动脉压(MAP)和心率(HR)。结果:随着ETsevo增加,PRi逐渐下降,不同稳态浓度下PRi值之间比较均具有统计学差异(P<0.05);PRi与ETsevo的相关系数为-0.882(P<0.001),呈高度负相关;随着ETsevo增加,MAP逐渐下降,不同稳态浓度下MAP值之间比较均具有统计学差异(P<0.05);MAP与ETsevo的相关系数为-0.571(P<0.001), 呈中度负相关;PRi与MAP的相关系数为0.484(P<0.001),呈低度正相关。结论:脑电镇痛指数与七氟烷呼气末浓度之间具有较好相关性,提示脑电镇痛指数可能用于指导七氟烷麻醉镇痛深度调控。讨论:脑电镇痛指数(PRi)是由中国易飞华通公司自主研发的基于脑电图小波分析技术反映全身麻醉状态下镇痛程度的新参数(HXD-I型多功能脑电监护仪)。PRi主要通过提取脑电中与疼痛信号在脑内传递程度相关的高频节律和低频节律中规律重复变化的元数据,采用数学造模计算出能够特异性反映在全身麻醉状态下大脑皮层及皮层下中枢对疼痛刺激的耐受程度。本研究通过分析PRi与七氟烷呼气末浓度(ETsevo)的相关性,探讨PRi指导七氟烷麻醉镇痛深度调控的可行性。最低肺泡有效浓度(MAC)是反映吸入麻醉药效能和判断吸入麻醉深度的重要指标,因此通常采用监测呼气末麻醉药浓度来调控吸入麻醉深度。吸入麻醉深度主要取决于脑组织中吸入麻醉药物的浓度,当肺泡、血液和脑组织中吸入麻醉药浓度达到平衡时,肺泡气浓度则可以直接反映吸入麻醉药在脑组织内的浓度。由于肺泡气、脑组织与动脉血中吸入麻醉药物浓度达到平衡大约需要15 min,故本研究规定患者在达到设定ETsevo后必须稳定15 min再记录相关试验数据,应该能够真实反映吸入麻醉药的麻醉深度。本研究结果显示:全凭吸入七氟烷麻醉维持期间,ETsevo在0.6~1.2 MAC范围内,PRi值随ETsevo的增高而逐渐降低,不同稳态浓度下PRi值之间比较均具有统计学差异;从PRi值与ETsevo散点图拟合线趋势分析中可以看到,散点密集分布在拟合线上或拟合线周围,说明两变量之间相关程度较高;进一步采用Spearman相关性分析显示:PRi与ETsevo的相关系数为-0.882,呈高度负相关,这些研究结果均提示:PRi监测可能用于指导七氟烷麻醉镇痛深度调控。全麻诱导时常规使用阿片类药物来抑制气管插管应激反应。本研究在麻醉诱导时没有使用阿片类药物,采用2%丁卡因行环甲膜穿刺气管内表面麻醉以抑制气管插管的应激刺激,避免阿片类药物对麻醉深度监测的影响。本研究显示:麻醉诱导前和气管插管后即刻PRi、MAP和HR值比较,差异无统计学意义,排除麻醉诱导和气管插管对PRi值和血流动力学的干扰,进而可以客观观察和分析全凭七氟烷吸入麻醉维持期间ETsevo对PRi值和血流动力学的影响。本研究为探索性单中心研究,样本量偏小,研究结果的普遍性尚不确定,后续研究应通过扩大样本量和进行多中心研究来验证本次试验结论。本研究仅探讨非手术刺激条件下PRi与ETsevo的相关性,故后续研究应对手术刺激条件下PRi值调控七氟烷麻醉镇痛深度的有效性和安全性进行评估,以验证其临床应用的泛化性。第一作者张建文副教授首都医科大学在职博士研究生;山西白求恩医院麻醉科副主任医师、副教授,日间手术部副主任,硕士生导师;中国中西医结合麻醉学会器官功能保护分会全国委员;中国心胸血管麻醉学会围术期器官保护分会全国委员;山西省医师协会日间手术医师分会常务委员;山西省医学会麻醉学分会青年委员会副主任委员;山西省医学会麻醉学分会骨科麻醉和区域神经阻滞学组副主任委员;山西省医学会医疗事故技术鉴定专家库成员;第十届、十一届山西省青年联合会委员;第十二届山西省青年联合会常务委员。通讯作者王保国教授国务院特殊津贴专家;首都医科大学三博脑科医院书记;首都医科大学麻醉学系教授、博士导师;中国非公立医疗机构协会麻醉专业委员会首仼主任委员;北京医师协会疼痛专科医师分会会长、麻醉专科医师分会首任会长;北京医师协会疑难疼痛会诊中心主任;中国医师协会麻醉学医师分会1~5届常委、疼痛专业委员会1~2届常委、神经调控专业委员会1~3届常委;北京健康管理协会副会长;中国民族医药学会疼痛分会常务副会长。主要研究方向:神经外科麻醉、疑难疼痛诊疗、血液保护、脑健康和脑保护。供稿:首都医科大学三博脑科医院围术期医学论坛(zhwsyxlt)

去年考研200多万人成陪跑,今年该如何降低炮灰率?

今年被称为考研最难年,首先是报考人数突破了290万大关,在去年238万的基础上又增加了50多万,达到了十年来的最高峰。其次是在报考人数激增的情况下,录取人数却不足70万,同比去年还有所下降。可以说,在今年的考研大军中,有200多万人沦为陪跑,只有不到70万人成为人生赢家。一方面,从下表蓝线可以看出,2016年报考人数开始突然上涨,比15年多出了20万。自此开始,每年上涨人数都在30万以上,到了2019年已经达到了涨幅50万。数据来自网络另一方面,从图中的红线(录取人数)我们可以发现,目前的考研形势也有好的一面:因为从总体上出现了扩招的趋势,录取人数在不断上升。但是,这个涨势远不如报考人数的涨势来的明显。今年的录取人数比起18年来还有所下降,只有70万,报录比为4:1。那么到底是哪些原因造成了严峻的考研形势?首先是近20年来我国大学毕业生数量增加,因此考研人数也是水涨船高。其次,就业压力增大,研究生学历在就业市场中的含金量依然大于本科学历,起薪也高。所以出于提升竞争力的需要,大部分大学生在面临毕业时的第一选择都是考研。往届生读研人数增加、越来越多已经毕业工作多年的学生重新投入考研大军,也会造成报考人数年年增加。再就是现在出于完成学术理想、追求自我提升这种目的而选择考研的大学生也越来也多了。在这个能力就是一切的时代,丰富自己已然成为回报最大的投资。据专家预测,今年的报考人数或将突破300万人。作为20考生的我们,该如何避免成为炮灰的命运呢?1.合理择校理性择校,不要扎堆考名校,选择适合自己的才是最好的。之前我们说过择校有几个思路:▲选名校:985、211名牌大学,综合实力强、社会认可度高。如果你一定要选择名校,可以选一个名校的冷门专业,比如清华大学的心理学,就算是名校+冷门专业的组合。如果你只是一枚普通的一本/二本学生,却一定要选考北大的心理学,那么炮灰率就很高了。▲选学科实力强校:比如华东的心理学,招生人数一贯不多,报考热度却很高,这样很容易炮灰。但像北师大MAP这种招生人数多的心理学强校是例外,可以考虑~▲选有地缘优势的学校:如果你未来留想在家乡附近发展,那么选择当地认可度较高的普通师范类院校心理学专业,也是一种聪明的选择。能够大大降低炮灰率。2.考虑专业型硕士学硕的招生人数一向比专硕少,而近年来各大高校分给学硕的推免名额越来越多,所以给其它考生名额就更少了。相反,专业硕士近两年来发展势头尤其好,招生人数比学硕多不说,还有继续扩大的趋势。再加上现在专硕的社会认可度也越来越高,所以报考热度直逼学硕。今年的考生可以尝试转变思路,如果你没有读博的打算,可以选择专业型硕士,现在这个时机入坑是最好的。3.重视复习细节提高考研成功率的最根本方法还是重视日常的复习。花大量时间却学了少量的知识依然是很多考生在复习过程中会出现的情况。如果你的学习没有针对性,只满足于看教材不重视做题,那么注定会错过很多细节上的知识。另外,建议大家善用各种资源,多与研友交流,多关注外部信息。了解别人的考研进度才能更好的规划自己的学习节奏,这对于考研新手来说是至关重要的。如果到了最后才发现自己是200多万的陪跑考生之一,再来了解剩下的70万是如何成功的,那就太迟了。4.选择非全日制研究生最后一点,其实现在非全日制研究生的地位也在逐渐上升,我们可以选择在职读研,或是调剂到非全的专业,这样成功率也会来的大一些。

版者

学费60万!盘点那些学费最贵的研究生专业

大家都知道普通研究生的学费一般在6000-8000元/年左右,自公费研究生取消后,各高校都设立了高额的研究生奖学金,好好学习的话读研是不需要什么金钱成本的,足够优秀还可以通过读研“赚”到钱。波波老师猜测这也是现如今越来越多人加入到考研大军的原因之一吧!那有没有很费钱的研究生呢?当然是有的,今天波波老师就带大家来了解一下↓↓:工商管理硕士(MBA)会计专硕(MPAcc)1.全日制费用2.非全日制费用金融硕士(MF)1.全日制费用2.非全日制费用新闻与传播硕士(MJC)1.全日制费用2.非全日制费用工程管理硕士(MEM)1.全日制费用2.非全日制费用应用心理硕士(MAP)1.全日制费用2.非全日制费用艺术硕士(MFA)1.全日制费用2.非全日制费用学费最高达60万!少点的也有4-5万。大家可以看出这些高额学费的研究生专业,大多都是专硕,而且是为在职人士设立的,其中MBA学费最高。像清华、交大、北大这些顶级名校的MBA专业,并不是交得起高额学费就可以读的,还需要很高的职场“资历”,一般来说中型企业法人,大型企业高管等高“职”人员更容易通过提前面试,再参加考试通过方可入学。最后波波老师今天的问题来了:你愿意花60万读研吗?

若不得者

多所高校的部分专业只招收非全专硕!

从近几年的招生情况来看,非全日制的招生比例正在逐年变高,选择非全日制的小伙伴也越来越多,竞争也在变得愈发激烈。什么是全日制和非全日制?全日制研究生是指符合国家研究生招生规定,通过研究生入学考试或者国家承认的其他入学方式,被具有实施研究生教育资格的高等学校或其他教育机构录取,在基本修业年限或者学校规定年限内,全脱产在校学习的研究生。非全日制研究生是指符合国家研究生招生规定,通过研究生入学考试或者国家承认的其他入学方式,被具有实施研究生教育资格的高等学校或其他教育机构录取,在学校规定的修业年限(一般应适当延长基本修业年限)内,在从事其他职业或者社会实践的同时,采取多种方式和灵活时间安排进行非脱产学习的研究生。注意:考研时调剂时非全日制无法调剂到全日制。下面是小编收集的部分专业只招收非全专硕的院校,小伙伴们可以看看!1、北京师范大学北京师范大学心理学专硕研究生在2015年已经采纳非全日制培养。(北京师范大学2019年应用心理专业硕士(MAP)招生简章)2、华中师范大学华中师范大学2020年取消了全日制招生,心理学专硕改为非全日制招生,且不接收推免。(华中师范大学2020硕士研究生专业目录)3、东北师范大学东北师范大学心理学院2020年硕士招生专业目录主要进行以下两点调整:(1)新增设非全日制应用心理专业硕士招生专业目录;(2)跨学科考生在复试过程中不再进行加试。4、南开大学2020年南开大学应用心理专硕取消了全日制招生,且应用心理非全日制只面向非应届生。(南开大学2020年硕士研究生专业目录)5、华南理工大学2017年,华南理工大学官宣MPAcc全日制脱产班2017年计划全部从夏令营和推免生中录取,不再接收统考生。(华南理工大学2020年硕士研究生招生章程及招生专业目录)6、中南大学中南大学商学院2018年会计硕士(MPAcc)研究生招生仅招收非全日制,包括参加“中南大学商学院2018年研究生招生夏令营”的学生,如果被录取,均为非全日制。从2020年专业目录也可以看到中南大学的会计专硕只招收非全日制。(中南大学2020年硕士研究生专业目录)7、长安大学从长安大学2021年的专业招生目录可以看到今年会计专硕依旧只招收非全日制。8、武汉大学在2017年的武汉大学MPAcc招生计划中,全日制仅招收推免,非全日制招收140人。2018年计划招收会计硕士专业学位研究生(在职双证)共160人,实际录取人数根据报名生源和考试情况确定。2020年武汉大学经济与管理学院的专业目录中会计专硕明确表明只招收非全日制。(武汉大学经济与管理学院2020年硕士研究生招生专业目录)9、四川大学2020年四川大学会计专硕招生计划,只招收非全日制60人,四川大学从2018年起就不再招收全日制学生。10、中南财经政法大学中南财经政法大学2019年直接取消全日制会计专硕,20考研会计专硕仅招收非全日制。(2020年非全日制会计硕士(MPAcc)招生简章)

幻夜

这可能是你近2年发论文最好机会!

几年前如果熟练使用TensorFlow,同时掌握基本的AI算法就可以很容易找到一份高薪的工作,但现在不一样了,AI岗位的要求越来越高,对知识的深度也提出了更高的要求。如果现在一个面试官让你从零推导SVM的Dual、从零实现CRF、推导LDA、设计一个QP问题、从零编写XLNet、编写GCN/GNN、改造SkipGram模型、用一天时间复现一篇顶级会议.... 这些要求一点都不过分。相反,连这些基本内容都有些吃力,就需要重新审视一下自己的核心技术壁垒了。 为了迎合时代的需求,我们去年推出了《机器学习高端训练营》班。这个训练营的目的很简单:想培养更多高端的人才,帮助那些即将或者目前从事科研的朋友,同时帮助已从事AI行业的提高技术深度。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如图神经网络(GCN,GAT等),另外一方面对核心部分(如凸优化、强化学习)加大了对理论层面上的深度。除此之外,也会包含科研方法论、元学习、解释性、Fair learning等系列主题。目前在全网上应该找不到类似体系化的课程。课程仍然采用全程直播授课模式。那什么样的人适合来参加高阶班呢?从事AI行业多年,但技术上总感觉不够深入,感觉在技术上遇到了瓶颈; 停留在使用模型/工具上,很难基于业务场景来提出新的模型;对于机器学习背后的优化理论、前沿的技术不够深入;计划从事尖端的科研、研究工作、申请AI领域研究生、博士生; 打算进入最顶尖的AI公司比如Google,Facebook,Amazon, 阿里,头条等;读ICML,IJCAI等会议文章比较吃力,似懂非懂感觉,无法把每个细节理解透;01 课程大纲第一部分:凸优化与机器学习第一周:凸优化介绍从优化角度理解机器学习优化技术的重要性常见的凸优化问题线性规划以及Simplex MethodTwo-Stage LP案例:运输问题讲解第二周:凸函数讲解凸集的判断First-Order ConvexitySecond-order ConvexityOperations Preserve Convexity二次规划问题(QP)案例:最小二乘问题项目作业:股票投资组合优化第三周:凸优化问题常见的凸优化问题类别半定规划问题几何规划问题非凸函数的优化松弛化(Relaxation)整数规划(Integer Programming)案例:打车中的匹配问题第四周:对偶(Duality)拉格朗日对偶函数对偶的几何意义Weak and Strong DualityKKT条件LP, QP, SDP的对偶问题案例:经典模型的对偶推导及实现对偶的其他应用第五周:优化技术一阶与二阶优化技术Gradient DescentSubgradient MethodProximal Gradient DescentProjected Gradient DescentSGD与收敛Newton's MethodQuasi-Newton's Method第二部分 图神经网络第六周: 数学基础向量空间和图论基础Inner Proct, Hilbert SpaceEigenfunctions, Eigenvalue傅里叶变化卷积操作Time Domain, Spectral DomainLaplacian, Graph Laplacian第七周:谱域的图神经网络卷积神经网络回归卷积操作的数学意义Graph ConvolutionGraph FilterChebNetCayleyNetGCNGraph Pooling案例:基于GCN的推荐第八周:空间域的图神经网络Spatial ConvolutionMixture Model Network (MoNet)注意力机制Graph Attention Network(GAT)Edge Convolution空间域与谱域的比较项目作业:基于图神经网络的链路预测第九周:图神经网络改进与应用拓展1: Relative Position与图神经网络拓展2:融入Edge特征:Edge GCN拓展3:图神经网络与知识图谱: Knowledge GCN拓展4:姿势识别:ST-GCN案例:基于图的文本分类案例:基于图的阅读理解第三部分 强化学习第十周:强化学习基础Markov Decision ProcessBellman Equation三种方法:Value,Policy,Model-BasedValue-Based Approach: Q-learningPolicy-Based Approach: SARSA第十一周:Multi-Armed BanditsMulti-Armed banditsEpsilon-GreedyUpper Confidence Bound (UCB)Contextual UCBLinUCB & Kernel UCB案例:Bandits在推荐系统的应用案例第十二周:路径规划Monte-Carlo Tree SearchN-step learningApproximationReward Shaping结合深度学习:Deep RL项目作业:强化学习在游戏中的应用案例第十三周: 自然语言处理中的RLSeq2seq模型的问题结合Evaluation Metric的自定义loss结合aspect的自定义loss不同RL模型与seq2seq模型的结合案例:基于RL的文本生成第四部分 贝叶斯方法第十四周:贝叶斯方法论简介贝叶斯定理从MLE, MAP到贝叶斯估计集成模型与贝叶斯方法比较计算上的IntractiblityMCMC与变分法简介贝叶斯线性回归贝叶斯神经网络案例:基于Bayesian-LSTM的命名实体识别第十五周:主题模型生成模型与判别模型隐变量模型贝叶斯中Prior的重要性狄利克雷分布、多项式分布LDA的生成过程LDA中的参数与隐变量Supervised LDADynamic LDALDA的其他变种项目作业:LDA的基础上修改并搭建无监督情感分析模型第十六周:MCMC方法Detailed Balance对于LDA的吉布斯采样对于LDA的Collapsed吉布斯采样Metropolis HastingImportance SamplingRejection Sampling大规模分布式MCMC大数据与SGLD案例:基于分布式的LDA训练第十七周:变分法(Variational Method)变分法核心思想KL散度与ELBo的推导Mean-Field变分法EM算法LDA的变分法推导大数据与SVI变分法与MCMC的比较Variational AutoencoderProbabilistic Programming案例:使用概率编程工具来训练贝叶斯模型第十八周:其他前沿主题模型的可解释性解释CNN模型解释序列模型Meta LearingFair Learning技术前瞻●●●课程其他的细节可以联系课程顾问来获取添加课程顾问小姐姐微信报名、课程咨询02 部分案例和项目运输优化问题:在运筹学以及优化领域最为经典的问题之一,类似的思想广泛应用在仓库优化,匹配等问题上。涉及到的知识点:线性回归以及优化实现Two-Stage随机线性规划一下优化实现打车中的路径规划问题:我们几乎每天都在使用打车软件或者外卖软件。对于这些应用来讲,核心算法应用就是乘客和车辆的匹配。涉及到的知识点:Mixed Integer Linear Programming提供approximation bounds经典机器学习模型的对偶推导及实现:通过此练习,更深入理解机器学习模型以及对偶的作用。涉及到的知识点:SVM,LP等模型对偶技术KKT条件基于图神经网络的文本分类:当使用语法分析工具处理文本之后,一段文本便可以成为一个图,接下来就可以使用图卷积神经网络来做后续的分类工作涉及到的知识点:语法分析图神经网络基于图神经网络的阅读理解:一般的阅读需要让机器阅读多个文章并对提出的问题给出答案。在阅读理解中抽取关键的实体和关系变得很重要,这些实体和关系可以用来构造一个图。涉及到的知识点:命名识别,关系抽取图神经网络Heterogeneous GraphBandits在推荐系统的应用案例:Bandits应用在顺序决策问题的应用中有易于实现、计算效率高、解决冷启动问题、数据标注相对要求不高(一般只需部分标注作为reward,如用户点击)等优点。本案例讲解bandits如何应用在新闻推荐的系统中做基于内容的推荐。涉及到的知识点:Exploration & ExploitationEpsilon GreedyUpper Confidential BounderLineUCB使用概率编程工具来训练贝叶斯模型:类似于Pytorch,Tensorflow,概率编程工具提供了对贝叶斯模型的自动学习,我们以LDA等模型为例来说明这些工具的使用。涉及到的知识点:概率编程主题模型MCMC和变分法股票投资组合优化:在投资组合优化中,我们需要根据用户的风险承受能力来设计并组合资产。在本项目中,我们试着在二次规划的框架下做一些必要的修改如加入必要的限制条件、必要的正则来控制组合的稀疏性、加入投资中的先验等信息,最后根据预先定义好的评估标准来引导模型的学习涉及到的知识点:二次规划不同的正则使用基于限制条件的优化先验的引入课程其他的细节可以联系课程顾问来获取添加课程顾问小姐姐微信报名、课程咨询03 授课导师李文哲:贪心科技创始人兼CEO,人工智能和知识图谱领域专家,曾任金融科技独角兽公司的首席科学家、美国亚马逊的高级工程师,先后负责过聊天机器人、量化交易、自适应教育、金融知识图谱等项目,并在AAAI、KDD、AISTATS等顶会上发表过15篇以上论文,并荣获IAAI,IPDPS的最佳论文奖,多次出席行业峰会发表演讲。分别在USC, TAMU,南开攻读博士、硕士和本科。杨栋:香港城市大学博士, UC Merced博士后,主要从事于机器学习,图卷积,图嵌入的研究。先后在ECCV, Trans on Cybernetics, Trans on NSE, INDIN等国际顶会及期刊上发表过数篇论文。担任过贪心学院高阶课程的讲师,获得了学员一致的好评。04直播授课,现场推导演示区别于劣质的PPT讲解,导师全程现场推导,让你在学习中有清晰的思路,深刻的理解算法模型背后推导的每个细节。更重要的是可以清晰地看到各种模型之间的关系!帮助你打通六脉!▲源自:LDA模型讲解▲源自:Convex Optimization 讲解▲源自:Convergence Analysis 讲解05 课程安排(以前两周为例)06 课程适合谁?大学生计算机相关专业的本科/硕士/博士生,需要具备一定的机器学习基础希望能够深入AI领域,为科研或者出国做准备想在步入职场前,深入AI领域,并把自己培养成T字形人才在职人士目前从事AI相关的项目工作,具有良好的机器学习基础希望打破技术上的天花板,能够有能力去做模型上的创新以后往资深工程师、研究员、科学家的职业路径发展07 报名须知1、本课程为收费教学。2、本期仅招收剩余名额有限。3、品质保障!正式开课后7天内,无条件全额退款。4、学习本课程需要具备一定的机器学习基础。●●●课程其他的细节可以联系课程顾问来获取添加课程顾问小姐姐微信报名、课程咨询