欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
解密智能音箱行业,独家专访灵隆科技CEO魏强必杀技

解密智能音箱行业,独家专访灵隆科技CEO魏强

【IT168 评论】2014年11月,亚马逊低调发布全球首款智能音箱Amazon Echo。或许是Fire Phone的惨败带来的打击过于沉重,亦或是这款智能硬件新宠并未被看好,亚马逊集团董事会主席兼CEO 杰夫·贝佐斯甚至连一场单独的发布会都未曾为它举办。如今,贝佐斯无意间播下的这颗火种,却引来了百箱大战的熊熊大火,掀起了全球范围内新一轮的人工智能浪潮,智能音箱已经成为实现智慧家庭、万物互联的“火箭”助推器。而在中国智能音箱市场,入局最早的便是中国最大3C数码销售平台京东和中国公认最好的语音技术公司科大讯飞的“亲儿子”——灵隆科技(2015年3月成立),前不久旗下智能音箱产品叮咚音箱已经正式更新迭代到了叮咚2代,为中国家庭带来了更加成熟、能够个性化定制的智能音箱产品。如今,曾经孤军奋战中国智能音箱市场的灵隆科技也正在携手一众国产兄弟对标以Amazon Echo为首的海外市场。灵隆科技CEO 魏强博士那么如今中国智能音箱市场究竟处于怎样的境况?以叮咚智能音箱为首的中国智能音箱能否与Amazon Echo放手一搏?我们普通用户究竟什么该不该买智能音箱?相信很多读者都会有这样或那样的问题,为此,小编受邀对灵隆科技CEO 魏强博士进行了独家媒体专访,就灵隆科技旗下叮咚2代智能音箱新品以及目前中国智能音箱市场等相关问题进行了深度讨论。静心读完,本文一定会令你受益匪浅。叮咚2代智能音箱文章导读:本文通过从两大方向进行媒体专访:行业/市场方向、产品/技术方向,文中加粗处是重点内容,请仔细阅读。在开启正式专访前,我们为大家整理了智能音箱的概念,非小白用户可自行跳过。智能音箱概念:智能音箱,音箱升级产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等(百度百科)。简单来说,智能音箱是利用人类最传统的语音交互的方式,来控制实现一些基本网络和生活场景,以解放双手。接下来我们便开启今天的独家访谈。关于行业/市场一、作为京东和科大讯飞的亲儿子,您觉得灵隆科技相比其他智能音箱厂商的优势在哪?魏强博士:灵隆科技在智能音箱领域的优势,我们归结为三方面。1、作为最大3C数码平台,京东在营销渠道和To C品牌背书方面有非常强的实力,这是整个行业公认的。2、拥有全球最卓越的中文语音技术,因此在语音技术(包括合成识别)方面,拥有非常强的技术积累,科大讯飞会将这种强大的语音技术加持到叮咚音箱上。3、我们灵隆科技拥有强大的产品转化能力,即我们做硬件产品所需要的优秀产品设计和强大供应链。这主要包含两方面,一是我们的团队都来自都来自顶尖技术及高科技产业公司;二是京东利用在供应链方面的实力来给我们做品牌背书,包括目前已经非常成熟的音箱后台所连接的服务(比如购物)以及一些相关的其他资源(比如音乐资源),当然还有O2O的一些思路。这些都是目前国内大多数同行所没有或都在争取的资源。二、您在之前预测,智能音箱市场从探索期到成长期,100万台出货量是一个关键点,能再具体解释一下么?:入局智能音箱的企业都是想把智能音箱作为一个入口级的产品,智能音箱不仅仅是一个买回去只为听音乐的传统音箱,更重要的是作为语音交互的入口,为后台服务提供交互渠道。因此在这样的产品定位下,市场上如果没有足够的量级,是引起不了规模效应的,无论是前端的用户活跃度还是后台接入的服务数量。同时服务厂商也会进行审核,如果你的产品维护(前端用户活跃度)足够多,更多的服务才愿意接进来,才能够把服务针对语音交互形式调优做好,这样便能够促进产品迭代,促进更多用户的加入。所以前期的规模、用户量、或者说销售数据实际上是非常重要的。而100万台这个数字,我们是参考美国亚马逊的发展轨迹来衡量的,Amazon Echo是在2015年年中的时候,首次达到了100万台,随后整个市场的知晓度、用户活跃度、以及后台接入的服务开始逐渐变多了,也正是在这个时间节点,亚马逊把Alexa平台推了出来,更加促进产品功能的不断迭代,后台服务的不断增多。三、有市场调研公司曾爆出一个数据,预计2017年中国智能音箱的出货量约为200万台,而美国则为1400万台,差距非常大;同时据统计,Amazon Echo的销量已经超过3000万台,您觉得目前限制智能音箱在中国市场普及最重要的因素是什么?中美在智能音箱应用方面主要有哪些差异?您又是如何看待中美市场之间的差异的?:200万台的数据只是一个预估的规模,但实际情况也的确是中国的智能音箱市场容量(销售数量)还没有达到亚马逊在美国的数量,这是一个事实。导致这个问题的原因包含很多方面。首先,亚马逊在国外推出时间较早,而国内智能音箱的兴起和热度升高实际上从今年才正式开始的。过去两年中国智能音箱市场基本只有灵隆科技的叮咚音箱,而国内智能音箱市场肯定需要一定时间才能够达到足够的市场规模。关于中美市场之间差别。1、新奇产品敏感度。普通用户对新奇消费电子产品的敏感度还是有一定差距的,美国用户对这种新奇产品尝试的意愿还是比较强烈的,国内用户的意愿在提升中,但还没有达到一定高度;2、家庭习惯。美国的大多数家庭都有传统意义上的音箱来播放音乐,但是在国内市场,90年代时家庭影院曾经兴起过一段时间,但是普及率不是特别高,而且价格也比较贵,后来我们听音乐基本上都是基于MP3、手机、以及近几年流行单价比较低的蓝牙音箱,智能音箱在国内还是处于一个刚刚起步的阶段3、音乐内容。美国音乐市场已经形成了相当成熟的付费模式,但亚马逊当时推出Echo的时候,把付费和硬件产品绑到一起去,简单来说你交99美元亚马逊的会员费,你就可以再花99美元买到一个199美元的Echo音箱,这时还可以享受Amazon Prime Music上的音乐,这种打包服务对他们来说吸引力非常强。国内音乐版权正在发展过程中,正在逐渐改变大家以前免费听音乐的习惯,目前还没有形成完全付费的意识,这也限制了智能音箱在国内的发展。四、自Amazon Echo始,百箱大战便已打响,那么您认为目前最具竞争力的中国智能音箱企业有哪几家?在智慧家庭、万物互联这个风口,您觉得目前智能音箱企业最需要做的事情是什么?:我不太愿意具体说,哪一家能够成功,或者哪几家比较有实力,接下来我们从性质上来分析。智能音箱研发包含以下三个环节:语音交互技术、后台内容、以及生产制造。未来,如果有智能音箱厂商能够做出爆品,肯定要围绕这三个基本点,只有这样企业才有可能成功。但是这不意味其他小企业就没有生存空间,他们可以在整个智能音箱产业链中,一个相对小的领域里做好做精,比如TTS语音合成,这样也会令他们在整个链条里起到应有的作用。关于目前智能音箱企业最需要做得事情。首先,技术还需要打磨,基础技术的发展需要一定时间,短期之内可能不会有特别大的提升,因此更需要做的是在产品层面、交互层面。智能音箱是基于语音交互这种新型交互方式的,如何引导用户让用户去适应这种新型的交互方式,或者让用户更方便地使用这种新型交互方式,是目前短时间内大家投入资源便可以解决的,这需要同行一起去做。此外,在市场方面,让用户更多地去了解智能音箱产品是目前亟待做的事情。目前如果你把智能音箱给到一些没有接触过智能产品的小白用户,他们完全不知道怎么用,他们还是会把它当成一种传统音箱,但实际上智能音箱是完全可以语音交互的,因此产品概念、产品定位是要通过市场、宣传来传递给用户,让他们能够真正感受到智能音箱的服务。五、前不久,谷歌曝光了一款智能耳机,从定位上看也是主打语音交互助手、智慧家庭入口;而目前国内的一些家电企业也选择电视作为智慧家庭入口,那么您是如何看待目前实现智慧家庭的这些入口平台的?相比其他平台,智能音箱的有哪些优势?未来,智慧家庭的入口肯定是多元、分散、去中心化的,不可能只是音箱、耳机、或者电视。在理想状态下,我们希望场景如下:对空调发出“温度调到25度”的指令,但是这个指令到底是谁来接收,我们不需要关心,可能是音箱、空调,也可能是其他设备,只要他能满足我的需求即可。因此,现在大家也在探索,除了音箱以外,我们是不是在电视、耳机、机顶盒、甚至插座上加一个麦克风来实现语音交互,目前整个行业还没有一个完全的定论,智慧家庭入口平台种类是随着行业的发展而变化的。但是现在我们看,在美国亚马逊Echo销量、市场普及率非常高,可以看到是在家庭中进行语音交互的一种比较成功的方式,所以说我们觉得智能音箱可能是最快成为家庭语音交互的一种形式。未来,或许随着智能音箱的普及,其他入口平台便会随之被带动起来。未来智慧家庭入口平台一定是网状的,而不是单点的。六、叮咚智能音箱在中国市场的销量和占有率目前是十分可观的,能简单描述一下未来叮咚在智能音箱和智慧家庭领域的布局么?能否透露一下未来几年的市场销量预期?:从布局的角度来说,灵隆科技从最开始做叮咚音箱的时候便是想把其作为智能家居的交互入口:灵隆科技初创时,京东便有一个京东微联的智能家居控制平台,目前已经集成了上千款智能家居设备,但是在交互方式上,我们希望除了手机App,还能通过语音交互这种最自然的交互方式来控制。从长期的角度来说,我们希望把它作为整个智能家居平台的核心产品,当然未来产品形态会进一步改进,比如加入视觉方面的交互。预期销量上,如果叮咚音箱真地要成为入口级产品,那肯定是要达到百万级别的,而且从整个的行业发展来看,中国市场容量(以户为单位)非常大,家庭支出也非常多,而且倘若换成耳机,那就属于一个随身产品,将会以个人为单位,因此市场容量可以说是非常可观的。垄断智能音箱市场并非我们公司的愿景,我们希望随着市场规模的发展,灵隆科技可以占有市场领先的地位。未来我们将配合其他合作伙伴、上下游厂商、或相似产品厂商,以打造好整个智慧家庭的良好生态环境。关于产品/技术一、叮咚智能音箱经过的两年的迭代,相比初代产品,叮咚2代智能音箱有哪些升级和改进的地方?:如果和1代产品去比较,我们增加了很多个性化、智能感更强的功能。我们在2015年8月推出第一款产品,在2代推出之前,我们1代软件版本便更新了30多个,基本上是一个月1到2次更新,不断地进行产品迭代,包括产品品质、软件交互等方面的提升。2代产品相比1代产品有以下四方面显著革新。1、打电话的功能:当你双手被占用或操作电话不方便时,你可以通过语音交互进行电话呼叫。自定义唤醒词,这是用户在使用我们1代产品时的反馈,他们觉得叮咚叮咚刚开始叫得还挺新鲜,但长时间还是会比较厌烦,因此用户还是想做一些个性化的声音定制,你可以叫他麻辣鸡丝,也可叫它小明同学,什么都可以。TTS发音人,除了标准声音,我们还加入了一些特色声音,比如儿童声音、方言(陕西话、东北话)等,对于一些有方言的人,听起来会十分亲切。4、声纹识别:这也是我们在该领域里的大胆尝试,通过声纹让叮咚2代更显个性化,让音箱能够聪明地知道谁在跟他交流,通过声纹识别它的主人谁。二、我们看到此次叮咚2代智能音箱主打自定义唤醒功能,这是一个十分有趣的功能,您觉得自定义唤醒对于智能音箱行业的未来发展有哪些意义?同时,可调节TTS发音人也是个有趣的功能,我特别喜欢蜡笔小新的声音,那么在大数据、云计算、人工智能等技术的支持下,能否实现如下场景:我想要谁的声音就可以就直接模拟调用?:自定义唤醒的意义还是蛮多的。我们推出的这个功能更多还是从用户的角度来考虑:想要产品做得好,首先要令用户喜欢,这是能卖出去产品的最根本条件。而用户也刚好有这个需求,他们觉得只叫叮咚叮咚难免会有些枯燥,因此我们便通过定制唤醒词进行改进。2、我们在和行业里其他合作伙伴在进行深度合作,比如传统的营销厂家,每一个厂家都有一些品牌方面的需求,他们希望通过定制唤醒词让双方合作的产品更具有他们自己品牌的特性。我们把自定义唤醒词功能推出后,也有利于更多合作品牌加入智能音箱的行业中,去推出更多的智能音箱产品,以满足不同层次不同的场景需求。可调节TTS发音人直接模拟调用完全是可行的,我们也在正在做这方面的研发。目前如果一个人能有20分钟的声音提交到我们后台,我们就能把它的音色、发音特点提取出来,研究这个人的发音。同时,用户也有这方面需求,我昨天还看到一篇文章:美国的一个专门做语音技术的人,他利用父亲生前留下来的两万多句话,把中间的音色提取出来,然后开发了一个的软件交互系统,这样他就能让没有见过爷爷的小孩,能够与这位“假爷爷”对话,了解爷爷生前的一些事情。之前,讯飞便已经可以模仿奥巴马的声音:奥巴马说的是英文,我们可以把它的音色提取出来,然后通过中文进行播放。这对用户来说,无论从情感方面、个性化定制,还是娱乐方面都非常有吸引力。三、新一代iPhone主推Face ID功能,换句话说就是3D人脸识别技术,目前遭到质疑的声音还是很大的,但整体却相对成熟;而叮咚2代则加入了声纹识别功能,但是整体的声纹识别市场还是处于初级阶段,那么作为继指纹之后未来的主流生物识别技术,您觉得未来声纹识别普及需要攻克的难点有哪些?您是如何看待声纹识别的前景的?苹果推出的人脸识别是传统2D人脸识别的升级版本——3D人脸识别技术,目前2D技术已经比较成熟,但是却会遇到一些问题,比如利用照片能骗过摄像头,而加入3D之后人脸识别技术安全性便大幅提高,目前人脸识别在一些场景(登陆、刷卡等)都可以使用。声纹是近几年才刚刚起步的技术,全球范围内的成熟度还是没有达到足够高度,特别是基于远场(距离比较远的状态),目前近场的识别率能达到90%。未来声纹识别行业需要在以下两方面进行深造。依赖声纹技术的不断发展,针对远场声音收集、并对算法不断提升,不断提高准确率。在现有技术条件下,重新定义使用场景。我们一直不建议单纯地拿声纹识别进行支付等对安全性要求比较高的行业操作,这样带来的风险特别大,如此做法是对用户不负责任的态度。因此我们会将声纹识别应用到个性化新闻定制、歌曲推荐等使用场景,特别是针对家庭环境下:家庭中的人音色差别相对较大,能做到相对比较高的识别率,在这种情况下可以进行一些个性化推荐。四、语音、语义、情感,是人工智能语音交互的三个阶段,实现的难度也是逐级递增,那么您觉得目前语音交互的处于哪个阶段?您如何看待目前阶段的语音交互技术的?想要实现万物互联,语音交互技术需要加强哪些方面?语音的发展可以说在技术上已经达到了可以使用、产品化的程度,当然还有提升空间,目前普遍的识别率为95%到98%之间。而语义则需要基于后台的大量数据,在一个领域里如果有足够的相关数据进行支持,我们可以达到一定高的准确率。但是如果把领域放开,不加限制,就需要特别庞大的数据来支撑,这在全世界范围内还没有解决,处于发展过程中。情感还基本处于概念讨论阶段,大家还没有找到正确的路、正确的理论支撑,到底如何去做如今仍没有定论。比如通过声调、声强等特点来进行简单判断,但是这远没有达到人和人之间交互所需要的情感理解。同时,光凭语音交互并不能完全表达一个人的交互情感,我们还要结合其他的信息,比如表情、上下文,这和语义是缠绕在一起的。因此目前情感还是属于一个完全开放的阶段。在推动万物互联、智慧家庭普及的道路上,我们主要需要在语义方面进行提升。目前语音控制家电相对来说比较简单,指令都是比较简洁的;而语义方面,你需要应对不同的说法,以控制空调为例,有人会说“给我打开空调”,有人会说“把空调给我打开”,还有人甚至说“直接把冷风机打开”,各式各样的说法都需要满足,这便需要语义方面能做到各种各样的支持。其次便是需要在应用环境或者应用场景下进行分类,因为不同的智能家居设备,使用场景是不一样的,比如空调工作时会有进风出风的噪音,洗衣机冰箱又有不同的噪音,这都对语音(远场)识别有各方面的挑战,因此需要我们的语音技术在不同的应用场景下能够具有惯性,或者针对某一个具体的场景进行单独优化。我们之前也测试过不同厂家空调(变频或不变频)发出的噪声,它们都是不一样的,这对语音识别影响很大。五、目前科大讯飞的语音识别率能达到95%,但是这个识别率还是有局限性的,我们在实际使用科大讯飞的一些应用中,其实识别率远没有这么高;同时方言、环境等问题也是影响识别率的重要因素,您是如何看待目前语音识别“不太准”的这个现状的?1、目前讯飞语音识别在标准普通话环境下,达到95%甚至更高的准确率是完全没有问题的,但是实际上用户在使用过程时会遇到各种各样的场景,比如说话时吞字吐字、方言、噪声等,这些都给语音识别带来了挑战,这些方面会直接影响最终识别率,这是环境条件限制;用户的语言习惯都是不一样的,比如叮咚音箱是需要联网、唤醒之后才能进行对话,这种交互方式用户并不太熟悉,目前有两种明显的用户使用对比:第一种就是叮咚叮咚,我想干什么,很快速地连续一气说下去;另外一种用户则是叮咚叮咚,犹豫半天才说。设备到底要以什么样的节奏来交互,实际上并没有一个非常准确的认识。这也是我最初说的,智能音箱在推向市场的过程中,一方面产品本身要根据用户的使用习惯不停迭代,另一方面也需要我们去引导用户告诉他们这种产品基于目前技术水平阶段,如何使用才能达到最好的体验,这两方面都需要努力的。因此不能单凭一味地追求技术,而是需要产品和用户之间的不断磨合,包括算法层面和产品设计层面。写在最后:今天凌晨,亚马逊在美国召开了以Alexa为主题的新品发布会,推出了6款围绕Alexa的新品,其中包含5款Echo系列新品——Echo、Echo Plus、Echo Spot、Echo Connect、Echo Buttons,再次为智能音箱家族带来了具有跨时代意义的新品。未来,以灵隆科技为首的中国智能音箱厂商将同以亚马逊为首的海外厂商一道,推动全球智能音箱行业的高速发展,为全球家庭带来体验更好、拥有更加成熟解决方案的智能音箱产品。

金屋泪

从中科院走出创业小团队 扼住了智能音箱的咽喉!

智东西(公众号:dxcom)文 | 寓扬随着共享经济的“热情”渐渐平复,又一股浪潮在智能音箱或语音入口中上演。在过去三四个月里,国内关于智能音箱的发布会一场接着一场。4月18日,出门问问发布虚拟个人助理“问问”及智能音箱;4月25日,腾讯推出语音助手腾讯叮当;6月8日,京东发布叮咚TOP和叮咚二代;6月18日,喜马拉雅联合猎户星空等推出小雅AI音箱;6月22日,腾讯发布腾讯云小微智能语音平台;7月5日,百度发布DuerOS开放平台,当天阿里也推出智能音箱天猫精灵X1和AliGenie语音助手······除此之外,还有更多的家电企业、运营商、方案商、技术提供商、代工厂商等涌入这一领域。在BAT及京东,以及产业链众多玩家的推动下,一场关乎语音交互与智能音响的风口已经形成,并风起云涌。而在北京上地东路35号的一座写字楼里,便有一家提供语音解决方案的创业公司——(北京)先声互联,智东西和其创始人付强博士围绕语音交互入口展开深入对话,付强曾是中国科学院声学所的研究员,20余年语音信号处理领域的研究,他和他的团队又有怎样的故事呢?一、20余年声学研究 一朝创业2000年,付强从西安电子科技大学博士毕业,他博士的研究方向便是信号与信息处理。后来,又在美国和欧洲的科研院校从事相关的博士后研究工作。他在回忆这段经历时谈到:“从硕士开始,我的科研都是围绕Speech进行的”。2004年,付强回国并到中国科学院声学所工作。期间,他完成了国家自然科学基金面上等30余项科研课题,并在包括IEEE Trans.等国内外权威学术刊物及会议上发表论文70余篇,学术成果众多。此外,他还积极将学术成果应用到实际,在2006年和2008年分别和通用、大众合作,将远讲语音方案应用到车载中。从2004年到2016年,付强在中科院声学所已经从事了12年的研究。如果从他硕士求学算起,付强已经在声学领域有20余年的积淀。那么为什么会选择在2016年12月这样一个节点进行创业呢?语音终端的火热、市场的需求、方案打磨的成熟,这些共同推动着付强从一个研究员向创业者迈进。付强谈到,去年有一个趋势性的风口,国内大大小小的语音终端都很热。尽管过去几年也有过热潮,但都比不上去年,甚至深圳很小的个体方案商都来找他们,半年内多达几十个客户。市场对语音的需求确实大量存在,尤其是在车载、家居等几个场景。而三星在2012年推出具有远讲语音能力的电视,也带动了国内的智能电视潮。当时付强在中科院的团队联合(山东)共达电声和海信集团合作推出了国内第一款支持远讲语音的海信电视XT810,提供远讲语音的信号处理、远讲算法、唤醒以及硬件模组。此后,其团队联合共达电声和海信又推出了两代支持远讲语音的电视产品,和TCL合作在北美市场推出TCL平板电视等等。这些合作也不断打磨付强团队的语音方案以及技术,这些条件共同促使他创立先声互联,以便获得更大的发展。(先声互联的客户案例)先声互联的创始团队大多是付强在中科院声学所的原班人马,其中一个创始人来自著名的杜比实验室。他谈到,团队中有他的博士后学生,负责核心算法,也有跟了他七八年的声学所的部下,团队之间能够无缝磨合,效率也较高。目前,先声互联在北京有一个10余人的正式团队,在共达电声方面有一个10多人的协作团队。目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2、360的巴迪龙儿童陪伴机器人等产品都采用了先声互联的远讲算法以及麦克风拾音模组。此外,先声互联也正在和腾讯、联想、小米等大公司就某些智能硬件产品展开合作。二、对标科胜讯 提供整套语音解决方案如果把一个智能语音产品分为前端和后端,那么先声互联的核心业务就集中在前端,一方面他们提供远讲算法和麦克风阵列,另一方面提供麦克风拾音模组,即提供一整套软硬件相结合的语音解决方案。付强谈到,先声互联还提供语音语义技术,并能够和亚马逊AVS、百度度秘、腾讯云小微、谷歌Assistant和微软Cortana等主流语音交互平台对接,从而协助客户进行平台准入测试认证,以及内容接入。甚至基于先声互联现有的方案,客户只需要装一个音箱外壳就可以使用了。(先声互联智能音箱样品展示)而在今年7月5日的百度AI开发者大会上,作为百度的合作伙伴,先声互联也展示了其最新研发的多麦克风硬件开发套件。该方案采用全志科技四核R16处理器,内嵌先声互联的麦克风阵列和远讲算法,搭载百度DuerOS SDK,支持双唤醒词,以供开发者使用。(先声互联基于全志R16平台开发的模组套件)在谈到在这个领域的竞争对手时,付强指出科胜讯是一个令人尊敬的对手。科胜讯主要提供芯片和远讲算法等软硬件解决方案,其优势在于芯片和降噪算法方面。另外像亚马逊打磨了四年才推出Echo,三星也磨合了4年才推出了全球第一款远讲语音电视,其中芯片用的就是科胜讯,而科胜讯也一样,其技术也经历了4年的磨合,因此也更加成熟。而付强团队在国内也较早从事了远讲语音研究,在2006年和通用合作就开始涉及这块,因此在技术上拥有较深的积淀。相比科胜讯,先声互联在增强算法这块更具优势,其后期也会发力语音专用芯片,对标科胜讯,提供更全面的软硬件方案服务。另外,随着远讲语音设备在麦克风阵列方面的需求大增,科大讯飞、思必驰、云知声等语音技术公司以及近期涌现的语音方案商都开始涌入这一领域,而这也正是先声互联的机会所在。此外,付强还谈及,先声互联已通过基于Alexa的AVS标准认证,也间接表明先声互联在远场算法方面的优势。先声互联目前更侧重于语音解决方案的提供,在拾音模组的生产方面,是由其合作伙伴共达电声负责代工的。付强也指出,他们在供应链上有很强的人脉资源,像通利电子、超声音响等整机代工厂商,都保持着密切的联系。三、远讲语音设备的关键部分:麦克风阵列麦克风阵列是远讲语音设备的一个关键部分,它包含2个以上的麦克风和远讲算法,通过声源定位、波束形成、噪声抑制、回声消除等算法,有效拾取声音,从而保证在具体场景中的语音识别率。麦克风阵列是拾取声音、唤醒设备的第一步,“你家用的谁的麦克风阵列”一时间成为热议。在智能音箱中,亚马逊Echo采用了6+1麦克风阵列,Google Home采用双麦克风阵列,叮咚音箱A1采用7+1麦克风阵列,阿里的天猫精灵X1采用6麦克风阵列等等,不同的玩家采用了不同的麦克风阵列方案。(先声互联正在测试的小哥)那么麦克风的数量和拾音效果究竟有没有必然关系呢?付强指出,首先相对于后端的语音识别,前端的信号处理主要是为了解决背景噪声、非平稳干扰、设备回声、以及房间混响这4个问题,麦克风阵列只是其中一种手段,并且始终有人在用一个麦克风来做拾音研究。目前,麦克风阵列语音增强大致可分为两种技术路线:一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目和阵列拓扑结构依赖较大。通过使用较多的麦克风以及特定的拓扑结构,从而使得波束的空间区分性更强,保证声源定位和拾音效果。另外一种就是以科胜讯为代表的路线,该路线更加依赖于语音增强算法,而对麦克风的数量和阵列拓扑结构依赖较小。通过自适应降噪、降低混响、语音分离等技术,从而靠少量麦克风获得良好的拾音效果。也难怪科胜讯会说,其双麦克风就可以实现相当于友商5-8麦克风的解决方案。而先声互联的技术路线和科胜讯相似,其优势更在于阵列的增强算法。具体而言,先声互联的麦克风阵列将物理建模的信号处理与机器学习的数据建模相融合,从而将背景噪声、设备回声、房间混响等因素进行抑制,其提供的麦克风方案包括双麦、四到六麦以及七麦以上的解决方案。此外付强还谈到,其团队的前端处理技术可以支持更加灵活的麦克风阵列排布方式,这意味着产品的ID设计可以有更多元的选择。四、再谈语音入口与智能音箱时下智能音箱的火热,引发了大家对语音入口及智能音箱的讨论,支持和唱衰的声音此起彼伏。付强则认为,语音作为交互的入口确实是一种趋势,可能现实中存在波折。这需要我们找到更有刚需的场景,并且不要局限到语音交互上,比如也可以是语音通话设备等。尽管亚马逊Echo在智能终端方面具有里程碑的意义,但它并不具有革命性意义。从市场方面来说,智能音箱目前还是科技圈人士和潮流人士的玩物,用户的使用习惯还有待培养。科大讯飞在其2016年的年度报告中指出,叮咚音箱2016年的整体销量近10万台。灵隆科技总经理魏强也曾说过,叮咚音箱在国内智能音箱的市场中占据近八成,那么国内智能音箱的市场还是相对乏力的。(先声互联的合作伙伴及客户)付强也指出,虽然确实有太多的人在做智能音箱,但并不能说这不是一个入口,它是有可能占领家庭某个场景的。目前芯片成本大概在3-4美金,开发套件成本也在20美金左右,成本过高也是影响市场推进的一个重要因素。此外,智能音箱想要获得更多的发展,需要在成本、内容资源、功能、社交要素整合、交互体验等方面共同发力。但同时设备制造商也应该考虑更多的可能性,布局不同的细分场景。比如像先声互联的客户中,已经就某些细分场景进行深耕,如车载的中控设备、移动场景下的智能耳机、以及家居场景中的电视、儿童机器人等都是不错的切入点。另一方面,BAT布局语音入口,无疑也会进一步催熟这个市场。付强谈到,BAT的基因决定了他们更多布局平台和软件层,这也是他们的优势所在。至于是否做硬件,其实就是先做一个精品再推生态,或者先推生态再打造精品的一个选择罢了。长远来讲,他们的目的还是生态,最终还是希望引流,物联网也是同样的道理。此外,付强也谈到,考虑到Alexa的生态建设,平台的测试体系和测试标准也将会是一个重要的问题,而目前我国在这方面还没有太多进展。比如百度、阿里、腾讯都应该建立自己的接入标准,从而推动这个语音交互生态的发展。结语:学者创业胜算几何?从学界到业界,从研究员到创业者,这是付强走过的轨迹。而这也反映出,在智能语音入口火热的大背景下,更多的科研人员走到一线,成为时代的弄潮儿。对标科胜讯,这位在声学领域钻研20余年的学者式创业者,将会带来怎样的故事?

木偶戏

智能音箱领域的第二战已经打响!小米有了王斌的胜算有多大

中国质量新闻网(通讯员 张雪)任何新兴领域的竞争都离不开人才的竞争,在人工智能领域更是如此。近日,小米的一则人事消息在科技圈引起了广泛关注。这被外界视为小米全面发力人工智能,抢占智慧家庭入口的又一信号。8月28日,小米新经济研究中心发布消息称,中国科学院信息工程研究所研究员、博士生导师王斌已于8月20日正式加入小米集团,任AI实验室自然语言处理(Natural Language Processing,NLP)首席科学家,负责自然语言处理基础平台的构建及前沿技术的探索与创新。据了解,在2018年智能音箱迎来了集中爆发之年,市场销量更是屡创新高,不过在核心技术方面,智能音箱的整体水平还存在亟待解决的难题。所以智能音箱领域的第一战已经结束,而在这自然语言处理核心技术的第二战也已经打响了。不可否认,小米推出的“小爱同学”智能音箱在市场上得到了广泛认可,并占据了相当一部分市场份额,但小米集团人工智能与云平台副总裁崔宝秋曾表示自然语言处理仍是要解决的最核心技术,也是目前对话式人工智能要不断提升的技术。而王斌长期从事信息检索、自然语言处理、数据挖掘的科研工作,并承担过国家重点基础研究发展计划(973计划)、国家高技术研究发展计划(863计划)、国家自然科学基金等近30项课题的研究工作,对文本浅层分析、搜索、推荐、智能问答、信息过滤、文本分类聚类、知识图谱、机器翻译等任务都进行过积极的探索,并构建了许多实际应用系统。资料显示,在入职小米之前,王斌更在中科院担任多个要职,曾是中科院计算所博导、中科院信工所博导、计算所及信工所信息检索团队负责人,并兼任中国科学院大学教授。其在自然语言处理领域的权威性和话语权可见一斑。此外,在加入小米后,王斌博士仍将担任中科院信工所信息检索团队客座研究员、博士生导师,与学术界一起推动AI技术产学研用的协同创新。不难推测,有了像王斌这样顶级专家的加入,“小爱同学”的语音交互功能将更加强大,更加智能,应用场景也将更加广泛。同时,2018年AI在手机领域的应用也非常火热,除了拍照外,更多的应用领域还有待探索,而王斌势必也将助力小米手机在AI上有所突破。对于入职小米,王斌也表示:“我是一个米粉,这次能够加入小米很荣幸。希望未来能够与国内外学术界、企业界的AI研发者一起,为用户带来更多科技的乐趣!”而小米集团人工智能与云平台副总裁崔宝秋也表示:“王斌博士的技术理念和研究领域与小米非常契合,非常高兴能够邀请王博士加入。我们也欢迎更多的AI人才到小米工作。”其实,近两年小米在AI上的布局动作从来没有间断过,早在2016年,小米便将AI定位为未来十年的核心战略。今年5月,小米还与武汉大学正式成立“人工智能联合实验室”,并投资1000万元研发经费,此举更被外界解读为招揽AI人才。雷军也曾在公开场合表示,AI将帮助公司在未来的发展中拥有强大的竞争力和新增长点。可见,王斌加入小米只是小米引进AI人才的一个好的开始,后续或还将有其他动作。

鬼流星

首款预定超1.6万台的腾讯智能音箱来了!你只需大喊一声“9420”

智能音响已不是什么稀罕物,但要论功能与交互体验感,真心让人无语。今天,腾讯官方正式推出了一款智能音箱,代号“9420(就是爱你)”。这不在活动现场,腾讯移动互联网事业群智能创新业务事业部总经理吴丹博士宣布,听听音箱今日正式开始接受预定。根据京东商城数据,目前有16241人预定。4月20日,在京东平台上开始发售。首款预定超1.6万台的腾讯智能音箱来了!你只需大喊一声“9420”!曾几何时,音箱仅仅是Hi-Fi发烧友的奢侈品,随着时代变更,这种小众的产品也开始飞入寻常百姓家。体积更小、重量更轻、操作更简便,还适当加入防水、变形等有趣功能,而音箱逐渐成为我们日常生活中一个非常重要的娱乐工具。在上述基础上引入AI芯片,从而完成点播歌曲、上网购物、天气预报或者控制智能家电等功能,就成为了智能音箱。吴丹博士表示,“音质是一款音箱的本质属性,音质好是智能音箱的本质属性。”同时,让家庭中每个成员都享受科技带来的便利,让人与人之间的联系更加紧密,是腾讯一直在关注科技+文化的思路,以及对于智能产品、智能硬件、消费市场的思考。正是基于如此理解,腾讯此次才打造了腾讯听听音箱。腾讯听听音箱的包装整体采用黑色圆柱体设计,前面是腾讯的英文Logo以及采用了腾讯字体的腾讯听听音箱中文字样。包装背面是“9420,就是爱你”字样,此次腾讯将9420作为听听音箱的唤醒词,与其他拟人化的唤醒词汇十分不同,不是用拟人“人名”,这一点还是非常玄妙的,这种称呼给我们的感觉更像是一种有形的硬件设备,而非无形的人工智能。想要了解这款腾讯听听的更多功能,大家可以去京东上搜搜看一下,对于现在的家庭是挺方便的。

犯罪学

只要99美元?搭载了黑科技的苹果新款智能音箱遭到曝光

昨天(10月10日),博士和大家分享了文章《全新的无线充电方式让人期待,苹果iPhone 12新技术遭到曝光》,讲述了苹果将在美国时间10月13日(北京时间10月14日凌晨)举办第二次秋季新品发表会,而发表会的亮点新一代 iPhone相关的资讯以及新技术已经被曝光的差不多了,几乎没有什么秘密可言。苹果第二场秋季新品发表会显然不会只公布新手机,据悉此次发表会的另一个重点产品就是被苹果视为年度重量级新品的 HomePod mini 智能音箱!HomePod mini将以“尺寸更小、售价更便宜”为主要卖点,成为苹果抢攻全球智能音箱市场的秘密武器。根据知名分析师“Jon Prosser”的个人最新爆料,苹果预计发表的新一代 HomePod mini,不仅具备有蓝牙功能与Siri语音声控功能,同时还将搭载无线UWB(Ultra Wideband,超宽频)技术的集线器功能。换句话来说,苹果将把HomePod mini当成智能居家生活生态的核心设备。九月份,博士和大家分享了文章《苹果新公布的智能手表也配备了U1芯片,它是用来干什么的?》,讲述了苹果智能手表的新品Apple Watch Series 6搭载了U1芯片,而U1芯片就采用了超宽频技术,适用于空间感应。这意味着消费者通过 HomePod mini搭载的UWB集线器可以把同样内建U1芯片的其他产品串接起来,比如:iPhone 手机、智能手表等等,在进行远端遥控功能的相关应用时,能发挥更精准快速的无线连接传输能力。与苹果先前上市的HomePod 智能音箱相比,主打迷你平价的新一代 HomePod mini的售价则会更加亲民。根据外媒 MacRumors 的爆料,HomePod mini整体外形只有 HomePod 的一半大小,而价格则有望比HomePod便宜三分之一,最后定价在99美元(约662元人民币)左右!而另外一位知名爆料者“Kang”则同意上述的爆料内容,而且他进一步表示:新款的HomePod mini智能音箱在苹果正式发表之后,可能会推迟在11月6日才开放预订,并在11月16日或17日才会正式上市。当然,上述爆料没有得到官方证实,真实性有待商榷,不过现在距离10月14日也没有几天了,马上就可以验证博士上述的爆料分享是不是真的啦,让我们拭目以待吧。我们知道:苹果的竞争对手们在智能音箱这个领域已经走在了前面,亚马逊和谷歌的几款智能音箱不仅比HomePod便宜,还更加“聪明”。所以,为了打入智能家居市场,苹果“不得不”推出价格便宜的智能音箱。另外,通过超宽频技术把智能音箱与成熟的产品(手机、智能手表)“绑定”,慢慢侵入消费者的生活。智能音箱格局看似已定,但背后的智能生活家居还是蓝海一片,苹果应该已经瞄准了这块市场!

智能音箱声学语音技术完全自研,背后是那个你不了解的小米

小米是一家什么公司?答案可能见仁见智。一直以来,高性价比是小米最初抢夺市场的切入点。但如今手机市场增速放缓,IoT成为手机厂商们比拼的下一个赛道。小米也来到了转型的十字路口。那么小米在AI研发上的方向和成果如何、怎么切实加快技术落地,我们和小米人工智能部聊了聊。小米加速AI自研除了询问天气、播放音乐的常规功能,你可否想过有一天音箱也可以成为一个能交心的朋友?不久前发布的小米小爱音箱Art已经全面支持情感化的语音交互,小爱同学在被唤醒时,可以基于用户情绪,做出开心、害羞、惊讶等等不同的反馈,就像一个有情绪的机器人。这是小米人工智能部AI实验室最新的语音成果之一——通过情感TTS合成,实现拟人化情感化的小爱同学音色。当然,作为小米的第九款音箱,当中也融入了小米更多的自研声学语音技术,比如支持全屋播放、就近唤醒等功能。设想一下,用户直接对小爱同学发出“全屋播放”的指令,不必打开APP,房间里面所有音箱产品都能播放同一首歌曲。早上起床的时候,远处的音箱闹钟响起,只需要呼唤近处的音箱就可以直接关闭远处的闹钟,不必亲自下地。智能音箱是一种枢纽型产品,也是小米IoT上的爆品,所以声学、语音技术也是小米在人工智能研究中进度最快的一个方向,已经实现了100%的自研。此外,小米的人工智能研究还包括视觉、自然语言处理(NLP)、知识图谱和机器学习等方向。小米人工智能部AI实验室主任王斌博士介绍道,在人工智能领域中,机器学习更偏底层,是人工智能的核心支撑技术。声学、语音和视觉偏感知,是对人们感知到的声学、语音和视觉信号进行处理。而NLP和知识图谱则更偏认知,是对文本内容进行深入的语义理解。目前,小米的声学、语音技术主要用于智能设备的交互,而视觉技术主要用于提升小米手机相机的拍摄效果,NLP和知识图谱则主要应用于各种互联网内容服务。小米的机器学习一方面研究包括自动机器学习在内的相关算法,另一方面则主要是构建大规模的训练和推理引擎平台,其中包括端侧的深度学习推理引擎。目前小米的很多基础AI技术也正在平台化,从而能够全面支撑公司的多样化业务,目前包括端侧深度学习推理引擎MACE在内的框架已经开源,后期各项工具、平台也会逐步开源开放。王斌表示,今年小米在AI技术上会在多个方向上继续发力,比如视觉方向重点是在基础画质算法上实现突破,达到行业一流水准;声学语音方向还在进一步加强唤醒和合成的工作,尽快实现更大突破;NLP则在结合实际场景的情况下突破多模态内容理解技术。“在公司内部的技术布局上,很多部门会有些相关性,大家互相支持去探索,成长会更快,“小米人工智能部总经理叶航军博士表示,目前小米的人工智能主要应用在三个赛道,除了前述以音箱为主的IoT产品,还有手机相机和互联网领域(搜索信息流推荐、电商平台等),相对而言,消费者对前两者AI应用的感知更加强烈。“目前看,手机竞争很大程度上是拍照能力之争”,叶航军一言道破手机市场竞争本质。目前手机领域已经很久没有激动人心的颠覆性技术,相机作为使用最高频的功能之一,也是手机厂商们大展拳脚的领域。除了各类硬件上的加减乘除,围绕摄像的AI算法也是各家手机厂商的持续创新的沃土——AI算法的边际成本比硬件更低,而且可复制性也很高。小米自研的视觉技术一方面不断提升相机的基础画质,另一方面主要体现在多种相机相册应用中,比如超级夜景、HDR、魔法换天、魔法分身等等。以魔法换天为例,小米自研的AI算法可以将天空和照片的其他区域区分开来,通过更换天空素材,并调整其他区域的亮度颜色等,达到改变天气的目的。“当时市场上的竞品APP换天的成功率只有70%左右,我们在攻坚之后达到了90%以上”,王斌表示,尤其是针对前几年北京的雾霾天气,换天功能也是“击中用户痛点”,在社区还掀起了换天比赛,得到用户广泛好评。“事关小米生死存亡”毫无疑问,小米正在不断提高AI技术的自研率。站在普通用户的角度,对这些技术的感知虽然不甚强烈,但不积跬步无以至千里,种种微小的技术进步却也隐藏着小米的未来。其实,小米内部围绕AI技术的研究在很早就开始了,但早期主要分散在各个业务部门。直到2012年,崔宝秋加入小米,把分散的研发力量聚合,才组建了人工智能与云平台团队,并且主导了小米“云计算-大数据-人工智能”的技术发展路线。随着技术立业的理念深入,小米成立了集团技术委员会,由集团副总裁崔宝秋博士担任技术委员会主席。到了2019年年初,小米开启的新一轮架构调整。原来的人工智能与云平台部拆分成立成为三个部门:人工智能部、大数据部和云平台部。这三个部门也成为小米公司内部的一级部门,三位负责人直接向雷军汇报。如今小米人工智能部的带头人叶航军也是在2012年加入小米的,再此之前,他先后就职于IBM、Google和腾讯。在小米的八年期间,他从小米云团队总监、小米AI平台团队高级总监,再到升任小米集团人工智能部总经理、AIoT战略委员会副主席,个人主要关注领域包括搜索引擎架构、分布式系统、云计算及人工智能。小米去年年末的这次结构调整也释放了明显的信号:未来小米在云计算+大数据+人工智能这三类技术路线上的投入还要更大,而且会更垂直。“以前没有机会去暴露的一些项目,现在得到了更多的机会,有了更多的资源投入、更多的跨部门合作,公司对AI的重视程度越来越高”,叶航军表示。2018年年初,雷军确定了小米“手机+AIoT”的双引擎战略。小米始终坚持给用户提供高性价比的产品,硬件本身的利润率很低,通过口碑积累了大部分用户。利用硬件沉淀毛利更高的互联网收入,需要时间,也需要AI帮忙发挥出更高的效率,回到硬件上,随着手机市场大盘的下滑,小米要冲击高端高价,就必须要有自研技术托底。在IoT层面,小米的优势在于数量够大,占据了先发优势,从IoT到AIoT的转变,也是在打造更大范围的万物互联,提供更智能的硬件产品体验。从财报上看,小米2020年第一季度营收497亿元,同比增长13.6%,其中手机以外的收入(互联网收入+IoT收入)占总收入达到了40%,份额也正在持续扩大。AIoT的引擎也正在助推小米总体营收狂奔。在去年的重整中,雷军不止一次在内部会议中强调技术立业的重要性——“事关小米生死存亡,是小米持续发展最重要的动力和引擎”。落地!落地!落地!任意一项关键技术研发都不是小数目短周期的投入,尤其是AI。AI落地是绝大多数企业非常重视的目标。当然,AI落地也并不意味着所有的AI技术都需要自己研发。以声学语音为例,虽然小米这方面的核心技术已经实现几乎100%自研,但并不代表单一产品中的所有技术都来自小米之手。所以在确定方向之初,清晰的判断尤为重要。叶航军表示,小米是一家专注而务实的公司,并不会为了研究而研究,也没有一定要完全自研的情结,一切还是基于理性判断。当然,王斌也认为,“上述领域的核心AI技术一定要跟上的,不然迟早会被卡脖子,如果是一定要自己掌握的,就会始终投入”。所以,在选择供应商还是自研技术之间,小米内部会维持“动态平衡”。小米在AI技术自研上虽然起步较晚,技术的标签也还没真正走入用户心智,但客观来看,小米通过快速灵活务实的打法逐渐建立了自研的护城河。首先是小米一直以来的效率足够高,在硬件上适用,在AI技术研发上也依旧适用。AI技术特别是应用于设备的AI技术在研发过程中的一个困难是,硬件一旦变动就可能会导致算法全盘失效,在实操过程中,小米的人工智能团队也学会了如何快速提取公共的部分,通过减少需要改动的地方,提高算法在不同硬件上的复用效率。其次,小米也有足够丰富的场景(电商/金融/游戏等)可供技术验证,也积累了大量的数据。据Q1财报数据显示,在IoT领域,小米IoT平台已连接2.52亿台设备,接入了手机、家庭、穿戴等7大场景,209款设备。“AI技术到处都有用武之地,但要和场景充分结合技术才能产生巨大火花”——这也是王斌教授离开学术界进入工业界的一个重要原因。当然,王斌也并不是小米内部第一个做出这种选择的学院派,小米对于AI技术研发落地的重视、AI场景的多样性和优势还在持续吸引更多的工程师加入。而这些人才在不断塑造小米的工程师文化,也是小米接下来打造技术护城河最重要的基础。在内部,小米AI技术的主要驱动力来自业务,这也保证了小米AI技术的研发大都是基于用户体验而开发,在推出之后也更能迎合用户需求。王斌也承认,小米还是一家发展中的年轻公司,目前技术反推业务的比例还不是很高,但是由于小米的业务多样化,技术驱动业务的成功案例也在不断增加。针对AI部门未来的发展,叶航军也已经制定出了长期目标和短期目标。他说,短期目标还是在IoT+手机相机+互联网三个应用领域上持续加强优势,加强投入,长期目标则是“希望帮助公司发现更多的机会,比如健康、教育等”,让技术更多地去反推小米的业务。目前小米也在同步补齐AI所需要的基础能力,年底将打造一个AI技术中台,主要是面对公司内部打造成一个统一的技术输出出口。正如崔宝秋此前接受访谈时所说,小米的所有产品,包括硬件产品、软件产品和互联网服务都需要AI来赋能,“今天AI在小米已经无处不在,这也充分表明了AI在小米整个生态系统中的重要性。”有人认为,人工智能也是继蒸汽机、电力技术、计算机信息技术之后的第四次产业革命。叶航军带领的小米人工智能团队也不想掉队。叶航军表示,“不管如何定义人工智能,共识是,人工智能是能帮助提高效率和体验的一个工具,所以公司的判断是在人工智能方面必须要投入的”。回到文章开头的问题,小米到底是一家什么样的公司。几乎每一个小米人工智能部的人都会毫无迟疑说,小米是一家互联网科技公司。但要成为用户心智中真正的互联网科技公司,小米需要做的事还有很多。在叶航军看来,分为三步。“首先技术上要有独特的地方,其次是产品和体验,技术要落地到用户能用上的地方”,叶航军表示,“第三是你的生态和品牌,用户怎么看待你的公司,要靠产品上的优秀体验,再让用户去定义你到底是一个什么样的公司”。AI时代已经到来,对于一家企业而言,能够通过科技让每个人享受科技带来的美好生活,才能撬动更大的社会价值。

断肠花

腾讯主打音质的智能音箱 9420唤醒词能戳中你的点吗?

很大胆,作为BAT于智能音箱领域布局的后来者,腾讯听听一上来就与JBL 等智能音箱进行盲评,同时借此引出听听音箱的主打卖点——音质。4月17日,腾讯于北京发布其筹备许久的智能音箱——腾讯听听,唤醒词9420,寓意“就是爱你”,具体价格方面,雷锋网了解到,需要等到4月20日听听音箱上线京东平台时,才会知晓。但目前可以确定的是,这仍是一款“千元档”产品。雷锋网了解到,腾讯智能音箱早于去年即进行相关研发,腾讯相关人士亦对雷锋网表示,音箱产品发布也准备了半年多时间。腾讯听听音箱科学家吴丹博士表示,此前没有发布,是因为一直在打磨产品。腾讯听听具备黑白两色,搭载腾讯语音助手“腾讯听听”,AI语音交互,自带电池,可实现充电2小时续航16小时。虽说同属智能音箱产品,但显然,腾讯听听此次主打音质。在三款智能音箱盲测结束后,现独立古典音乐文化推广人与乐评家苏立华上台表示,声音是音乐的载体,就像我们听一个人讲话,如果一个男生的声音像鸭子叫,就算他的普通话再标准,也让人受不了。所以音箱要先听其保真度,而音箱保真度分两个层面——物理保真、音色保真。在苏立华看来,腾讯听听音箱在音质上,是令其满意的。为什么如此强调音质?吴丹博士表示,“音质是一款音箱的本质属性,音质好是智能音箱的本质属性。”同时,让家庭中每个成员都享受科技带来的便利,让人与人之间的联系更加紧密,是腾讯一直在关注科技+文化的思路,以及对于智能产品、智能硬件、消费市场的思考。正是基于如此理解,腾讯此次才打造了腾讯听听音箱。“希望腾讯听听能够满足家庭每一位用户的需要,它是我们AI in ALL的尝试,也是为了提高大家幸福度的尝试。”吴丹博士称。腾讯听听音箱首席产品官王朝勤表示,通过搭建AI 能力平台,进行长时间定制与调优,才诞生了今天的听听音箱,同时其对唤醒速度也是极致的——控制在200毫秒以内,以避免家庭成员对新生事物的不确定性。此外,王朝勤称,目前智能音箱在语音技术上有个难题——童音唤醒。腾旭听听为了实现家庭成员每个人都喜欢,采集上百个小朋友的声音来训练,使得童音唤醒率提高达到95%。特别突出的一点是—— 腾讯听听音箱直接与微信功能相连接,当接收到微信信息时,如果信息是文字,则可以通过合成音将文字读出来;当发送的是语音时,可以直接将原声发送出来。吴丹博士对雷锋网表示,腾讯智能音箱目前暂时以发布产品,语音交互与平台计划等,将在下一步动态中透露。

HE琥珀智能音箱冲击国内友商 停滞不前的行业终于不再是死水一潭

都在讲的人工智能到底是什么自从人工智能入选“2017年度中国媒体十大流行语”,好像在闲聊中如果不加一些人工智能,就会显得与整个社会格格不入。那么,作为谈资的人工智能他到底是什么。人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。举个例子,AlphaGo所用技术就已被应用在包括图像识别、文本翻译、音频/文本处理、脸部识别、无人驾驶汽车以及机器人等领域。人工智能的水平恰恰折射出人类自身的科技发展能力,人类在前进,人工智能也在前进。可以预见,在新世纪里,人工智能应用将更加广泛。Gowild狗尾草带来新产品本次狗尾草携旗下新一代产品—— HE琥珀,在中国电影导演中心举行了2018 Gowild狗尾草品牌发布会。此次发布的HE琥珀区别于同类的智能音箱,拥有“GAVE”狗尾草人工智能虚拟生命引擎技术、通过全息投影技术展示的能唱能跳能聊的琥珀小姐姐,已经是对新一代人工智能音箱进行了重新定义。和前一代产品相比,通过人脸识别功能的增强,AI算法的升级以及更主动的交互,使得琥珀虚颜更具有生命感。当然,除了不再是一款冷冰冰的机器外,现阶段HE 琥珀已接入京东微联系统,可以与上万件智能家居产品进行智控。 而这并非是其上限,今后HE琥珀还将计划接入更多的主流IoT协议。现场,Gowild狗尾草通过一段HE琥珀新品的视频,演绎中展示了其智能编舞功能。画面中,琥珀虚颜动感十足,他会根据不同的乐风进行表演,机械舞、古风、爵士舞样样精通。除了以上这些,HE 琥珀在Gowild狗尾草人工智能研究院提供的技术下,将会有极强的可控性。而在未来,琥珀虚颜将不会是独一无二的IP,今后明星、家人甚至宠物都将会成为用户的自定义管家。低价刺激的不只是消费会场的高潮部分依然是产品价格的披露,新品全国市场零售价1399元,首批限量尝鲜价仅699元,自8月28日零时起在线上电商平台接受预约抢购。除了HE琥珀,发布会的现场Gowild狗尾草CEO邱楠“低调宣布”接下来将上市三款新品,包括一款199元起的人工智能儿童绘本机器人、一款599元的全屋智能家居语音中控面板形态产品。Gowild狗尾草的强大依托作为一家早在五年前就已经组建人工智能研究院的企业,狗尾草在国内外人工智能大咖邵浩博士、王昊奋博士、张民博士等人的带领下,推出“GAVE”狗尾草人工智能虚拟生命引擎,NLP技术国内领先。而狗尾草作为国内的第一份知识图谱白皮书的发起者为中文知识图谱制定了标准。狗尾草在自身不断的努力下,也在不断的吸引着合作者的目光。发布会现场,Gowild狗尾草宣布与金科地产集团、一汽集团及天音新零售等达成合作共识,未来将共同探索AI虚拟生命在智慧社区、汽车驾驶、新零售等领域的落地。同时与一汽集团达成共同探索AI虚拟生命在智慧出行的愿景,将结合AI虚拟生命技术,给用户提供更好的驾乘体验。Gowild狗尾草作为行业的佼佼者,无疑成为了国内人工智能领域的重要支柱。而此次发布的HE琥珀智能音箱无论是以一种搅局者的姿态还是变革者的姿态,都无疑是对行业进行了一次莫大的冲击,而以往诸多企业炒剩饭般的“推陈出新”都会令人感到行业的停滞不前,狗尾草的发力希望能让国内企业清醒一些。精彩资讯报道,专业视频评测,尽在聚牛科技

癫螳螂

京东首发叮咚play和叮咚mini2, “开启”智能音箱2.0时代

5月10日,京东举办了2018京东声“视”浩大京东叮咚战略暨新品发布会。会上,京东宣布,代表国内智能音箱最高技术水平的叮咚PLAY和叮咚mini2小体积家庭助手在京东首发频道正式开售。叮咚PLAY具备高清屏幕和“视觉”,为消费者提供了自然流畅的交互方式,可以轻松满足视频点播、视频沟通、购物、教学等等需求;叮咚mini2在精巧的身材内容纳了自定义唤醒词、海量内容服务、高精度语音识别等绝技,让更多消费者可以通过语音连接未来生活。在叮咚PLAY的联姻下,京东与英特尔正式宣布了智能家居技术部署和开发的战略合作,共同探索智能家居市场未来的方向。同时,京东叮咚智能音箱宣布全面战略升级,通过打造“多元化“的产品和服务,专注产品体验,叮咚一如既往地引领着中国智能音箱市场走向聚焦用户体验的2.0时代。叮咚PLAY和叮咚mini2两款新品正式首发定位为高端产品的叮咚PLAY在2018年1月的美国CES上首次亮相,作为目前代表中国智能音箱行业最高技术水平的智能音箱,叮咚PLAY在京东平台首发价定为1899元。PLAY的“技术标杆”身份在于,它不仅升级了听觉和语言的能力,增强了人机语音交互流畅度,并且加入了视觉能力,形成了多模态交互以及情景感知。PLAY的视觉认知能力包括图像识别、人脸识别、ARVR交互体验,通过对语音、图像、触摸等多种交互形态的融合,让用户体验到人与人之间的最自然的交流方式。叮咚PLAY是目前行业内配置和功能最强劲的产品,它配有8英寸触摸显示屏,搭载了英特尔凌动?处理器和图像处理器, 以此来满足产品更复杂的人工智能计算和图像处理需求,让用户交互更流畅。叮咚mini2作为智能音箱入门级产品可谓是行业内最具性价比的“良心之作”,体积小巧的mini2搭载了经典的叮咚6麦克风环形阵列语音解决方案,语音唤醒率高达96%。兼具“好听力”和“好声音”的前提下,mini2还具备个性化的自定义唤醒词功能、叮咚海量的服务和有声内容资源,值得一提的是,在mini2上还优化了TTS发音人的声音,让mini2的用户“对话”时的声音变得更加自然甜美,大大提升了用户的情感体验。性能和功能如此强大的产品,京东首发价格却只需79元。有行业人士预测,叮咚mini2有望成为2018年智能音箱行业第一个爆款产品。叮咚四宗“最”打造体验最好的智能音箱作为推出中国第一款智能音箱,并持续引领智能音箱行业技术、模式发展的叮咚,依靠海量用户交互的积累和对中国消费者的深厚理解,打造了四大核心技能,让叮咚家族的产品赢得了消费者的青睐。首先,叮咚是目前行业内在语音交互体验上最好的产品。叮咚在行业内具有最高的语音唤醒率和远场识别率,在日常家居环境下唤醒率可达96%以上。在情感交互体验上,叮咚还是目前国内唯一同时有拥有男声、女声、卡通、儿童、方言等多个发音人的产品, 并可以支持自定义唤醒词,用户可以根据喜好,给叮咚取任何自己喜欢的名字,让用户避免唤醒尴尬,交流起来更亲切。叮咚音箱还是国内拥有技能最多的智能音箱。叮咚拥有超过2000个应用和技能,覆盖购物、出行、音影、O2O服务等多个生活服务场景。以有声读物为例,叮咚上大约拥有100万册的有声书读物,相当于将北京大学图书馆的三分之一的图书都搬进了自己家。凭借叮咚对地图的了解,叮咚已经为用户规划过100万条路线,总距离超过500万公里。叮咚同时还是控制智能设备最多的智能音箱。目前叮咚可跨品牌、跨品类控制20000+款智能家家居产品,涵盖81个品牌,50+个品类、10个智能家居平台。叮咚还在国内拥有最创新和性化的体验。叮咚率先开创了国内音箱的跨界合作,与明日之子、正义联盟等娱乐IP深度合作,推出具有品牌和IP特点的定制产品并上线销售,获得粉丝们追捧和好评。叮咚还是真正的生活顾问,与消费品跨界合作,接入了母婴、美妆、宠物、健康、烹饪等上千条内容,满足用户更多场景化和个性化的需求。结盟英特尔 叮咚打造智能音频盟国京东集团董事局主席兼首席执行官刘强东明确提出了“积木理论”,将京东自身资源和能力模块化,以“整合+组合”的形式开放给合作伙伴。在积木理论的指引下,叮咚早已经成为京东实现多场景、多终端的核心智能商业战略产品,通过连接技术、内容、服务、商品等领域为京东与各合作伙伴之间带来了新的合作形态。这次智能音频盟国又迎来英特尔加入,在发布会上,京东集团副总裁,京东技术网委员会主席黎科峰博士与英特尔公司副总裁兼中国区总经理王锐博士宣布了战略合作。黎科峰博士表示,双方会继续在叮咚新品研发方面进一步合作,还将基于京东Alpha人工智能服务平台与英特尔展开更深度的合作,通过智能家居领域内的AI技术研发、芯片设计共同打造智能硬件产品的新一代人机交互技术,共同探索智能硬件、智能家居新的发展方向。抓住用户体验 智能音箱迎来 “2.0时代”2018年,无论在资本市场,还是互联网巨头眼中,智能音箱都已成为新风口,市场呈现群雄并战的局面。在教育市场和培养用户使用习惯的市场初期,行业内大部分企业采用“价格战”的方式来降低消费者的购买门槛,但如果一味的追求产品低价,缺忽略产品体验,反而会透支用户期待值,对市场长远发展非常不利。灵隆科技CEO魏强博士指出,目前消费者普遍反馈智能音箱存在远场识别差、误唤醒率高、连续对话功能不稳定和语义理解能力差、音质不好等问题,看似火爆的智能音箱行业正在面临创新能力弱、产品体验差、内容和技能不足、用户认知度低等诸多挑战。随着智能音箱市场容量的不断扩大,智能音箱产品差异化竞争也在逐渐展开,消费者对智能音箱的选择已经过了尝鲜的阶段,会更加注重产品与自身需求的契合度。魏强博士认为,智能音箱行业发展的分为3个阶段,只能实现智能音箱基本语音交互的单点产品形态将成为过去,因为它已经不能满足用户在语音操控、内容、音质、外观、价位上的多元化追求,智能音箱将过渡到产品形态多样化的体验时代,也就是2.0时代。在智能音箱2.0时代,用户会成为核心,凭借不同产品形态和全面推进深度学习,智能音箱将具备多模态的交互方式,并更加注重个性化技术和情感交互体验的提升,如在智能音箱上将出现更多定制化唤醒词、个性化语音合成、声纹+人脸识别、ARVR等个性化功能。未来,随着人工智能技术的不断进步和AI芯片化,智能音箱还会演进3.0阶段,通过更普适的产品形态,让智能音箱具备思考能力,嵌入到任何产品内。以“多元化”的产品战略 让智能音箱为用户而生在中国,叮咚最早布局智能音箱市场,通过三年的积累,叮咚已经完成298次产品迭代和功能优化,和用户之间完成15亿次交互,基于这些交互数据和用户体验的反馈,叮咚无疑是最懂中国对用户的产品。为了满足了不同用户的差异化需求,叮咚率先展开“多元化“的产品战略,通过打造高、中、低3个档位,8款不同产品,覆盖了不同人群和应用场景。如,叮咚经典款A1、小体积家庭助手TOP和mini2、个性化定制款叮咚2代、多模态交互的高端款叮咚PLAY等。随着叮咚PLAY的诞生,叮咚已经完成了全链条产品形态的布局,率先迈入了“智能音箱2.0时代”。魏强表示,叮咚利用战略单品与主力产品联合的策略打出了一组产品“组合拳“,以差异化快速抢占行业制高点,通过灵活的产品定价策略为不同用户量身“智作”最具性价比的智能音箱产品,让用户体验最大化。叮咚作为京东重要的零售基础设施,将聚焦在 “产品”、“服务”、“体验”的建设上,努力将产品做到极致、将场景体验运营到极致,告别低层次的同质化竞争,形成差异化竞争合作的新游戏规则。叮咚将智能生态的每个参与者都通过不同的积木组合高效合作,演化出无界零售的无界场景。京东集团战略与投资部副总裁凌晨凯对叮咚智能音箱做出这样的展望。

万川归之

京东首发叮咚play和叮咚mini2 “开启”智能音箱2.0时代

国际在线消息: 5月10日,京东举办了2018京东声“视”浩大京东叮咚战略暨新品发布会。会上,京东宣布,代表国内智能音箱顶级技术水平的叮咚PLAY和叮咚mini2小体积家庭助手在京东首发频道正式开售。叮咚PLAY具备高清屏幕和“视觉”,为消费者提供了自然流畅的交互方式,可以轻松满足视频点播、视频沟通、购物、教学等等需求;叮咚mini2在精巧的身材内容纳了自定义唤醒词、海量内容服务、高精度语音识别等绝技,让更多消费者可以通过语音连接未来生活。在叮咚PLAY的联姻下,京东与英特尔正式宣布了智能家居技术部署和开发的战略合作,共同探索智能家居市场未来的方向。同时,京东叮咚智能音箱宣布全面战略升级,通过打造“多元化“的产品和服务,专注产品体验,叮咚一如既往地引领着中国智能音箱市场走向聚焦用户体验的2.0时代。叮咚PLAY和叮咚mini2两款新品正式首发定位为高端产品的叮咚PLAY在2018年1月的美国CES上首次亮相,作为目前代表中国智能音箱行业最高技术水平的智能音箱,叮咚PLAY在京东平台首发价定为1899元。PLAY的“技术标杆”身份在于,它不仅升级了听觉和语言的能力,增强了人机语音交互流畅度,并且加入了视觉能力,形成了多模态交互以及情景感知。PLAY的视觉认知能力包括图像识别、人脸识别、ARVR交互体验,通过对语音、图像、触摸等多种交互形态的融合,让用户体验到人与人之间的最自然的交流方式。叮咚PLAY是目前行业内配置和功能最强劲的产品,它配有8英寸触摸显示屏,搭载了英特尔凌动处理器和图像处理器, 以此来满足产品更复杂的人工智能计算和图像处理需求,让用户交互更流畅。叮咚mini2作为智能音箱入门级产品可谓是行业内最具性价比的“良心之作”,体积小巧的mini2搭载了经典的叮咚6麦克风环形阵列语音解决方案,语音唤醒率高达96%。兼具“好听力”和“好声音”的前提下,mini2还具备个性化的自定义唤醒词功能、叮咚海量的服务和有声内容资源,值得一提的是,在mini2上还优化了TTS发音人的声音,让mini2的用户“对话”时的声音变得更加自然甜美,大大提升了用户的情感体验。性能和功能如此强大的产品,京东首发价格却只需79元。有行业人士预测,叮咚mini2有望成为2018年智能音箱行业第一个爆款产品。叮咚四宗“最”打造体验最好的智能音箱作为推出中国第一款智能音箱,并持续引领智能音箱行业技术、模式发展的叮咚,依靠海量用户交互的积累和对中国消费者的深厚理解,打造了四大核心技能,让叮咚家族的产品赢得了消费者的青睐。首先,叮咚是目前行业内在语音交互体验上最好的产品。叮咚在行业内具有最高的语音唤醒率和远场识别率,在日常家居环境下唤醒率可达96%以上。在情感交互体验上,叮咚还是目前国内唯一同时有拥有男声、女声、卡通、儿童、方言等多个发音人的产品, 并可以支持自定义唤醒词,用户可以根据喜好,给叮咚取任何自己喜欢的名字,让用户避免唤醒尴尬,交流起来更亲切。叮咚音箱还是国内拥有技能最多的智能音箱。叮咚拥有超过2000个应用和技能,覆盖购物、出行、音影、O2O服务等多个生活服务场景。以有声读物为例,叮咚上大约拥有100万册的有声书读物,相当于将北京大学图书馆的三分之一的图书都搬进了自己家。凭借叮咚对地图的了解,叮咚已经为用户规划过100万条路线,总距离超过500万公里。叮咚同时还是控制智能设备最多的智能音箱。目前叮咚可跨品牌、跨品类控制20000+款智能家家居产品,涵盖81个品牌,50+个品类、10个智能家居平台。叮咚还在国内拥有最创新和性化的体验。叮咚率先开创了国内音箱的跨界合作,与明日之子、正义联盟等娱乐IP深度合作,推出具有品牌和IP特点的定制产品并上线销售,获得粉丝们追捧和好评。叮咚还是真正的生活顾问,与消费品跨界合作,接入了母婴、美妆、宠物、健康、烹饪等上千条内容,满足用户更多场景化和个性化的需求,。结盟英特尔 叮咚打造智能音频盟国京东集团董事局主席兼首席执行官刘强东明确提出了“积木理论”,将京东自身资源和能力模块化,以“整合+组合”的形式开放给合作伙伴。在积木理论的指引下,叮咚早已经成为京东实现多场景、多终端的核心智能商业战略产品,通过连接技术、内容、服务、商品等领域为京东与各合作伙伴之间带来了新的合作形态。这次智能音频盟国又迎来英特尔加入,在发布会上,京东集团副总裁,京东技术网委员会主席黎科峰博士与英特尔公司副总裁兼中国区总经理王锐博士宣布了战略合作。黎科峰博士表示,双方会继续在叮咚新品研发方面进一步合作,还将基于京东Alpha人工智能服务平台与英特尔展开更深度的合作,通过智能家居领域内的AI技术研发、芯片设计共同打造智能硬件产品的新一代人机交互技术,共同探索智能硬件、智能家居新的发展方向。抓住用户体验 智能音箱迎来 “2.0时代“2018年,无论在资本市场,还是互联网巨头眼中,智能音箱都已成为新风口,市场呈现群雄并战的局面。在教育市场和培养用户使用习惯的市场初期,行业内大部分企业采用“价格战”的方式来降低消费者的购买门槛,但如果一味的追求产品低价,缺忽略产品体验,反而会透支用户期待值,对市场长远发展非常不利。灵隆科技CEO魏强博士指出,目前消费者普遍反馈智能音箱存在远场识别差、误唤醒率高、连续对话功能不稳定和语义理解能力差、音质不好等问题,看似火爆的智能音箱行业正在面临创新能力弱、产品体验差、内容和技能不足、用户认知度低等诸多挑战。随着智能音箱市场容量的不断扩大,智能音箱产品差异化竞争也在逐渐展开,消费者对智能音箱的选择已经过了尝鲜的阶段,会更加注重产品与自身需求的契合度。魏强博士认为,智能音箱行业发展的分为3个阶段,只能实现智能音箱基本语音交互的单点产品形态将成为过去,因为它已经不能满足用户在语音操控、内容、音质、外观、价位上的多元化追求,智能音箱将过渡到产品形态多样化的体验时代,也就是2.0时代。在智能音箱2.0时代,用户会成为核心,凭借不同产品形态和全面推进深度学习,智能音箱将具备多模态的交互方式,并更加注重个性化技术和情感交互体验的提升,如在智能音箱上将出现更多定制化唤醒词、个性化语音合成、声纹+人脸识别、ARVR等个性化功能。未来,随着人工智能技术的不断进步和AI芯片化,智能音箱还会演进3.0阶段,通过更普适的产品形态,让智能音箱具备思考能力,嵌入到任何产品内。以“多元化”的产品战略 让智能音箱为用户而生在中国,叮咚最早布局智能音箱市场,通过三年的积累,叮咚已经完成298次产品迭代和功能优化,和用户之间完成15亿次交互,基于这些交互数据和用户体验的反馈,叮咚无疑是最懂中国对用户的产品。为了满足了不同用户的差异化需求,叮咚率先展开“多元化“的产品战略,通过打造高、中、低3个档位,8款不同产品,覆盖了不同人群和应用场景。如,叮咚经典款A1、小体积家庭助手TOP和mini2、个性化定制款叮咚2代、多模态交互的高端款叮咚PLAY等。随着叮咚PLAY的诞生,叮咚已经完成了全链条产品形态的布局,率先迈入了“智能音箱2.0时代”。魏强表示,叮咚利用战略单品与主力产品联合的策略打出了一组产品“组合拳“,以差异化快速抢占行业制高点,通过灵活的产品定价策略为不同用户量身“智作”最具性价比的智能音箱产品,让用户体验最大化。叮咚作为京东重要的零售基础设施,将聚焦在 “产品”、“服务”、“体验”的建设上,努力将产品做到极致、将场景体验运营到极致,告别低层次的同质化竞争,形成差异化竞争合作的新游戏规则。叮咚将智能生态的每个参与者都通过不同的积木组合高效合作,演化出无界零售的无界场景。京东集团战略与投资部副总裁凌晨凯对叮咚智能音箱做出这样的展望。(图/文 萧山)