Author Archives: www.chinawLw.net.cn

沐鸣2注册地址_干货 | AR增强现实技术全解读

用户对现实世界感知的新技术。一般认为,AR技术的出现源于虚拟现实技术(Virtual Reality,简称VR)的发展,但二者存在明显的差别。传统VR技术给予用户一种在虚拟世界中完全沉浸的效果,是另外创造一个世界;而AR技术则把计算机带入到用户的真实世界中,通过听、看、摸、闻虚拟信息,来增强对现实世界的感知,实现了从“人去适应机器”到技术“以人为本”的转变。 AR技术原理 AR从其技术手段和表现形式上,可以明确分为大约两类,一是Vision based AR,即基于计算机视觉的AR,二是LBS basedAR,即基于地理位置信息的AR。 Vision based AR 基于计算机视觉的AR是利用计算机视觉方法建立现实世界与屏幕之间的映射关系,使我们想要绘制的图形或是3D模型可以如同依附在现实物体上一般展现在屏幕上,如何做到这一点呢?本质上来讲就是要找到现实场景中的一个依附平面,然后再将这个3维场景下的平面映射到我们2维屏幕上,然后再在这个平面上绘制你想要展现的图形,从技术实现手段上可以分为2类: 1、 Marker-Based AR 这种实现方法需要一个事先制作好的Marker(例如:绘制着一定规格形状的模板卡片或者二维码),然后把Marker放到现实中的一个位置上,相当于确定了一个现实场景中的平面,然后通过摄像头对Marker进行识别和姿态评估(Pose Estimation),并确定其位置,然后将该Marker中心为原点的坐标系称为Marker Coordinates即模板坐标系,我们要做的事情实际上是要得到一个变换从而使模板坐标系和屏幕坐标系建立映射关系,这样我们根据这个变换在屏幕上画出的图形就可以达到该图形依附在Marker上的效果,理解其原理需要一点3D射影几何的知识,从模板坐标系变换到真实的屏幕坐标系需要先旋转平移到摄像机坐标系(Camera Coordinates)然后再从摄像机坐标系映射到屏幕坐标系。 在实际的编码中,所有这些变换都是一个矩阵,在线性代数中矩阵代表一个变换,对坐标进行矩阵左乘便是一个线性变换(对于平移这种非线性变换,可以采用齐次坐标来进行矩阵运算)。公式如下: 矩阵C的学名叫摄像机内参矩阵,矩阵Tm叫摄像机外参矩阵,其中内参矩阵是需要事先进行摄像机标定得到的,而外参矩阵是未知的,需要我们根据屏幕坐标(xc ,yc)和事先定义好的Marker 坐标系以及内参矩阵来估计Tm,然后绘制图形的时候根据Tm来绘制(初始估计的Tm不够精确,还需要使用非线性最小二乘进行迭代寻优),比如使用OpenGL绘制的时候就要在GL_MODELVIEW的模式下加载Tm矩阵来进行图形显示。 2、 Marker-Less AR 基本原理与Marker based AR相同,不过它可以用任何具有足够特征点的物体(例如:书的封面)作为平面基准,而不需要事先制作特殊的模板,摆脱了模板对AR应用的束缚。它的原理是通过一系列算法(如:SURF,ORB,FERN等)对模板物体提取特征点,并记录或者学习这些特征点。当摄像头扫描周围场景,会提取周围场景的特征点并与记录的模板物体的特征点进行比对,如果扫描到的特征点和模板特征点匹配数量超过阈值,则认为扫描到该模板,然后根据对应的特征点坐标估计Tm矩阵,之后再根据Tm进行图形绘制(方法与Marker-Based AR类似)。 LBS-Based AR 其基本原理是通过GPS获取用户的地理位置,然后从某些数据源(比如wiki,google)等处获取该位置附近物体(如周围的餐馆,银行,学校等)的POI信息,再通过移动设备的电子指南针和加速度传感器获取用户手持设备的方向和倾斜角度,通过这些信息建立目标物体在现实场景中的平面基准(相当于marker),之后坐标变换显示等的原理与Marker-Based AR类似。 这种AR技术利用设备的GPS功能及传感器来实现,摆脱了应用对Marker的依赖,用户体验方面要比Marker-Based AR更好,而且由于不用实时识别Marker姿态和计算特征点,性能方面也好于Marker-Based AR和Marker-Less AR,因此对比Marker-Based AR和Marker-Less AR,LBS-Based AR可以更好的应用到移动设备上。 … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2注册开户_干货 | 深度解度投影显示技术

在投影机没有出现之前,我们都以幻灯机为主。其实现在的投影机也是特殊形式的幻灯机,有学者研究表明,投影机、动画、电影的发展是分不开的。 最早利用的光影技术始于十七世纪一个名为阿塔纳斯珂雪耶稣会教士发明的“魔术幻灯”,后来已经变成玩具,而它的现代名字叫投影机。最初,这种技术主要用在娱乐上,利用光与影的原理将故事放在一个屏幕上讲,有点类似于唐朝的皮影戏。但是,后来随着光影技术的发展,投影机与电影、动画分离出来。 投影机始祖——CRT投影技术 CRT投影机的历史可以追溯到上世纪50年代,当时主要应用在商务飞机上,进行录像带的播放。到了80年代,个人电脑的迅速发展,使得文本和数据展示的市场需求越来越大,促使了CRT投影技术的长足发展。投影技术的应用领域开始渗透到会议室、教师和剧院等。80年代中后期,随着计算机工作站和图形处理软件的广泛应用,也就相应地产生了能投影高分辨率图形和动画的图形投影机。1989年第一台LCD投影机面世,结束了投影机市场上只有CRT一种技术的局面。1994年,家用投影市场萌芽,CRT投影机相对于当时的LCD投影机技术更成熟,因此开始进入高端家庭影院。但在1996年3LCD技术推出、第一款DLP投影机横空出世,CRT投影技术便开始走下坡路,并迅速淡出人们的视线。 LCD投影技术 说到LCD投影技术,就必定要说到爱普生。作为液晶投影机核心的液晶芯片是整个投影系统的心脏。爱普生在液晶投影机的发展历史中最重要的贡献之一就是研制成功了世界上第一块LCD投影板芯片,并于1989年制造出世界上第一台LCD投影机VJP-2000,由此开创了LCD投影机的新时代。 经由技术和产品的不断进步,液晶投影在全球数字投影机技术中的领头羊位置也保持到了今天。和后起之秀DLP和LCOS技术先比,LCD的市场份额高达55%以上。 液晶投影技术的分类 在液晶投影机的技术演进过程中,其技术种类也出现过分化。除了现在占据绝对主流的三片式高温多晶硅液晶板(HTPS)技术外,还出现过单片式的技术、液晶光阀投影机等。 单片液晶投影机的工作原理如图: 单片式液晶投影机以普通的小屏幕液晶显示器用面板为显示核心芯片,配以必要的其他设备组成完整的工作光路,通过镜头系统提供大尺寸的现实画面,为用户展示具有震撼力的影像效果。在光路上,这种产品受制于芯片面积过大的影响体积难以缩小,光路的总光效利用率也很低,内部的光学、机械部件的工艺结构精确在0.1mm。主要光学部件的选择时,比如投影灯泡、反光碗、反光镜、投影镜头、聚焦镜、菲涅尔镜等,拥有着成熟的产业链,能够提供良好的产品体验。 液晶光阀投影机是一种历史上出现的技术形态。它本质上是利用液晶的光学开关作用改进CRT投影机的成像效果的产物。 液晶光阀投影机采用CRT管和液晶光阀作为成像器件。是为了CRT投影机解决图像分辨率与亮度间的矛盾而生的产品。一般的光阀主要由三部分组成:光电转换器、镜子、光调制器,它是一种可控开关。通过CRT输出的光信号照射到光电转换器上,将光信号转换为持续变化的电信号,外光源产生一束强光,投射到液晶光阀上,由内部的镜子反射,通过光调制器,偏振滤光片的处理令光阀投射光线与CRT信号相复合,投射到屏幕上形成画面。 3LCD投影技术 3LCD投影技术和液晶投影机的主流技术。其市场份额占据液晶投影机市场的绝大部分,已经成为行业内的事实性标准。 3片液晶显示投影机的光路原理,由高亮度、高色温金属卤化物灯(UHE)发出的光经抛物线型灯碗反射形成平行光线,射人第一透镜阵列(单元聚光透镜组),经第二透镜阵列(偏振光转换透镜组)提高偏振光的利用率,再经过分光光路,形成三原色三束光线,分别射人R,G,B三个液晶板,然后由一体化棱镜汇聚3色光,投影镜头将3色合成图像投影在屏幕上。 在这一投影过程中,各种光学器件和液晶面板芯片、灯泡光源各自起着各自的作用。其中光源普遍采用金属卤素灯、UHP(Ultra-High Performance,超高性能)灯和UHE灯。金屑卤素灯成本低、价格便宜,缺陷是发热量很大、半衰期很短。半衰期是指灯的亮度下降到设计亮度一半时所用的时间。为克服金属卤素灯发热量大、半衰期短的缺陷,冷光源应运而生,出现了UHP,UHE金属卤化物灯。UHP,UHE灯比起金属卤素灯发热量小得多。此外包括激光光源、LED无机发光二极管等新型光源也成为了各家企业开发新技术的焦点对象。 除了光源外,一系列的光学器件的作用也不容小视。投影过程需要的是面状的均匀平行三原色线偏振光源。而普通灯泡发出的光线则是白色的球形圆偏振光。通过一系列透镜、楞镜和滤光镜的调整,灯泡的发出的光才能成为满足投影机投影需要的光源。 在液晶投影机的成像过程中,处于核心地位的是液晶面板芯片。在实际工作中,液晶面板芯片起着光学开关的作用。芯片上每一个独立的有源矩阵控制下的像素点能够独立变化,进而控制投射过液晶半的这一点的光线的多少。通过三块液晶板对三元的分别控制,并经过最后的画面合成,就可以成为色彩丰富、明暗变化的彩色投影画面。在经过镜头的放大投射在屏幕上,消费者就可以欣赏到如同电影一般的出色大尺寸影像了。 LCD投影技术的芯片 液晶芯片是液晶投影机最核心的部件,。它不仅是液晶投影机重要的成本构成要素,同时更是决定着整台产品的品质性能和寿命的重要组件。 LCD是Liquid Crystal Display(液晶显示)的缩写。液晶既有液体的流动性,又有晶体的光学各向异性,常称为“液态晶体”。液晶材料工作温度为一55一十77℃。液晶分子间作用力小,在电场作用下,分子排列变化,导致液晶对光的透射率和反射率变化,称为液晶的电光效应。在液晶显示技术中,正式利用这种特殊的物质性质,将液晶材料做成可以控制光线进出的开关,进而达到成像效果的。 液晶显示板是在两玻璃基片之间充入液晶材料,并在玻璃基片表面贴线偏振片、扫描电路、薄膜晶体管(TFT)等构成的。当某一象素的行电极加上扫描电压,薄膜晶体管(TFT)导通,该液晶象素透光。玻璃基片之间的液晶单元构成一个个光开关,控制着透过液晶的光线的多少,显示出色彩明暗的变化。 在实际的产品开发中,投影机用到的液晶面板芯片要经受住背后的灯泡发出的巨大能量(主要是热量)的考验。这就决定了液晶投影机用的液晶和普通液晶显示器、液晶电视机应用的液晶,拥有着必然的区别。目前,液晶投影机采用的主要是被称为“高温多晶硅液晶板(HTPS)”的技术。 HTPS是High Temperature Poly-Silicon的缩写,翻译成中文是“高温多晶矽”的意思,一般俗称高温玻璃。它是液晶显示家族中的一支,也属于主动点矩阵(TFT)式LCD(Active Matrix LCD)。 HTPS液晶芯片最大的特性在于持续高温工作的稳定性,这位投影机产品提高整机寿命、提升产品亮度提供了基础技术平台。同时,这一技术的产品还具有色彩还原准确、视觉感舒适的等特点。目前,该技术已经成为了全球数字投影领域最重要的组成技术。 LCD投影技术的发展瓶颈和进步 作为液晶投影技术的核心,LCD芯片的进步一直是液晶投影产业发展的风向标。 在早期的LCD液晶投影机中,寿命、亮度和体积问题成为了制约产品进步的主要问题。由于液晶投影机的核心材料是高分子的液晶材料,其在高温下的老化作用很明显。同时作为液晶面板基板的玻璃,也可能由于长时间的高分烘烤而发生光学性能的变异。这两点导致,在早期的液晶投影机,特别是上世纪的时候芯片寿命不足5000小时,这使得消费者的实际使用成本大幅增加。 早期的液晶投影机产品中,液晶芯片如何实现更加精细的TFT薄膜晶体管及其控制电路成为了液晶投影芯片小型化、高开口率化的最大难题。采用三片式设计的整个光机系统,如果不能实现芯片体积的缩小,整个产品的小型化无从谈起。而一旦芯片变小,片上控制电路组件如果不能大幅简化和缩小,则导致整个芯片可用于光学开关的面积占芯片整体的比例(开口率)的下降,进而造成光利用率的下降和亮度的降低。 此外,液晶显示的另一个特性是画面的拖尾和黑色画面的黑位欠缺。液晶分子受电磁场影响的偏转需要一定的时间,同时也具有滞后性,这导致了液晶显示产品画面的拖尾现象的出现。采用透射光路的液晶投影芯片,很难做大100%阻断光线的透过,因此产生了黑色画面不够黑的现象,整体画面的对比度和暗部细节展示受到了很大的影响。 近年来随着液晶投影机技术的不断发展,以上问题已经得到了很好的克服。在液晶投影机芯片技术的进步中,追求小尺寸、高开口率、高寿命、更高的灰阶控制精度位数以及更高的画面刷新频率是最主要的内容。目前最先进的芯片能够实现,一英寸以下的1080p像素、超过50%的开口率、12位以上的精细控制以及120HZ的超高速刷新速率。这些方面的巨大进步,令LCD液晶投影机已经进步一个崭新的发展阶段。 DLP投影技术 … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2平台直属_百度“声音克隆”:一个半小时就可复制你的声音

日前百度发布了一篇新论文介绍了自己在语音生成方面的最近进展。之前的 Deep Voice 系统已经可以生成高质量的语音,而现在,百度新开发的语音生成系统不仅可以把说话声音从固定的一种增加到了上千种,得以模仿数千个不同说话者的声音,而且每个说话者只需要不到一个半小时的训练数据。 这种惊人表现背后的技术理念就是从不同说话者中独立学习共通的和差异性的信息。而且在此基础上,百度的研究人员们打算更进一步,尝试只从几秒长度的短句中学习说话者的声音特点。通常我们把这类问题称为「语音克隆」。在人际交互接口的个性化订制场景中,研究者们预期语音克隆很可能会有重要作用。 为了解决语音克隆问题,在这项研究中百度的研究人员们把注意力主要放在了两种基础方法上:讲话人适配(speaker adaptation)和讲话人编码(speaker encoding),具体细节可参考上图。两种方法都可以用在带有讲话人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf )的多讲话人语音生成模型中,同时还不降低生成的语音的质量。在生成语音的自然性和相比原讲话人的相似性方面,两种方法也都只需要很少的克隆样本就可以展现良好的表现。 讲话人适配方法是使用数个克隆样本,通过基于反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。适配方法可以作用于整个模型,或者只作用于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要少得多,尽管需要更长的克隆时间,生成的语音的质量也要稍差一些。 讲话人编码方法中需要训练一个单独的模型,用它直接从要克隆的语音样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在多讲话人语音生成模型中。这个讲话人编码模型中带有时域和频域的处理模块,可以从每个音频样本中提取得到关于讲话人身份的信息,然后用注意力模块把这些信息以最优方式结合起来。讲话人编码方法的好处包括克隆速度快(只需要几秒时间)、表征每个讲话人需要的参数数目少,使得这种方法更适用于在资源有限的环境中使用。 除了在研究中准确估测讲话人嵌入外,百度的研究人员们还发现讲话人编码器可以学会有意义地把不同的讲话人映射到嵌入空间中。比如,来自不同地域、性别、口音的讲话人可以被分别聚类。通过在学到的隐含空间中进行操作,就可以把某个说话者的性别或者口音转换成图中的样子。根据研究员们的测试结果表明,对于为新的讲话人生成语音以及模仿讲话人的声音特点,他们所提的方法非常有效。 AAAI 主席 Subbarao Kambhampati 也饶有兴趣地转发了百度介绍这项成果的技术博客,希望这个技术抓紧实用起来,只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花时间讲睡前故事了,有声读书器就可以用爸爸妈妈的声音讲故事。

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2注册地址_eSIM带来行业变革 消费电子领域将迈出重要一步 如何保障技术安全

近日,缘于中国联通和苹果公司在国内发布了首款eSIM可穿戴终端,一时间eSIM(embedded SIM)得到了国内消费者的广泛关注,这也是eSIM技术诞生后,在消费电子领域迈出的重要一步。 不仅在消费电子领域,eSIM未来还有望将在物联网领域大有可为。但是,空中写卡(OTA)的技术为eSIM发展提供了便利条件,也为其带来了安全隐患。 为了解eSIM的连接能力与安全防护能力,通信世界全媒体记者采访了上海果通科技(roam2free)首席安全官吴俊,吴俊详细讲解了安全问题对于eSIM行业发展的重要性。 eSIM带来行业变革 eSIM最早的定义是嵌入式eSIM卡,但是随着业界对eSIM的理解不同,出现了多种版本的eSIM方案,目前公认的是eSIM支持空中写卡(OTA)。eSIM行业兴起不久,如今处在全面创新爆发的时期,而果通在eSIM发展初始阶段便开始了相关研究,如今已经发布了多种eSIM解决方案。 “以前运营商通过SIM卡给客户提供服务,而在eSIM时代,无论是物联网领域还是消费电子领域,硬件设备需要设备商自行采购,设备商向运营商采购服务而不是采购SIM卡实体,因此如何实现设备商和运营商的对接,使设备更好地接入运营商网络是果通在做的事情。”吴俊介绍了果通科技的战略初衷。 设备商只采购eSIM设备,但是业内存在众多eSIM解决方案,而且设备商还要与众多运营商网络对接,包括海外运营商。加之运营商并不了解众多设备厂商的产品特性,而果通可以提供连接使能服务,帮助运营商和设备商更好地对接。 与恩智浦联合发布最小eSIM芯片 果通并不提供硬件,在软件方面,果通主要和恩智浦合作。在今年2月份的MWC巴塞展上,NXP(恩智浦半导体)与果通联合举办了以物联网安全与连接为主题的发布会,会上展示了全新的eSE& eSIM 融合芯片解决方案,并推出集成度最高的“一体式”芯片组SN100U,以及世界上体积最小的安全原件单片芯片SU070。两款芯片均包含eSIM功能,果通科技为其提供eSIM软件及连接功能。 关于此次合作,吴俊表示,此次合作果通帮助恩智浦两款芯片实现了eSIM功能,果通与恩智浦的合作使得eSIM更加安全。恩智浦是芯片提供商,其芯片主要应用在安全要求等级很高的领域如信用卡等,其安全级别一般为EAL6+,而SIM卡的安全级别一般是EAL4+。果通在eSIM安全方面也做得十分出色,所以二者的合作可以使eSIM在较高的安全级别上工作。 果通让连接更安全 为何果通如此重视安全问题?因为,安全是未来实现大连接的重要保障。 吴俊表示,如果未来物联网时代eSIM上传的数据被攻击,产生的后果是无法想象的。eSIM被攻击的情况主要有三种,第一种是硬件攻击,即对方拿到了芯片,这种情况对防护等级要求最高,需要EAL6+级别的安全保障;第二种是软件攻击,远程窃取芯片上传的数据,这种要求EAL4+级别的安全保障;第三种是用户自己破解,这种情况下,可以通过将芯片绑定设备,从而保证芯片数据的安全。针对不同的攻击方式,果通有不同的安全解决方案从而提供高等级的安全防护。 例如,黑客在云端通过连接平台去窃取数据,在这种情况下果通可以提供安全的连接服务,将所有发送数据进行加密,这样即使黑客窃取到的也是加密数据,充分保障了安全性。所以果通致力于“让连接更安全”。即不仅提供连接,更提高连接的安全性。 关于此次中国联通开放eSIM一号双终端试点,吴俊表示,这对eSIM产业起到了极大地鼓舞作用。消费电子一直是各方认为的eSIM较好实现的突破场景,至于手机终端普及eSIM,可能还有很长的路要走。中国联通对eSIM的态度比较积极,很早就开始与苹果之间的调试,如今公布上市,为未来可穿戴设备的发展提供了良好的借鉴。 在物联网领域,eSIM可以帮助减小终端尺寸,提高模组抵抗极端条件的能力,实现更加全面的大连接。因此未来果通还将全面推动eSIM在物联网领域的普及。 eSIM在国内方兴未艾,物联网市场尚未大规模爆发,因此在二者的结合方面,还有很多工作要做。

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2平台直属_听音的立体感是如何形成的?

1 立体声的概念  立体是一种几何概念,是指在三维空间中占有位置的事物。那么声音也是立体的吗?从类比上来说,回答可以是肯定的。因为声源有确凿的空间位置,声音有确凿的方位来源,人们的听觉有辨别声源方位的能力;尤其是当有多个声源同时发声时,人们可以凭听觉感知声群在空间的分布状况。因此可以说声音是“立体”的。不过,更妥当的说法应该是:“原发声是立体的。”因为当声音经过记录、放大等处理过程而后重放时,所有的声音都可能从一个扬声器中放出来,这种重放声就不是立体的了。这时由于各种声音都从同一个扬声器中发出,原来的空间感–特别是声群的空间分布感–也就消失了。这种重放声叫做“单声(Mono).如果重放系统能够在一定程度上恢复原发声的空间感,那么这种重放声就叫“立体声”(Stereo)。由于原发声不言而喻是“立体”的,所以,立体声一词特指那种有某种空间感(或方位感)的重放声。 2 双耳效应 为了在重放声中恢复空间感,首先要了解人类的听觉系统为什么有辨别声源方位的能力。研究发现,这主要是因为人们有两只耳朵而不仅仅是一只耳朵的缘故。 耳朵生长在头颅的两侧,它们不仅在空间上有距离,而且受头颅阻隔,因此两耳接收到的声音可能会有种种差异。正是主要根据这些差异,使人们得以区分声源在空间的位置。这些差异主要有如下几种: (1)声音到达两耳的时间差 由于左右两耳之间有一定距离,因此险了正前方和正后方来的声音之外,由其他方向来的声音到达两耳的时间就有先后,从而造成时差。如果声源偏右,则声音必先到达右耳而后左耳;反之,则必先到达左耳而后右耳。声源越是偏向一侧,则时差也越大。实验证明,如果人为地造成两耳听音的时差,就可以产生声源偏向的幻觉。当时差到达0.6ms左右时,就感到声音完全来自某一侧了。 (2)声音到达两耳的声级差 两耳相距虽然不远,但由于头颅对声音的阻隔作用,声音到达两耳的声级就可能不同。靠近声源一侧的声级较大,而另外一侧较小。实验证明,最大声级差可达25dB左右。 (3)声音到达两耳的相位差 大家知道声音以波的形式传播,而声波在空间不同位置上的相位是不同的(除非刚好相距一个波长)。由于两耳在空间上有距离,所以声波到达两耳时的相位就可能有差别。耳朵内的鼓膜是随声波而振动的,这个振动的相位差也就成为我们判断声源方位的一个因素。实验证明,即使声音到达两耳时的声级、时间都相同,只改变都相同,只改变其相位,我们也会感到声源方位有很大差异。 (4)声音到达两耳时的音色差      声波如果从右侧的某个方向上来,则要绕过头部的某些部分才能到达左耳。已知波的绕射能力同波长与障碍物尺度之间的比例有关,人头的直径约为20cm,相当于1,700Hz声波在空气中的波长,所以人头对千余赫兹以上的声音分量有掩蔽作用。也就是说,同一个声音中的各个分量绕过头部的能力各不相同,频率越高的分量衰减越大。于是左耳听到的音色同右耳听到的音色就有差异。只要声音不是从正方向上来,两耳听到的音色就会不同,从而成为人们判别声源方位的一种依据。 (5)直达声和边疆反射声群所产生的差别 由声源发出来的声音,除直接到达我们双耳的直达声之外,还会经周围障碍物一次或多次反射而形成反射声群,陆续到达人们的双耳。因此直接声和反射声群的差别,也就会提供声源在空间分布的信息。 (6)由耳廓造成的差别 耳廓是向前的,显然能使人们区分前后。另一方面,耳廓的形状十分微妙,不同方位上来的声音会在其中发生复杂的效应,肯定也会提供一定的方位信息。 实践证明,以上种种差别,以声级差、时间差、相位差三种对听觉定位的影响最大。但是,在不同条件下它们的作用也不相同。一般地说,在声频的低、中频段,相位差的作用较大;中、高频段以声级差的作用为主。对于猝发声,则时间差的作用特别显著。而在垂直定位方面,耳廓的作用更为重要。实际上双耳效应是综合性的,人们的听觉系统理应是根据综合的效应来判决声源的方位。 顺便指出,人们的听觉系统除了有响度、音色、方位等感觉之外,还有其他许多效应。其中有一个同我们今后的讲座有密切关系的疚,叫做“优先效应”(又称“哈斯效应”)。由实验得知,当两个相同的声音,其中一个经过延时,先后到达人们的双耳时,如果延时时间在30ms之内,则人们将感觉不到延民主迟声的存在,仅能觉察到音色和响度的变化。但如果延时太长,情况将有所不同。大家已经知道,当两个先后到达的声音时差超过50ms-60ms时(相当于声程差大于17m),听音者就能感到。

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2平台首页_脸部辨别新技术,中美团队研究红外线“变脸”

随着人工智能(AI)技术持续进步,图像辨识系统已经广泛的在生活中存在.一些设备也开始运用了脸部辨识技术来进行身份认证,但这项技术的安全性真的是无懈可击吗? 正如同先前迷幻贴纸、棉花田演唱会图片的研究,研究人员正试图透过测试任何潜在的黑客手段,让图像辨识技术能够更加安全,而来自中美两国研究团队近日则在arXiv平台上公布了一篇论文,详细介绍了他们发现如何欺骗“脸部辨识”应用的细节。 帽子中放置的红外线LED(Source:ZheZhou) 其实团队的概念非常简单,要欺骗脸部辨识应用,最直接的就是为受辨识者“替换”一张脸。为了达成这一点,团队先是运用深度神经网络解读一些人物脸部图像,再透过棒球帽中连接的微型红外线LED,将解读过的人脸图像运用无数个红外线光点投射到受辨识者脸上,进而达成掩盖身份的效果。 而当然,由于投射的是其他人的脸孔,只要概念成功,在以脸部辨识系统做为身份认证的前提下,让受辨识者冒充他人身份也是可以做到的。 为了检验这项理论,研究团队选择了4张随机照片尝试欺骗脸部辨识软件,其中也包含了美国音乐人魔比(Moby)的照片。研究人员在实验中发现,只要受辨识者与投射脸孔来源长相有些微的相似,这个欺骗脸部辨识系统的成功率约可达到70%。 下方第一列数字指的是受辨识者与投射脸孔来源对象的距离,第二列则是理论上应用后的差距,第三列则是实际差距。(Source:ZheZhou) 由于红外线(Infrared)是一种非可见光,人们单凭肉眼并无法察觉,同时贴在帽沿内侧的LED体积也非常小,甚至也可以藏在其他穿戴物中使用,即使有着人类保全也很难察觉系统被欺骗的情况,这让被利用的可能性又更加提升。 当然必须提及的是,这只是一个小型研究还未经过同行评审,因此可能存在一些争议,但基于这些研究结果和测试,团队认为以身份认证或监控关键场景的需求来说,现今的脸部辨识技术距离安全可靠还有很长一段距离。

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2注册地址_语音识别建模的发展脉络 论声学建模与语言建模的重要性

语音识别建模对语音识别来说是不可或缺的一部分,因为不同的建模技术通常意味着不同的识别性能,所以这是各个语音识别团队重点优化的方向。也正是因为如此,语音识别的模型也层出不穷,其中语言模型包括了N-gram、RNNLM等,在声学模型里面又涵盖了HMM、DNN、RNN等模型… 简单来说,声学模型的任务就是描述语音的物理变化规律,而语言模型则表达了自然语言包含的语言学知识。本文由搜狗语音交互中心语音技术部负责人陈伟来为大家分享伴随着本轮人工智能浪潮下语音识别建模技术的演进,希望能够帮大家理清主流的识别建模脉络以及背后的思考。 搜狗知音引擎是搜狗公司自主研发的一项专注于自然交互的智能语音技术,该技术集合了语音识别、语义理解、语音交互、以及提供服务等多项功能,不仅能听会说,还能理解会思考,本文将结合知音引擎中语音识别建模技术的使用来为大家讲解。   图1 搜狗智音引擎 基础概念 1语音帧 考虑到语音的短时平稳特性,语音信号在前端信号处理时要进行加窗分帧的操作,识别特征都按帧来提取,具体请见图2。(编者注:分帧后的语音信号逐帧提取语音特征用于声学模型建模。 图2 语音帧的划分 2语音识别系统 语音信号经过前端信号处理、端点检测等处理后,逐帧提取语音特征,传统的特征类型包括MFCC、PLP、FBANK等特征,提取好的特征送至解码器,在声学模型、语言模型以及发音词典的共同指导下,找到最为匹配的词序列作为识别结果输出,整体流程请见图3。识别的公式如图4所示,可见声学模型主要描述发音模型下特征的似然概率;语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换,其中声学模型建模单元一般选择三音素模型,以“搜狗语音为例”: sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil 图3 语音识别系统流程 图4 语音识别原理 需要注意的是,输入特征矢量X代表语音的特征。 主流声学建模技术 近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化,整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化,如图5所示: 图5 声学建模演进总结 其中,深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程,由此带来的影响是建模单元逐步从状态、三音素模型向音节、字等较大单元演进,模型结构从经典的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)转变,演进的中间态是DNN-HMM的混合模型结构。 1HMM HMM最早创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。 详细来看,经典的HMM建模框架如下所示: 图6 HMM建模框架 其中,输出概率使用高斯混合模型GMM建模,如下: 2DNN-HMM 2012年,微软邓力和俞栋老师将前馈神经网络FFDNN (Feed … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2平台主管_房间太小玩不了 VR?空间压缩技术了解一下

今年已经 2018 年了,虚拟现实(VR)仍没有像我们期待的那样繁荣起来,不过这事儿这也不能全怪 VR 技术不成熟,很多显示原因也得背锅,比如房价。 不管商用还是自用,想要有所谓「走进虚拟世界」的沉浸感和自由体验,房间面积没个上百平基本没戏,在虚拟世界里走两步就出现边界提示,或者干脆一脚踢到墙角,是现在 VR 体验的日常。 虽然像 The Void 这样的 VR 主题公园,可以通过面积巨大的场地在现实世界 1:1 呈现虚拟空间,体验据说棒到炸裂,但前期投入和之后的维护成本也同样高到炸裂,2016 年盛大投资 The Void 的时候就扬言要在中国建 VR 主题公园,然后就没有然后了,或许跟国内地价成本不无关系。 不过,没房有没房的玩法,KAT WALK 之类的原地行走设备应运而生。 或者在 VR 内容设计时妥协,通过「瞬间传送」之类不自然的方式实现虚拟空间中的移动,有的干脆通过场景限制玩家的移动范围。 ——结果,我们有了各种大空间位置跟踪技术,但我们没有大空间。 深圳的一家初创公司位形空间(ConfigReality)正试着从算法角度解决这个问题,他们的技术能够让用户在现实空间有限的情况下,于虚拟现实中进行几乎不受限制的自由行走,完全不会感受到物理边界的存在——就像把无限的虚拟空间压缩到了现实中的一间房间之中。 这一技术利用的是人类的认知和运动规律,说白了,就是通过视觉误差欺骗大脑。 人在失去视觉参考物时,是走不了直线的,闭眼原地踏步一分钟,睁开眼往往会发现偏离原始位置一定距离,位置和朝向都会有所偏转。而当 VR 头显完全接管人的视觉时,这种无意识的误差就可以被针对性的引导和利用。 位形空间根据这一规律下的人类认知数据建立了一整套基于视觉的移动引导的系统,通过技术授权和 SDK 的方式输出给内容开发者。 位形空间的事业发展负责人彭俊熙告诉深圳湾,「我们希望通过这样的空间压缩解决方案,给虚拟体验内容的设计者更大的设计自由度。」 「这套算法理论上可以允许设计者使用可用的有限实际空间作为一个空间单元,设计出无限倍大小的虚拟空间,并且每个空间都是体验者可以通过实际行走到达的,而不需要借助额外的移动手段。设计师的限制,不再是实际场地限制,而是转化为故事线、体验时长、世界观这样内容设计层面的问题,更加回归虚拟内容创作的本质。」 据彭俊熙介绍,这一算法主要通过三种方式来引导用户的运动,一是改变转弯角度,即用户转弯时在视角旋转角度和真实旋转角度之间做手脚;二是改变移动距离,即对虚拟和现实中的行进速度进行调整;三是通过细微的视角偏转,将虚拟场景中的直线移动变为现实中的曲线移动。 … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

沐鸣2娱乐代理_干货 | 一文带你了解什么是POE有源以太网供电

一个典型的以太网供电系统,在配线柜里保留以太网交换机设备,用一个带电源供电集线器(Midspan HUB)给局域网的双绞线提供电源。在双绞线的末端,该电源用来驱动电话、无线接入点、相机和其他设备。为避免断电,可以选用一个UPS。 可通过网线为无线AP、网路摄像头、网路电话机、掌上电脑等PoE终端设备供电,传送距离可达100m,安装简单,即插即用。非常适合无线城市、安防监控等行业使用。 一、什么是POE 1、POE的由来 2003年6月,IEEE批准了802.3af标准,该标准是基于以太网供电系统POE的新标准,它在IEEE 802.3的基础上增加了通过网线直接供电的相关标准,是现有以太网标准的扩展,也是第一个关于电源分配的国际标准。它明确规定了远程系统中的电力检测和控制事项,并对路由器、交换机和集线器通过以太网电缆向IP电话、安全系统以及无线LAN接入点等设备供电的方式进行了规定。 POE(Power Over Ethernet)是有源以太网供电的简称,指的是在现有的以太网Cat.5布线基础架构不作任何改动的情况下,在为一些基于IP的终端(如IP电话机、无线局域网接入点AP、网络摄像机等)传输数据信号的同时,还能为此类设备提供直流供电的技术。POE技术能在确保现有结构化布线安全的同时保证现有网络的正常运作,最大限度地降低成本。 2、POE供电标准 看要一台PoE交换机能同时给多少摄像头供电,要考虑两个方面:PoE交换机的供电标准和PoE交换机的总供电功率。 PoE交换机的供电功率可以理解为PoE交换机的单端口供电功率。 市场上流行的PoE交换机有两种标准,IEEE802.3af和IEEE802.3at。IEEE802.3af标准定义了供电功率为15.4W,IEEE802.3at标准定义了供电功率可达30W,由于供电标准不同其单端口供电功率也不同。比如摄像头功率为9W,使用af标准的PoE交换机即可;若摄像头功率为20W,需使用at标准的PoE交换机;若摄像头功率为30W以上,就需要使用专用PoE供电模块供电了。 802.3af标准: 供电电压:44-57V 供电电流:10~350mA 最大供电功率:15.4W 最大受电功率:12.95W 802.3at标准: 供电电压:50-57V 供电电流:10~600mA 最大供电功率:30W 最大受电功率:25.5W 一般来说,一个同时支持af和at供电标准的PoE交换机,它的供电功率是自适应的。比如,它连接的是5W的设备,那么提供5W的电力;如果连接的是20W的设备,那么就提供20W的电力。 af和at标准能通用吗? at是向下兼容af的。也就是说,如果你的交换机支持at标准,最大可供30W电,那他完全可以给支持af标准的需要7W的摄像机供电的。 但是如果摄像机支持at,需要20W的电,只支持af的交换机就无法正常向这个摄像机供电啦。 3、POE的供电过程 1)检测 供电前,供电方会输出一个很小的电压来检测受电设备是否支持PoE,如果不支持,则不供电;如果支持,进行下一步。 2)分类 确定受电方支持PoE后,供电方会进行进一步检测,确定受电方需要的功率,进行对受电方的分类。 3)开始供电 4、POE交换机的总功率 PoE交换机的总功率是一个非常重要的指标,直接关系到可以带多少摄像头。以电源功率是400W的、24端口的PoE交换机来说,除去损耗后PoE交换机总功率大概为370W。 在IEEE802.3af标准下,它能够供满24个端口(370/15.4=24),即可以同时给24个摄像头供电,也就是满载供电。但如果是按照IEEE802.3at标准的单口最大供电功率30W计算,同时最多就只能给12个端口供电了(370/30=12)。 实际使用中,很多普通网络摄像头的最大功耗较低,基本不超过15W,如果这时每个PoE端口按照最大功率(比如30W)去预留供电功率的话,就会出现有的端口PoE功率用不完,而有的端口却分不到功率的情况。比如,有些PoE交换机均支持动态功率分配,可以避免这种情况。在选购PoE交换机时,要看交换机是否支持动态功率分配,这样每个端口只分配实际使用的功率,这样就能更高效地利用PoE交换机的供电功率。 5、POE的技术优势 1)简化布线,节约成本 … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment

杏耀注册登录网_“奔驰失控”事件真假难辨 汽车定速巡航技术到底是个什么鬼?

就在前几天,汽车圈发生了一件大事,那就是“奔驰的定速巡航失控啦”!3月14日晚间,在河南通往陕西的连霍高速上,一辆奔驰C200L定速巡航突然失控,号称业余赛车手的车主以120公里/小时的速度行驶约1小时,上演了一场“中国版生死时速”。该报道还表示,通过奔驰“后台介入”,最终该车刹车功能恢复,从而得以脱险。 然而,事发至今,该事件中的部分细节同时也遭到了行业内外的多方质疑,具体网上的报道已经铺天盖地。关于此事件我们不作过多讨论,我们今天主要说一说汽车的定速巡航到底是怎么一回事。 汽车巡航控制系统,简称CCS,根据其特点一般又称为“巡航行驶装置”、“速度控制系统”、“自动驾驶系统”等。汽车巡航控制系统(CCS)就是可使汽车工作在发动机有利转速范围内,减轻驾驶员的驾驶操纵劳动强度,提高行驶舒适性的汽车自动行驶装置。汽车在行驶中通过操纵调整开关,驾驶员不必踩踏油门调整车速,汽车也能以设定的车速进行定速行驶。 汽车定速巡航系统主要功能 基本功能 1、车速设定功能 当车辆在高速公路上行驶时,如果路面质量好,没有人流、分道行车,无逆向行车,适宜以较长时间稳定运行时,驾驶员可通过巡航系统设定一个稳定行驶的车速,使其不用控制节气门和换挡,汽车就能一直以这一车速稳定行驶。 2、恢复功能 当司机处理好情况后,根据路面车流情况在判断出又可稳定运行后,可使汽车自动按着上一次设定的车速恒速行驶,驾驶员也可重新设定巡航车速。 3、取消功能 当踩下制动踏板或者按下“取消”键时,则立即退出巡航状态。但是,如果其行驶速度大于最小设定车速,则退出之前设置的速度继续保存,供巡航控制系统随时调用。 4、加速、减速功能 车辆处于巡航行驶状态时,可对设定车速进行加速和减速的操作,从而改变其巡航车速。 故障保险功能 低速自动消除功能 当车速低于低速极限(一般为40km/h)时,巡航控制不起作用,存储的车速消失,并不能再恢复此速度。 关开关消除功能 除了踩制动踏板有消除功能外,当按住车制动开关、离合器控制开关或者变速器挡位开关时,巡航车辆都将自动地消除巡航控制功能。 汽车定速巡航系统优点 提高汽车行驶的稳定性、安全性和舒适性 巡航控制系统保证了汽车无论是在上坡、下坡、平路上行驶,或是在风速变化的情况下行驶,只要在发动机功率允许的范围内,速度都可保持不变。特别是在郊外或者高速公路上行驶时,这种优越性更为显著。由于驾驶员无需踩踏加速踏板,尤其是装有自动变速器的汽车,因不需使用离合器,只需手握方向盘就可轻松驾驶,将驾驶员的右脚解放出来了,大大减轻了驾驶员的疲劳强度,使整个驾驶过程变得简便、轻松和舒适,降低了交通事故发生的几率、提高了行车的安全性。 减少磨损,延长寿命 汽车稳定定速行驶使其额外惯力减少,所以机件磨损减少,使车辆的寿命增加,故障减少。 具有一定的经济性和环保性 在同样的行驶条件下,对于一个有经验的司机来说,在使用巡航控制系统后可以节省15%左右的燃料。这是因为在使用了这一速度稳定器后,可使汽车的燃料供给与发动机功率之间处于最佳的配合状态,减少了CO、CH、NOx等有害气体的排放,有利于环保。 汽车巡航控制系统的组成与工作原理 汽车巡航控制系统由信号输入装置、CCS ECU和执行器等组成,如图所示。 汽车巡航控制系统主要组成部件 操作开关 操作开关用于设置巡航车速或将其重新设置为另一车速,以及取消巡航控制等,包括主开关、控制开关和退出巡航开关。 主开关 主开关(MAIN)是CCS的电源开关,采用按键方式。每次推入,系统电源接通或关闭。 控制开关 手柄式控制开关有5种控制功能,即SET(设置)、COAST(减速)、RES(恢复)、ACC(加速)和CANCEL(取消)。SET和COAST共享一个开关,RES和ACC共享另一个开关。 退出巡航开关 退出巡航开关包括取消开关、停车灯开关、驻车制动开关、离合器开关和空挡启动开关。任一开关接通时,自动取消巡航控制。当CCS取消的瞬间的车速不低于40 km/h时,该车速存储于CCS ECU中。当RES接通时,自动恢复最后存储的车速。 驻车制动开关 … Continue reading

Posted in 沐鸣2平台注册 | Tagged | Leave a comment