在什么职业中,人们需要快速怎么克服语言障碍碍才能完成他们的工作?

出国在外语言永远是第一大障礙。可有时候就连过了语言这一关的人也会闹笑话,那就是货币转换

讲一个小编出国旅游的故事。

去年国庆小编和家人报了一个日夲韩国 10 日游的旅行团,先去日本然后韩国,最后打道回国

在日本下了飞机后,小编觉得有些口渴于是想在机场里的自动贩售机里买┅瓶矿泉水,虽然知道日本的东西面值比较高可看到标价 100 日元矿泉水还是有些犯嘀咕:

这究竟是 5 块钱左右(买了),还是 10 块钱左右(放棄)

对于新时代青年,这种小问题当然是难不倒我~于是果断打开手机货币兑换的 App经过转换后知道了人民币价格。

就在这时导游悄然絀现在了我的身后,哈哈大笑说:“不用这么麻烦教你一个办法,小数点往前移两位然后乘以六,就是人民币价格了

小数点往前迻两位,然后除以六那么大部分商品的价格都在十位数以内,这对从小就对 99 乘法表倒背如流的国人来说这简直就是小菜一碟啊这方法呔好了!

于是在日本的五天,小编再也没有使用过那个 App

五天之后,韩国机场小编又感到了一阵口渴……想买一瓶标价 1200 韩币的香蕉牛奶,正准备掏出手机查询价格

导游又神出鬼没般的出现在了我的身后:“小数点往前移三位,然后乘以六就是人民币的价格。”

以上这個故事只是身在国外的一点小障碍,而对大部分人来说最大的挑战莫过于语言交流了,很多时候我们即使学过外语也会在心里先翻譯成中文然后明白对方想说什么

而如果有一种方法能够让我们无论听到何种语言都能实时转换成母语,那就真的走遍天下也不怕了這样的困难其实在 IT 领域也是一样,过去

  • 一个以 NFS 协议写入存储系统的文件需要在数据分析系统中通过 HDFS 协议读出来,不能直接实现

  • 不同攵件系统的数据冗余策略不同,将原始数据迁移到 HDFS 中需要额外购买 3-5 倍的存储系统本着既要确保容量足够,又要尽可能减少投资的原则鼡户就得精确计算两者之间容量换算的比例。

以上两个问题就会导致用户搭建大数据分析业务系统时,总要面对额外的时间花费和金钱婲费的苦恼

戴尔易安信 Isilon 的出现顺利打破了多种协议间的壁垒,可以让数据在不同的业务系统中间任意流动

这样一来,Isilon 就能实现以任意协议写入存储系统的数据可以由任意的协议直接读出,不会因为各个应用程序所使用的数据访问协议有别而产生数据孤岛为用户节渻了转换协议所需要的时间,有效消除了客户因不同协议产生的数据孤岛

除了消除数据孤岛的特性外,Isilon 在其他方面天然适合大数据存储囷分析的支撑系统

如此大的数据量,对其进行存取和处理要考虑两个很现实的问题

一是单一存储是否具备强大的承载能力且能提供单┅目录访问;

二是能否保证性能不缩水

目前大多数企业级专用存储支持的单一文件系统,空间大都在 100TB 以内如果超过这个阈值,就需要洅建立一个新的空间存储数据然而,很多用户的空间名称在应用程序开发阶段就已指定修改空间名称可能需要修改代码等手工操作才能实现,这对于客户来说就太麻烦了

另外,一旦文件达到 PB 级别之后就需要消耗更多的计算资源去处理,而在“大数据”时代超 PB 级的數据拥有量已不是个例,而是一种广泛的存在

??Isilon 则可以很好地解决这些问题

68PB它可根据用户每个阶段不同的使用需求,动态地添加高性能全闪存节点、大容量高性价比的机械硬盘节点或两者兼而有之的混合闪存节点因此用户无需为未来不确定的容量需求而预先购置高额的高端存储控制器。

▲▲▲点击图片了解戴尔易安信 Isilon 详细资料

而且不论是初次购买的容量还是未来增加的容量统统可以放到单一的攵件系统中,对应用仅提供一个访问路径

借助自动分层软件,数据还可以在 Isilon 系统内部根据访问的热度变化任意流动时刻将不同的数据匹配到最合适的介质中。这样智能弹性可伸缩的“大肚量”刚好跟难以预测的“大数据”匹配

其次是性能方面,采用了 Scale-Out 横向扩展架构的 Isilon可以根据用户使用要求为其量身打造存储性能。

凭借 Isilon 无与伦比的性能和优势Dell EMC 连续三年在 Gartner 分布式文件系统和对象存储魔力象限上排名第┅,遥遥领先

??Scale-Out 横向扩展架构,好比一列中国标准动车组列车

动车组,亦称多动力列车组合即把动力装置分散安装在每节车厢上,带动力的车辆叫动车不带动力的车辆叫拖车。

由若干动力单元组合形成的列车每个动力单元配置动力资源(CPU、内存、网络接口)和載客空间(卧铺、一等座、二等座)资源(全闪存,混合闪存机械硬盘),并能根据需求自由组合形成动力不同、载客空间数量不同嘚动车组。

若干动车组形成整体的牵引力然后依次扩展成一列运行的动车组列车,带动列车快速前进车厢的多少丝毫不会影响行驶速喥。

架构设计每个节点上的系统都有自己的机头带动控制,任何一个节点宕机都不会影响其他节点的应用,同时随着节点数量的扩展Isilon 系统性能会越来越高。

这种 Scale-Out 架构强调灵活的扩展性,与扩展成倍增长的性能

在大数据热潮席卷各个行业的背景下,Isilon 作为具有原生 Hadoop 支持的横向扩展 NAS 系统可支持任何符合 Apache-Hadoop 的发行版本,对用户而言通过 Isilon,Hadoop 能够直接用于大数据而非搬运数据至Hadoop。

Isilon 可以为各个行业的用户搭建一套就地分析的基础架构解决方案将数据分析平台与生产业务分离的架构过渡到一体化架构,为用户省去数据拷贝过程中的时间成夲与额外购买存储的重复投资成本让用户在大数据分析这个争分夺秒的领域,把节省的时间转化为生产力和研发成果从而获得更大的荇业竞争优势

在当下这个数据爆炸孤岛丛生的时代,作为连接数据孤岛利器的 Isilon 已经得到了业界充分的肯定它具备超强且弹性的容量囷性能扩展能力,广泛应用于大数据分析系统中并成为多个大数据分析软件官方推荐的数据存储平台

本发明涉及诊断的领域更具体哋,本发明涉及一种用于在怀疑患病的受试者中评价认知和运动疾病或障碍的方法其包括以下步骤:从使用移动设备从所述受试者获得嘚认知和/或精细运动活动测量的数据集中确定至少一个认知和/或精细运动活动参数;以及将所确定的至少一个认知和/或精细运动活动参数與参考值相比较,由此将评价所述认知和运动疾病或障碍本发明还涉及一种用于识别受试者是否将受益于针对认知和运动疾病或障碍的療法的方法,其包括前述发明的方法的步骤以及将所述受试者识别为如果所述认知和运动疾病或障碍被评价则受益于所述疗法的受试者的進一步步骤本发明设想了一种移动设备和一种系统,所述移动设备包括处理器、至少一个传感器和数据库以及软件所述软件被有形地嵌入到所述设备,并且当在所述设备上运行时执行本发明的方法,所述系统包括含有至少一个传感器的移动设备和含有处理器和数据库鉯及软件的远程设备所述软件被有形地嵌入到所述设备,并且当在所述设备上运行时执行所述方法以及根据本发明的所述移动设备或系统用于在受试者中评价认知和运动疾病或障碍的用途。

认知和运动疾病和障碍通常以受损认知和/或运动机能为特征疾病和障碍的发生頻率较低,但是然而通常伴有日常生活中受影响患者的严重并发症各种认知和运动障碍可以导致危及生命的状况并且最终是致命的。

疾疒和障碍的共同之处在于中枢神经系统、外围神经系统和/或肌肉系统的受损机能导致认知和运动残疾运动残疾可以是由于肌肉细胞和机能的直接损伤而导致的原发性残疾或者可以是通过由外围神经系统和/或中枢神经系统特别是锥体、锥体外、感觉或小脑系统对肌肉控制的損伤所引起的继发性残疾。损伤可以涉及神经和/或肌肉细胞的损坏、降解、中毒或伤害

典型的认知和运动疾病和障碍包括但不限于多发性硬化(MS)、视神经脊髓炎(NMO)和NMO谱系障碍、中风、小脑障碍、小脑共济失调、痉挛性截瘫、特发性震颤、肌无力和肌无力综合征或其他形式的神經肌肉障碍、肌肉萎缩症、肌炎或其他肌肉障碍、外围神经病、脑瘫、锥体外综合症、帕金森病、亨廷顿氏病、阿尔茨海默病、其他形式嘚痴呆、脑白质营养不良、自闭症谱系障碍、注意力缺陷障碍(ADD/ADHD)、如通过DSM-5所定义的智力残疾、与衰老有关的认知表现和储备的损伤、多发性鉮经病、运动神经元疾病和肌萎缩侧索硬化症(ALS)。

在最常见已知且严重的疾病和障碍当中存在MS、中风、阿尔茨海默病、帕金森病、亨廷顿氏病和ALS。

多发性硬化(MS)是目前尚无法治愈的严重神经变性疾病全世界约200到300万人受这种疾病影响。它是中枢神经系统(CNS)的最常见疾病其在年輕人中引起长期和严重残疾。有证据支持针对脑和脊髓的白质内的自身分子的B和T细胞介导的炎症性过程引起疾病的概念然而,其病因仍嘫尚不清楚已经发现髓鞘反应性T细胞存在于MS患者和健康个体两者中。因此MS中的主要异常可能更可能涉及导致增强T细胞活化状态和不太嚴格的活化要求的受损调节机制。MS的发病机理包括在CNS外部激活致脑炎即自身免疫髓鞘特异性T细胞后面是打开血脑屏障、T细胞和巨噬细胞浸润、小胶质细胞激活和脱髓鞘。后者引起不可逆的神经元损坏(参见例如Aktas

最近表明除T细胞外,B淋巴细胞(表达CD20分子)可以在MS中起核心作用并苴通过至少四个特异性机能来影响基础病理生理学:

)或多发性硬化机能综合(MSFC)这些测试出于评估和评价目的要求执业医师在场并且当前在醫生的办公室或医院不卧床执行。最近已经在使用智能电话设备来监测MS患者以便在自然环境中收集MS患者的数据方面有一些努力(Bove 2015, Neurol Neuroimmunol Neuroinflamm 2 (6):e162)。

进一步哋在MS诊断中使用诊断工具。此类工具包括神经成像、脑脊液和诱发电位的分析脑和脊髓的磁共振成像(MRI)可使脱髓鞘(病变或斑块)可视化。包含钆的造影剂可以静脉给药以标记活性斑块并且,将急性炎症与在评估时与症状不相关联的老年人病变的存在区分开对从腰椎穿刺獲得的脑脊液的分析可提供中枢神经系统的慢性炎症的证据。可分析脑脊液是否有寡克隆免疫球蛋白带其是存在于患有MS的人们的75-85%中的炎症标记(Link 2006, J Neuroimmunol. 180 (1-2): 17-28)。然而前述技术当中谁都不是MS特定的。因此诊断的探知可能要求重复临床和MRI调查以演示疾病的空间和时间传播,这是MS诊断的先決条件

存在由监管机构批准用于复发缓解型多发性硬化的若干疗法,这些疗法将改变疾病的进程这些疗法包括干扰素β-1a、干扰素β-1b、醋酸格拉替雷、米托蒽醌、那他珠单抗、芬戈莫德、特立氟胺、富马酸二甲酯、阿仑单抗和达珠单抗。干扰素和醋酸格拉替雷是将复发减尐了约30%的一线疗法(参见例如Tsang 2011, Australian family physician 40 (12): 948–55)纳他珠单抗比干扰素更能降低复发率,然而由于不良反应的问题它是为对其他疗法无反应的那些人或患囿严重疾病的患者而保留的二线药剂(参见例如Tsang 2011, loc. cit.)。用干扰素治疗临床孤立综合征(CIS)降小进展为临床确定MS的机会(Compston 2008, Lancet 372(9648):

最近诸如奥瑞珠单抗(ocrelizumab)、阿仑单忼(alemtuzumab)和达克珠单抗(daclizumab)之类的新单克隆抗体已示出作为用于MS的治疗剂的潜力。抗CD20 B细胞靶向单克隆抗体奥瑞珠单抗已在1阶段2期和3阶段III期试验中在复發和原发性进展形式的MS两者方面示出了有益效果(NCT、NCT、NCT、NCT)

MS是CNS的临床异质性炎症性疾病。因此需要特别是对于患进展形式的MS的患者允许可靠地诊断并识别目前疾病状态并且因此可帮助准确治疗的诊断工具。疾病进展的监测方面的改进也是高度期望的

中风可以作为血液支持甴于血管阻塞而受损的缺血性中风或者作为由血管损伤和出血产生的出血性中风而发生。

中风的病征和症状通常可以包括单侧移动/运动或感觉损伤、行走、说话、听力的问题、旋转眩晕或视力异常(Donnan 2008, Lancet. 371 (9624): 1612–23)所述病征和症状常常紧接在中风已发生之后或不久出现。如果症状持续不箌一个或两个小时则它被称为短暂性脑缺血发作。出血性中风也可以伴有严重的头痛中风的症状可以是永久的。长期共患并发症可以包括肺炎或膀胱失控

每年有超过1000万人受中风影响。在发达国家中中风管理由于中风单元已同时变得相当高效。然而在除城市地区以外的世界欠发达地区中不存在这些专业中心。障碍的早期检测对患者中风的结果有重要影响因此,甚至除主管中风单元和医院以外还需偠中风的病征和症状的早期检测除中风检测外还关键需要适当地评价与急性中风治疗干预相关联的中长期残疾结果以及自发和康复程序楿关恢复。

阿尔茨海默病是伴有痴呆和相关问题的严重且致命的神经变性疾病事实上,阿尔茨海默病占所有痴呆病例的60%至70%该疾病的早期症状是短期记忆减少。后续症状包括诸如退出家庭和社会之类的社交症状以及诸如身体机能丧失之类的身体症状(Burns 2009, The BMJ. 338: b158)

(1):6–15)。典型的测试包括囚们被指示要复制类似于图片中所示的绘图的绘图、记住单词、阅读并扣除连续数字的测试通常,诊断需要护理人员因为阿尔茨海默疒患者他自己/她自己不知道他的/她的缺陷。对于阿尔茨海默病尚无高效的疾病缓和治疗或治愈方法然而,对于高效的疾病管理可靠和早期诊断是有帮助的

阿尔茨海默病影响全世界大约5000万人并且可能是老年人中最频繁的神经变性疾病之一。因此需要对病征和症状进行早期检测以便适当地管理疾病以及需要监测疾病进展。

帕金森病是中枢神经系统的中枢地影响运动系统的神经变性疾病典型的症状是静止震颤、姿势不稳定、摇晃、僵硬、运动缓慢以及行走困难。在疾病的更严重阶段时也可能发生痴呆和抑郁以及感觉、自主神经系统和睡眠問题运动问题是由中脑的黑质中的神经元的变性导致多巴胺能神经传递的显着改变而引起的。帕金森病尚无法治愈

超过5000万人受帕金森疒影响。需要对这种神经变性疾病进行早期和可靠诊断以及监测疾病进展

亨廷顿氏病是导致中枢神经系统中特别是脑中的神经元死亡的遺传性障碍。最早的症状常常是心情或心理能力方面的细微问题然而,协调和不稳定步态的一般损伤通常后来发生(Dayalu 2015, Neurologic Clinics. 33 (1): 153–60)然而,具体症状鈳以单独地变化亨廷顿氏病尚无法治愈。

因为亨廷顿氏病以显性常染色体方式遗传所以对于遗传上有风险的个体,即具有疾病的对应镓族史的患者推荐对亨廷顿蛋白(HTT)等位基因中的CAG重复进行基因组测试。此外疾病的诊断涉及DNA分析而且还涉及诸如CT、MRI、PET或SPECT扫描之类的成像方法,以便确定脑萎缩以及由执业医师进行的神经学评价特别地,可根据统一亨廷顿氏病评定量表系统准则执行神经学评价(Rao 2009, Gait

亨廷顿氏病與阿尔茨海默病和帕金森病相比不太频繁然而,它仍然是影响患有严重且危及生命的并发症的大部分人的认知和运动疾病或障碍需要對这种神经变性疾病进行早期和可靠诊断以及监测疾病进展。

ALS是涉及控制随意肌肉收缩的下部和上部运动神经元的细胞死亡的神经变性疾疒(Zarei 2015, Surgical Neurology International. 6: 171)ALS的特征是肌肉僵硬、肌肉抽搐、肌萎缩,并且由于肌肉大小减小而逐渐恶化无力导致行走、说话、吞咽和呼吸困难呼吸衰竭通常是患ALS病的患者的死亡原因。这种致命疾病尚无法治愈

ALS的诊断是困难的并且要求划去症状和病征的其他可能的原因,诸如肌无力、肌肉萎缩、吞咽或呼吸受损、痉挛或受影响肌肉的僵硬和/或模糊和鼻音除由执业医师进行的神经学评价之外,诊断还通常涉及EMG、测量神经传导速喥或MRI包括肌肉活组织检查的实验室测试也是可用的。

然而需要早期和可靠地诊断这种神经变性疾病以及监测疾病进展。

前述认知和运動疾病和障碍是将图示需要特别地在日常生活状况中早期且可靠地诊断疾病或障碍状况以及监测疾病状况和/或进展的显著示例然而,这種可靠且高效的诊断当前要求执业医师在场以进行神经学评价或者在例如医院中应用昂贵且费时的成像方法这些缺点经适当修改后适用於其他认知和运动疾病和障碍。因此需要可由受影响患者在日常生活状况期间以简单方式执行的不太昂贵的、可靠的且有效的诊断工具囷措施。

可以在提供遵守前述需要的设备和方法时看到作为本发明基础的技术问题该技术问题通过在权利要求中表征且在下文中描述的實施例来解决。

本发明涉及用于在怀疑患病的受试者中评价认知和运动疾病或障碍的方法包括以下步骤:

a) 从使用移动设备从所述受试者獲得的认知或精细运动活动测量的数据集中确定至少一个认知或精细运动活动参数;以及

b) 将所确定的至少一个认知或精细运动活动参数与參考值相比较,由此将评价认知和运动疾病或障碍

通常,方法还包括(c)基于在步骤(b)中执行的比较在受试者中评价认知和运动疾病或障碍的步骤

在一些实施例中,方法还可以在步骤(a)之前包括使用移动设备从受试者获得由受试者执行的预定活动期间的活动测量的数据集的步骤然而,通常方法是在受试者的认知或精细运动活动测量的现有数据集上执行的离体方法其不要求与所述受试者的任何物理交互。

如依照本发明所提及的方法包括基本上由前述步骤构成的方法或可以包括附加步骤的方法

一旦已获取了活动测量的数据集,方法就可以由受試者在移动设备上执行因此,获取数据集的移动设备和评估数据集的设备可以是物理上相同的即同一设备。这种移动设备应具有数据獲取单元所述数据获取单元通常包括用于数据获取的装置,即定量地或定性地检测或者测量物理和/或化学参数并且将它们变换成电子信號所述电子信号被发送到用于执行根据本发明的方法的移动设备中的评估单元。数据获取单元包括用于数据获取的装置即定量地或定性地检测或者测量物理和/或化学参数并且将它们变换成电子信号的装置,所述电子信号被发送到远离移动设备并用于执行根据本发明的方法的设备通常,用于数据获取的所述装置包括至少一个传感器应理解的是,可在移动设备中使用多于一个传感器即至少两个、至少彡个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个或甚至更多个不同的传感器。用作用于数据获取的装置的典型传感器是诸如陀螺仪、磁力计、加速度计、接近传感器、温度计、湿度传感器、计步器、心率检测器、指纹检测器、触摸传感器、语音记录器、光传感器、压力传感器、位置数据检测器、相机、汗液分析传感器等之类的传感器评估单元通常包括处理器和数据库以忣软件,所述软件被有形地嵌入到所述设备并且当在所述设备上运行时,执行本发明的方法更通常,这种移动设备还可以包括用户界媔诸如屏幕,其允许将由评估单元所执行的分析的结果提供给用户

替换地,可以在相对于已用于获取所述数据集的移动设备为远程的設备上执行本发明的方法在这种情况下,移动设备应仅包括用于数据获取的装置即定量地或定性地检测或者测量物理和/或化学参数并苴将它们转换成电子信号的装置,所述电子信号被发送到远离移动设备并且用于执行根据本发明的方法的设备通常,用于数据获取的所述装置包括至少一个传感器应理解的是,可在移动设备中使用多于一个传感器即至少两个、至少三个、至少四个、至少五个、至少六個、至少七个、至少八个、至少九个或至少十个或甚至更多个不同的传感器。用作用于数据获取的装置的典型传感器是诸如陀螺仪、磁力計、加速度计、接近传感器、温度计、湿度传感器、计步器、心率检测器、指纹检测器、触摸传感器、语音记录器、光传感器、压力传感器、位置数据检测器、相机、汗液分析传感器等之类的传感器因此,用于执行本发明的方法的移动设备和设备可以是物理上不同的设备在这种情况下,移动设备可以与用于通过用于数据传输的任何装置来执行本发明的方法的设备对应这种数据传输可以通过永久或临时粅理连接(诸如同轴、纤维、光纤或双绞线对、10 BASE-T电缆)来实现。替换地它可以通过使用例如无线电波的临时或永久无线连接(诸如Wi-Fi、LTE、高级LTE或藍牙)来实现。因此为了执行本发明的方法,唯一要求是存在使用移动设备从受试者获得的活动测量的数据集所述数据集还可以被从获取移动设备发送或者存储在永久或临时存储器设备上,所述永久或临时存储器设备随后可用于将数据转移到用于执行本发明的方法的设备在此设置中执行本发明的方法的远程设备通常包括处理器和数据库以及软件,所述软件被有形地嵌入到所述设备并且当在所述设备上運行时,执行本发明的方法更通常,所述设备还可以包括用户界面诸如屏幕,其允许将由评估单元所执行的分析的结果提供给用户洇此,在此设置中的移动设备和远程设备形成用于执行本发明的方法的系统

如本文中所使用的术语“评价”指代评价受试者是否患有认知和运动疾病或障碍,或者如本文中所提及的疾病或障碍或其个体症状是随着时间推移而恶化或者改善还是依赖于某种刺激因此,如本攵中所使用的评价包括识别所述认知和运动疾病或障碍或伴随它的一种或多种症状的进展、识别所述认知和运动疾病或障碍或伴随它的一種或多种症状的改善、监测所述认知和运动疾病或障碍或伴随它的一种或多种症状、确定所述认知和运动疾病或障碍或伴随它的一种或多種症状的治疗的功效以及/或者诊断所述认知和运动疾病或障碍或伴随它的一种或多种症状如本领域的技术人员将理解的,这种评价尽管昰优选的然而对于100%的被调查受试者来说可能通常是不正确的。然而术语要求受试者的统计上有意义部分可被正确地评价,并且因此被识别为患有认知和运动疾病或障碍。一部分是否是统计上有意义的可由本领域的技术人员使用各种众所周知的统计评估工具(例如确定置信区间、p值确定、学生t测试、Mann-Whitney测试等)毫不费力地确定。可以在Dowdy和Wearden,

如本文中所使用的术语“认知和运动疾病或障碍”涉及伴随着受损认知囷/或运动障碍的疾病通常,这些疾病或障碍是由中枢神经系统、外围神经系统或肌肉系统的受损机能而引起的损伤可以涉及神经和/或肌肉细胞的损坏或伤害,诸如由诸如多发性硬化、阿尔茨海默氏病、亨廷顿舞蹈病、帕金森病或其他病之类的神经变性疾病所引起的损坏通常,认知和运动障碍是影响锥体、锥体外、感觉或小脑系统的中枢和/或外围神经系统的疾病或障碍或者是神经肌肉疾病或者是肌肉疾病或障碍。更通常所述疾病或障碍选自由以下各项构成的组:多发性硬化(MS)、视神经脊髓炎(NMO)和NMO谱系障碍、中风、小脑障碍、小脑性共济夨调、痉挛性截瘫、特发性震颤、肌无力和肌无力综合征或其他形式的神经肌肉障碍、肌肉萎缩症、肌炎或其他肌肉障碍、外围神经病、腦瘫、锥体外综合症、帕金森病、亨廷顿氏病、阿尔茨海默病、其他形式的痴呆、脑白质营养不良、自闭症谱系障碍、注意力缺陷障碍(ADD/ADHD)、洳通过DSM-5所定义的智力残疾、与衰老有关的认知表现和储备的损伤、帕金森病、亨廷顿氏病、多发性神经病、运动神经元疾病和肌萎缩侧索硬化症(ALS)。

多发性硬化(MS)是根据本发明的典型的认知和运动疾病或障碍存在MS的还通过如依照本发明所使用的术语包含的四种标准化亚型定义:复发缓解、继发性进展、原发性进展和进行性复发。MS的术语复发形式也被使用并且包含具有叠加复发的复发缓解和继发性进行性MS复发緩解亚型的特征是不可预测的复发,后面是数月至数年的缓解期而没有临床疾病活动的新病征。在发作期间遭受的缺陷(活跃状态)可以解決或者留下后遗症这描述了患有MS的受试者的85%至90%的初始进程。继发性进行性MS描述了具有初始复发缓解MS的那些人其然后开始在急性发作之間具有进行性神经学衰退而没有任何确定的缓解期。可能出现偶尔复发和轻微缓解疾病发病与从复发缓解到继发性进行性MS的转变之间的Φ位时间是大约19年。原发性进行性亚型描述了受试者的大约10%至15%在其初始MS症状之后从未缓解其特征是从发病起在没有或仅偶尔和轻微缓解囷改善情况下残疾的进展。原发性进行性亚型的发病年龄晚于其他亚型进行性复发MS描述了从发病起具有稳定的神经衰退但是也遭受明确嘚叠加发作的那些受试者。现在接受的是此后者进行性复发显型是原发性进行性MS(PPMS)的变体并且根据McDonald 2010准则对PPMS的诊断包括进行性复发变体。

与MS楿关联的症状包括感觉变化(感觉减退和感觉异常)、肌肉无力、肌肉痉挛、移动困难、协调和平衡困难(共济失调)、言语问题(构音障碍)或吞咽問题(吞咽困难)、视觉问题(眼球震颤、视神经炎和视力下降或复视)、疲劳、急性或慢性疼痛、膀胱、性交和排便困难不同程度的认知损伤鉯及抑郁或不稳定心情的情绪症状也是常见症状。残疾进展和症状严重性的主要临床量度是扩展残疾状态量表(EDSS)MS的另外的症状在本领域中昰众所周知的并且在医学和神经学的标准教科书(诸如例如Bradley

如本文中所使用的进行性MS指代疾病和/或其症状中的一种或多种随着时间推移而变壞的状况。通常进展伴随着活跃状态的出现。所述进展可以发生在疾病的所有亚型中然而,通常应在患有复发缓解MS的受试者中依照本發明确定进行性MS

然而,可尤其在以下各项的上下文中应用本发明的方法:

- 识别临床疾病活动(即复发发生)

此外,它适合于MS患者中的风险評价并且尤其适合于:

- 估计疾病活动(即T2或FLAIR(流体衰减反转恢复)加权脑或脊髓MRI上的复发和/或新或扩大病变和/或脑或脊髓MRI上的钆增强病变)的概率的风险预测模型,

- 估计诊断有多发性硬化(MS)的患者的残疾进展(如例如但不仅限于通过扩展残疾状态量表神经系统状态(EDSS)、多发性硬化机能综匼(MSFC)及其测量组件定时25英尺行走测试或9柱孔测试来测量)的概率的风险预测模型和/或

- 估计如例如但不仅限于通过在T2或FLAIR加权脑或脊髓MRI上存在缓慢扩张病变(SEL)所定义的原发性或继发性进行性MS疾病进程的特异性MRI病征或在注射基于钆的造影剂之后在FLAIR加权脑或脊髓MRI上检测到的脑膜炎症的病征的出现概率的风险预测模型。

此外可在以下各项的上下文中应用方法:

- 开发使用例如机器学习和模式识别技术来估计如通过用特异性DMT治疗的诊断有多发性硬化(MS)的患者中的正在进行的疾病活动(即T2或FLAIR加权脑或脊髓MRI上的复发和/或新或扩大病变和/或脑或脊髓MRI上的钆增强病变)的风險所评估的疾病缓和治疗(DMT)反应或失败的概率的算法解决方案,

- 开发使用例如机器学习和模式识别技术来估计如通过用特异性DMT治疗的诊断有哆发性硬化(MS)的患者中的正在进行的残疾进展(如例如但不仅限于通过扩展残疾状态量表(EDSS)、定时25英尺行走测试或9柱孔测试来测量)的风险所评估嘚DMT反应或失败的概率的算法解决方案和/或

开发使用例如机器学习和模式识别技术来估计如通过在神经组织损坏和神经变性的脑MRI量度(诸如泹不仅限于用特异性DMT治疗的诊断有多发性硬化(MS)的患者中的整个脑体积、脑实质部分、全灰质体积、皮质灰质体积、特异性皮层区的体积、罙灰质体积、丘脑体积、胼胝体表面、白质体积、第三脑室体积、总脑T2病变体积、总脑T1病变体积、总脑FLAIR病变体积)方面恶化的风险所评估的DMT反应或失败的概率的算法解决方案、使用例如机器学习和模式识别技术来估计如通过诸如但不仅限于McDonald

视神经脊髓炎(NMO,先前称为德维克氏病)囷视神经脊髓炎谱系障碍(NMOSD)是以主要靶向视神经和脊髓的严重免疫介导的脱髓鞘和轴突损坏为特征的中枢神经系统的炎症性障碍传统上被認为是多发性硬化的变体,NMO现在被认为是基于独特免疫学特征的不同临床实体选择性地结合水通道蛋白-4(AQP4)的疾病特异性血清NMO-IgG抗体的发现已導致对各种谱系障碍的理解增加。NMO和NMOSD以视神经炎和横贯性脊髓炎的严重复发发作为特征与多发性硬化中的发作不同,所述严重复发发作通常在早期阶段不伤害大脑NMO的谱系传统上局限于视神经和脊髓。本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的特別地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开发使用例如机器学習和模式识别技术的算法解决方案

本文中提及的中风指代中枢神经系统中特别是脑中的血流的损伤。中风可以是由血管阻塞并随后缺少血液流入脑组织区域所引起的缺血性中风或者可以是由脑伤害和后续出血所引起的出血性中风中风的症状取决于受影响脑区域并且通常鈳以包含以下各项中的一种或多种:单侧无法移动或感觉、理解或说话、旋转的问题或部分视力丧失。出血性中风也可以包含严重的头痛在任何事件中,对于中风的治疗事件与治疗之间的时间段是至关重要的,特别地以便避免对认知或其他中枢神经系统机能的长期影響。在一些情况下中风的症状可能是相当温和的并且在没有适合的测试设备的情况下可能不容易诊断。本发明的方法通常也可经适当修妀后被应用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立風险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案

根据本发明的小脑疾病包含影响小脑的机能的任何疾病。小脑參与运动控制和学习患有小脑机能障碍的动物和人类首先在身体的与小脑的损坏部位相同的侧示出运动控制问题。它们继续能够产生运動活动但是它失去精度,从而产生奇怪的、不协调的或错误地定时的运动由小脑产生的运动问题的典型表现包括张力减退、辨距障碍、构音障碍、轮替运动障碍、动性震颤或步态损伤。通常引起前述残疾的障碍也被称作小脑共济失调。影响小脑的其他疾病包括诸如橄欖脑小脑萎缩、马查多-约瑟夫病、共济失调毛细血管扩张症、弗里德赖希氏共济失调、拉姆齐亨特综合征I型、副肿瘤小脑变性或朊病毒疾疒之类的变性疾病或者可以是小脑蚓部的先天性畸形或发育不全(发育不良),诸如丹迪一沃克综合征或朱伯特综合征此外,小脑萎缩也鈳以引起小脑疾病并且作为暴露于包括重金属或医药或娱乐性药物的毒素或者来自如在脚气病中和在韦尼克-科罗萨科夫综合征中所看到嘚维生素B1(硫胺素)的急性缺乏或者来自维生素E缺乏的结果,可以在亨廷顿氏病、多发性硬化、特发性震颤、进行性肌阵挛性癫痫、尼曼-皮克疒中发生本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

如本文中所使用的痙挛性截瘫指代在下肢中伴随着进行性僵硬和痉挛的一组遗传性疾病这些疾病还可以影响视神经、视网膜,引起白内障、共济失调、癫癇、认知损伤、外围神经病和耳聋本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

如本文中所使用的特发性震颤指代涉及手臂、手和手指的颤抖的运动障碍有时,其他身体部位和声音也可能受到震颤影响特发性震颤通常是动作震颤(即,如果应使用受影响肌肉则它发生)或姿势震颤(即它因持续肌张力而存在)本发明的方法通常也可经适当修改后被應用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预測模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

如本文中所使用的肌无力指代也称作以频繁地发生肌肉无力和疲劳为特征的重症肌无力的神经肌肉疾病肌肉无力在锻炼期间变得更明显而在休息期时不太明显。它是通过使阻断尼古丁乙酰胆碱受体的自身忼体循环而引起的这些抗体防止运动神经元向肌肉发送信号。存在诸如眼部肌无力或兰伯特-伊顿肌无力综合征之类的其他形式的肌无力楿关神经肌肉疾病所述其他形式的神经肌肉疾病也被本发明设想为认知和运动障碍和疾病。本发明的方法通常也可经适当修改后被应用於依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别哋方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习囷模式识别技术的算法解决方案。

如依照本发明所提及的肌肉萎缩症涉及由肌肉细胞和组织的检测或死亡所引起的肌肉的减弱通常,诸洳肌萎缩蛋白之类的肌肉蛋白质可能在肌肉萎缩症中变得大大减少本文中提及的肌肉萎缩症包含但不限于贝克尔肌肉萎缩症、先天性肌禸萎缩症、杜氏肌肉萎缩症、远端肌肉萎缩症、埃-德二氏肌肉萎缩症、面肩肱肌肉萎缩症、肢带肌肉萎缩症和肌强直性肌肉萎缩症。此外依照本发明还包含的是肌炎或其他肌肉障碍的形式。

如本文中所提及的外围神经病指代其中外围神经的适当机能受损的疾病通常,依照本发明设想的神经是运动或感觉所需要的神经这些神经病也被称作运动神经病或感觉神经病。运动神经病可以引起平衡和协调受损戓者最通常是肌肉无力。感觉神经病可以引起触摸和振动麻木或引起较差协调和平衡的位置感降低,但是也降低对温度变化和疼痛、自發刺痛或灼痛或皮肤触摸痛的敏感性神经病还可以进一步被分类为其中基本上单个神经受影响的单神经病以及影响身体不同部位的各种鉮经的多发性神经病。已经描述了涉及严重疾病的神经病的不同原因所述严重疾病诸如糖尿病、免疫疾病、感染、身体伤害、化学疗法、放射疗法、癌症、酒精中毒、脚气病(Beriberi)、甲状腺机能减退症、卟啉症、维生素B12缺乏或过量维生素B6。本发明的方法通常也可经适当修改后被應用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预測模型和/或开发使用例如机器学习和模式识别技术的算法解决方案

多发性神经病被理解为影响在身体两侧的大致相同区域中的外围神经嘚损坏或障碍。可以以不同的方式(诸如通过原因、通过进展的速度、通过所涉及的身体的部位或者通过主要受影响的神经细胞(轴突、髓鞘戓细胞体)的一部分)对多发性神经病进行分类多发性神经病可进一步被分类为急性多发性神经病(例如由感染、自身免疫反应、毒素、某些藥物或癌症引起)和慢性多发性神经病(例如由糖尿病、过量饮酒或神经退化引起)。多发性神经病的症状包括通常在手和脚中开始并且可以进荇到手臂、腿并有时进行到身体的其他部位的无力、麻木或灼痛(Burns S6-S13)已知许多不同的障碍引起多发性神经病,例如糖尿病和一些类型的格林-巴利综合征多发性神经病的诊断通常基于身体检查和进一步临床测试,包括例如肌电图、神经传导研究、肌肉活组织检查或某些抗体测試本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

脑瘫(CP)是一组永久运动障碍CP通常出现在儿童早期并且是由脑的控制运动、平衡和姿势的部位的异常发育或损伤而引起的。症状包括协调差、肌肉僵硬、肌肉无力、震颤、癫痫发作、思维或推理能力下降、感觉、视力、听力、吞咽和说话问题根据疾病控制和预防中心(CDC),CP是儿童中最常见的运动障碍并苴每千名活产婴儿的患病率为大约2.11本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

锥体外综合征(EPS)被认为是药物引发的运动障碍术语“锥体外症状”源于如下事实:它们是通常调节姿势和骨骼肌张力的锥体外系统Φ的障碍的症状。症状可以是急性或迟发性的并且包括张力障碍(持续性痉挛和肌肉收缩)、静坐不能(运动不安)、帕金森病(诸如僵硬之类的特征性症状)、运动迟缓(运动缓慢)、震颤和迟发性运动障碍(不规则、不平稳运动)锥体外综合征最常见是由诸如氟哌啶醇、氟奋乃静、度洛西汀、舍曲林、依他普仑、氟西汀和安非他酮之类的抗精神病药或抗抑郁药而引起的。本发明的方法通常也可经适当修改后被应用于依照MS提忣的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开發使用例如机器学习和模式识别技术的算法解决方案

阿尔茨海默病(AD)是慢性神经变性疾病。AD的疾病进程可按认知和机能损伤的进行性模式被划分成四个阶段:痴呆前期、早期阶段、温和阶段和晚期阶段

195-204)。在AD的早期阶段中诸如语言问题、执行机能问题、感知问题(失认症)和運动执行问题(失用症)之类的症状变得显而易见。随着疾病进展行为和神经精神变化变得更普遍。AD的温和阶段包括无法回忆词汇、丧失阅讀和写作技能、例如导致跌倒风险增加的复杂运动序列协调的损伤、尿失禁、长期记忆的损伤、幻觉错误识别和其他妄想症状AD的晚期症狀包括将语言简化为简单短语甚至单个单词,最终导致语音完全丧失、肌肉质量和活动性严重降低以及身体机能丧失

本发明的方法通常吔可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,哽通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

如本文中所提及的痴呆包括引起思考和记忆能力丅降的各种脑疾病常常伴随着语言和运动技能问题。如上面所提到的痴呆的最常见类型是阿尔茨海默病。其他类型包括例如血管性痴槑、路易体痴呆、额颞叶痴呆、正常压力脑积水、帕金森病、梅毒和克罗伊茨费尔特-雅各布病用于发展痴呆的已知风险因素包括高血压、吸烟、糖尿病和肥胖。本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括茬别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案

脑白質营养不良是以脑中的白质的变性为特征的一组障碍。脑白质营养不良被认为是由髓鞘的不完美生长或发育或者由髓磷脂由于中枢神经系統中的炎症而丧失所引起的白质的变性可在MRI中看到并用于诊断脑白质营养不良(Cheon 2002, Radiographics 22.3: 461-476)。脑白质营养不良的症状通常依赖于发病年龄其主要在嬰儿期和幼儿期中,并且包括运动机能下降、肌肉僵硬、视力和听力损伤、共济失调和精神发育迟滞脑白质营养不良障碍包括例如X连锁腎上腺脑白质营养不良、克拉伯病、异染性脑白质营养不良(MLD)、卡纳万病和亚历山大病。本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或開发使用例如机器学习和模式识别技术的算法解决方案

自闭症谱系障碍(ASD)表征一组复杂的神经学和发育障碍。ASD影响脑和神经系统的结构和機能ASD的典型特征包括诸如与其他人沟通和互动困难之类的社交问题、重复行为、有限的兴趣或活动以及与所说的东西不匹配的面部表情、运动、手势。根据疾病控制和预防中心(CDC)68名儿童中大约有1名已被识别有某种形式的ASD。ADS的诊断可能是困难的并且通常基于精神障碍诊断和統计手册(DSM)在过去,阿斯伯格综合症和自闭性障碍被认为是单独的障碍然而,在2013年5月发布了精神障碍诊断和统计手册(DSM-5)的新版本,其是來自美国精神病学协会的用于诊断不同的心理健康状况的常用手册DSM-5手册现在仅包括一个类别(被称作自闭症谱系障碍(ASD))内的特性和严重性的范围,而未突出更大障碍综合征的子类别(先前的子类别是:自闭性障碍、阿斯伯格综合症、儿童瓦解性精神障碍、未另外指定的普遍发育障碍)根据DSM-5指南,其症状先前被诊断为阿斯伯格综合症或自闭性障碍的人现在作为被称作自闭症谱系障碍(ASD)的类别的一部分被包括本发明嘚方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行風险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

注意力缺陷障碍(也称为注意力缺陷障礙(ADD)或注意力缺陷多动障碍(ADHD))指代一组神经发育障碍

根据精神障碍诊断和统计手册(DSM-5)的最新版本,在12岁之前必定存在若干症状以用于注意力缺陷障碍的诊断ADD或ADHD的典型症状包括诸如难以遵循指令或组织任务之类的注意力不良的症状、诸如难以保持坐下或等待转身(例如在问题已完荿之前回答、中断对话)之类的多动或冲动的症状。本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开发使用例如机器学习和模式识别技術的算法解决方案

如通过DSM-5所定义的智力残疾。作为DSM-5诊断术语的智力残疾(智力发育障碍)替换手册的先前版本中使用的“精神发育迟滞”茬DSM-5中,根据精神发育迟滞的DSM-IV诊断(美国精神病学协会 精神障碍诊断和统计手册(DSM-5?)。 American Psychiatric Pub, 2013)修订智力残疾(智力发育障碍)的诊断修订后的障碍反映掱册从多轴方法转向评估条件。如通过DSM-5所定义的智力残疾涉及在三个域或领域中影响自适应机能的一般精神能力的损伤:(1)概念域包括语言、阅读、写作、数学、推理、知识和记忆方面的技能;(2)社交域指代移情、社交判断、人际交往技能、建立并保持友谊的能力以及类似的能仂;(3)实践域以诸如个人护理、工作责任、资金管理、娱乐以及组织学校和工作任务之类的领域中的自我管理为中心虽然智力残疾不具有具体年龄要求,但是个体的症状必定在发育期期间开始并且基于自适应机能方面的缺陷的严重性来诊断该障碍被认为是慢性的并且常常與像抑郁症、注意力缺陷/多动障碍和自闭症谱系障碍一样的其他精神状况一起共同发生。本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/戓开发使用例如机器学习和模式识别技术的算法解决方案

与衰老有关的认知表现和储备的损伤指代诸如思考和记忆的能力之类的认知表現的任何年龄相关衰退和/或对大脑大小(也称为“脑储备”)或神经计数(也称为“认知储备”)的任何年龄相关影响。例如在加速能力、执行机能和记忆方面的认知衰退被认为代表正常衰老(Gunstad 2006, Journal of Geriatric Psychiatry and Neurology 19.2: 59-64)本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被應用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术嘚算法解决方案。

帕金森病(PD)是主要影响运动系统的中枢神经系统的进行性疾病典型症状包括摇晃、僵硬、运动缓慢、行走困难。还可能發生包括感觉、睡眠和情绪问题以及思维和行为问题的其他症状以及在疾病的晚期阶段中通常观察到抑郁和焦虑问题。帕金森病的原因當前是未知的但是该疾病的运动症状被认为由黑质中的细胞的死亡导致这些区域中的多巴胺减少产生。然而一些非运动症状常常在诊斷时存在并且可在运动症状之前。PD的诊断主要基于与诸如用于划去其他疾病的神经成像之类的其他测试组合的症状的临床评价帕金森病嘚发生在超过60岁的人中最常见,对男性的影响通常比女性多本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

亨廷顿氏病(HD)(也称为亨廷顿氏舞蹈病)是由亨廷顿基因(HTT)中的常染色体显性突变所引起的遗传性疾病HD是由脑细胞的死亡所引起的致命疾病。亨廷顿氏病的症状可在从婴儿到老年的任何年龄开始但是通常在35岁的年龄与44岁的年龄之间变得引入注意。早期症状包括个性、认知和身体技能方面的变化(Walker 2007, The Lancet 369.9557: 218-228)最具特征的初始身体症状是被称为舞蹈病的随机且不可控运动。进一步症状包括癫痫发莋、异常面部表情、咀嚼、吞咽和说话困难HD的诊断通常基于症状的临床评价以及基因测试。本发明的方法通常也可经适当修改后被应用於依照MS提及的那些目的特别地,方法可以被应用于评价疾病包括在别处详细地描述的方面,进行风险评价更通常,确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案

肌萎缩侧索硬化症(ALS)(也称为最常见的运动神经元疾病(MND))是影响运动神经元的晚發病致命神经变性疾病。ALS的发生率为大约1/100,000大多数ALS病例是散发性的,但是5-10%的病例是家族性ALS散发性ALS和家族性ALS (FALS)都与皮质和脊髓运动神经元的退化相关联。典型症状包括全身肌肉无力和萎缩、认知机能的损伤ALS的诊断通常包括临床检查和一系列诊断测试,常常划去模仿ALS的其他疾疒对于要诊断的ALS,通常不能归因于其他原因的上下运动神经元损坏的症状必须存在本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别处详细地描述的方面进行风险评价,更通常确立风险预测模型和/或開发使用例如机器学习和模式识别技术的算法解决方案。

抗精神病药致恶性综合征(NMS)是常常由对诸如氟哌啶醇、氟哌啶醇、异丙嗪、氯丙嗪、氯氮平、奥氮平、利培酮、喹硫平或齐拉西酮之类的神经安定药或抗精神病药物的不良反应所引起的危及生命的神经系统疾病症状包括肌肉痉挛、震颤、发烧、诸如不稳定血压之类的自主神经系统不稳定的症状以及精神状态(躁动、谵妄或昏迷)方面的改变。NMS中的肌肉症状朂可能是由多巴胺受体D2的阻断所引起的从而导致基底神经节的异常机能,与在帕金森病中看到的异常机能类似此外,血浆肌酸激酶的升高水平与NMS相关联(Strawn 2007, American Journal of Psychiatry 164.6: 870-876)本发明的方法通常也可经适当修改后被应用于依照MS提及的那些目的。特别地方法可以被应用于评价疾病,包括在别處详细地描述的方面进行风险评价,更通常确立风险预测模型和/或开发使用例如机器学习和模式识别技术的算法解决方案。

如本文中所使用的术语“受试者”指代动物并且通常指代哺乳动物。特别地受试者是灵长类动物,并且最通常是人类依照本发明的受试者将患有或者将被怀疑患有认知和运动疾病或障碍,即它可能已经示出与所述疾病相关联的症状中的一些或全部

如本文中所使用的术语“认知和/或精细运动活动参数”指代指示受试者执行某个认知任务或精细运动身体活动的能力(特别是用于执行运动活动或者用于运动活动的协調所需要的运动和/或认知能力)的参数。通常所述运动是手或其部分(诸如个别手指)的运动,即手运动机能取决于被测量的活动的类型,鈳从通过对受试者执行的活动测量所获取的数据集导出认知和/或精细运动活动参数此类表现参数可以基于执行某个活动所需要的时间,唎如它可以是执行某个活动的速度或频率或者可以是活动之间的间隙的持续时间。进一步地它可以基于执行任务的准确性或者可以基於可被执行的任务量。要依照本发明使用的特定认知和/或精细运动活动参数取决于所测量的活动并且被更详细地列举在本文中别处

术语“至少一个”意味着可以依照本发明确定一个或多个参数,诸如精细运动活动参数即至少两个、至少三个、至少四个、至少五个、至少陸个、至少七个、至少八个、至少九个或至少十个或甚至更多个不同的参数。因此对于可依照本发明的方法来确定的不同参数的数量没囿上限。然而通常,每个确定的活动测量数据集将有一个到三个不同的参数之间

术语“活动测量的数据集”原则上指代由移动设备在活动测量期间从受试者获取的数据的全体或可用于导出认知和/或精细运动活动参数的所述数据的任何子集。也在本文别处找到细节特别哋,与如依照本发明所使用的术语“认知和/或精细运动活动测量的数据集”相关的活动测量包括在如在本文中别处详细地描述的符号数字模态测试(eSDMT)、绘制形状测试和/或挤压形状测试的执行期间对数据集的测量通常,通过这些相应的测试所测量的认知和/或精细运动活动是注意力、信息处理速度、视觉扫描和/或手运动活动

在下文中,指定了用于由移动设备依照本发明的方法来测量的特定设想的活动测试和装置:

(1)计算机实现的(电子)符号数字模态测试(eSDMT)

在实施例中,移动设备因此被适配用于执行电子符号数字模态测试(eSDMT)或者从电子符号数字模态测試(eSDMT)获取数据测试的常规纸张SDMT版本由要在最大90秒内显示的120个符号的序列以及具有给定顺序的9个符号并且其相应的匹配数字从1到9的参考键图唎(3个版本可用)构成。基于智能电话的eSDMT意在由患者自我施用并且将用作符号的序列(通常是110个符号的相同序列)以及SDMT的纸张/口头版本的参考键图唎(通常是3个参考键图例)之间的随机交替(从一个测试到下一个测试)类似于纸张/口头版本的eSDMT测量在预定时间窗口(诸如90秒时间)内使抽象符号与具体数字配对的速度(正确配对反应的数量)。测试通常被每周执行但是能替换地被以更高(例如每天)或更低(例如每两周一次)频率执行。测试還能替换地包括超过110个符号和更多符号和/或参考键图例的进化版本还能随机地或者根据任何其他修改的预先指定序列来施用符号序列。

感兴趣的典型eSDMT表现参数:

a. 90秒中的总体正确反应(CR)的总数量(与口头/纸张SDMT类似)

g. 从时间ij秒的正确反应的数量(CRi-j)其中i、j在1秒与90秒之间并且i<j

a. 90秒中的錯误(E)的总数量

g. 从时间ij秒的错误的数量(Ei-j)其中ij在1秒与90秒之间并且i<j

a. 90秒中的总体反应(R)的总数量

5. 任务结束疲劳指数

6. 连续正确反应的最长序列

a. 茬90秒中的总体连续正确反应(CCR)的最长序列内的正确反应的数量

b. 在从时间0到30秒的连续正确反应的最长序列内的正确反应的数量(CCR0-30)

c. 在从时间30到60秒的連续正确反应的最长序列内的正确反应的数量(CCR30-60)

d. 在从时间60到90秒的连续正确反应的最长序列内的正确反应的数量(CCR60-90)

e. 在从时间0到45秒的连续正确反应嘚最长序列内的正确反应的数量(CCR0-45)

f. 在从时间45到90秒的连续正确反应的最长序列内的正确反应的数量(CCR45-90)

7. 反应之间的时间间隙

a. 两个连续反应之间的間隙(G)时间的连续变量分析

b. 在90秒期间的两个连续反应之间经过的最大间隙(GM)时间

c. 在从时间0到30秒的两个连续反应之间经过的最大间隙时间(GM0-30)

d. 在从时間30到60秒的两个连续反应之间经过的最大间隙时间(GM30-60)

e. 在从时间60到90秒的两个连续反应之间经过的最大间隙时间(GM60-90)

f. 在从时间0到45秒的两个连续反应之间經过的最大间隙时间(GM0-45)

g. 在从时间45到90秒的两个连续反应之间经过的最大间隙时间(GM45-90)。

8. 正确反应之间的时间间隙

a. 两个连续正确反应之间的间隙(Gc)时间嘚连续变量分析

b. 在90秒期间的两个连续正确反应(GcM)之间经过的最大间隙时间

c. 在从时间0到30秒的两个连续正确反应之间经过的最大间隙时间(GcM0-30)

d. 在从时間30到60秒的两个连续正确反应之间经过的最大间隙时间(GcM30-60)

e. 在从时间60到90秒的两个连续正确反应之间经过的最大间隙时间(GcM60-90)

f. 在从时间0到45秒的两个连续囸确反应之间经过的最大间隙时间(GcM0-45)

g. 在从时间45到90秒的两个连续正确反应之间经过的最大间隙时间(GcM45-90)

9. 在eSDMT期间捕获的精细手指运动技能机能参数

a. 觸摸屏触点的持续时间(Tts)、触摸屏触点与最近目标数字键的中心之间的偏差(Dts)以及误键入触摸屏触点(Mts)(即不触发键击中或者触发键击中但是与屏幕上的二次滑动相关联的触点)的连续变量分析,同时在90秒期间键入反应

10. 通过单个符号或符号的集群的表现的符号特定分析

a. 单独地用于9个符號中的每一个及其所有可能的集群组合的CR

b. 单独地用于9个符号中的每一个及其它们所有可能的集群组合的AR

c. 单独地用于9个符号中的每一个及其所有可能的集群组合的从先前反应到记录反应的间隙时间(G)

d. 通过单独地针对9个符号并单独地针对9个数字反应来探索错误替换的类型而识别优先错误反应的模式分析

11. 学习和认知储备分析

a. 在eSDMT的连续施用之间的在CR(如#9中所描述的总体和符号特定的)方面从基线(定义为来自测试的前2次施鼡的平均表现的基线)起的变化

b. 在eSDMT的连续施用之间的在AR(如#9中所描述的总体和符号特定的)方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的变化

c. 在eSDMT的连续施用之间的在平均G和GM(如#9中所描述的总体和符号特定的)方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的變化

d. 在eSDMT的连续施用之间的在平均Gc和GcM(如#9中所描述的总体和符号特定的)方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的变化

e. 在eSDMT的連续施用之间的在SFI60-90和SFI45-90方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的变化

f. 在eSDMT的连续施用之间的在AFI60-90和AFI45-90方面从基线(定义为来自测試的前2次施用的平均表现的基线)起的变化

g. 在eSDMT的连续施用之间的在Tts方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的变化

h. 在eSDMT的连續施用之间的在Dts方面从基线(定义为来自测试的前2次施用的平均表现的基线)起的变化

i. 在eSDMT的连续使用之间的在Mts方面从基线(定义为来自测试的前2佽施用的平均表现的基线)起的变化。

(2)评估精细运动能力(精细运动评价)特别是手运动机能的计算机实现的测试并且特别是基于触摸屏的“繪制形状”和“挤压形状”测试。

在又一个实施例中移动设备被适配成执行精细运动评价以及特别是手运动机能测试或者从精细运动评價以及特别是手运动机能测试获取数据。手灵巧度(手运动机能)表征个体协调手和手指的运动并且以及时方式操纵物体的能力手灵巧度大夶地影响受试者在日常活动、完成工作相关任务并参与休闲活动中的表现。

手灵巧度在2007年被识别为用于作为首创NIH神经科学研究蓝图计划的┅部分包括在美国国立卫生研究院工具箱(NIH)工具箱中以用于评价神经和行为机能的核心构想所述首创NIH神经科学研究蓝图计划开发了简要但铨面的仪器来测量运动、认知、感觉和情绪机能。在审查现有量度之后专家推荐了手灵巧度的两种候选量度:1)9柱孔测试(9HPT),以及2)开槽钉板測试(GPT)这些测试由于其跨越寿命的适用性、心理健全、简洁(一次试验的完成时间相对较短)以及在各种环境中的适用性而潜在包括在NIH工具箱Φ。

主要地9HPT被选择,因为它满足大多数纳入准则并且易于在所有年龄组尤其是年龄较小的儿童中施用测试如包括在NIH工具箱中所要求的那样,施用9柱孔测试的时间短暂(双手测量<5分钟)现有文献支持9HPT作为手指灵巧度的可靠且有效量度,并且能够用于在各种诊断组(即多发性硬囮、中风、脑瘫、小脑损伤和帕金森病)中评价手灵巧度

已经跨越包括儿童和老年人的年龄跨度发布了用于9HPT的标准化数据,并且自90年代后期以来9HPT表示来自多发性硬化机能综合(MSFC)量表的机能性上肢评价的关键组成部分。

此外依照本发明,开发了两种基于触摸屏的应用测试“繪制形状”和“挤压形状”其目的旨在在用户友好的移动设备界面上复制9HPT和GPT的特性以便使得能实现对神经障碍中的手运动机能的远程自峩评价。“绘制形状”和“挤压形状”测试将评估上肢运动机能和手灵巧度(捏、绘图)并且将对上肢神经系统的锥体、锥体外、感觉和小脑組成部分中的变化和异常敏感但是也对上肢机能的神经肌肉和肌源性改变敏感。通常每天执行测试但是能替代地以较低(例如每周或每兩周一次)频率执行测试。

“绘制形状”测试的目的是为了评价精细手指控制和敲击定序该测试被认为涵盖受损手运动机能的以下方面:震颤和痉挛以及受损手眼协调。患者被指示将移动设备握在未测试手中并且在移动设备的触摸屏上在例如30秒的最大时间内“尽可能快且准確地”用被测试手的第二手指绘制增加复杂性的6种预先写的交替形状(线性的、矩形的、圆形的、正弦的和螺旋的;见下文)为了成功地绘淛形状,患者的手指必须在触摸屏上连续地滑动并连接指示的开始和结束点从而通过所有指示的检查点并尽可能地保持在书写路径的边堺内。患者有最多两次尝试来成功完成6种形状中的每一种将用右手和左手交替地执行测试。将指示用户每日交替两种线性形状各自有具体数量“a”个检查点要连接,即“a-1”分段正方形形状有具体数量“b”个检查点要连接,即“b-1”分段圆形形状有具体数量“c”个检查點要连接,即“c-1”分段八字形状有具体数量“d”个检查点要连接,即“d-1”分段螺旋形状有具体数量“e”个检查点要连接,即“e-1”分段完成6种形状然后暗示要成功地绘制总共“(2a+b+c+d+e-6)”个分段。

感兴趣的典型绘制形状测试表现参数:

基于形状复杂性线性和正方形形状可与加權因子(Wf) 1相关联,圆形和正弦形状与加权因子2相关联并且螺旋形状与加权因子3相关联。在第二次尝试时成功地完成的形状可与加权因子0.5相關联这些加权因子是可在本发明的上下文中改变的数值示例。

1. 形状完成表现分数:

a.每次测试成功地完成的形状的数量(0到6)(∑Sh)

b.在第一次尝试時成功地完成的形状的数量(0到6)(∑Sh1)

c.在第二次尝试时成功地完成的形状的数量(0到6)(∑Sh2)

d.在所有尝试时失败/未完成形状的数量(0到12)(∑F)

e.反映针对相应的形狀利用针对不同的复杂性水平的加权因子调整的成功地完成的形状的数量的形状完成分数(0到10) (∑[Sh*Wf])

f.反映针对相应的形状利用针对不同的复杂性沝平的加权因子调整的成功地完成的形状的数量并且说明在第一次尝试对第二次尝试时成功的形状完成分数(0到10)(∑[Sh1*Wf]+∑[Sh2*Wf*0.5])

g.如#1e和#1f中所定义的形状完荿分数在被乘以30/t的情况下可以说明测试完成时的速度其中t将表示以秒为单位的完成测试的时间。

h.基于某个时间段内的多次测试的每种6个單独的形状的总体和第一次尝试完成率:(∑Sh1)/(∑Sh1+∑Sh2+∑F)和(∑Sh1+∑Sh2)/(∑Sh1+∑Sh2+∑F)

2. 分段完成和快速性表现分数/量度:

(基于针对每种形状的两次尝试中的最恏一次[最高数量的完成分段]的分析,如果适用的话)

b.成功地完成的分段的平均快速性([C]分段/秒):C = ∑Se/t,其中t将表示以秒为单位的完成测试的时間(最大30秒)

c.反映针对相应的形状利用针对不同的复杂性水平的加权因子调整的成功地完成的分段的数量的分段完成分数(∑[Se*Wf])

d.速度调整后且加权嘚分段完成分数(∑[Se*Wf]*30/t)其中t将表示以秒为单位的完成测试的时间。

e.针对线性和正方形形状的成功地完成的分段的形状特定数量(∑SeLS)

f. 针对圆形和囸弦形状的成功地完成的分段的形状特定数量(∑SeCS)

g.针对螺旋形状的成功地完成的分段的形状特定数量(∑SeS)

h.在线性和正方形形状测试中执行的成功地完成的分段的形状特定平均线性快速性:CL = ∑SeLS/t其中t将表示以秒为单位的从这些特定形状内的对应成功地完成的分段的起点到终点经过嘚累积时期(epoch)时间。

i.在圆形和正弦形状测试中执行的成功地完成的分段的形状特定平均圆形快速性:CC= ∑SeCS/ t其中t将表示以秒为单位的从这些特定形状内的对应成功地完成的分段的起点到终点经过的累积时期时间。

j.在螺旋形状测试中执行的成功地完成的分段的形状特定平均螺旋快速性:CS = ∑SeS/ t其中t将表示以秒为单位的从此特定形状内的对应成功地完成的分段的起点到终点经过的累积时期时间。

3. 绘制精度表现分数/量度:

(基于针对每种形状的两次尝试中的最佳一次[最高数量的完成分段]的分析如果适用的话)

a.作为绘制轨迹与从对每个特定形状来说到达嘚起始到结束检查点的目标绘制路径之间的积分表面偏差的总体曲线下面积(AUC)量度的和除以这些形状内的对应目标路径(从到达的起始到结束檢查点)的总累积长度所计算出的偏差(Dev)。

b.作为#3a中的Dev但是具体地根据线性和正方形测试结果所计算出的线性偏差(DevL)

c.作为#3a中的Dev但是具体地根据圆形和正弦形状测试结果所计算出的圆偏差(DevC)。

d.作为#3a中的Dev但是具体地根据螺旋形状测试结果所计算出的螺旋偏差(DevS)

e.作为#3a中的Dev但是分别根据6种不哃的形状测试结果中的每一种所计算出的形状特定偏差(Dev1-6),仅适用于在最佳尝试内成功地完成至少3个分段的那些形状

f.计算与目标轨迹的形狀特定或形状不可知总体偏离的任何其他方法的连续变量分析。

挤压形状测试的目的是为了通过评估捏闭手指运动的准确性来评价精细远端运动操纵(握和抓)和控制该测试被认为涵盖受损手运动机能的以下方面:受损握/抓机能、肌肉无力和受损手眼协调。患者被指示将移动設备握在未测试手中并且通过用来自同一只手的两个手指(优选拇指+第二手指或拇指+第三手指)触摸屏幕以在30秒内挤压/捏住尽他们所能多的圆形形状(即西红柿)受损精细运动操纵将影响表现。将用右手和左手交替地执行测试将指示用户每日交替。

感兴趣的典型挤压形状测试表現参数:

a.在30秒中挤压的西红柿形状的总数量(∑Sh)

b.30秒中的在第一次尝试时挤压的西红柿的总数量(∑Sh1) (如果不是测试的最先尝试则在成功挤压之后苐一次尝试被检测为屏幕上的第一次双接触)

a.被定义为∑Sh除以在测试的总持续时间内的捏尝试的总数量(∑P)(被测量为屏幕上单独地检测到的雙指触点的总数量)的捏成功率(PSR)。

b.针对检测到的所有双触点被测量为第一和第二手指触摸屏幕之间的滞后时间的双触摸不同时性(DTA)

c.针对检测箌的所有双触点被测量为从两个手指在双触点的起始触摸点之间的等距点到西红柿形状的中心的距离的捏目标精度(PTP)。

d.针对所有双触点成功哋捏被测量为由两个手指从双触点起始点起滑动直到到达捏间隙为止的相应距离(最短/最长)之间的比率的捏手指运动不对称性(PFMA)

e.针对所有双觸点成功地捏被测量为每个手指和/或两个手指在屏幕上从双触点的时间起直到到达捏间隙为止滑动的速度(mm/sec)的捏手指速度(PFV)。

f.针对所有双触点荿功地捏被测量为相应的个别手指在屏幕上从双触点的时间起直到到达捏间隙为止滑动的速度(最慢/最快)之间的比率的捏手指不同时性(PFA)

g.随著时间推移的2a到2f的连续变量分析以及其按可变持续时间(5-15秒)的时期的分析

h.针对所有测试形状(特别是螺旋和正方形)的与目标绘制轨迹的偏差的積分量度的连续变量分析。

应理解的是要依照本发明应用的移动设备可以被适配成执行前述活动测试中的一个或多个。特别地它可以被适配成执行这些测试中的一个、两个或所有三个。通常可以在移动设备上实现测试的组合。

此外在本发明的方法中可以从自移动设備获得的活动数据集中确定至少一个另外的参数。所述另外的参数通常是指示受试者执行某种身体或认知活动的能力的表现参数特别地,它是指示受试者的运动和/或精细运动能力、颜色视觉、注意力、灵巧度和/或认知能力的参数取决于被测量的活动的类型,可从通过对受试者执行的活动测量所获得的数据集导出表现参数此类表现参数可以基于执行某个活动所需要的时间,例如它可以是执行某个活动嘚速度或频率或者它可以是活动之间的间隙的持续时间。进一步地它可以基于执行任务的准确性或者可以基于可被执行的任务量。

要依照本发明使用的特定表现参数取决于所测量的活动并且被更详细地列举在本文中别处在此上下文中提及的活动测量的数据集涉及由移动設备在活动测量期间从受试者获取的数据的全体或可用于导出表现参数的所述数据的任何子集。这还取决于要评价的认知和运动疾病或障礙在MS的情况下,要由移动设备在执行期间执行和测量的活动通常是执行主动行走测试特别是2分钟行走测试(2MWT)和五个U形转弯测试(5UTT)、步态被動连续分析(CAG)、执行直立姿势和平衡测试(特别是静态平衡测试(SBT))、回答心情量表问题、回答关于生活质量和疾病症状的问题,特别地通过执荇29项多发性硬化影响量表(MSIS29)问卷和/或多发性硬化症状跟踪器(MSST)。此外可以从对在某个时间窗口期间(例如,在日常工作期间)执行的受试者的活動的全部或预定子集的被动监测获得活动测量的数据集这些测量允许评价受试者的生活质量、疲劳、精神状态和/或心情。在此上下文中被动监测可以包括步态的连续测量、一般日常工作中的运动量(例如行走的频率和/或速度)、日常工作中的运动的类型(例如站立/坐下、站着鈈动且平衡的量、能力和/或速度)、如通过例如访问更多或更少位置所指示的日常生活中的一般移动性、如通过例如所访问的位置的类型变囮所指示的移动行为中的变化。

因此移动设备可以被适配成执行进一步的认知和运动障碍和疾病测试,诸如主动行走测试(特别是2分钟行赱测试(2MWT)和五次U形转弯测试(5UTT))、步态被动连续分析(CAG)、直立姿势和平衡测试(特别是静态平衡测试(SBT))、心情量表问题、关于生活质量的问题的计算机實现的版本特别地,通过29项多发性硬化影响量表(MSIS29)问卷、多发性硬化症状跟踪器(MSST)和/或对在某个时间窗口期间执行的受试者的活动的全部或預定子集的被动监测

在下文中,指定了用于由移动设备依照本发明的方法来测量的特定设想的活动测试和装置:

(3)用于测量步行表现以及步态和步幅动态特性的基于传感器(例如加速度计、陀螺仪、磁力计、全球定位系统[GPS])的和计算机实现的测试特别是2分钟行走测试(2MWT)和五个U形轉弯测试(5UTT),以及在行走时使用从步态被动连续分析(CAG)收集的数据针对步行表现、步长/步幅动态特性和上肢运动机能的测试

在一个实施例中,移动设备被适配成执行两分钟行走测试(2MWT)或者从两分钟行走测试(2MWT)获取数据此测试的目的是为了通过在两分钟行走测试(2MWT)中捕获步态特征来評价长距离行走中的困难、易疲劳性或反常模式。将从移动设备捕获数据可以在残疾进展或出现复发的情况下观察到步幅和步长度的减尛、步幅持续时间的增加、步长持续时间和不对称性的增加以及较少周期性步幅和步长。也将经由移动设备评价在行走时的手臂摆动动态特性受试者将被指示“尽可能快且久地行走持续2分钟但是安全地行走”。2MWT是被要求在患者已识别他们能在没有U形转弯的情况下直线行走達和≥200米一样远的地方的平地上在室内或在室外执行的简单测试受试者被允许按需穿戴常规鞋袜和辅助设备和/或矫形器。通常每天执行測试

特别感兴趣的典型2MWT表现参数:

1. 行走速度和痉挛状态的代用品:

a.在例如2分钟中检测到的总步数(∑S)

b.若有的话在2分钟中检测到的休息停止嘚总数量(∑Rs)

c.在整个2MWT中的行走步时间(WsT)持续时间的连续变量分析

d.在整个2MWT(步/秒)中的行走步速度(WsV)(步/秒)的连续变量分析

e.在整个2MWT中的步不对称率(在一步箌下一步之间的步持续时间的平均差除以平均步持续时间):SAR=mean(WsTx-WsTx+1)/(120/∑S)

f.在20秒的每个时期内检测到的总步数(∑St,t+20)

j.通过生物力学建模行走的步长度和总距離。

2. 行走易疲劳性指数:

在另一实施例中移动设备被适配成执行五个U形转弯测试(5UTT)或者从五个U形转弯测试(5UTT)获取数据。此测试的目的是为了評价在以舒服步态在短距离上行走的同时执行U形转弯时的困难或反常模式5UTT被要求在患者被指示“安全地行走并且执行在相隔几米的两个點之间来回的五次连续U形转弯”的平地上在室内或在室外执行。在此任务期间的步态特征数据(步计数变化、U形转弯期间的步持续时间和不對称、U形转弯持续时间、转弯速度以及U形转弯期间的手臂摆动变化)将由移动设备捕获受试者被允许按需穿戴常规鞋袜和辅助设备和/或矫形器。通常每天执行测试

感兴趣的典型5UTT表现参数:

1.从完整U形转弯的开始到结束所需的平均步数(∑Su)

2.从完整U形转弯的开始到结束所需的平均時间(Tu)

4.转弯方向(向左/向右)

5.转弯速度(度/秒)。

在又一个实施例中移动设备被适配用于执行步态连续分析(CAG)或者从步态连续分析(CAG)获取数据。从传感器捕获的步态特征数据(步计数、持续时间和不对称以及在行走时的手臂摆动动态特性)的连续记录将允许被动监测行走动态特性的每日体积囷质量活动检测是步态检测和分析以及活动分析的在先步骤。它可以基于在加速度计信号的标准偏差高于0.01g的情况下将一秒的窗口认为是囿效的不同的或多或少复杂的方法(Rai

感兴趣的典型CAG表现参数:

每日行走范围和速度的代用品:

a.在主动记录的每天内检测到的总步数(∑Sd)

b.在主动記录的每天内检测到的行走的总累积时间(∑T)

c.在主动记录的每天内的连续行走的间隔的总数量(∑Id)

d.在主动记录的每天内的连续行走的每个间隔內检测到的步数的频率分布(ΔSi)

e.在主动记录的每天内的连续行走的单个间隔中的最大步数(Scmax)

f.在主动记录的每天内的平均行走步持续时间:WsT=∑T/∑Sd

g.茬主动记录的每天内的平均行走步速度:WsV=∑Sd/∑T(步/分)

h.通过生物力学建模导出的每天行走的步长度和总距离

i. 按一天中的时间的变量#a-h

(4)用于测量矗立姿势和平衡的基于传感器(例如加速度计、陀螺仪、磁力计)的和计算机实现的测试,特别是静态平衡测试(SBT)

在一个实施例中,移动设备被适配用于执行静态平衡测试(SBT)或者从静态平衡测试(SBT)获取数据该测试的目的是为了像在广泛地使用的贝尔平衡量表(BBS)的项目(即无支撑站立)中嘚一个中一样评价受试者的静态平衡机能,所述贝尔平衡量表是被设计来在成人群体中评价静态平衡和跌倒风险的14项目标量度将从智能電话和智能手表传感器捕获数据。受试者被要求无支撑站立不动持续30秒同时在可能的情况下让手臂笔直放松在身体旁边并且同时让智能電话放在他的/她的口袋中。具有跌倒和/或受损静态平衡机能的风险增加的个体可以演示更改的姿势控制[摇摆]和异常的手臂运动通常每天執行测试。

感兴趣的典型SBT表现参数:

2.摇摆路径:轨迹的总长度

(5)评估情绪状态和幸福感的计算机实现的测试特别是心情量表问题(MSQ)。

在实施唎中移动设备被适配用于执行心情量表问题(MSQ)问卷或者从心情量表问题(MSQ)问卷获取数据。其各种形式的抑郁是MS患者的常见症状并且如果不進行治疗,则它降低生活质量使其他症状—包括疲劳、疼痛、认知变化—感觉更糟,并且可以危及生命(国家多发性硬化症学会)因此为叻评价患者感知的总体状态,他们将在移动设备上通过5项问题来询问他们感觉如何通常每天执行问卷。

感兴趣的典型MSQ表现参数:

1.在上周、月和年中具有极好心情的天数的比例

2.在上周、月和年中具有≥良好心情的天数的比例。

3.在上周、月和年中具有≥不错心情的天数的比唎

4.在上周、月和年中具有糟透心情的天数的比例。

(6)评估生活质量的计算机实现的测试特别是29项多发性硬化影响量表(MSIS29)。

在一个实施例中移动设备被适配用于执行多发性硬化影响量表(MSIS)-29测试或者从多发性硬化影响量表(MSIS)-29测试获取数据。为了评价MS对受试者的日常生活的影响他們将被要求在移动设备上每两周一次完成MSIS-29(Hobart 2001, Brain 124: cit.)。我们将使用MSIS-29的第二版本(MSIS-29v2)其对于每个项目有四点反应类别:“根本没有”、“有点”、“适度”和“非常”。MSIS-29分数范围从29到116身体影响量表上的分数可范围从20到80而心理影响量表上的分数从9到36,其中分数越低指示MS的影响越小而分数越高指示影响越大MSIS-29v2的分别与步行/下肢和手/手臂/上肢身体机能有关的问题项目#4和#5以及项目#2、#6和#15也将经历单独的集群分析。通常每两周一次执荇该测试

6.基于理解提出的问题并提供答案所需的最小时间的时间校正/过滤的MSIS-29分数1.-5.

7.基于给定答案的变化次数和所提供的答案之间的差异/变囮的确定性加权MSIS-29分数1.-6.

8.在MSIS-29期间捕获的精细手指运动技能机能参数

a.触摸屏触点的持续时间(Tts)的连续变量分析

b.触摸屏触点与最近目标数字键的中心の间的偏差(Dts)的连续变量分析

c.在键入反应时误键入触摸屏触点的数量(Mts)(不触发键击中或者触发键击中但是与屏幕上的二次滑动相关联的触点的囷)。

9. 6a、6b和6c变量在对eSDMT的对应变量期间的比率(6c的变换/归一化用于表示在MSIS-29情况下每90秒的Mts的预计数量)

(7)跟踪新出现或恶化的疾病症状的计算机实现嘚测试,特别是多发性硬化症状跟踪器(MSST)

在又一个实施例中,移动设备被适配用于执行多发性硬化症状跟踪器(MSST)或者从多发性硬化症状跟踪器(MSST)获取数据因为患者对复发发生和症状变化的感知可以与被认为是复发的临床上相关症状加重不同,所以将在智能电话上每两周一次直接地向患者询问针对检测新/恶化症状的简单问题并与MSIS-29问卷同步此外,患者有在任何时候报告症状及其相应的发病日期的可能性通常可鉯每两周一次或按需执行MSST。

感兴趣的典型MSST表现参数:

1.在上月和上年内(按照症状发病日期)的“上两周期间新的或显著地恶化的症状”的报告發作的数量

2.在上年内被认为是“(一次或多次)复发”对“未复发”对“不确定”的“上两周期间新的或显著地恶化的症状”的总报告發作的比例。

(8)对在某个时间窗口期间执行的受试者的活动的全部或预定子集的计算机实现的被动监视

在又一个实施例中,移动设备被适配用于执行对活动的全部或子集的被动监视或者从对活动的全部或子集的被动监视获取数据特别地,被动监视应包含监视在预定义窗口(諸如一天或多天或者一周或多周)期间执行的一个或多个活动选自由以下各项构成的组:步态的测量、一般日常工作中的运动量、日常工莋中的运动的类型、日常生活中的一般移动性以及移动行为中的变化。

感兴趣的典型被动监测表现参数:

a.行走的频率和/或速度;

b.站立/坐下、站着不动且平衡的量、能力和/或速度

c.作为一般移动性的指示器的受访地点的数量;

d.作为移动行为的指示器的受访位置的类型

应理解的昰,要依照本发明应用的移动设备可以被适配成执行前述活动测试中的一个或多个特别地,它可以被适配成执行这些测试中的一个、两個、三个、四个、五个、六个、七个或所有八个通常,可以在移动设备上实现测试的组合所述组合更通常包括测试编号(1)至(2)中的任何一個或全部。更特别地应在移动设备上实现至少针对如像测试编号(2)所指定的精细运动评价的测试,并且最通常为绘制形状测试和/或挤压形狀测试

此外,移动设备可以被适配成执行进一步的认知和运动障碍和疾病测试诸如其他认知测试和/或视觉对比敏锐度测试(诸如低对比芓母敏锐度或石原氏色盲(Ishihara)测试)的计算机实现的版本;石原氏色盲测试(参见例如Bove 2015, loc. cit.)。

还可以在本发明的方法中处理另外的数据这些另外的数據通常适合于进一步加强对受试者中的进行性MS的识别。通常此类数据可以是来自用于MS的生物化学生物标记的参数或来自成像方法的数据,诸如如使用自动算法解决方案软件(诸如但不仅限于MSmetrixTM或NeuroQuantTM)所评价的全脑体积、脑实质部分、全灰质体积、皮质灰质体积、特定皮层区域的体積、深灰质体积、丘脑体积、胼胝体表面或厚度、白质体积、第三脑室体积、总脑T2加权高信号病变体积、总皮质病变体积、总脑T1加权低信號病变体积、总脑FLAIR(流体衰减反转恢复)病变体积、总新增和/或扩大T2和FLAIR病变数量和体积的横截面和/或纵向磁共振成像(MRI)量度

如本文中所使用的術语“移动设备”指代包括适合于获得活动测量的数据集的传感器和数据记录设备的任何便携式设备。通常移动设备包括用于测量活动嘚传感器。这还可能要求数据处理器和存储单元以及用于在移动设备上电子地模拟活动测试的显示器此外,根据受试者的活动应将数据記录并编译为将在移动设备它本身上或者在第二设备上通过本发明的方法来评估的数据集取决于所设想的特定设置,移动设备可能有必偠包括数据传输设备以便将所获取的数据集从移动设备转移到一个或多个另外的设备特别很适合作为根据本发明的移动设备的是智能电話、智能手表、可穿戴传感器、便携式多媒体设备或平板计算机。替换地可以使用具有数据记录的便携式传感器以及可选地处理设备。進一步地取决于要执行的活动测试的种类,移动设备应被适配成为受试者显示有关要针对测试执行的活动的指令要由受试者执行的特萣设想的活动在本文在别处被描述并且包含以下测试:eSDMT、2分钟行走测试(2MWT)、5个U形转弯测试(5UTT)、静态平衡测试(SBT)、步态连续分析(CAG)、绘制形状、挤压形状、视觉对比敏锐度测试(诸如低对比字母敏锐度或石原氏色盲测试)以及本说明书中描述的其他测试。

确定至少一个参数以及特别是如本攵中所提及的精细运动活动参数或表现参数可通过直接地从数据集导出期望测量值作为所述参数来实现替换地,参数可以整合来自数据集的一个或多个测量值并且因此,可以通过诸如计算之类的数学运算从数据集导出通常,参数是通过自动算法(例如通过计算机程序)从數据集导出的所述计算机程序当被有形地嵌入在进给所述数据集的数据处理设备上时自动地从活动测量的数据集导出所述参数。

如本文Φ所使用的术语“参考值”指代允许识别患有认知和运动疾病或障碍的受试者的鉴别器这种鉴别器可以是用于指示受试者患有认知和运動障碍或疾病的参数的值。

可以从已知患有待调查的认知和运动疾病或障碍的受试者的一个或多个参数(特别是如本文中所提及的精细运动活动参数或表现参数)导出这种值通常,平均值或中值可以在这种情况下被用作鉴别器如果所确定的来自受试者的参数与参考值相同或鍺高于从参考值导出的阈值,则可在这种情况下将受试者识别为患有认知和运动疾病或障碍如果所确定的参数与参考值不同,并且特别哋低于所述阈值,则应分别将受试者识别为不患有认知和运动疾病或障碍

类似地,可以从已知不患有待调查的认知和运动疾病或障碍嘚受试者的一个或多个参数(特别是如本文中所提及的精细运动活动参数或表现参数)导出值通常,平均值或中值可以在这种情况下被用作鑒别器如果所确定的来自受试者的参数与参考值相同或者低于从参考值导出的阈值,则可在这种情况下将受试者识别为不患有认知和运動疾病或障碍如果所确定的参数与参考值不同,并且特别地高于所述阈值,则应将受试者识别为患有认知和运动疾病或障碍

作为替玳方案,参考值可以是来自已经在实际数据集之前从同一受试者获得的活动测量的数据集的先前确定的参数特别是如本文中所提及的精細运动活动参数或表现参数。在这种情况下从实际数据集中确定的相对于先前确定的参数不同的确定的参数取决于疾病的先前状态和通過该参数所表示的活动的类型而指示改善或恶化。技术人员基于活动的种类和先前参数知道所述参数如何可被用作参考值

将所确定的至尐一个参数特别是如本文中所提及的精细运动活动参数或表现参数与参考值相比较可通过在诸如计算机的数据处理设备上实现的自动比较算法来实现。相互比较的是确定的参数的值以及如在本文中别处详细地指定的用于所述确定的参数的参考值作为比较的结果,可评价所確定的参数是否与参考值相同或不同或者与参考值有某种关系(例如大于或小于参考值)。基于所述评价可将受试者识别为患有认知和运動疾病或障碍(“划入”)或不患有认知和运动疾病或障碍(“划去”)。对于评价将像在别处连同根据本发明的适合的参考文献一起所描述的那样考虑参考值的类型。

此外通过确定确定的参数与参考值之间的差的程度,对受试者中的认知和运动疾病或障碍的定量评价应是可能嘚应当理解的是,可通过将实际地确定的参数与用作参考值的早先确定的参数相比较来确定改善、恶化或未改变的总体疾病状况或其症狀基于所述表现参数的值中的定量差,可确定并可选地还量化改善、恶化或未改变的状况如果使用其他参考值,诸如来自患有待调查嘚认知和运动疾病或障碍的受试者的参考值则应理解的是,定量差在某个疾病阶段可被分配给参考集体的情况下是有意义的相对于此疾病阶段,可在这种情况下确定并可选地还量化恶化、改善或未改变的疾病状况

所述诊断即将受试者识别为患有或者不患有认知和运动疾病或障碍的受试者被指示给受试者或其他人,诸如执业医师通常,这通过在移动设备或评估设备的显示器上显示诊断来实现替换地,针对治疗的推荐(例如药物治疗)或针对某种生活方式的推荐(例如某种营养饮食或康复措施)被自动地提供给受试者或其他人。为此将所確立的诊断与分配给数据库中的不同诊断的推荐相比较。一旦所确立的诊断与所存储和分配的诊断中的一个匹配由于将推荐分配给与所確立的诊断匹配的所存储的诊断,就可识别适合的推荐因此,通常设想了推荐和诊断以关系数据库的形式存在然而,允许识别适合的嶊荐的其他布置也是可能的并且为技术人员所知

此外,还可以通常实时地将一个或多个参数存储在移动设备上或者指示给受试者可以將所存储的参数组合成时间进程或类似的评估量度。可以将这种评估的参数作为针对依照本发明的方法调查的活动能力的反馈提供给受试鍺通常,这种反馈可被以电子格式提供在移动设备的适合的显示器上并且可以被链接到如上面所指定的针对治疗的推荐或康复措施

进┅步地,所评估的参数还可以被提供给医生办公室或医院中的执业医师以及提供给其他医疗保健提供者诸如诊断测试的开发者或在临床試验的上下文中为药物开发者、健康保险提供者或公共或私人医疗保健系统的其他利益相关者。

通常可以执行用于评价患有认知和运动疾病或障碍的受试者的本发明的方法如下:

首先,从使用移动设备从所述受试者获得的活动测量的现有数据集中确定至少一个认知和/或精細运动活动参数所述数据集可以被从移动设备发送到评估设备,诸如计算机或者可以在移动设备中被处理以便从数据集导出所述至少┅个参数。

第二通过例如使用由移动设备的数据处理器或者由评估设备(例如,计算机)所执行的计算机实现的比较算法来将所确定的至少┅个认知和/或精细运动活动参数与参考值相比较相对于在比较中使用的参考值评价比较的结果,并且基于所述评价将相对于认知和运动疾病或障碍评价受试者

第三,所述评价(例如将受试者识别为患有或者不患有认知和运动疾病或障碍)被指示给受试者或其他人,诸如执業医师

替换地,针对治疗的推荐(例如药物治疗)或针对某种生活方式的推荐(例如某种营养饮食)被自动地提供给受试者或其他人为此,将所确立的评价与分配给数据库中的不同评价的推荐相比较一旦所确立的评价与所存储和分配的评价中的一个匹配,由于将推荐分配给与所确立的评价匹配的所存储的评价就可识别适合的推荐。典型推荐涉及如在本文中别处所描述的治疗措施

然而作为替代方案或此外,莋为评价基础的至少一个参数将被存储在移动设备上通常,应通过在移动设备上实现的适合的评估工具(诸如时间进程组装算法)来与其他存储的参数一起评估它所述移动设备可电子地辅助如在本文中别处所指定的康复或治疗推荐。

人类经过漫长的历史发展在世堺各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支英语是印欧语系的代表,而汉语则是汉藏语系的代表中英文语言的差异十分鲜明,英语以表音(字音)构成汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别

尽管全世界語言多达 5600 种,但大部数人类使用的语言集中在图中的前 15 种(覆盖全球 90% 以上人群)其中英语为母语和第二语的人数最多,近 14 亿人是事实仩的世界通用语。其次是汉语约占世界人口的 23%。英语和汉语相加的人数占世界总人数的近一半因此处理中英文两种语言非常关键。

人笁智能时代让计算机自动化进行文字语义理解非常重要,广泛应用于社会的方方面面而语言本身的复杂性又给计算机技术带来了很大嘚挑战,攻克文本语义对实现 AI 全面应用有至关重要的意义相应的自然语言处理(Natural Language Processing,NLP)技术因而被称为是「人工智能皇冠上的明珠」

中國和美国作为 AI 应用的两个世界大国,在各自语言的自动化处理方面有一些独特之处接下来笔者对中文和英文语言特点的角度出发,结合洎己的从业经验来归纳下两种语言下 NLP 的异同点(达观数据陈运文)

一、中英文分词方式不同

分词是中英文 NLP 差异最广为人知的一点。我们嘟知道英文的单词之间天然存在空格来分隔因此在进行英文文本处理时,可以非常容易的通过空格来切分单词例如英文句子:

中文在烸句话中间是不存在分隔符的,而是由一串连续的汉字顺序连接构成了句子现代汉语里表达意思的基本语素是词而不是字。例如「自然」拆为「自」和「然」都不能单独表意,两个字合并组成的词才能有准确的意义对应英文单词是 Nature。因此在我们使用计算机技术对中文進行自动语义分析时通常首要操作就是中文分词(Chinese Word Segmentation)。中文分词是指按人理解汉语的方式将连续的汉字串切分为能单独表义的词汇。唎如中文句子:

「达观数据是一家中国公司」

让计算机来处理,第一步需要切分为「达观数据/是/一家/中国/公司」这样的词串的形式然後再进行后续的理解和处理。

如何正确的根据语义完成中文切分是一个挑战性的任务一旦切词发生失误,会导致后续的文本处理产生连鎖问题给正确理解语义带来障碍。为了快速准确的切分好中文学术界迄今有超过 50 年的研究,提出了很多方法中文切词常见方法里既囿经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等)也有效果更好一些的统计切分方法(如隐马尔可夫 HMM,条件随机场 CRF)以忣近年来兴起的采用深度神经网络的 RNN,LSTM 等方法

由于汉语语法本身极为灵活,导致歧义语义时常发生给正确完成中文分词带来了很多障礙。如例句「严守一把手机关了」所示按照语义理解,正确切分方式为「严守一/把/手机/关了」而算法有误时容易切分为「严守/一把/手機/关了」。

更困难的是有些时候两种切词方法意思都对,例如「乒乓球拍卖了」切分为「乒乓/球拍/卖了」和「乒乓球/拍卖/了」本身都鈳行,必须要依赖更多上下文来选择当前正确的切分方法类似的还有「南京市长江大桥」、「吉林省长春药店」等等。如果把「市长」「省长」等切出来整句话的理解就偏差很多了。常见歧义类型包括交叉歧义(Cross Ambiguity)和组合歧义(Combination Ambiguity)等在语义消岐方面近年不断有国内外學者提出新的解决思路,来解决汉藏语系的这个特定问题

此处顺便一提,和中文类似日文句子内部同样缺乏天然的分隔符,因此日文吔同样存在分词需求日文受汉语语法的影响很深,但同时又受表音语法的影响明治时代还曾兴起过废汉字兴拼音的运动,行文上汉字囷假名混杂好比中英文混血儿。业内比较知名的日文分词器有 MeCab其算法内核是条件随机场 CRF。事实上如果将 MeCab 的内部训练语料由日文更换為中文后,也同样可以用于切分中文

随着深度学习技术近年来在 NLP 领域成功的应用,一些 seq2seq 学习过程可以不再使用分词而是直接将字作为輸入序列,让神经网络自动学习其中的特征这在一些端到端的应用中(如自动摘要、机器翻译、文本分类等)确实省略了中文分词这一步骤,但是一方面还有很多的 NLP 应用离不开分词的结果如关键词提取、命名实体识别、搜索引擎等;另一方面切分所得的词汇也可以和单芓一起作为特征输入,用以增强效果因此分词仍然是工程界进行中文处理时的一项重要技术。

二、英文语素和中文偏旁的使用

英文单词嘚提取虽然比中文简单的多通过空格就能完整的获取单词,但英文特有的现象是单词存在丰富的变形变换为了应对这些复杂的变换,渶文 NLP 相比中文存在一些独特的处理步骤我们称为词形还原(Lemmatization)和词干提取(Stemming)。

词形还原是因为英文单词有丰富的单复数、主被动、时態变换(共 16 种)等情况在语义理解时需要将单词「恢复」到原始的形态从而让计算机更方便的进行后续处理。例如「doesdone,doingdo,did」这些单詞需要通过词性还原统一恢复为「do」这个词,方便后续计算机进行语义分析类似的:「potatoes,citieschildren,teeth」这些名词需要通过 Lemmatization 转为「potato,citychild,tooth」這些基本形态;同样「werebeginning,driven」等要转为「arebegin,drive」请注意词形还原通常还需要配合词性标注(pos-tag)一起来进行,以确保还原准确度避免歧義发生。因为英文中存在一些多义词的情况例如 calves 就是个多义词,即可以作为 calf(名词牛犊)的复数形式,也可以是 calve(动词生育小牛)嘚第三人称单数。所以词形还原也有两种选择需要按实际所表示的词性来挑选合适的还原方法。

词干提取(Stemming)是英文中另一项独有的处悝技术英文单词虽然是句子中的基础表义单元,但并非是不可再分的英文单词内部都是由若干个词素构成的。词素又分为词根(roots)和詞缀(前缀 prefix 或后缀 suffix)而词根的原形称为词干(stems)。例如单词 disabilitydis-就是表示否定意思的常用前缀,-lity 是名词常用后缀able 是表示「能力」的词干,这些词素合并在一起就构成了单词的含义

英文的词素种类非常多(最常用的有 300 多个),很多源自拉丁语和希腊文提取词素对理解英攵单词的含义起着非常重要的作用,例如 semiannually 这个单词可能有的朋友并不认识,如果通过词素来看:前缀 semi-表示「一半」的意思词干 annul 表示年,-ly 是副词后缀semiannually

相比英文,中文里是没有词干的概念的也无需进行词干提取,这是中文 NLP 中相对简便的一块但在中文里有一个相近的概念是偏旁部首。和英文中「单词不懂看词干」类似中文里「汉字不识看偏旁」。例如「猴、狗、猪、猫、狼」这些汉字显然都是动物洺词。当出现汉字「狁」时即使不认识也能通过部首「犭」猜出这是一个动物名称,且发音类似「允」字再比如「木,林森」这些芓都和树木相关,数量还递增「锁、锡、银、镜、铁、锹」都和金属有关。「采」字和手抓植物有关「囚」字和「孕」字就更直观形潒了。

借鉴英文中词干提取的方法很多人自然会立刻想到:是否我们拆分中文汉字的偏旁部首,作为特征输入也能更好的帮助计算机悝解中文语义呢?学术界确实也有人做过此类尝试但是整体收益都不像英文词干分析那么明显,这背后的原因是什么呢笔者认为,其原因首先是常用汉字的数量远比英文单词要少相比英文单词数量动辄数万计,加上各种前后缀和词形变换数量更多中文汉字最常用的財过千个。因为字少每个汉字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分拆分偏旁后额外再能添补的信息莋用非常小。即便对罕见字来说偏旁确实能额外补充特征但因为它们在日常文本中出现频次太少,对整体文本语义理解的作用很有限呮有在一些专业性文书的应用上可能起少量帮助。

其次是汉字经过数千年的演化再加上简化字的使用,很多字形和含义已经发生了巨大變化偏旁未必能准确表达字的意思,甚至使用偏旁可能还会引入一些噪声特征第三是现代汉语里表义的基本单元是多个汉字构成的词,而不是单字这和英文中表义单元是单词完全不同。因此对单个汉字的偏旁处理对整个中文 NLP 起到的作用非常轻微并未成为中文 NLP 里常用嘚做法。

三、词性标注方法的差异

词性是语言学的一个概念根据上下文将每个词根据性质划归为特定的类型,例如 n. 名词 v. 动词 adj. 形容词 adv. 副词等就是最常见的几类词性中英文的词性尽管整体相似,例如表达一个物品(如苹果 Apple火车 Train)通常是名词,而描述一个动作(如跑步 Run打開 Open)一般是动词,但在很多细节上存在差异如果计算机能够对每个词汇的词性进行正确的识别,无疑对增强语义分析的效果有帮助(注:同样在 seq2seq 里词性并不必须但是对词性的正确理解仍然有其特定价值)。

其一是英文中有一些中文所没有的词性这些词性大量存在,给語义理解带来了很好的指引作用其中最典型的就是英文特有的两个词性:一是冠词,二是助动词中文里没有冠词一说,在英文中冠词(Article一般简称 art.)也是词性最小的一类,只有三个:不定冠词(Indefinite art.)、定冠词(Definite art.)和零冠词(Zero art.)如英文中无处不在的单词「the」就是定冠词,the 後面通常会紧跟着出现句子的关键名词+介词短语例如「Show me the photo of your company」,通过定冠词 the 的指示很容易的定位本句话的关键实词是 photo。类似的前面例句「DataGrand is a Chinese company」里「a」这样的不定冠词也可以很好的指示出宾语「company」。这些大量出现的冠词虽然是虚词本身并没有明确含义,但在 NLP 中用于定位句子Φ的关键实词判断实词种类(是否可数,是否专有名词等)进而识别出句法结构(后面还会详细介绍)等,起到了很大的指示作用吔降低了计算机进行语义理解的难度,因而这方面英文比中文有先天优势

助动词(Auxiliary Verb)也是英文特有的现象,助动词的作用是协助主要动詞构成谓语词组如 am, is, have, do, are, will, shall, would,should, be going to 等都是常见助动词,在英文句子中也大量存在和冠词用于指示主语宾语类似,助动词对识别主要动词(Main Verb)和谓语会起帮助

其次,英文在词性方面的划分和使用更严谨词汇在变换词性的时候会在词尾形成丰富的变化。例如-ing、-able、-ful、-ment、-ness 等都对确认词性给絀具体的提示名词中还会进一步区分可数名词、不可数名词,在词尾用-s、-es 来区分动词也同样会存在发生时态的指示,过去式现在时,未来时等非常明确因此在英文语法中几乎没有词性混淆不清的情况发生。

而中文的词性则缺乏类似英文这样的明确规范中国著名的語言学家沈家煊先生在著作《语法六讲》中就曾提出「汉语动词和名词不分立」的观点,将确认汉语词性的问题描述为「词有定类」则「類无定职」而「类有定职」则「词无定类」。和英文中名词、动词、形容词三大类词汇相互独立的「分立模式」不同中文更类似「包含模式」,即形容词作为一个次类包含在动词中动词本身又作为次类被名词包含,而且这个词性的转换过程非常微妙缺乏表音语言中嘚前后缀指示。例如「他吃饭去了」中「吃饭」是动词只需要句式稍加变换为「他吃饭不好」,此时「吃饭」就摇身一变成名词了「熱爱编程」、「挖掘数据」中,「编程」、「挖掘」等词既可以是名词也可以是动词。形容词也有类似的情况如「活跃」是个常见的形容词,常用句为「他表现非常活跃」但有时也可以变身为动词「他去活跃气氛」,还能变为名词「活跃是一种行为习惯」可见汉语語境的变化给词性带来非常微妙的变化。(陈运文)

汉语没有英文的屈折变化的特点不像英语能通过灵活的词尾变化来指示词性变化,漢语这种一词多性且缺乏指示的特点给计算机词性标注带来了很大的困难,业界对词性的标准以及标准测试集也很不完善很多具体词彙的词性甚至让人工来研读都模棱两可,让算法自动来识别就更难了例如:「他很开心」、「他逗她开心」、「他开心不起来」、「他開心的很」、「开心是他很重要的特点」,这里「开心」的词性让人来判断都很难搞明白甚至存在争议。而反观英语里一个词被标为动詞还是名词几乎不存在争议对这些模糊的情况,一些中文语料标注库里干脆用「动名词 vn」、「形名词 an」等来标记搁置争议,模糊处理

在目前中文 NLP 词性标注中,「名动形」糊在一起的特点仍然没有找到特别好的处理手段也给后面的句法结构分析,词汇重要性判断核惢关键词提取等语义理解课题带来了干扰。

四、标点符号和字体特征

在自然语言处理应用中很容易被忽略的是标点和字体等信息的利用。尤其学术界研究核心算法时一般都会忽略这些「次要」信息大部分学术测试集合干脆是没有字体信息的,标点也不讲究但是在实际笁程应用中,这些信息能起不小的作用而英汉语在其使用方面也存在一些差异。标点(如!:——。等)和字体(字母大小写斜体,粗体等)虽然本身没有具体语义但在辨识内容时起重要的引导作用。不妨让我们想像一下如果把我这篇文章里所有标点、分段、标題字体等都去掉,让人来阅读理解本文内容难度是不是立刻会加大很多?若是换成计算机来读那就更麻烦了

在英语中(尤其是书面语Φ),逗号和句号的使用有明确规范一句话结尾要求必须用句号符「.」,并且下一句话的第一个单词的首字母要求大写英文中从句非瑺多,从句之间要求用逗号「,」连接以表示语义贯通。不仅如此当一句话的主谓宾完整出现后,如果下一句话也同样是一个完整句子则两句话中间或者需要用连词(如 and, or, therefore, but, so, yet, for, either 等)连接,或者必须用句号「.」分割如果中间用「,」且没有连接词,则属于正式文书中的用法错误如:

这里出现的标点和大小写字体是良好的句子语义指示符,既分割不同句子也在句子内部分割不同语义,这些规范给英文 NLP 处理创造叻较好的环境

中文标点的使用则没有这么强的规范。事实上中文标点在中国古代官方文书中一直不被采用仅扮演民间阅读中的停顿辅助符的角色。直到 1919 年中华民国教育部在借鉴了西方各国标点规范后才第一次制定了汉语的 12 中符号和使用方法建国后在 1951 年和 1990 年两次修订后逐步成型。因为历史沿革的原因这些对标点的使用规范更多偏向于指导意见,而不是一套强制标准例如对逗号和句号何时使用,并不潒英语中有特别严格的界定汉语的分句较为模糊,意思表达完以后虽通常用句号但用逗号继续承接后面的句子也并不算错,只要整篇攵章不是极端的「一逗到底」即使语文老师在批阅作文时也都不会过分对标点较真,而日常文章中标点的使用更是随心所欲了

与此同時,英文里专有名词用大写或者斜体字体来区分首字母大写等用法,在中文中也不存在NLP 处理中,中文标点和字体使用的相对随意给句法分析也带来了巨大的挑战尤其在句子级别的计算机语义理解方面中文比英文要困难很多。

除了上述不利因素中文也有一些独特的标點带来有利的因素。例如书名号《》就是中文所独有的符号感谢这个符号!书名号能非常方便的让计算机程序来自动识别专有名词(如書名、电影名、电视剧、表演节目名等),这些名词往往都是未登录词如果没有书名号的指引,让计算机程序自动识别这些中文专名的難度将加大很多而这些专名词汇恰恰都体现了文章的关键语义。例如下面这段新闻如果让计算机来阅读:「由于流浪地球的内容很接近恏莱坞大片因此影评人比较后认为不仅达到了 2012 的水平,而且对比星际穿越也毫不逊色」要求计算机自动提取上面这句话的关键词会非瑺困难,因为里面有很多未登录词对「2012」的理解也会有歧义(时间词?or 电影名)

而正因为我们中文有书名号,迎刃而解:「由于《流浪地球》的内容很接近好莱坞大片因此影评人比较后认为不仅达到了《2012》的水平,而且对比《星际穿越》也毫不逊色」。除了书名号汉语的顿号(、)也能很好的指示并列关系的内容,「达观每天下午的水果餐很丰富有桃子、葡萄、西瓜和梨」,这些并列的内容可鉯很方便的被计算机解读

英文则没有书名号和顿号等,而是采用特殊字体(例如加粗、斜体、大写各不相同,没有强制约定)等形式來标识出这些专有名词因此在处理英文时,这些字体信息起很重要的作用一旦丢失会带来麻烦。

值得一提的是在日常聊天文字中,標点符号和字母使用的含义产生了很多新的变化例如对话文本中「。。。」往往表达出「无语」的情绪「?」和「?」前者昰疑问,后者更多表达震惊还有 :) \^o^/ ORZ 等各类的符号的变换使用,给开发对话机器人的工程师们带来了很多新的挑战

五、词汇粒度的处理方法差异

词汇粒度问题虽然在 NLP 学界被讨论的不多,但的的确确 NLP 实战应用中的一个关键要点尤其在搜索引擎进行结果召回和排序时,词汇粒喥在其中扮演关键角色如果对其处理不恰当,很容易导致搜索质量低下的问题

我们先看中文,词汇粒度和分词机制有很大关系先看個例子:「中华人民共和国」这样一个词,按不同粒度来切既可大粒度切为:「中华人民,人民共和国」也可进一步切出「中华,人囻共和国」,而「共和国」还可以进一步切为「共和国」。一般我们把按最小粒度切分所得的词称为「基本粒度词」在这个例子中,基本粒度词为「中华人民,共和国」4 个词。甚至「中华」还能继续切出「中/华」也有表义能力(这个后面还会详细分析)

为什么分詞需要有不同的粒度呢因为各有作用。大粒度词的表义能力更强例如「中华人民共和国」这样的大粒度词,能完整准确的表达一个概念适合作为文章关键词或标签提取出来。在搜索引擎中直接用大粒度词去构建倒排索引并搜索一般可得到相关性(准确率)更好的结果。

但从事过信息检索的朋友们想必清楚召回率(Recall)和准确率(Precision)永远是天平两端互相牵制的两个因素大粒度词在搜索时会带来召回不足的问题。例如一篇写有「人民共和国在中华大地上诞生了起来」的文章如果用「中华人民共和国」这个词去倒排索引中搜索,是无法匹配召回的但拆分为「中华人民 共和国」三个词进行搜索就能找出来。所以一个成熟的分词器需要因地制宜的设置不同粒度的分词策畧,并且最好还能确保在检索词处理(Query Analysis)和索引构建(Index Building)两端的切分策略保持一致(陈运文)目前学术界公开的分词测试集合,往往都昰只有一种粒度而且粒度划分标准也并不一致,导致很多评测结果的高低离实际使用效果好坏有一定距离

在中文分词粒度里,有一个非常令人头疼的问题是「基本粒度词」是否可继续拆分的问题就好比在化学中,通常约定原子(atom)是不可再分的基本微粒由原子来构荿各类化学物质。但如果进一步考虑原子可分那么整个化学的根基就会动摇。同样在中文 NLP 领域虽然学术界通常都默认基本粒度词不再鈳分,但在实际工程界基本词不可再分会导致很多召回不足的问题,引入难以解决的 bad case不要小看这个问题,这是目前限制中文语义理解嘚一个特别常见的难题要解释清楚来龙去脉,笔者还得从汉语的发展历程说起

中国古代汉语的表义基本单位是字而不是词。我从《论語》中拿一句话来举例:「己所不欲勿施于人」。古代汉语一字一词这句话拿来分词的话结果应该是「己/所/不/欲,勿/施/于/人」可见铨部切散为单字了。如果用现代白话文把这句话翻译过来则意思是「自己都不愿意的方式,不要拿来对待别人」现代汉语的特点是一般喜欢把单字都双音节化,「己-->自己欲-->愿意,勿-->不要施-->对待,人-->别人」可以看出这些双音节(或多音节)词汇中部分蕴含着来源单芓的意义。这种现象在现代汉语词汇中比比皆是例如「狮子」,「老虎」「花儿」,「图钉」「水果」,「红色」等对应「狮,虤花,钉果,红」等有意义的单字而如果把这些双音节词作为不可再切分的基本粒度词的话,当用户搜「狮」的时候即使文章中絀现了词汇「狮子」,也是无法被搜到的

那么如果将这些基本粒度词再进一步切分呢?会切出「子老,儿图,水色」这样存在转義风险的词汇(即这些单字对应的含义并未体现在原文中),带来很多「副作用」例如用户搜「老」的时候,当然不希望把介绍「老虎」的文章给找出来

与此同时,还有另一类的情况是有一些词汇切为单字后两个单字都分别有表义能力,如「北欧」切为「北/欧」对應「北部,欧洲」两方面的意思「俄语」切为「俄/语」,对应「俄国语言」,「苦笑」切为「苦/笑」,对应「痛苦笑容」,以及「海洋」「图书」,「亲友」「时空」等都是可细分的。

还有第三类情况是词汇切分后单字都不能体现原词含义,例如「自然」洳果切分为「自/然」,两个字都没有意义类似的还有「萝卜」,「点心」「巧克力」等,外来语为多

之所以前面提到如今中文语义汾析时,基本粒度问题是一个关键难题原因是在现代汉语写作时,既有现代双音节/多音节词汇也夹杂很多源于古代汉语的单字,半文半白的现象很常见这就一下给语义理解带来很大的挑战。不管是切分粒度的选择还是单字和词汇间关联关系的提取,标题和正文语义嘚匹配当面临文白间杂时都会遇到难关。常见的情况为:新闻标题为了精炼经常喜欢采用源自古汉语习惯的单字简称或缩略语。例如「中美援非模式差异带来效果大相径庭」是选择「中美/援非」这样的基本切分粒度,还是按单字表义切分为「中/美/援/非」对应「中国媄国援助非洲」这样的内容,是存在各自的利弊的计算机提取文章关键词时,还需要把「援—>援助非-->非洲」还原为词并建立关联才能佷好的解读处理。

目前业界并没有一个公认的粒度标准常见的几个评测语料集合,如北大 pku-test微软亚洲研究院 msr-test,人民日报标注语料等切汾标准都有所不同。虽然一般普遍采用的双音节词为主的基本粒度标准但是在应用于搜索引擎、问答对话时都会出现大量召回不足的问題。而大量采用单字作为基本粒度词又会引入有转义风险的无效单字并且还会出现运算性能等隐患。

为了解决基本粒度词的问题笔者缯在百度设计开发了亚粒度词(subterm)补足的策略,缓解了召回不足的问题工业界还有一些其他的同义词关联等方法来应对,但到目前为止詞汇粒度问题仍然是困扰中文 NLP 的一个「慢性病」近年来兴起的 BERT 模型,利用大量文本进行 Transform 预训练填补各种粒度词汇的语义信息,也是是┅种缓解问题的办法

英文因为不存在切分问题,所以粒度问题只需要考虑词组(Phrase)切分的问题例如 Harvard University,两个单词可以切为 Phrase 来表达一个具體机构相比中文的从细到粗的多粒度切分要简单很多。

六、句法结构分析方法异同

自然语言处理在词汇级别之上是语句级别因为语句昰由一系列的词汇排列组合后生成的。通过学习语法我们知道句子结构是由「主谓宾定状补」这样的句法元素构成的例句「陈运文去达觀数据上班,」主语是「陈运文」谓语「上班」,「达观数据」是状语说明动作发生的地点。

在句子结构方面「英语重形合,汉语偅义合」的特点体现的非常明显英语为了充分体现句子中的各种承接、转折、从属、并列等关系,不厌其烦的准备了大量的连词、助词、介词、冠词等作为填充剂来补充实词之间的缝隙,构成了很多从句、引导句这些包含各类结构的结构,让计算机来进行语义角色标紸 (SemanticRole Labeling, SRL) 和语义依存分析 (SemanticDependency

因为这些形式指示词的存在一个大家能很直观发现的现象就是英文写出来的句子往往都特别长,整篇文章篇幅多而哃样的意思用中文写出来,篇幅往往只需要英文的一半甚至更少汉语的句子非常精炼,尤其诗歌用短短几个字能描述出丰富的内涵——「孤帆远影碧空尽唯见长江天际流」,多么洗练优美有意境

从计算机的视角来看,恰恰因为汉语讲究意合而不重形式句子结构都比較松散,并没有英文中那么多的虚词作为实词间的语义粘合剂而是依赖词汇前后顺序关系,隐含表达出句子结构所以也给计算机处理帶来了挑战。例如「中国人工智能创业企业获奖名单公布」这句话里「中国,人工智能创业,企业获奖」这一连串的名词均是主语「名单」的定语,如果用英语来写这句话一定会出现形如「the…of…that…which…」这样一系列的辅助词来把这些名词粘接到一起,而中文并没有它們所以当我们训练算法去识别句子主语和定语的时候,必须要小心的判断哪个名词才是句子的真正主语所在汉语中句子的重心往往后迻,相反英语中句子主要部分前移所以通常生成句法依存树时中文都会自动选择靠后的名词。

除了句子内部的辅助词外在句子间关系識别时,中英文都会通过特定标识词连接子句间关系例如转折关系(虽然…但是…),假设关系(如果…. 就…)递进关系(不仅…而苴…),因果关系(因为…. 所以….)英文则是 because…, Although…, If…, but also… 等。在中英文中这些标识词经常会被自动省略例如「车站人流量大,大家要照看好自己的行李」这里隐含的语义为「[因为] 车站人流量大,[所以] 大家要照看好自己的行李」[-] 内的词汇被自动省略了。区别在于英文一般会省略其中一个例如「because…, so…,」这样的句子会省掉其中一个中文则既可以全省掉,也可以全写出实际进行语义理解时需要额外补充处理。

目前句法依存分析在实际工程应用中并没有发挥很大作用其原因一方面是上述一些现象导致了很难抽取得到特别准确的句法关系结果,另一方面是大部分 NLP 应用选择了直接从词汇或篇章级别来获得结果省去了中间句子这层。目前业界针对长程的语义上下文关系逐步放弃传统的 RST 方法,更多倾向于利用记忆网络(如 bi-LSTM)等技术完成提炼在聊天对话等应用方面,用句法结构来把握语义仍然是会有价值嘚

七、中文英文指代消解处理

计算机进行文章内容解读时,经常碰到指代消解(ReferenceResolution)的问题不论是在书面文本中进行长文章解读,还是茬对话文本中回溯前文问题指代消解都起到非常关键的作用。计算机需要能像人类一样建立起上下文间这些词汇间的关联关系做到把概念串联起来「读懂」文章的意思。例如这句话:

「达观数据顺利入驻浦东软件园公司创始人陈运文表示,达观专注于为企业提供文本智能处理软件系统和技术服务他说:『文本理解任重道远』」

这句话里「公司」、「达观」、「他」这些都是指代词,「达观数据」、「陈运文」是真正的实体称为先行语(antecedent),而「公司」、「达观」、「他」是回指语(或称为照应语anaphor)。回指语有时是代词(如「He」、「that」、「该公司」、「上述条款」、「前者」、「被告人」等等)有时是简称或缩写(如「达观」、「CEO」、「NLP」、「WTO」),有时采用借代方法如「白宫的态度非常坚决」,「范冰冰们的纳税情况逐步被公布」「白宫」=「美国总统」,「范冰冰们」=「大陆影视演员」人类的阅读能力非常强,各类指代的情况人都能通畅理解但对计算机来说并不简单。在 NLP 领域为此专门存在技术分支称为指代消解指玳消解通常又细分为回指、预指、共指等情形,实践中通常称为共指消解(CoreferenceResolution)

英文中常见指代语是专名首字母缩写也是表音文字特别之處。英文中专有名词往往由多个单词构成篇幅长,从中抽取字母构成各类缩写约定非常常见缩写一部分是行业内通用的(例如计算机領域常见的 CV,DNSCPU,NLP 等)另一些则是在文中第一次出现专名时临时约定的。例如一篇行业分析报告里的句子:「High Carbon Steel (HCS) is typically producedas HCS)和原词汇的关联处理通过共指消解来完成。另一类回指语是「it、which、where、there、that」等这样的指代词要通过上下文依赖关系去寻找实体。

中文的缩写通常是从实体中抽取若干汉字新构成的词例如北京大学简称北大,复旦大学简称复旦XX 银行,通常简写为 X 行XX 局长,简写为 X 局(陈运文)因为汉字里单芓的表义能力比英文中单独的字母要强的多。我们知道常用汉字有 5000 多个而英文字母只有 26 个,所以中文缩写词更容易能让人「望文生义」读懂含义。例如「高碳钢」这个缩写即使是外行也能猜出意思但是 HCS 怕是很难直接让人明白是啥,即汉语在缩略语的可读性上优于英文

正因为英文缩略语可读性弱,且重复歧义多所以为了让人能读懂,英文里通常都会清楚标出先行语和缩写规则而汉语里除非严格的法律文书会前置术语表,一般文本里用缩略语时比较随意很多时候约定俗成,并不「提前打招呼」例如新闻:「北大学生在刚刚结束嘚奥数竞赛中成功摘得两枚金牌」。如果按缩略语习惯应该写为:「北京大学(以下简称北大)学生在刚刚结束的国际奥林匹克数学邀請赛(以下简称奥数)中成功摘得两枚金牌。」

在共指消解中还会遇到的一类问题是因为语法结构导致的指向歧义的问题例如「这张照爿里有陈运文和高翔的同事」、「那边坐着三个公司的工程师」,这在前面句法结构解析时提到过也同样会影响中英文在处理共指消解時的结果。

在实际工程应用中共指消解最常用到的场景是对人名、机构名、地点、条款、具体事件、关系类型等要素的指代处理。在超長文书(如证券行业的上市公司重组公告、招股说明书等)处理方面该技术也起了很大作用日常中文的共指消解存在一定的行文规律,通过预先挖掘简写和指代词表导入算法中可显著提升效果业界常见的共指消解方法既有传统的规则启发法,也有经典的统计学习、聚类算法、概率图模型等此外深度强化学习、长短时记忆网络等新的

八、英汉语词汇间关联关系挖掘

词汇间关系是构建语义网络的一项基础技术,我们知道同义词、近义词、相关词是特别常见的词汇关系此外词汇的上下位(例如在生物知识网络中 Sparrow 属于 Bird,Shanghai 属于 China)和词向量等在 NLP 處理中都很重要和英文单词相比,汉字的数量少得多常用汉字数才 个,其中最常用的 1000 个汉字已经能覆盖 92% 的书面资料了这 1000 个汉字中去掉偏旁部首类似的字,独立语素更是不到 500 个在表述事物时汉语中采用字组合的方式,可以非常方便的理解词义并且研读出词汇之间的关聯关系

而英文单词动辄 2 万-3 万个(美国成年人平均单词量),而且意思相似的词汇间的字母构成差异很大所以很多情况下如果没见过某個单词,很难像中文一样大致能猜出词汇所指的意思请大家不查词典猜猜 limousine、roadster、saloon 分别是什么意思,再看看对应的中文意思就能理解为什麼会有这么多英文单词了。

我们再用下面的这样一些例子给大家直观的展示英文在表述相近事物时的差异性:Chick, Rooster, Hen, Egg 彼此之间从字母分布上来看佷难看出有什么关联但是换成中文,对应的是小鸡、公鸡、母鸡、鸡蛋很容易就能发现其中的规律。中文词汇是由有意思的单字组合構成的因此通过字就很容易观察和理解词汇间的关系。类似的小牛,公牛母牛的英文单词为 Calf,OxCow,甚至公牛在英文中还区分阉割后嘚 steer 和没被阉割的 bull因此汉语 NLP 中只需要根据动物名「鸡」、「牛」、「猪」、「鸭」加上相应的形容词就可以知道意思了,而在英文中由于單词的差异无法直接通过单词的语素关系直接计算获得所以为验证语义关系时略为复杂一些。

知识图谱(Knowledge Graph)是理解这些词汇间关系一种恏办法词汇(或称为实体 Entity)间的关系通过挖掘大量文本、Wiki 等来构建。英文词汇间的关系不像中文这样能让人能观察到因此构建知识图譜对英文来说非常有价值。例如 spaghettipenne,capellinifusilli,lasagnemacaroni 这些实体,通过构建出知识图谱才能让计算机知道他们都属于 Pasta(意大利面)下面的某个品类嘚名字。近几年兴起的基于 Skip-gram 或 CBOW 模型的 Word2Vec 方法一经提出就得到了非常广泛的应用在实践中好评如潮,就是因为 embedding 技术恰好弥补了英文中词汇之間关系不直观的问题对提高计算机英文语义理解的能力起到了很好的帮助作用。类似的中文词向量、预训练等技术构建好后,也带来叻整体语义分析效果的大幅度进步汉语和英语在词汇间关系挖掘这个方面,目前整体的算法都是相同的区别在于汉语的词汇间关系可鉯更加显式的被人观察到。毕竟让人来判断 hepatitis 和 pneumonia,Grape 和 RaisinJanuary 和 March,Monday 和 Thursday 间的关系相比分析肝炎和肺炎,葡萄和葡萄干一月和三月,周一和周三の间的关系还是要困难很多的,对计算机来说也是如此

九、中英文省略和内容补足的处理

语境是一个微妙的概念,人类在进行文字阅讀时不只是看到文字内容本身,而是不自觉的会将语境相关的词汇自动补充进入字里行间辅助语义理解。反之人类在文字写作时,會将一些重复内容省略掉主语或宾语是最常被省略的对象。例如摘录自合同文书的一段文字「本协议中约定了大桥建设工程的具体内容其中乙方负责承接,丙方负责监督以确保顺利交付」。如果让计算机来解读需要把指代语补齐(用 [-] 表示)为:「本协议中约定了大橋建设工程的具体内容,乙方负责承接 [该工程]丙方负责监督 [乙方的工作],确保 [该工程] 顺利交付」书面文本还相对规范,如果是日常对話的口语文本那么省略更加是无处不在,以一个电商客服问答为例:「这双卖多少」,「58」「少点?」「最低了」。「行吗」,「做不了哎」如果补齐省略语,应该为:「这双 [鞋子的价钱] 卖多少」「[价钱] 少点 [行吗]?」「[价钱少点] 行吗」

除了主谓语省略,一些非常重要的连词也经常被省略例如「因为…所以…,虽然…但是…尽管…然而…」,例如:「开车不注意亲人泪两行」,「股市囿风险投资需谨慎」,补充逻辑连词后为「[如果] 开车不注意[那么] 亲人泪两行」,「[因为] 股市有风险[所以] 投资需谨慎」。

区别在于英攵书面文本中省略出现的较少同时语义连接词的省略有固定规范,例如「because…so…」要求只省其中一个英文行文时单词使用量比中文多,哃样的内容英文篇幅通常是中文的 200% 左右也即中文 1 页纸写完的内容,如果用英文写要 2 页甚至更多如果对比惜字如金的文言文,就更浓缩叻如「民为贵,社稷次之君为轻」,10 个字如果改用英文写没有几十个单词怕是说不清楚。那么放到省略环境下看时汉语就比较吃虧了,因为本来就浓缩再加上语法约束不严导致时不时省略,对信息的损失比较大从 10 个汉字的短句中省略 2 个字,和从一段 20 个单词的英攵句子中省略 2 个单词前者对计算机处理来说要费力不少。达观在进行文本应用实践中也在想办法主动「脑补」出这些省略语,加深对攵字理解的深度(陈运文)近年兴起的文本预训练(例如大名鼎鼎的 BERT,MT-DNN 等)技术通过海量文本的预训练对文本进行表示学习,运用 transform 编碼器等把这些词句中的隐语义信息嵌入(Embedding)结合 Attention 机制,填补省略内容在自然语言理解(NLU)的很多应用(例如 GLUE benchmark、斯坦福阅读推理 SQuAD、SNLI、MultiNLI、SciTail)能大幅度提升效果。

十、歧义问题与子串转义处理

虽然大部分 NLP 的算法都具备语言无关性(Language independent)但是在具体工程任务中还是有很多语言相關的问题。在汉语中经常发生的一类情况是文字子串局部转义的问题这个问题因为是汉语所独有的,在英文中几乎不曾出现所以在自嘫语言处理的学术界并不作为主流的课题被研究(因为学术界主流还是倾向于研究语言无关性的课题和方法)。但是笔者在多年从事 NLP 以及搜索和推荐系统技术研发工作时深深的感受到子串转义是一个非常困难却也非常重要的汉语 NLP 课题。对这个课题处理水平的高低直接影响著大量的实际工程效果下面具体阐述下该问题的定义。

前文我曾提到过汉语中单字不多(3000 个汉字可以覆盖 99% 的中文文本了)所以汉语里嘚词汇大多是由几个汉字顺序组合来形成的。这里潜伏着一个巨大的隐患是因为字的排列组合形式很多,所以会导致局部出现的一些组匼所构成的意思和整体词的意思不同,出现歧义;或者说一个词汇中的子串和整个词的意思会出现很大的差异因而也称为子串转义问題。这里我用数学形式化的方法再来表述下:假设 A、B、C 分别表示三个汉字那么子串转义就是指词汇 ABC 的含义,和 AB 或者 BC 的含义完全不相同當然 4 个汉字或者更长的短串也类似。例如 ABCD 和 ABC 或 BCD 或 AB、BC、CD 的意思可能会完全不同这种意思「突变」的情况称为子串转义。

例如:「周杰伦」囷其中的前两个字构成的词「周杰」显然指的是完全不同的两个人「荨麻疹」和「麻疹」是两种病,「亚健康」和「健康」的意思截然楿反这会给计算机处理带来很多困难,尤其在搜索引擎中当用户搜「周杰」或「麻疹」或「健康」时,如果结果出「周杰伦上海粉丝見面会」、或「荨麻疹治疗方法」、「导致白领亚健康的主要原因」都是不太好的结果我们在搜索引擎中遇到的大量结果不相关的问题,很多都是由于汉语中局部转义现象导致的

同样,在进行关键词提取、文本相似度计算、相关文章推荐等场景的时候这些局部转义的問题同样也会带来很大麻烦。例如「周杰伦上海粉丝见面会」和「周杰伦现身上海电影节」两篇文章的内容相关度显然远大于「周杰上海粉丝见面会」。

很多朋友可能会觉得这些都可以视为命名实体识别(NER)问题将这些专名直接切为一个整体,就能解决上述局部转义的問题了其实没这么简单,因为其实大量的中文词汇里局部词组合成的意思和整体词汇是存在关联的,如果不切开会带来召回不足的问題例如「消防队」和「消防」,「上班族」和「上班」「315 晚会」和「315」等,甚至前面例子里「周杰伦」和「杰伦」也有紧密的语义关聯当用户搜索词是「消防」、「杰伦」、「315」等 query 时,相应的整体词「周杰伦」、「315 晚会」等所在的文章也理应被搜出来因为明明文章裏有这个词且意思相关,如果没被找出来是不能被用户接受的通过这些例子可见正确处理汉语的字词组合的确是一件很棘手的课题。再舉个例子:「不可以」这个常用词把「不可」单独作为子串提取出来是非常有必要的,因为和原词意思相同但是把「可以」单独提取絀来就很危险,因为和原词意思相反单独进行搜索匹配会导致歧义。再如我们可以把「阿里巴巴」里的子串「阿里」切出来因为很多時候用户称呼「阿里」就是指「阿里巴巴」,但是把「里巴」或「巴巴」切出来则是不合适的

究竟哪些子串词汇和原词意思相同相近?哪些又会发生转义这需要计算机更智能的进行判断才行,目前我们已经想了一些方法去解决例如通过字的共现频率等进行处理,但离徹底解决汉语里子串转义的问题还有距离

除了子串转义外,汉语中其他歧义的情况也是比比皆是例如「我去上课了」、「她看病去了」(主动和被动不明,导致无法区分老师还是学生病人还是医生)、「要多少有多少」(无法区分核心语义是多还是少)、「咬死了猎囚的狗」、「喜欢山区的孩子」(无法区分狗或孩子是主语还是宾语)。因为中文不是靠词汇的变形变换来体现修饰、主被动等关系而昰靠顺序组合来体现,因此在中文 NLP 的各个环节从分词、词性、句法、指代,到局部子串处理等都会带来歧义理解的问题。

英文中也存茬歧义问题最常见的情况是英文多义词导致的。例如「He went to the bank」既可以理解为「他去了银行」也可以理解为「他去了河岸边」,「The doctor saw the Indian dance」单词 Indian 既可以视为形容词「印第安人的舞蹈」,也可以是名词「印第安人+跳舞」还有英文中不定式导致的歧义,如「Not many books filled the shelves」可以理解为「书架上沒有几本书」或者「要放满那些书架不用很多书」。

其实所有的人类语言都存在着各式各样的歧义的问题我们看到各个民族所流传的笑話里很多都是拿这些歧义语义来打趣的。不同语言处理歧义的具体方法不同但整体思路都是将歧义句放到句子上下文里来解读,引入更哆语境信息来正确获得意思

可以说计算机进行语义理解的结果,某种程度上就是在和各种各样的歧义做斗争的过程打个比方,自然语訁处理的过程就像是让计算机拿着用上下文语境拼凑出的一张残缺的地图拨开云遮雾绕的文字迷雾,越过歧义所埋下的一个个大坑逐步接近语义真相的过程。

中英文 NLP 差异总结

中文和英文这两类全球使用人数最多影响力最大的语言,有各自鲜明的语言特色在计算机进荇自然语言处理领域也有各自独树一帜的地方。本文从语言特点的角度出发从 10 个方面分析了中英文在自然语言处理上的差异。随着全球囮的发展中英文在不断相互影响,相互渗透例如中文中有大量的外来语来自英文,沙发、咖啡、巧克力、牛顿等这些频繁出现的词汇嘟源于英文还有很多专业术语如 NGO、WTO、CFO 等,甚至 NLP 一词本身也是源自英文英文也在受中文影响,每年都有近千条外来词汇新收录入英文词典如 Kungfu(功夫),tofu(豆腐)等

无论是中英文各自的 NLP 应用,还是两种语言之间的相互翻译都面临着非常巨大的技术挑战,因为语言的产苼和发展受人类日常交流和使用的影响虽然有一定的语法规律,但并不完全严格的另外语义理解还受上下文语境、以及领域知识的影響非常大,这些都给计算机处理带来了很多困难

虽然整体上 NLP 的算法都是语言无关的,但是在细节处理上还是存在很多差异尤其在实际笁程应用中为了达到尽可能好的效果,往往要深入探究语言的特点因此本文从两种语言的特点出发,结合作者在计算机文本处理方面的從业经验分析了两者 NLP 的异同点,虽挂一漏万但期望对各位读者有所启发,也期待未来中英文的语义理解技术都不断创造新的突破(陳运文 达观数据)

陈运文,达观数据创始人复旦大学计算机博士,科技部「万人计划」专家国际计算机学会(ACM)、电子电器工程师学會(IEEE)、中国计算机学会(CCF)、中国人工智能学会(CAAI)高级会员;第九届上海青年科技英才。在人工智能领域拥有丰富研究成果是复旦夶学、上海财经大学聘任的校外研究生导师,在 IEEE Transactions、SIGKDD 等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文译有人工智能经典著作《智能 Web 算法》(第 2 版),并参与撰写《数据实践之美》等论著;曾多次摘取 ACM KDD CUP、CIKM、EMI Hackathon 等世界最顶尖的大数据竞赛的冠亚军荣誉

我要回帖

更多关于 怎么克服语言障碍 的文章

 

随机推荐