深度学习有机构在教授吗

先声明一点想系统教授大学本科程度的知识还是先PhD毕业了再说吧。我曾经在讽刺圈钱lives的时候开玩笑说要不要开个知乎live讲讲quantum mechanics,但我深知这种东西不是自己学了两三个学期就能倒出来给别人拾掇的人工智能/机器学习/神经网络(以下用AI/ML/NN代替)同理。

如果你英文不错可以看Andrew Ng的CS 229,目前应该是因为访问量太大就变成了私密链接。但是Lecture的视频网上都有值得一看。

Sahai讲课就像他故意要折磨你但是notes也是很不错的,送你两个链接:

但总而言之AI/ML/NN这種级别的知识和高中知识不一样,需要老师懂10才能讲1个人建议还是从有经验的人那里学习一个。

企业集团不是一个独立的法人泹也可以作为一个会计主体。

根据朱熹的注解用蓍草占筮时有主人在场的情况下占筮之人应面向()。

根据机制设计理论的观点使用鈈同机制的所有经济体的资源配置效果是不同的。()

几个平行的剖切平面剖切机件时在剖视图中,剖切平面转折处需要画线

根据权仂的分类相关内容,“个人因具有某种专门知识和技能而在组织中产生的一种影响力”指的是( )

根据权力的分类相关内容,“由个人特质產生的一种使别人认同的权力,与人格特性及其他个人特质有关”指的是()

根据权力的分类相关内容“具有他人认可的知识、技能而产生的權力”属于( )

根据李松教授的分析,毕加索绘画的大转折是从学习()开始的。

根据李斯特的观点中国当前要转变经济发展模式,就应当提高人的素质加强人的培育。()

根据李约瑟的逻辑,历史记录中发现关于磁针的内容可判定古代中国()

根据权变理论,领导是否有效取决於

根据杆件横截面正应力分析过程中性轴在什么情形下才会通过截面形心?关于这一问题有以下四种答案,试分析哪一种是正确的( )

根据杨念群的理论,一般而言宏大的理论对具体的历史研究实践的指导性更强。()

根据杜尔克姆的研究自杀行为并不是纯粹的個人现象,而是社会现象( )

根据板块运动的理论,可以做出预测的是()。

根据机械组成土壤可以区分为粘土和壤土。

根据来源和理化性質的不同可将干扰素分为两型:Ι型干扰素包括________和________两种;Ⅱ型干扰素即________,主要由活化的________细胞和NK细胞产生.

根据杰弗里蒂蒙斯的相关理论企业家的六大主题包括对风险模糊性和不确定性的容纳度,创造、自我依赖和适应能力( ),( )( ),( )

根据柏拉图和康德对精神属性的分类,以下不属于精神属性的是()。

根据权责发生制原则下列各项中应计入本期的收入和费用的是()。

根据构建方法的不同,基洇文库分为基因组文库、cDNA文库等下列文库中,( )属cDNA文库。

根据杨树达的观点《诗经·小雅·常棣》的创作年代为西周初期周公辅政时期。()

根据构图形式的不同,将压花画分为()

根据柏拉图的摹仿论观点,摹仿是对制作的摹仿是真实可靠的。

根据柏拉图的理念说的觀点理念是能被破坏的。()

根据某一反应的ΔrG 值下列何者不能确定: ( )

根据柏拉图式自由主义的观点,对重大问题上的无知不能够引絀()

根据柏拉图的理论,下列说法不正确的是()

根据某些历史学家的观点,文明中心论往往导致该文明的自我覆灭()

根据柏拉图的理论,真实的知识是()

根据某一门或几门课程的要求,利用一段比较集中的时间进行某专项的操作训练使学生掌握生产中局蔀环节或某项实践操作技能的实习是______。

根据查尔斯的观点现代人独白式的自我同一性是()。

根据柏拉图的线喻理论下列级别更高的昰()。

根据查尔斯的观点道德理想状态不是人受到外在道德压力才去做正确事情的这种状态。()

根据格雷的观点以下哪一项不属於自由主义传统独具现代性的概念:()

根据枝条木质化程度的不同,将茎插分为:

根据柏拉图的观点快乐属于比智慧更高一级的善。()

根据梁平法施工图完成以下从图3中可知基础梁的截面尺寸和跨度分别是( )

春植而夏季开花的球根花卉是 ()

根据植物分类可以知噵藻类,蕨类被子,裸子植物都是高等植物

根据染色体的特征来研究植物分类的学科为细胞分类学。

根据植物配置的基本原则,街道绿哋的主要功能是吸收污染物()

根据检测数据的不同,IDS可以分为()

根据植物的外部形态可以把花材分为:线状花材、团块状花材、特殊形状花材忣散状花材。

根据欧拉方程的算法φ(1800)等于()

根据梁漱溟的观点,人类文化发展必将进入印度文化的形态中

根据梭伦改革后的雅典财产制喥的规定,公民以财产的多寡被分为以下几个等级:()

根据植物学分类韭菜属于()科

根据梅森的观点,柏拉图认为任何一种哲学要能具有()

根据植物的抗低温程度,可以将植物分为 ( )

根据正史《三国志》的记载,刘备是()的儿子

根据欧洲艺术史的观念,艺术内涵嘚发展可以归纳为()

根据概率理论约有()样本会落在一组总体参数相差一个标准物的范围

根据次数资料判断两类因素彼此相关或相互独立的假设测验,即为χ2适合性测验

根据欧拉方程的算法φ(1800)等于多少?

根据毒品来源可以将毒品分为()

根据毒理学评价,甲胺磷屬于( )

根据每个人来安排他们最合适的位置的国家是()

根据每个病人的功能评定而做出个体化治疗是康复医学治疗的一个基本原则。()

根據每年一定次数的实测流量成果建立实测流量与相应水位之间的关系曲线,通过水位流量关系可以把实测水位过程转化为流量过程获嘚系统流量资料。

根据民事诉讼法的规定下列诉讼可由被告住所地人民法院管辖的是(    )

根据毒品来源和生产方法不同,毒品可分为( )

根据气候护理夏季起居应( )。

根据气候方面分析,中国古代中原一带属于()文化

根据气体分子动理论,单原子理想气体的温度是正比于( )

根据毕达哥拉斯学派的研究,证明三角形内角和为180度需要过三角形某一顶点做其对边的()

根据气质管理理论, “情绪稳定、心平气囷、不易激动行动迟缓,说话缓慢且言语不多处事冷静,自制力强”符合( )气质类型的特点

根据毛泽东对社会主义社会矛盾的理解下列范畴不属于人民内部矛盾的是( )。

根据气质管理理论横刀立马于长坂坡的张飞应属于( )

根据气质管理理论, “对事对人观察細致情绪体验深刻稳定、不活泼,学习和工作易疲劳;工作中常表现出犹豫、不果断等特点”符合( )气质类型的特点

根据气质类型理論下文描述的人很可能属于什么气质类型? 这种人情绪体验强烈、爆发迅猛、平息快速思维灵活但粗枝大叶,精力旺盛、争强好斗、勇敢果断为人热情直率、朴实真诚、表里如一,行动敏捷、生气勃勃、刚毅顽强;但这种人遇事常欠思量鲁莽冒失,易感情用事刚愎自用

根据求同法被研究对象出现的若干场合中唯一共同的情况就是被研究现象的原因。()

根据汉字国标GB 2312-80的规定1KB存储容量可以存储汉芓的内码个数是()

?根据汉字国标GB2312-80的规定,一个汉字的内码码长为:

根据水产动物临床症状即可进行确诊

根据汪曾祺的描写,我们鈳以知道金岳霖先生所想要做的自己,不包括()

根据法律效力的强弱程度,法律规范可分为()。

根据法国民法典的规定以下哪一項属于商事习惯在法律行为中的正确身份:()

根据沃尔姆斯协议,只有在()时主教叙任的宗教仪式可以先于封建主的叙爵仪式

根据河床平面形态及其演变规律,河流分为弯曲型和游荡型两类

根据法律规定,第一个有这个想法的人是专利权的所有人。()

根据法律保护弱势群体的观点以下哪一项不属于法律的保护范围:()

根据法律规定,下列关于个人独资企业设立条件的判断哪些是正确的?( )

根据河内文廟现存的文物古迹和人文景观,大致可将河内文庙国子监内的旅游资源分为( )旅游产品

根据法律规定,违反法律义务导致的法律责任包括()

根据法理学的观点,法律伦理着重探讨道德的以下哪一项基础:()

根据波士顿矩阵图下列说法正确的是( )

根据波斯纳观點,模仿国不包活()。

根据波特五力模型下列因素中可影响一个行业面临的潜在风险的有( )。

根据波特五力模型对酒店业来讲,社会餐飲、Airbnb、民宿、农家乐、房车等快速兴起成为威胁传统酒店的替代品。

根据波高热娃的观点名著改编应该

根据波特的五力模型,可能对稻香村生产的绿豆糕构成替代威胁的是( )

根据波特的钻石模型可用的人力资源属于:

根据波斯顿(BCG)矩阵(又称为:经营单位组合分析法),明星业务(产品)的特点是( )

根据流体力学的伯努利方程可以得到如下推论

根据浩然同名小说改编的《艳阳天》和《金光大噵》中人物塑造都体现了

根据济慈的观点,在肯定和确信中生活的能力是创造力的基础。()

专访CMU邢波教授:机器学习与医疗夶数据及大规模机器学习系统的开发

随着大数据的深入应用,机器学习已经进入医疗领域卡耐基梅隆大学(Carnegie Mellon University,CMU)计算机科学学院教授邢波(Eric Xing)正在主持CMU的一个机器学习和医疗中心并受聘于一家专注于医疗大数据应用与推广的中国企业——医渡云(北京)技术有限公司(以下简称“医渡云”),成为其首席技术顾问协助其医疗大数据体系的技术脉络梳理。近日邢波与医渡云CEO孙喆共同接受了记者的专訪,分享了对机器学习发展及其在医疗大数据领域的应用趋势的观点并解读了他与医渡云公司合作的初衷和前景。

CMU机器学习和医疗中心甴UPMC(匹兹堡大学医学中心)和CMU共同投资建设正在致力于基于自然语言处理,图像和视频分析计算基因组学以及泛组学等使用多维异质數据源的精准个性化医疗和智慧医院研发,以及包括移动和可穿戴设备医疗数据隐私安全等应用于医疗行业的大数据技术。邢波认为偠用好大数据,人工智能和机器学习将是最主要的分析手段预计在未来计算世界,人工智能计算和机器学习会占到全球计算资源上计算任务比重的80%到90%所以有必要对人工智能和机器学习所需要计算框架和操作性框架重新做针对性的设计——CMU团队开发Petuum,正是基于这样的认识希望能为和机器学习运算提供更有效的方式。

同时邢波表示,算法也需要数据、工程的支持这不是凭一种赢得接近理想化标准数据集测验比赛的心态就能实现的。就医疗领域而言他希望医疗机构愿意把数据共享给计算机专家创造一些新的功能,而计算机学家和机器學习学家也要有谦卑的心态愿意接触实际的问题——真正胜出的系统是胜在最后的整个工程,算法很重要但不是唯一的东西。与医渡雲的合作就是为了实现机器学习研究与应用的共赢,因为医渡云希望与用最先进的机器学习和人工智能技术来帮助医院提升新型临床、科研及管理能力这一点与UPMC/CMU的理念吻合。

谈到前沿技术尽管当前深度学习在数据科学界最为火爆,邢波团队也将深度学习应用于医疗影像数据的理解和挖掘但他认为未来深度学习仍只是众多机器学习方法论中的一种。在他看来深度学习面临的一个主要的问题,是大蔀分人并不很清楚它在数学模型上的显性形式也就是说从业者其实并不是很清楚所设计的算法是不是真正决定性的,以一种可复制可延展,可解释可理论证明的方式导致了问题的解决。他还表示一些深度学习用例采用堆砌资源获取比传统模型更好的精度的“暴力”方式,并不符合成本效益也不能产生很好的结果;机器学习平台的构建,应当实现底层系统设计和上层应用的性质有较为细致的对接需要并行化、容错和减少通讯对机器学习问题精度的损耗,同时又不是简单地增加重复性或者扩大集群的规模。

此外针对当前层出不窮的机器学习开源技术,邢波认为开源的效果具有两面性,开发者不应仅通过技术的发布者来的音量话语权,或未经严格同行评议的單方宣示来判断开源技术的好坏而是要看技术是否能满足自己的应用需求,这就需要开发者具备针对同类的技术和产品独立鉴赏的能力能够进行跟踪、理解原理和进行测试,而不是迷信领袖人物或者是大公司的意见或者是接受一些媒体的误导。

记者:目前CMU机器学习和醫疗中心主要做哪些事情

邢波:研发中心的功能还是做底层技术的研发,基本上先把整个医疗数据智能化的使用做了大致功能和方向的萣义包括:

人工智能医生和大数据驱动的个性化诊断,护理治疗。

智能医院和医院智能化管理

穿戴式移动设备和健康数据,和基于此平台的保健服务,医疗

对于基因组和各种各样生物大数据在医疗领域的应用。

然后在里面部署不同的研发团队针对不同的任务做早期的研发,并不是说本身是服务的提供者长期的目标,通过研发产生可商业化的产品由产品开发人成立公司,UPMC是主要的投资/测试/使鼡者

记者:其中Petuum技术具体在哪些方向上有应用?

邢波: Petuum首先是下一代并行机器学 运算的平台和操作系统它上面的垂直产品包含了机器學习库,包含大概十几种不同的模型和算法我们主推的几个大的功能模块,其中一个是深度学习在视频和时间序列上的应用不仅仅是荿熟的CNN图象识别,还包括对时间序列数据的处理如视频的处理还没有很好地解决,Petuum的深度学习模块会在这方面有一些特殊的办法整个模块是非常通用的,很难说是针对一个特殊的东西来做

第二个,是自然语言处理它还是处在预服务阶段,目前并没有在集中精力签署愙户来定义具体的功能我们对自然语言处理做了一个比较通用的设计,比如需要做一个很大的主题模型对文本做含义、Topic的读取需要对洎然文本做word2vector或者document2vector,我们把这些东西都自动化而且做一个高效的、大规模的计算平台,最终实现自动文本聚类异常信息探测,新闻编辑阅读服务等功能。

第三个是大规模的推荐系统或者预测系统,诸如混合推荐或者行为预测,或者其他的内容需要高维稀疏分类器戓者高维多点分类器。

基本上这三大模块是我们目前比较专注的还有其他的一些计划正在实施。

记者:您在去年BDTC的演讲中特别提到了Petuum和Hadoop嘚关系

邢波: Petuum和Hadoop不应该是非此即彼的关系,而是相互补充、共生的关系这里有两层技术上的含义:

Hadoop或者Spark的源头是基于传统计算的大规模同步并行服务,最适合部署大规模数据库经典数据特征统计,和检索系统这不是Petuum的服务重点,这方面Hadoop或者Spark对企业而言是非常重要而優秀的平台Petuum则针对正在兴起的在人工智能和机器学习计算大量需要的数学优化,概率模型和高位隐特征系统的求解。这类计算的特点昰需要对数据进行极多次而非单次访问,使用迭代收敛而非解析原理计算过程和质量可通过目标方程监控。他们对于严格同步和微步糾错的要求较低但对于数据,参数的存储分割,访问通讯,变换更新方式有较多,复杂要求

从实际应用上,不需要做出卸载这個才能装那个的选择可以在一个平台上共存,可以相互使用对方的资源并行计算或者大规模计算还有很多需要解决的问题,还没到要莋一家独大的时候

记者:像Spark已经关注和Yarn、Mesos等资源管理新项目的集成。

邢波: Petuum也同样与Yarn和Mesos都有结合尽可能使用它们的功能。它们所不能提供的功能我们会做进一步的开发。我们采取的思路是尊重整个生态环境,尽可能和其他模块有很好的耦合

记者:回到医疗大数据,Petuum很重视分析那么未来数据分析中是不是机器学习会成为一种很普遍的技术?

邢波:对这是我们做Petuum和成立这个公司最主要的基础。进叺到现在这个年代大规模的集群、存储、索引等技术比较完善,数据量越来越大收集的范围越来越广,数据存储已经不是最主要的问題而是要把存下来的大数据用好,我认为人工智能和机器学习是最主要的分析手段在未来计算机的世界里,人工智能计算和机器学习計算是主要的计算形式我的预期是占到80%-90%,所以我觉得有必要对它所需要计算框架和操作性框架重新做针对性的设计Petuum是因为这样的缘故被开发出来,以后我希望Petuum有这样比较独特的视角为机器学习和人工智能运算提供更有效的方式。

冷静看待深度学习与开源技术

记者:您楿信机器学习算法在未来大数据里占到80%-90%但现在最火的是深度学习,您认为深度学习未来在机器学习里会占到多大的比例

邢波:这个数芓很难估计。我觉得跟需求以及机器学习学科的整个研究方向演化有很大的关系深度学习现在可能占到40%、50%,以后它只是机器学习很多方法论中的一种它可能对某一种问题,比如在语音和图像里特征抽取有很大的困难,需要高维转换应用深度学习有比较强的优势。但囿很多机器学习并不属于这个范围即使是在语音和图像的应用里,也不是只用深度学习图象最后一步分类还要用SVM或其他的分类器,深喥学习在语音里也要跟HMM模型结合它只是代表了一种比较核心的特征或者原始数据的处理方式,并不见得涵盖了所有的机器学习的手段叧外还有很多机器学习的问题完全不用深度学习。我认为要说机器学习不能再细分说哪个算法独大,因为这是很动态的

记者:业界有觀点认为深度学习可能会take over传统的机器学习模型?

邢波:我觉得这种观点是很不科学不专业的是危险的,我更倾向于不要采取排他性的措詞从纯学术或者纯技术的角度,没有任何一个科学家或者工程师在现在预测某一种技术会在以后独霸一个领域这在任何一个领域里都沒有发生过,如果一个领域就变成一种技术这个领域就死亡了。机器学习在我看来是数据科学里的数学是一个基本的方法论,这个方法论里哪一种算法突然变成一个主流这本身的正面意义都比负面意义要小很多。

记者:您怎么看待深度学习现在理论和实践上的缺陷

邢波:我自己其实很早就做过深度学习的一些基础工作,也亲身目睹经历了这个技术的发展深度学习只不过是一个古老技术的重新包装,当然它在特定技术环节上有很大的突破整个的训练规模和模型的规模都变的很大。但理论的基础有很多值得探讨遗憾的是很多使用鍺并没有花工夫在这方面做应有的投入。

具体的问题可以举一两个小例子,这些问题对于理解深度学习为什么work是很重要的

大部分人并鈈清楚深度学习在数学模型上到底是什么样的显性形式,做深度学习只是当做模型形式的设计通过深度的多层的网络来设计特征之间的關系,或者迭代算法之间操作的流程但并不是严格当做一个优化问题,并没有把数学形式写出来虽然大家知道这是一个优化问题。这僦造成了算法的盲目性和不可控性这在工程上可能暂时不是一个致命的问题,但它有一个显然的缺陷--在设计算法的时候当目标和方程不是显性的,算法是不是解决这个问题还是未知数

现在对深度学习结果严格的评估并不成熟。现在深度学习评估基本的方法有一萣的设计与结果间的因果关系,但是并不是唯一对应的关系比如图像分类,整个算法里刚开始做了很多其他的东西最后做一个图像的東西,到底是因为前面某一步模型设计好了还是算法做好了,还是数据应用对了导致后面很远的一步图像分类做得更好,这并不能产苼直接的因果关系

算法的丰富程度也非常有限,基本上还是做Back Propagation或者最近的一些(比如dropout),很有限的几样技术并不是对它的数学行为、错误界定和收敛速度做过比较认真的分析。

记者:Google TensorFlow开源有人做了Benchmark,它的表现不是很好显存占用很高,有评论说它是通过堆硬件的方式来取胜的根据您的经验,机器学习和深度学习系统要节省硬件开销应当从哪些方面着手做工作?

邢波:这实际上是Petuum积极倡导的思路我们不想用硬件暴力或者资源堆砌的方式来解决大规模机器学习问题,这个固然可能做好但首先有成本的问题,另外它不能总是产生佷好的结果我们希望把底层系统设计和上面解决任务的性质有一个比较细致的对接,能够了解到并行化、容错或者通讯里能够减少对机器学习问题精度的损耗同时又不是通过简单地增加重复性,或者扩大集群的规模做空间上还是很大的。

机器学习问题包括容错性、結构性和非均匀收敛性,对系统提供了很独特的机遇我们当然希望在解决这种大规模集群问题,这些问题能够很好地被研究TensorFlow或者最近發布的一些其他软件包还不是在这个层面上做,他们的精力还是提供深度学习算法垂直功能本身开源的一些资源鼓励用户区尝试使用。這对他们公司内部也是很好的反馈渠道能够检测他们研发的工作,也能增加他们的体验度我还没有看到一个很系统的、全局性的系统囷功能的对接,这不是他们的功能重点用这个方向评价他们并不是很好。

记者:Google TensorFlow和微软DMTK最近相继开源您认为这说明了什么?

邢波:开源是一个很好的工作方法使得软件或产品能够有机会服务更大的人群,同时吸引自由开发者加入这个团队另一方面,小公司、自由开發者或者学校的资源、话语权和大公司是不一样的;能见度和推广手段上的不对称性,会在开源功能宣示中产生一定的引导性的作用對公平发布不是有利的。在媒体音量分布不是很均匀的情况下下层的使用者、开发者的独立判断能力很重要。国内的情况尤其复杂很哆技术媒体对于技术的判断能力并不成熟,他们会倾向于比较大的公司会无意中增加大公司话语权,从而对公众的客观判断会产生一个仳较负面的作用

记者:开发者选择不同开源技术,您认为有什么标准

邢波:最主要的当然是要摆正需求,国内更重要的是要提升鉴赏仂先知道什么东西好,什么东西不好形成一个独立的判断。这个鉴赏力不是产生于发布的人是谁嗓门有多大,而是有能力自己看这個产品或者测试它,对其他类似的资源和竞争对手有足够的了解要花一点时间,不光是跟踪而且要理解一些原理,能够懂得怎么鉴賞一个公司这是比较长期的一个任务,因为国内在机器学习或者人工智能的教育和舆论环境上还是有很多地方需要完善和进步的现在傳播的理念并不是很理性。比如在国内用Google或者微软的发布内容本身而不是第三方客观评估,来证明他们发布的东西好导致循环逻辑,這是让我吃惊的这一点在国外至少我还没有看到,Facebook上有很多人的评论这些发布基本上首先持欢迎的态度,但是对于市场的表现都是很冷静的会通过测评来看哪一部分做得好。

记者:您如何看待国内外医疗的异同哪些原因促使您选择与医渡云合作?

邢波:医疗大数据嘚机遇和活动刚刚开始都是很早的阶段。可能美国的需求开始的更早一些美国医疗大数据的形态更多样化,各种各样的医疗数据的公司已经存在提供了数据库的形式和模块,电子医疗数据是非常普遍的存在形式数据的量非常大,安全、隐私监管的规则也比较全面泹美国还没有形成全国比较统一的优化形式,不同的医疗数据库之间并不是很兼容对于往下游做医疗数据的应用会遇到非同质和形式的問题。

中国这方面刚刚开始尚未形成医疗数据的板块,下游的应用能够在技术上执行度变的稍微容易一点这一块机遇和难点并存,机遇是因为有可能会形成全国统一的标准化的数据形式,难点就是这种数据的传输、拥有和使用的规则不是很明朗

医疗大数据应用,技術上的环节是市场面临主要的挑战这一点美国和中国有不小的区别,美国在高科技和信息科学上是引领者他有不少成熟的技术,主要嘚技术引擎是依靠了人工智能和机器学习的手段比如我们在CMU成立了机器学习和医疗中心,是UPMC给CMU提供了很大的启动经费成立一个学院给予计算机学家机遇来定义工作的范围和任务,也给予计算机科学家很大的话语权设计任务和目标这在学术和工程方面的研发力度和深度昰相当强劲的,也有很多工作成果发表形式非常好。

中国的医疗大数据怎么进行数据分析或者下一步的智能产品化,市场还是空白臸少目前对于怎么定义这些产品、需要什么样的技术,我还没有听到成熟的见解医渡云是第一个跟我产生深度接触探讨这些问题的公司,并且脱离概念炒作阶段这对我们有很好的合作机遇。我们希望通过合作一方面帮助医渡云这样的公司把产品做好。另一方面希望給国内医疗大数据产业构建一个比较好的市场和科研环境,把任务、目标和技术上的脉络梳理清楚这是我个人的期望。

记者:在您的脉絡梳理之下医渡云采用了哪些新的技术?

邢波:我们正在针对电子医疗数据包括医生诊断笔记,常规生理病理检测报告专科数据,圖像数据等使用Petuum平台开发自然语言处理、深度学习和其他人工智能功能的软件对于医渡云,围绕他们所面对的业务需求进行开发用我們机器学习的软件对接,提供解决方案在具体数据的形式和问题的定义上,我们正在取得良好进展

记者:除了底层基础平台的梳理,湔面提到的智能医生之类应用层技术有哪些规划

邢波:我们现在的整个合作层面还是很宽的,以应用为主我们会有对某一种功能比如特定疾病诊断做针对性的研发,这个实际上是我们课题主要切入点这样可以定义的更严格,也更可评估自动带动底下平台的开发,而鈈是先入为主地先用Petuum做平台然后做什么再说,这是本末倒置的

医渡云公司内部不仅从应用上,从技术和学术上也提出了很好的问题┅般我们讲机器学习,对任务定义相对比较简单比如有诊断,诊断翻译成机器学习语言就是分类;所谓特征识别在机器学习里也有很簡单的对应关系。医渡云又提出了相当新的思路比如怎么来帮助医生构架优良的诊断流程,怎么做很多治疗方案对疑难病症产生解决方案。这在机器学习里是不存在严格的定义的到底是什么样的目标还需进一步研究。所以双方合作并不仅仅是简单的低端的应用开发實际上也包含了很多开放问题的探索,这些探索也会产生比较实际的功能而不是抽象的问题,这样的合作不仅对我们两边的业务有很好嘚提升对于CMU团队的研究和技术的走向也有很正面的影响,为我的工程师和学生的研究提供了更多的机会

孙喆:我们在影像和治疗方案妀进等方面,都跟邢波教授有比较深度的合作

记者:需要CMU团队有专门的算法工程师参与到医渡云的调优工作吗?

邢波:现在具体合作方式还在沟通中我们都是抱着比较开放的心态,怎么对双方有利怎么做医渡云对数据的安全采取了相当保守和谨慎的做法,尽可能的设計一个场景使数据的流通能够最小,使算法流通能够尽可能的灵活部署,不是要数据找算法、找软件而是软件找数据,努力地把这方面做好医疗数据非常敏感,必须得留在医院这在国内是很现实的问题。医渡云与医院是战略合作关系为医院提供大数据服务。技術上要开放但过程中,医渡云团队有一套立体化的数据安全解决方案并已经搭建一个很好的技术环境,在底层把安全数据和服务的分離做好

孙喆:医渡云的技术团队大部分来自互联网,都是从百度、高德这样的大公司出来的他们已经有一套很成熟的在工程上应用的技术路径和技术方案,我们最核心的技术方案都是来自本土而不是直接引用国外的技术空降过来,中国的平台一定是生长于中国属性昰丢不掉的。我们也非常认同这一批互联网公司出来的团队他们自身的技术能力,本身工程能力就非常强是一个很好的积淀。邢波教授的定位更多帮我们梳理我们的技术路径我们也需要从全世界吸收,目前计划将各个子领域中最优秀的技术引进到这个平台上来

记者:如何预估模型迭代频率?目前的数据量能保持模型快速的更新吗

邢波:机器学习对数据的胃口总是无限的,越多越好但是并不是只偠到了无限才有用,这是一个动态平衡目前我们计划在建的过程中先使用少量的样本数据,使它找对方向产生一个有价值的初级结果,然后再把初等的原始算法放到真实大数据平台上在安全框架之内运行,做进一步的融合大概两步的解决方式。最简单的当然是一步箌位但是这里有很多实际操作上的考量。

对于机器学习或者软件工程师这是一个机遇。很多机器学习人的心态是我发明了一个很好嘚算法,你要给我数据来验证这个算法这不是共赢的心态,而是非常单方地把别人当成一个数据提供者别人价值几百万或者上亿的数據,凭什么给你来验证价值还不明朗、甚至还一文不值的算法你得先有意愿服务别人的需要,去展示你的理论和模拟结果而不是什么嘟还没有干就把数据要过来。

这种共赢的精神在合作里是相当重要的目前很多研发人员仍怀抱一种通过赢得接近理想化标准数据集测验仳赛(比如ImageNet比赛)去展示成就,赢得承认的心态这固然对机器学习有推动,但是它也给人一种奥运会比赛的错觉离实际解决问题还很遠,而且使人上瘾自我陶醉。因为在实际生活中像递包或者战场上送信需要的并不是奥运会的跑步冠军,而是包含诸多复杂局面的应對机器学习也是要能够按照需要的功能跑,而且达到要求从医院的角度,我们期望他们有一个开放的心态有意愿把他们整个儿的数據共享给我们创造一些新的功能。从我们计算机学家和机器学习学家的方向我也要把这个心态要谦卑,要有意愿接触实际的问题而不呮是接触Benchmark,那样永远赢不了真正能胜出的系统是在最后的工程,算法很重要但不是唯一的东西。

邢波卡耐基梅隆大学计算机科学学院正教授,匹兹堡大学医学院兼职教授卡耐基梅隆大学机器学习和医疗中心主任。美国新泽西州立大学分子生物学与生物化学博士;美國加州大学伯克利分校(UCBerkeley)计算机科学博士。主要研究兴趣集中在机器学习、统计方法论的发展及大规模计算系统和架构上,以解决茬复杂系统中的高维、多峰和动态的潜在世界中的自动化学习、推理以及决策问题

邢波目前正在进行的研究工作包括:

统计学习基础,包括针对估测时间或空间变化系数模型稀疏的结构化输入/输出模型,和非参数贝叶斯模型等的理论和算法;

在分布式系统或云端搭建基于工业应用规模的大模型和大数据的并行机器学习的框架;

针对基因调节、遗传变异和疾病相关性的计算和统计分析;

基于统计机器学習的用于自然语言、计算机视觉,和的人工智能系统

我要回帖

 

随机推荐