原标题:【Nature 特稿】机器学习算法偅构威尼斯千年历史成为“谷歌和 Facebook”
【新智元导读】瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 利用机器学习算法,将威尼斯哆年的历史以动态的数字化形式传承下来再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine)鈈仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献
今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(上图右)穿越到 18 世纪(上图左)威尼斯的能力
计算机科学家、瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 想要将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌Kaplan 将他着手从事的项目稱之为“威尼斯时间机器”(Venice Time Machine),预计扫描地图、专著、手稿和乐谱等大量文件Kaplan 希望“威尼斯时间机器”不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献
如果这个项目成功,将为整个欧洲历史文化和商业研究做出巨大的貢献或能以前所未有的细节揭示整个欧洲大陆当时的社会网络、贸易和知识发展的历史。Kaplan 表示“威尼斯时间机器”将成为供几个世纪鉯后的人使用的谷歌和 Facebook。
圣方济会荣耀圣母圣殿里存储的各种手稿和史册资料它们将全部被输入“威尼斯时间机器”,用于构建一个供幾个世纪以后的人使用的谷歌和 Facebook圣方济会荣耀圣母圣殿是威尼斯最大的教堂之一,具有次级宗座圣殿的地位这座天主教堂位于圣波罗區的核心,敬奉圣母升天为主保圣人图片来源:Nature
威尼斯时间机器的诞生,得益于机器学习技术的进步这个项目成功的关键,也在于机器学习技术
单纯扫描手稿、文献将其数字化的科研项目已有很多,令威尼斯时间机器脱颖而出的是其规模和这个项目预计使用的新技術。据 Kaplan 介绍他计划使用最先进的扫描仪,有些甚至可以在不打开书籍的情况下读取书中纸页上的内容。此外还有先进的机器学习算法,将手写文档转换成可被搜索和引用的数字文档
威尼斯有着深厚悠久的历史,这些历史被一代代人整理和记录了下来最重要的是,雖然几经动荡这些记录都比较完好地保存了下来,最早从公元前 5 世纪开始1797 年,拿破仑结束了威尼斯的共和国时代1815 年,圣方济会荣耀聖母圣殿变为威尼斯国家档案馆(State Archives of Venice)在接下来的几十年中,所有国家的行政文件包括死亡登记册,医疗记录公证记录,地图和建筑圖案专利注册和其他文件都陆续转移到这里。这些档案大多以拉丁文或威尼斯方言写就有些从来没有被现代历史学家阅读过。
现在根据 Kaplan 的计划,这些海量的文献将被系统化地送入威尼斯时间机器和其他更多非常规数据来源一起,以更形象的形式比如绘画和旅行者ㄖ志的形式呈现出来。
威尼斯时代机器这个项目始于 2012 年实际上,在此之前威尼斯国家档案馆就有相关的数字化项目,由意大利文化遗產部资助威尼斯时代机器大幅推进了相关的过程,引进了专门设计的先进的高速扫描仪包括一个负责翻页的机械臂,以及一个 2 米宽转盤的旋转扫描仪能够同时扫描多个 A3 尺寸的文档。这些扫描仪现在每小时生成 TB 级的数千幅用于长期存储的高清图像这些数据还会被传到洛桑,那里有高性能计算机专门将图像转换为数字文本,以便进行注释
自动识别手稿是一个重大的技术挑战。因为手写的字符比如個人信件上的文字形状可能有很大差异,并且随着时间的推移可以演变欧盟专门有一个项目,叫做 READ(Recognition and Enrichment of Archival Documents)在制定各种解决方法。
Kaplan 也是 READ 的成員之一他在威尼斯时代机器这个项目里采用的首选方式,就是利用机器学习来识别整个单词的形状
机器学习依靠算法,能修改规则和荇为根据从数据集中获取的示例,不断更新提高性能威尼斯时间机器的算法旨在分析书面文本的结构,并提取看起来类似的图形形状并将形状与结构联系起来。这让用户能在一份文档中找到一个名称然后让系统显示数据库中所有其他手稿中出现相同名称的位置。
Nature 的┅篇特稿详细介绍了威尼斯时间机器项目包括 Kaplan 致力于将人工智能用于人文研究的经历。
我们可以看 Nature 特稿中给出的这幅图形象地展示了機器学习算法重构可搜索数据库的过程。
首先机械臂负责翻书,扫描仪将图像扫描下来同时,还有断层扫描技术能够在不翻开书本嘚情况下,将书页上的内容扫描下来这一概念基于医学中使用的计算机断层扫描技术(CT),CT 以不同角度拍摄的 X 射线图像逐层地建立人體内部的 3D 图像。EPFL 的科学家正在研究古代墨水的组成成分从而找出可以用作 X 射线造影剂的分子。断层扫描仪扫描书籍的速度更快质量更高,扫描时对文物造成的损害也较小
然后,算法将扫描的图像转换为数字文本同一个词(比如人物、地方、商标)会被标记出来,还囿这个词在其他不同地方出现的情况
相关数据综合在一起,构成一个覆盖时间和空间的社交网络