东数西算能否解决地理信息大数据的算力

                            

原创中国测绘学会中国测绘学会收录于合集#中国测绘杂志35个

本文内容摘自《中国测绘》年第8期

近年来,人工智能和时空地理信息大数据的结合成为测绘行业研究的热门方向。卫星定位、遥感影像、三维激光扫描、室内外一体化……在时空大数据的获取方面,我们的手段越来越丰富。但在数据的运算与应用方面,测绘行业面临着算力不足的难题,其中处理图形数据算力不足的问题尤为严重。这样的算力“焦虑”对地理信息行业有怎样的影响?“东数西算”工程是否可以改善算力不足的情况?未来“东数西算”工程是否会改善这一局面?带着这些问题我们有幸采访到了地理信息大数据与人工智能方面的专家安徽大学吴艳兰教授。

安徽大学吴艳兰教授

记者:就您研究的对象和参与的重大地理信息项目而言,是否存在算力不足的情况?

吴艳兰:空天地一体化的地理信息大数据具有数据多来源、多格式、多类型、多系统、多时空分辨率、多种精度的特点。其中卫星遥感、无人机遥感是快速获取时空地理数据的重要手段,与用户应用对接最紧密的就是遥感信息提取,也就是遥感解译。在这一领域,算力问题真的可以说是比较突出。众所周知,一幅遥感影像数据往往都有几个GB的大小,对这样大的图像进行运算,需要很高的显卡性能。

其中,高校、科研机构在深度学习模型研究、开发方面是有一定优势的,也有能力对深度学习模型进行创新和优化,我们面临的困难就是数据样本和算力,数据样本可以通过一些方法获取,而算力不足的确制约了我们的研究和重大项目技术服务。

就我的研究领域而言,在遥感影像智能解译方面(本人更偏向于称之为遥感人工智能,因为这更加能够让社会大众、特别是让学生了解测绘地理信息学科与计算机学科前沿的紧密融合关系),虽然我们具备一定的研究设备、积累了一定的技术成果,在算力方面仍然常常处于紧张状态。无论是承接重要项目还是科研工作都需要算力做支撑。

比如我们承接的一个生态状况调查评估项目,需要基于遥感影像的分类进行下一步工作,许多的遥感监测服务项目,需要及时反馈监测结果,对时效性要求很高;我们做遥感深度学习模型优化研究,博士生、研究生论文的算法对比实验等都离不开算力支持。据我了解,高校从事大数据、人工智能方向的教师普遍面临着算力不足问题。

除了高校,大数据、人工智能引发的技术变革,也使得许多行业部门面临着算力不足问题。例如,安徽大学与相关测绘部门的共同研发项目,我们面临的最大问题是,由于测绘资料保密要求,只能在该单位的私有云上开展深度学习模型训练,但现有计算条件难以支持模型的调参与优化,影响了项目进度。

在测绘行业之外,遥感大数据的应用也比较广泛地应用于其它行业,例如,据我了解一些电力部门也正在构想建立一个遥感人工智能行业应用。由于行业数据涉及保密问题,他们更希望将这一应用布设于本单位的私有云,这些单位显然也遇到了算力不足的问题。

总而言之,从高校的角度出发,地理信息大数据、人工智能的研究普遍存在算力不足的情况;就我了解的测绘单位、企业甚至涉及测绘应用的相关行业而言,他们大多也面临着算力难题,这是我们一直探索,想要解决的问题。

记者:为什么会出现算力不足的情况?

吴艳兰:地理信息、遥感信息在提取前,需要进行多源数据处理,再进行遥感信息提取深度学习模型训练,这些都需要大量的计算,尤其是对图形数据的处理,而高性能的图形处理设备的价格高昂。

安徽大学对于遥感人工智能方向的重视程度比较高,在几年前为该研究方向采购了近万元的高性能设备,我们在保障自身科研任务的基础上,还尽量支持了其他院校、单位的数据处理需求。

就我接触过的测绘单位、企业而言,他们想依靠手中的数据样本,建立起一套自己的深度学习体系,往往会面临算力无法支撑的困难,也很难依靠项目收入去支付昂贵的设备采购费用。

我认为供需不匹配是造成目前测绘地理信息大数据算力不足的原因之一。我曾经接触过大湾区某算力中心,该中心对高校提供了一些算力开放,但是我们了解到该中心提供的算力服务主要以高性能计算为主,对于图形数据计算提供的服务不多。

当前,高校、测绘单位、企业关于地理信息大数据、智能算法的研究与应用的算力需求,大多还是通过分别建设数据处理中心来解决,但昂贵的设备和特殊的运营维护,使其整体成本较高。

记者:随着“东数西算”工程的建设,地理信息大数据的运算如何从中借用算力?要注意哪些问题?

吴艳兰:测绘地理信息行业算力的建设面临着安全与成本之间的矛盾,公有云不需要投入大量建设资金但安全性不如私有云,私有云则反之。

目前,就涉及地理信息的数字政府2.0中的各项政务应用而言,政府部门的各种政务都能够整个云端化。所以我认为,只要满足这些政府部门的算力需求和保密要求,这样的一种云端构建是受欢迎的,一定比政务部门单独申请经费、采购设施、并独立维护系统的性价比更高。

“东数西算”集中建设了数据中心,对于整体社会资源来说是一种节约。对于地理信息大数据的算力不足问题来说,“东数西算”工程提供的算力服务也是一种补充。当然我们也要认识到,地理信息大数据具有一定的特殊性,即对图像处理算力的要求较高。

据我了解,目前很多超算中心的算力对遥感数据深度学习的支撑能力还有待提升。地理信息大数据中数据量最大的就是遥感影像数据,遥感数据提取这个广泛且迫切的应用目前还不能依靠云计算解决。

其次,测绘地理信息大数据的处理涉及到信息安全和知识产权保护。

一些互联网企业提供的云计算服务已经能够支持深度学习,为什么这些云计算服务未能普遍应用于地理信息大数据运算呢?我想除一些地理信息数据本身具有敏感性外,深度学习算法也是科研人员的劳动结晶,出于劳动成果保护的目的,需要考虑布置在公有云上是否具有风险。

就像我们平时使用移动终端软件,即使我们非常熟悉它们并且在使用过程中已经很小心,还是会出现个人隐私泄露的问题。这样来看,测绘地理信息行业对公有云的安全性担心也有一定的道理。

最后,我还想提醒大家的是成本问题。就我目前了解到的信息而言,租用算力的成本还是比较高的。这很像我们选择租房子还是买房子,买房子一次性的投入比较高,租房子则需要持续投入,而且还面临着房租涨价的风险。算力租用也是同理,一段时期内由于政策支持,可能租用算力比较划算,但是政策取消或发生变化,就存在租用成本上升的问题。因此,租用算力还是采购设备要依据现阶段以及未来的需求作判断。

记者:在“东数西算”项目中,西部和东部枢纽的主要区别是处理“冷数据”和“热数据”,对地理信息行业而言,哪些是“冷数据”哪些是“热数据”呢?

吴艳兰:“冷数据”一般指的是那些时效性需求不太高的数据,“热数据”是对处理时间要求高、需要立刻作决策并运算的。如果能实现地理信息行业“热数据”与“冷数据”分别运算,能够极大程度地节约成本、提高效率。

地理信息大数据中一些数据分析如轨迹分析、人流分析等需要马上从热点中得到反馈的,就是地理信息大数据中的“热数据”,我们前面提到的遥感人工智能要分为两部分,一部分是训练模型,这部分即时性要求没有那么高,只要当地设备性能够高,我们还是可以通过增加人工经验特征样本和模型优化,实现调整参数使模型收敛;另一个部分是在线运行系统,比如一些用户想使用我们的模型快速对遥感影像进行信息提取、获得对应的矢量数据,那么就建议选用快速的节点。

记者:随着“东数西算”的落地,您认为地理信息行业会受到怎样的影响?

吴艳兰:可以预见的是,随着算力基础设施的完善,更多的测绘地理信息大数据应用即将驶入“快车道”,然而我们还需要注意一些问题。

据我目前了解,“东数西算”的算力中心是联通、华为、百度等几家大企业参与建设的。他们完成了运算平台的软硬件环境以及系统的搭建,势必会在未来的竞争中处于优势地位。

过去,高校、中小企业承担了很多相关部门的一些项目,当时空地理信息大数据、人工智能的未来如期而至,中小企业获得这类项目的机会可能因上述原因大大降低。

我们知道,空天科技在“十四五”规划中被国家上升为国家战略科技力量,也将是未来大国竞争中很重要的一个方面。

除了国家层面的高度重视外,中小企业也是这个行业保持活力的重要角色。人工智能与地理信息大数据、遥感大数据已经紧密结合,将催生出众多新的应用需求,并在不断寻求新的突破。如果说国家建设“东数西算”项目是搭建“舞台”,那么各种应用就是舞台上的“节目”,而细分到每个领域的应用需要中小企业参与探索,将不同“节目”推荐给对应的观众。因此,我希望中小企业能够得到充分的支持,尤其是在算力租用方面,要让他们用得起,让他们把人工智能带到终端。

国家做“东数西算”工程的初衷,是节约成本,向社会提供开放的算力服务资源。我认为真正让使用者用得到、用得好这些算力资源是“东数西算”成功的关键。

END

文/本刊记者素晴图/受访者提供

编辑:张永超

初审:齐阳

审核:彭震中

声明:本文为《中国测绘》原创文章,授权合作请在本


转载请注明:http://www.180woai.com/afhzp/3662.html


冀ICP备2021022604号-10

当前时间: