编者按:本文来自deardata(ID:deardata),作者 谭婧,36氪经授权发布。
坐标,美国阿拉斯加,北极圈。
一架白色小型飞机穿过湍急的强风,在白皑皑的积雪中稳稳着陆。李成博博士欣赏着窗外熟悉的景色,冰封的世界,像极了他的老家中国东北。雪景怡人,但旅程却颇为周折,为了到达目的地,他需要顶风冒雪转飞机四次。最后一程还是小型螺旋桨飞机,因为它能在冰上直接降落。安全降落后,他才发现,着陆地点是在一个冰湖上。
这样的到访已经三次,每次的任务都和收集数据有关,而又不单单是收集数据。一位数据科学家为何需要到这极寒之地?这和“压缩感知地震采集技术(CSI)”有着莫大的关系。
CSI技术是地震数据获取技术上的一个突破,它使人类可以在短时间内收集海量地震数据,并数据质量较高,为下一步机器学习提供基础。更进一步地说,这一技术的出现,很好地解决了油气行业三维地震数据采集成本高、耗时长的难题。
CSI能够在同等成本的条件下,成倍提高数据采集的效率和质量,为下一步大数据与人工智能提供基础,目前是美国康菲石油公司(ConocoPhillips)所有的专利技术。最终目的是提取地下有效信息。有了有效信息,就好比有了地下情况说明书。而需要强调的是,这里的地震是人为的,人为产生震动,再用“听诊器”获得地下的健康状况。
作为CSI技术的核心研发人员,李成博博士向《亲爱的数据》主编谭婧介绍了自己的求学与研究经历。2011年他从美国莱斯大学毕业,获得了计算和应用数学博士。毕业当年,他加入美国康菲石油公司,担任总部高级地球物理学家。他说,选择加入美国康菲石油,也是和开发压缩感知地震采集技术技术有关。
近几年,他的工作聚焦在地球物理应用的压缩感知技术,包括地震数据采集最优化设计和成像。数据既来自陆地,也来自海洋。现在,他负责开发用于地震处理的机器学习解决方案。他与研究伙伴合作发明了——压缩感知地震采集技术。
2016年,他获“创新精神奖”。2018年,获“科技优胜者奖”、“亚洲OTC新技术聚焦奖”。2017年,他和合作者的论文《Operational deployment ofcompressive sensing systemsforseismic data acquisition》被选为国际知名杂志《the Leading Edge》的当年最佳论文。2019年,他获得了“杰出科研技术人员精神成就奖”。
虽然荣誉满满,但是这位优秀的青年科学家身上低调、严谨的特质非常突出。
地球物理数据采集环境往往是非常特殊的自然环境,除了爱好冒险和向往极致自然景观的探险者,普通人很难有这份儿体验。
“不允许留下任何人为的痕迹。车辆如果渗油,那么就得连同冰与雪一起回收起来。对任何表面有植被的地方,决不允许人员与车辆进入。”他说,“做地震数据采集的项目面临的挑战实质上有两个,一个是极端恶劣环境,一个是环境保护的良心。”
“夏天的时候不能有任何活动,只有在冬季的时候,整个地表全部都冻起来,形成冻层之后,才会被允许进行地质勘探活动。”由于办公场地的特殊性,李博士的工作时间比普通人更加受限。
北极圈附近的气候异常极端,人们会误解该地区很难遭到人为的环保破坏。然而,该地区的生态环境却非常的脆弱。作为到访北极圈的科研工作者,他对“环境保护”理解非常深刻。既要考虑科研目的,也确保人类的任何活动都要保护当地环境。从一开始,环保就是摆在科研优先性前面的原则。
“可以被允许工作的时间段,不超过四个月。”李成博博士第一次踏上北极圈的雪地是在2015年的2月份。
众所周知,在北极圈工作,将面临严酷的工作环境。作为一个东北小伙,李成博对“抗冻”很有信心,然而,极端环境还是超乎他的想象。“采集数据时的温度,也就零下三十多度吧,起风后,零下三十五度左右。女生(体重)轻一点站都站不稳。”天气冷,时间短,任务重,是三个难点,但是有趣的一点是,他们在圣诞老人家附近“上班”。
一、CSI技术的核心是什么?
可能连圣诞老人也不知道,数据科学家们正在进行着一项无比精细、复杂而宏大工程。这是一种模拟地震波传播的方法,采用可控震源。通过震源持续震动,向下传播的波遇到地下不同的岩层反射回地面接收信号的方式来进行勘探。由于可控震源振幅扰动较小,对生态环境非常友好。
值得让人兴奋的是,开发新的地震数据采集技术是一项前沿性挑战。也就是说,接收到的信号,经过数据中心的数字处理和地质解释,其成果成为判断地下情况的重要依据。
李博士介绍,“简单来说方法是,在地表放置检波器和震源。通过某点激发一个震源,向地下传波。遇到某一个比较强的反射层的时候,能量会通过强反射,反射回地表。这样在地表就得到了一个响应的效果,接受到信号。通过一组震源和一组检波器,就可以采集到一个数据体。
在数据采集的时候,有上万个检波器同时工作。就形成了一个所谓的五维的数据体,进行地下情况的刻画。说到底,这些接收到的信号,经过数据处理和地质解释,其结果会成为判断海底地质结构的重要依据。CSI技术的核心就是,如何最优的放置这些检波器点和震源点,在最小的代价下,最大化获得地下信息。”
因为这项技术对自然环境的影响较小,所以得到了州政府的支持,否则,在圣诞老人的家门口人为的搞“小型地震”,他老人家未必愿意。
二、数据越来越受重视,数据获取技术也在进步
经过几年艰苦的研发,陆地上的第一次大规模实施,就是在阿拉斯加。所以,2015年的2月,即是李成博的第一次,也是该项技术落地实施的第一次。
李博士说,“作为主要的技术研发人员,到作业现场做调整是必须的。”新技术实施后,他收到了双份的惊喜。
第一个是地震数据收集效率得到很大的提高,五到十倍的增长。
第二个惊喜则是这项采集工作进一步减少了采集工作对自然环境的影响,尤其是减少了对极地环境的人类脚印。对于这两项成绩,康菲公司内部非常的振奋。
美国康菲石油公司除了与中国油气行业的合作发展已经超过三十七年,是中国油气上游领域的重要外国投资商和生产商之外,非常有意思的一点是,康菲石油首席技术官Gregory P. Leveille在《中国能源报》的采访中公开表示,“就大数据应用方面,康菲石油主张让专家和员工都进行实际操作,以提高工作效率。
目前,康菲石油1.1万名员工中有4000名都可以接触,并使用数据库以及相关数据分析工具。”
他强调,“一方面,不断追求高端人工智能技术的研发,同时鼓励和敦促员工学习和应用机器自动化;另一方面,将大数据技术适用于整条产业链,从钻井到运营再到仓库管理等所有领域。”
在另外一家外媒的采访中,这位首席技术官还强调,“石油和天然气行业的发展方式日益要求员工利用前沿的数据分析技能。”
必须得说,数据驱动型文化正在全球领先的石油公司根植。
三、地球物理中,获取数据有何“不易”?
李博士说,油气勘探的技术正在不断进化,行业的数据采集工作有两个特点,
第一个是采集到的数据量巨大,
第二个是数据采集成本非常高昂。
他对“数据量的飞涨”进行了专门地强调。在采集地震数据的时候,数据量大概有多大呢?在一次数据采集周期,两到三个月可以在陆地上可以采到Petabytes单位的数据量。数据已成为石气勘探的重要资产,数据在驱动油气勘探技术创新。
李博士强调,“采集地震数据量是巨大的,海量的,无论你用什么方法,必须要在海量的数据上有一个鲁棒的表现。”
因为昂贵,所以省钱很重要。
地震数据采集项目是非常花钱的工作,基本都是上亿元人民币起步。但是,如此巨资投入的情况下,数据的状况还未必理想。一方面,利用地表的数据,来刻画地下的信息,并不是直接获得数据的方式。另一方面,采集数据的时候,地表的情况也不容乐观。
以阿拉斯加北极圈内的采集项目为例,地表经常有非常严重的风噪音。因为采集到的数据的情况差,必须用一些技术手段把弱信号还原,包括机器学习的方法。
李博士说,“压缩感知地震采集技术,对解决采集成本高的难题有很大的帮助,能够最终靠一些不规则的采点方式收集地震数据,在降低采集成本,及不受特定限制区域影响的同时,大幅度的提升采集效率和成像分辨率。”
四、机器学习应用的“难点”
“如何通过机器学习的方法把弱信号恢复过来?”对于这样的一个问题,李博士这样回答,“在一个弱信号、强噪音的情况下,处理这样的一个问题的方法并不是技术发展到今天才出现的。过去几十年,整个勘探地震学已经想出了很多处理方法,比如通过建立模型把信号提取出来。”
“这种方法在大多数的情况下(效果)还可以。如果只强调把比较强的信号提取出来的话,困难并不大。难度在于,如何能够把最后的20%的非常弱的信号提取出来,这是地震处理中比较大的问题。在地震行业,是没有标注的数据。地震数据处理中,没有很好的方法对海量的数据进行监督学习技术处理,所以要用无监督学习的方法来进行工作。
有一点很重要,在处理这些数据的时候,有很多经典的、模型驱动的方法。应该充分的利用这些样本,不是说有了机器学习技术,其他的就不需要了。所以,第一步,我们应该在一个样本中选取一个方法,建立一个合适的模型。比如说这个信号大致长什么样子,可以把它估计出来。”
“利用一些传统的方法把信号大致估计出来之后,虽然并不能做到百分之百,但是百分之五十非常迅速地能做到。然后,通过深度学习的方法,确认这个地震信号到底在哪里?这个信号到底长什么样?通过已有样本,反演弱信号,高噪音情况下的反应。一部分是信号,一部分是噪音,噪音是什么呢?噪音在我们看来也是信号。
所以在工作的过程中,我们发现把噪音当成信号来处理,对于‘去噪’效果非常,把噪音和信号进行同步处理。说到底,机器学习在这样的一个过程中起到了一个桥梁作用,将基于物理,数学的传统方法和人工智能联系起来”
同样的观点,也来自于全球领先的信息数据分析公司,爱思唯尔(Elsevier)的高级数据科学家沈澄,久居伦敦工作的他在英国天然气勘探公司有着丰富的项目经验。
他这样告诉《亲爱的数据》,打一个比喻,挑西瓜的时候,人们通过拍打西瓜听声音,推测西瓜是否成熟。在石油天然气勘探领域,人们在地底下安装很多震动的信号器,然后收集反射回来的声波、频率等信号。就好比能收集到很多很多个敲打西瓜的声音。传感器收集到的信息,作为深度学习输入的数据,从而得到石油储量信息。
深度学习技术对于地球物理领域,有一个比较正面的影响,或者说,就是说一个比较大的作用就是,其实噪音里面包含了很多信息,以前没有很好的方法从“噪声”里找到的信息,这是我们没有很好的方法,用好这个信息。现在这项技术能够从“噪声”中“榨取”更多有用的信息。
在地球物理领域,还有另一个难点。采样率是比较低的。在使用机器学习技术分析图像时,用低分辨率的照片来进行机器学习和高分辨率的照片进行机器学习,这是有很大很大的区别的。现在你们可以轻松地获得高分辨率,比如,两千像素乘两千像素。在地球物理领域,几十米的分辨率已经很高了。毕竟是从地底下上万米采集来的数据。
这种基于无监督学习和反演强噪声残留地震信号恢复方法,可以应用于不同领域和不同阶段,以提高地震处理的质量和效率。实测数据表明,该方法能够较好地恢复40分贝以下噪声里的微弱信号,或者从复杂的数据(储集层、岩石)中提取特征。将机器学习与传统方法相结合,成为解决地下问题提供了强有力的手段。
李博士强调,“人工智能在油气勘探领域慢慢的开始陆续应用,曾经需要几十个人处理几个月的数据,用神经网络和人工智能的训练算法去处理,效率和有效性两方面都有很大提高。”
最后,李博士补充道,在油气领域,大数据与人工智能技术还可以用在很多环节。比如钻井活动,能够最终靠大数据对老龄化油气田做多元化的分析和评估,尽可能延长其寿命。同时,还将其应用于新井钻探和开发。每一年,全球大型石油公司都会打很多井,大数据技术不仅有助于提高效率、减少支出,还能够减少生产活动的作业面积,即有益于生态环境,又提高了工作的安全和可持续性。
欢脱的雪橇犬在雪地里留下一排小脚印,狐狸与驼鹿在树林里捉迷藏,星星在深蓝色的天空里眨眼,极光闪耀空中,北极大地平静而广袤,环境与未来在连接,新技术与古老能源在融合,人类探索自然与科技发展永不止步。