机器之心收拾
参加:一鸣、杜伟
本周重要论文许多,特别是谷歌的研讨十分耀眼,有量子霸权论文和参数小 BERT 许多但功能超 XLNe 的模型 ALBERTt。此外还有北大等的论文。
目录:
Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks
InterpretML: A Unified framework for Machine Learning Interpretability
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
Language Models as Knowledge bases?
Deep Learning For Symbolic Mathematics
Quantum Supremacy Using a Programmable Superconducting Processor
Do Massively Pretrained Language Models Make Better Storytellers?
论文 1:Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks
作者:Zhonghui You、Kun Yan、Jinmian Ye、Meng Ma、Ping Wang
论文链接:https://arxiv.org/abs/1909.08174
摘要:对滤波器进行剪枝是一种最为有用的、用于加速和紧缩卷积神经网络的办法。在这篇论文中,来自北大的研讨者提出了一种大局滤波器剪枝的算法,名为「门装修器(gate decorator)」。这一算法能够经过将输出和通道方向的规范因子(门)相乘,从而改动规范的 CNN 模块。当这种规范因子被设 0 的时分,就好像移除了对应的滤波器。研讨人员运用了泰勒打开,用于估量因设定了规范因子为 0 时对丢失函数形成的影响,并用这种估量值来给大局滤波器的重要性进行打分排序。接着,研讨者移除哪些不重要的滤波器。在剪枝后,研讨人员将一切的规范因子合并到原始的模块中,因而不需求引进特别的运算或架构。此外,为了提高剪枝的精确率,研讨者还提出了一种迭代式的剪枝架构——Tick-Tock。
图 1:滤波器剪枝图示。第 i 个层有 4 个滤波器(通道)。假如移除其间一个,对应的特征映射就会消失,而输入 i+1 层的通道也会变为 3。
图 2:Tick-Tock 剪枝结构图示。
图 3:组剪枝展现。相同色彩的 GBN 归于同一组。
引荐:本文是北大和 Momenta 的一篇论文,借用 LSTM 的门操控思维对神经网络进行剪枝,是一种新颖的剪枝办法,读者朋友可学习。
论文 2:InterpretML: A Unified framework for Machine Learning Interpretability
作者:Harsha Nori、Samuel Jenkins、Paul Koch、Rich Caruana
论文链接:https://arxiv.org/abs/1909.09223v1
摘要:InterpretML 是一个为实践者和研讨者供给机器学习可解说性算法的开源 Python 软件包。InterpretML 能供给以下两种类型的可解说性:(1)明箱(glassbox),这是针对可解说性规划的机器学习模型(比方线性模型、规矩列表、广义相加模型);(2)黑箱(blackbox)可解说技能,用于解说已有的体系(比方部分依靠、LIME)。这个软件包可让实践者经过在一个一致的 API 下,凭借内置的可扩展可视化渠道,运用多种办法来轻松地比较可解说性算法。InterpretML 也包含了可解说 Boosting 机(Explanable Boosting Machine,EBM)的首个完结,这是一种强壮的可解阐明箱模型,能够做到与许多黑箱模型平等精确的功能。
软件架构和代码
引荐:本文是微软开源东西的论文,用于协助人们运用科技史的模型进行机器学习。
论文 3:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
作者:谷歌团队
论文链接:https://openreview.net/pdf?id=H1eA7AEtvS
摘要:一般而言,在预练习自然言语表征时添加模型巨细能够提高模型在下流使命中的功能。但在某些情况下,因为 GPU/TPU 内存约束、练习时刻延伸以及意外的模型退化等原因,进一步添加模型巨细的难度也随之添加。所以,为了处理这些问题,来自谷歌的研讨者提出经过两种参数减少(parameter-reduction)技能来下降内存耗费,加速 BERT 的练习速度。归纳试验标明,ALBERT 的扩展作用要优于原始 BERT。此外,他们还运用了聚集于句间连接性建模的自监督丢失,并证明这种丢失对下流使命中的多句子输入有持续协助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测验上都取得了新的 SOTA 作用,并且参数量少于 BERT-large。
表 2:本文中用到的 BERT 和 ALBERT 模型装备。
引荐:尽管大型预练习言语模型在许多 NLP 使命上取得了开展,但紧缩参数一直是研讨者的方针。谷歌团队这回再次发力,将 BERT 进行了显着的参数减缩,但仍然逾越了现有的 SOTA——XLNet 模型。这一论文值得读者阅览。
论文 4:Language Models as Knowledge bases?
作者:Fabio Petroni、Tim Rocktaschel、Patrick Lewis、Anton Bakhtin1Yuxiang Wu、Alexander H. Miller、Sebastian Riedel
论文地址:https://arxiv.org/abs/1909.01066v2
摘要:近来在大型与来哦中预练习的言语模型协助 NLP 下流使命提高了功能体现。当学习言语常识的一起,这些模型或许存储了练习会集的相关常识,能够答复一些填空方面的问题。
作为结构化的常识根底,言语模型有许多优势:它们不需求抽取工程,使得运用者能够获得敞开的联系类别,也能够容易地扩展更多数据,也不需求监督练习。本文中,研讨者探求了一系列 SOTA 言语模型在不微调的情况下作为联系常识标明的才能。
言语模型作为常识标明的办法。
引荐:本文剖析了言语模型作为联系常识标明的才能,为下一步运用预练习模型进行常识推理和问答的研讨供给了一些思路。
论文 5:Deep Learning For Symbolic Mathematics
作者匿名
论文地址:https://openreview.net/forum?id=S1eZYeHFDS eId=S1eZYeHFDS
摘要:神经网络在处理核算或拟合问题时较核算和处理符号数据更为优异。在本文中,研讨者标明,神经网络在处理一些杂乱的数学问题上体现很好,例如符号积分和处理微分方程。研讨者提出了一种语法,能够标明这些数学问题,以及一种用于生成大数据集的办法,用于练习一个 seq2seq 模型。研讨者提出的办法在体现上超过了商业代数核算软件的功能,如 Matlab 或 Mathematica。
引荐:神经网络强壮的拟合才能使其在机器学习中占有一席之地。本文立异性地运用神经网络拟合数学问题,且核算速度很快。
论文 6:Quantum Supremacy Using a Programmable Superconducting Processor
作者:Eleanor G. Rieffel
论文地址:https://drive.google.com/file/d/19lv8p1fB47z1pEZVlfDXhop082Lc-kdD/view
摘要:量子核算机的诱人远景在于量子处理器上履行某项核算使命的速度要比经典处理器快指数倍,而根本性的应战是构建一个能够在指数级规划的核算空间中运转量子算法的高保真度处理器。在这篇论文中,谷歌研讨者运用具有可编程超导量子比特的处理器来创立 53 量子比特的量子态,占有了 2^53 10^16 的状况空间。重复性试验得到的测量值对相应的概率散布进行采样,并运用经典模仿加以验证。
谷歌的量子处理器大约只需 200 秒即可对量子电路采样 100 万次,而当时最优的超级核算机完结相同的使命大约需求 1 万年。
图 1:Sycamore 量子处理器。a. 该处理器的布局,有 54 个量子比特,每个量子比特用耦合器(蓝色)与四个最近的量子比特相连;b. Sycamore 芯片的光学图像。
引荐:本文昭示着量子核算范畴的进一步开展,为量子核算的实践运用奠定了研讨根底。论文依旧是谷歌相关团队,足见其科研实力强壮。
论文 7:Do Massively Pretrained Language Models Make Better Storytellers?
作者:Abigail See、Aneesh Pappu、Rohun Saxena、 Akhila Yerukola、 Christopher D. Manning
论文地址:https://arxiv.org/pdf/1909.10705
摘要:在许多文本上练习过的大型神经言语模型在许多种 NLP 使命上都取得了很好的体现。可是,这些模型在自然言语生成使命上的才能仍然不行清晰。一些头绪阐明这些模型能够生成高质量文本,可是并没有关于这些模型生成才能的详细研讨。本文中,研讨者对比了这些预练习模型,包含 GPT2-117 和现在的神经故事生成模型。经过多种目标评价生成文本后,研讨人员发现了一些能够很好生成故事的模型,以及一些体现不太好的模型。研讨人员标明,尽管 GPT2-117 在语境上更好,对事情的次序更灵敏,并且运用了更多不常用的词汇,可是它在运用最大似然解码算法时只能生成重复的、没有多样性的文本。
不同模型生成的故事文本。
引荐:预练习言语模型能讲好故事吗?本文阐明:仍然不能。故事不只关乎语法和语序,还有隐式地表意和情感信息和额定的先验常识作为根底。现在许多文本生成的模型仅仅只是持续续写文本罢了,它们既没有了解文本的意义,也无法安排起连接风趣的言语。