bonotakeの日記

ソフトウェア工学系研究者 → AIエンジニア → スクラムマスター・アジャイルコーチ

微分可能プログラミングの最近の動向

昨日の微分可能プログラミングに関する記事がやたらはてブつくしTwitterもいいねRTされるし、何でかわからずビビリ散らかしているんですが。

それはともかく、その記事も既に修正したんですが、公開後に David Dalrymple 氏と連絡が取れ、彼が色々教えてくれました。
微分可能プログラミングの起源の話については修正した記事を読んでもらうとして、彼は他にも色々教えてくれたので、2, 3ここに(自分の備忘録も兼ねて)残しておこうと思います。

まず、一番最近彼が見た、微分可能プログラミングに関する論文。

概要を斜め読みしただけですが、Plotkin先生の微分可能プログラミング言語を拡張して、いくつかの微分幾何的/圏論的な検討を加えたものみたいです。ヘビーそうだけど面白そう。

更に、最近 Oxford大学に微分可能プログラミングを研究しているグループがあるそうです。そこのスライド。

人の名前をたどるとEdinburgh大から来てる人もいて、なのでPlotkin先生の流れかもしれないです。

他にも、彼が今書いてる論文のドラフトをチラ見せしてくれたりしたんですけど、流石に公開はしません。でも面白そうな論文でした。

天気の子 忘れないうちにネタバレ感想


映画『天気の子』スペシャル予報

恐らくもう沢山の人が観たであろう『天気の子』、今更なネタバレ感想を書きます。
僕は公開初日最初の全国一斉上映で観て、その後感想ブログ書きたいなと思ってたんですけど、その時は他のことに時間取られてて書く暇なかったのでした。
今はもう押し寄せる感動とかも大分落ち着いてしまったので要点しか書けないし、同じことを誰もがもうたくさん書いているだろうし、ということで今更な感じがするのですが、まぁしゃあなし。

以降、『天気の子』『君の名は。』のネタバレがあります。両方のストーリーを知っている人向けです。

続きを読む

『微分可能プログラミング』はどこから来たのか

はじめに(8/3追記)

この記事を一旦書いたあと、重要な追加証言が得られたため、追記修正しています。結論もやや変わっていますが、現時点のほうがより正確です。

本編:ここから

ディープラーニングが現在これだけ流行っている1つの要因は、TensorFlowやPyTorchなどのフレームワークが非常に便利だからです。ニューラルネットワークの設計、訓練、そして分類などの推論がフレームワークを使えばとても簡単に行なえます。

普通に使っている人達は、これらのフレームワークを『ツール』あるいは『ライブラリ』だとみなしていると思います。でも実際のところ、これらはプログラミング言語です。より正確に言えば、すべてのディープラーニングフレームワークディープラーニング計算用DSL(Domain-Specific Language、ドメイン特化言語)と見なせます。このDSLは大抵、Pythonなど他の汎用言語への埋め込み型で定義されています。

これらDSLに共通して言える特徴が微分可能性です。そのDSLで書かれたプログラムは自動で微分できて、その微分の結果に依って内部のパラメータを自動更新できるのです。

あるとき、僕はネット上のどこかで"differentiable programming language"と書いたwebページを見かけました。それがいつだったか、どのサイトだったかははっきり覚えてないのですが、2017年頃だったと記憶してます。

その後、今年チューリング賞も獲ったディープラーニングの父の1人であるYann LeCunがこんな記事Facebookに投稿しました。2018年1月7日のことです。

OK, Deep Learning has outlived its usefulness as a buzz-phrase.
Deep Learning est mort. Vive Differentiable Programming!
(雑な訳:OK、ディープラーニングはバズフレーズになって、便利なものを遺してくれた。
ディープラーニングはお亡くなりになった。微分可能プログラミング万歳!)

そして、この記事が結構バズりました。

この記事が有名になりすぎたのか、ちょいちょい「LeCunが『微分可能プログラミング』を考えついた」と書いた文章を見かけるようになり、結構戸惑いました。しかもその後、かの Gordon Plotkin(プログラム言語理論研究の大家です)が “Some Principles of Differential Programming Languages”というタイトルの基調講演を、POPL’18という、 プログラム言語理論のトップカンファレンスでしていたのを知りました。この講演が2018年1月初旬。なので、LeCunが起源という噂とは矛盾します。

それで、僕はこのフレーズのオリジナルは何なのかを調べ始めました。折しも今年の3月にPlotkin先生が来日していて、そのおかげで重要なヒントを先生からもらうことができました。

イデアの起源

Plotkin先生がこのアイデアを最初に知ったのは2015年のChris Olahのブログ記事だそうです。ニューラルネットと、関数型言語に登場する型システムって実は似てるんじゃない? といった趣旨の記事なんですけど、そこには"differentiable functional programming language"(微分可能関数型プログラミング言語)というフレーズが登場します。

僕自身が調べて、これ以上前に"differentiable programming"の類の言葉を見つけることはできませんでした。 せっかくなので、Chris Olahにも直接メールを出して、このフレーズは誰かを参考にしたのか聞いてみました。その返事がこちら(もちろん、彼の掲載許可は取っています)。

I'm not aware of any discussion of "differentiable programming" exactly prior to my post, although it's possible there are things I am unaware of.
I do think there were similar ideas floating around. For example, Leon Bottou has a line in this paper drawing analogies between neural nets and list manipulation in LISP.
(雑な訳:私の記事より本当に前に"differentiable programming"の議論をしたものは知りません。私が気づいてない可能性ももちろんあるけど。
似たようなアイデアはいろいろ漂ってたとは思います。Leon Bottouはこの論文で、ニューラルネットLISPのリスト操作が似てる、と言うようなことを書いています。)

ちなみに、Olahの記事にはYann LeCunもコメントしています。なので、彼は少なくともこの記事は読んでいますね。

その後2016年に、Atılım Güneş Baydinによる"Diffferentiable Programming"と題した講演があったようです。BaydinはOlahの記事を参照しつつ、"differentiable programming"というフレーズを何回も使っています。

さらにこの中ではDavid Dalrympleのエッセイも参照していて、ここでも"differentiable programming"という言葉を使っています。やはり、ニューラルネットと関数型プログラムが似ている、という話を書いています。
彼にもぜひアイデアの起源を聞いてみたいと思ってるんですけど、Twitterのアカウントしか見つからなかった……ので、詳細を聞けるかどうかはまだわかりません。
記事を一旦公開した後、Dalrymple氏と連絡が取れました。色々話を聞くことができたんですが、この件については以下のような証言をしてくれました。

I definitely got the idea from Olah's blog. I also have strong reason to believe LeCun read my essay before popularizing the perspective, and I think it was a substantial influence. But I'd bet LeCun also read Olah's blog already so I don't want to take much credit, except for streamlining the phrase by removing the word "functional".
(雑な訳:私はこのアイデアを間違いなくOlahのブログから得ました。また、LeCunがこれを広める前に私のエッセイを読んだ、と思える強い理由があって、なのでそれなりの影響はあったと思います。でもLeCunはOlahのブログも読んでいただろうし、たくさん手柄を主張したりはしたくありません。ただし、”functional"という単語をそのフレーズから抜いたのは私の影響だと思います。)

その証言をブログで公開していいか、と聞いてみたところ、少しの逡巡があって、以下のコメントも含めてくれ、と頼まれました。

I cited Olah's blog in the manuscript I sent to EDGE.org, but the editors removed the citation with the justification that references to outside works are against the editorial policy of EDGE.org (which prioritizes self-containedness over other intellectual virtues like giving credit where credit is due). Removing the citation then made it seem like I was implicitly claiming novelty in the essay and I regret that.
(雑な訳:私は EDGE.org (注:彼のエッセイが載ったメディア)に送った原稿にはOlahのブログへの参照を入れていましたが、外部の文献を参照するのは EDGE.org の編集方針に反する(必要なクレジットを入れるなど知財面をきれいにするより、自己完結していることに重きを置く)という理由で編集者によって削除されました。削除によって私がエッセイで暗に新規性を主張したかのようになってしまい、後悔しています。)

彼が誠実であろうとすることに、僕は敬意を評します。

ちなみに、Baydinは2018年にサーベイ論文も書いていて、この中で、"differentiable progamming"の提唱者としてChris Olah, David Dalrymple, そして Yann LeCun の3人を挙げています。

と言ったあたりなので、 僕の調べた限りだと、Chris Olahがこのアイデアを思いついた一番最初で、David Dalrympleがそのアイデアから『微分可能プログラミング』("differentiable programming")というフレーズを生み出しました。Yann LeCun は起源ではないですが、このアイデアを大きく普及させたのは間違いなく彼の功績です。

謝辞

記事を書くにあたり、こちらの不躾な質問に快く回答下さった Gordon Plotkin先生とChris Olah、そして David Dalrymple に感謝します。

追記

英語版も書いたよ。 bonotake.github.io

追記2

微分可能プログラミングって昔からある自動微分と何が違うん?」って質問を頂いたのですが、というか割と想定質問だったんですけども、「深層学習の文脈で同じようなものに別の名前をつけた」とか「深層学習を一般化したら昔から自動微分と言われるようなものになった」っていうのが一番近しいのかもしれないです。そんで、深層学習向けに自動微分よりも拡張されたものになっています。
恐らくですが、本文中でも紹介したBaydinらのサーベイ論文を読むのが一番わかり易いかも。

追記3

TensorFlowなどのフレームワークが実際back propagationのときにどういう「微分」をしてるか、は↓の「ゼロディー」にめっちゃくちゃ平易に解説してあるので読んでみてください。

『計算機科学から見たディープラーニング』英語版をアップロードしました

前回の記事でもお伝えした、n月刊ラムダノートに寄稿した記事をGoogle翻訳使ってざっくり翻訳して英語版のブログ記事としてアップロードしました。

bonotake.github.io

ということで、僕の適当な英語を苦にしない方なら記事がタダで読めます
日本語がいいという方はやっぱり↓を買ってください(はあと

www.lambdanote.com

記事『計算機科学から見たディープラーニング』とHagiya triple

本日(というかついさっき)刊行された雑誌『n月刊ラムダノート vol.1, No.2』に記事を寄稿しました。ということで宣伝エントリーです。

www.lambdanote.com

この中で、『計算機科学から見たディープラーニングという記事を書かせていただきました。

この記事を書くことになったきっかけは2つありました。
まず、ラムダノート社長の@golden_luckyさんと雑談している間にこういう話題で盛り上がり、勢いで執筆を依頼された、というのが1つ。
そしてそれと同時期に、ちょうどMLSE夏合宿2019での企画を考えなきゃいけなくて、そのネタ帳代わりに書いたという側面もあります。東大の萩谷昌己先生をお招きすることは先に決まっていて、先生のご専門である理論計算機科学の観点でディープラーニングを捉え直すとどうなるか、みたいなのを、私なりに考えて記事の形式にまとめました。

で、初稿ができたタイミングで、萩谷先生と、あと共同で企画をしたPreferred Networksの丸山宏さんとで原稿を共有したところ、丸山さんが「3人で座談会をしよう」というとんでもない提案をされ、『鼎談:新しいプログラミングパラダイムとしての深層学習』として実現しました。いやぁ、お2人のお相手を務めるのが私でいいのか、とも思いつつ、精一杯やらせていただきました。

で、その鼎談の中で、萩谷先生が発表されたのがこのスライド。私の記事を元に、さらに考察を重ねておられます。

www.slideshare.net

私の記事のキーポイントも、この記事の中で極めて抽象的ですが説明されているので、数学的な抽象論が平気な方はこちらを見ていただければ記事読まなくても大丈夫です。
これじゃわからん、という人は記事買ってください(ニガワラ

まぁこのスライドだけだと当日の参加者以外には不親切すぎるかもしれないので、以降、先生のスライドをかいつまんで、簡単な解説を試みようかと思います。 (繰り返しですが、この説明で難しいと思う人は記事買ってください)
まず、これは一般的なホーアの三つ組(Hoare triple)の説明です。 https://image.slidesharecdn.com/mlse2019hagiya-190709072155/95/-4-638.jpg?cb=1562657137

事前条件P・プログラムc・事後条件Qで構成される三つ組に対し、(i, o) なる二つ組が出てきますが、これはテストケースです。
iが入力、oが対応するテストオラクル。iPを満たし、(i, o)はQを満たします。

これは今までのソフトウェアだったんですが、ディープラーニング、あるいはディープラーニングを元にした新たなプログラミングの世界Software 2.0はこの枠組みを拡張します。それがこれ。

https://image.slidesharecdn.com/mlse2019hagiya-190709072155/95/-5-638.jpg?cb=1562657137

私が記事の中で書いたのがこの構図です。(なので Imai triple なんて名前がついている。恥ずかしい……)
{P}c{Q}ではなく{P}[c]{Q}となっているのがミソで、真ん中にある[c]はプログラムではなく、プログラムスキーマ(≒特定の要件を満たすプログラムの集合)です。ディープラーニングでは、ニューラルネットワークアーキテクチャがこれに相当します。
そして更に学習器tが存在していて、tはテストの集合{(i, o)}を与えると、一番良さそうなプログラムcを自動探索して出力します。

これを更に拡張して、{P}[c]{Q}, {(i, o)}, t の3つを定めるメタ戦略mが存在するよね、というのが萩谷先生の考察。

https://image.slidesharecdn.com/mlse2019hagiya-190709072155/95/-6-638.jpg?cb=1562657137

ちゅーことで、このメタ戦略を規定するのが新たな枠組みである Hagiya triple です。

https://image.slidesharecdn.com/mlse2019hagiya-190709072155/95/-7-638.jpg?cb=1562657137

そして現状、このメタ戦略には機械学習エンジニアEの存在も含まれるのでは、という考察。

https://image.slidesharecdn.com/mlse2019hagiya-190709072155/95/-8-638.jpg?cb=1562657137

本来的には、メタ戦略はm(P, Q, {E})と3つのパラメータを持つ関数になるんですが、現状はメタ戦略m(P, Q)とは腕のいいエンジニアの集合{E}を集めることで、この腕のいいエンジニアE達が良さげなネットワークを設計するという、大変属人的でおおよそ科学とは言えないものになっているのでは?というのが萩谷先生の問いかけです。
ディープラーニングを科学にするには、いかにこの{E}を理論的な枠組みで制御可能にしていくべきかが問われます。

いかがでしょう。小難しい話を駆け足で説明したので、どこまで理解していただけたかわかりませんが。
私が書いた記事は、この Imai triple までをかなり平易に説明したつもりのものです。なので詳細はぜひ記事を読んでください(3回目)。

あと誰か、この続きを研究してみませんか?
(お前がやれ? ごもっとも……)

情報幾何わかった気になった

注:情報幾何の内容に触れるものではなく、ただの今の僕の心境を綴っただけのエントリーです。あしからず。

タイトルは半分誇張です。本当にわかったわけではないですが、かなり理解が進みました。
きっかけは、色々ぐぐってこの解説論文に出会ったからです。

arxiv.org

元々下記の本で情報幾何は勉強しかけていたり勉強会に顔を出し始めたりしていたのですが、仕事の合間に自習する時間がなかなか取れず、モヤモヤとしていたのです。いい本だと思うんですけどね、2冊とも。

情報幾何学の基礎 (数理情報科学シリーズ)

情報幾何学の基礎 (数理情報科学シリーズ)

微分幾何 (応用数学基礎講座)

微分幾何 (応用数学基礎講座)

GWに時間が取れたので休みのうちに勉強したいと思っていたところ、本文が実質30ページ強の程よい長さの入門が出てきたので、丁度良いと。
結局、4節の応用のセクション除いて一通り読みました。4節も読み切る時間と心の余裕が取れてなかっただけなので、このあと読もうと思います。

もちろん、この30ページがさらさらと読めるわけもなく、実際はわからないことだらけな訳ですが……ただ最近、僕が数学書を読むときわざと試していることが、幅優先で理解していくというものです。
数学書って本来、どアタマから読んで、わからない箇所が出てくれば他の文献を当たって手を動かして考えて……とやるのが王道だと思うんですが、これ、無限に時間のある学生ならOKなんですけど、それなりに仕事抱えてる社会人がやるとまず最初の導入の章読み終わるだけで余裕で1ヶ月以上かかったりするんですよ。本論にたどり着く前に半年以上かかったり。

なので最近は、敢えて

  • 一番面白そうなところから読む
  • わからないことがあってもとりあえず置いといて読む

というのを心がけています。深堀りするよりまず全体のイメージをつかむことから始めて、わからないことは後で泥縄式に調べていくという方法。
画像の描画を1ドットずつ精緻に描くのではなく、モザイクだらけでもいいから全体をまず描いて、そのあとモザイク内の各タイルを詳細化していく感じ。
英文の長文読解するときに、わからない単語が出てくるごとに辞書引くのは禁忌で、わからないならわからないなりに読み流していくというのがセオリーですが、それと同じです。

ということで、他に記事を書いたりもしつつ(この詳細はいずれ)、4日くらいかけて冒頭の解説論文をだいたい読み終わりました。
情報幾何がどういう構成でどういうことをやろうとしているのか、かなり雰囲気がつかめました。統計多様体とか情報多様体とかがどういうものかもなんとなくわかったし。
というか、解説論文が非常によくまとまっていたのでかなりわかりやすかったです。

ああそうだ、上の解説論文読む前にこの動画見たんだった。


【のんびり解説】統計多様体の超入門!【情報幾何】 #VRアカデミア #005

この動画もすごく分かりやすかったので、しょっぱなのしょっぱなに観るのオススメ。
(ただし、ここで解説されてる多様体は統計多様体という名称のものそのものではない気がします。)

そんで、先の解説論文の further reading なところに以下の本がオススメされてて、Amazonのなか見検索でPrefaceとか目次とか読む限り確かに次に読む本として良さそうだったんで、さっくりポチってしまいました。

Geometric Modeling in Probability and Statistics (English Edition)

Geometric Modeling in Probability and Statistics (English Edition)

これも次にどれだけ読む時間割けるかわからないんですが、ぜひ暇を見つけて読みたいなと思っています。

2019年GWにやったこと

今年のGWは10連休だっただけに留まらず、珍しく何かに追い立てられたり体調崩していなかったり*1したので、大変充実した休みを過ごせました。
ということで、GWにやったことをここに記す。

【おしながき】

幕張メッセに行った

2日ほど。何しに行ったかはお察し。

リビングに散らかり倒していた私物を片付けた

一方で自分が作業用にしている部屋は散らかりっぱなしである。

椅子を買った

自宅で仕事するときに使ってる椅子が古い木の椅子で固く、ずっと座ってると腰とかお尻とか痛くなってぐったりするので、一念発起してまともなオフィスチェアを買いました。家具屋さんに2日通いました。
在庫の関係で配送は再来週。

記事を書いた

某雑誌向けに書きました。論文ではなく一般の読み物です。
ディープラーニングに対するエッセイというか考察というかポジショントークというか、そんなもの。詳細が決まったら明らかにします。

情報幾何をわかった気になった

以下を参照。 bonotake.hatenablog.com

微分可能プログラミングの由来を調べた

Differentiable programming, 別名可微分プログラミング。Yann LeCunが発祥だと思っている人が多いのだけども、そうではありません。
これも後日別エントリーにまとめたい。

ガンダムOOを1〜13話一気に観た

でも途中気を失っていたので後で一部見直す。

*1:直前まで不眠症を拗らせていたのですが、お薬で軽快しました。

注:bonotakeは、amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイト宣伝プログラムである、 Amazonアソシエイト・プログラムの参加者です。