論文読んだ(ピーマンの葉の3D再構築)

3Dスキャンした葉で学習データを用意し,深層学習による生成ネットワークで葉の生成器を構築した論文の解説. latent variableの概念や3Dモデルの精度評価に使えるloss関数など,勉強になった.

Autonomous construction of parameterizable 3D leaf models from scanned sweet pepper leaves with deep generative networks | in silico Plants | Oxford Academic (oup.com)


目次

概要

深層学習ネットワークの比較

LOSS関数の比較

生成する葉の形態の多様化


概要

  • ピーマンの葉っぱを3Dスキャン
  • 3Dスキャンしたデータをダウンサンプリングして学習データ準備
  • 様々な深層学習ネットワークLOSS関数でピーマンの葉っぱの生成器を構築
  • latent variableの足し算引き算や内挿によって多様な形態の葉っぱを出力できた!


深層学習ネットワークの比較

生成器の構築にはautoencoder (AE), variational autoencoder (VAE), 敵対的生成ネットワーク (GAN), L-GANが使用されており,それらを比較していた.

AEとVAEは何が違う

ともに入力したデータをencoderを経てlatent spaceにlatent variableとしてマッピングしてdecoderを通して画像を生成するのは同じ.

latent spaceやlatent variableとは

元画像の情報が圧縮された空間,あるいはそこに含まれる数値情報 .
今はやりのbingのchat AIに投げてみて返ってきた答えも載せてみる.

Latent variables are random variables that are hard to observe or measure directly, but are assumed to affect the observed data[1]. In generative models, latent variables are used to capture the underlying structure or patterns of the data and generate new data like it[2][3]. For example, in a text classification task, latent variables can represent topics or sentiments that influence how words are chosen[4].

らしい.調べてみたところ,特徴としては,,,

異なるのは,AEでは点としてデータをlatent spaceにマッピングするが,VAEでは確率分布(ガウス分布)に従ってデータをlatent spaceに落とし込むという点.
つまり,後者の方が確率分布からサンプリングを行って生成をするように学習がされるので,連続画像など互いに関連性のあるデータに強い.

GANとL-GANは何が違う

GANとは,入力データの偽物をつくりだすGeneratorとその偽物を判別するDiscriminatorが競い合うことにより,精密な偽物が生成できるようになるもの.
後者ではlatent spaceが用いられている点が異なる.


LOSS関数の比較

次の3つの指標がモデルのパフォーマンス評価に使われ,比較された.

Chamfer distance

Chamfer distanceは,ある集合の各点と別の集合のその最も近い点との間の平均最小距離を計算する指標.
0に近いほど2つの分布はより類似しており,局所的な密度の不一致が少ない. 似ている画像であれば,0に近い.

EMD

Earth Mover's Distance (EMD)は,各点を対応する点に直線で移動させ,ある点集合を別の点集合に変換する際の最小コストを計算する尺度. 本来,n個の砂山をn個の穴に移動させる際にどうすれば移動距離が最小になるかの問題を解くのに使われていたらしい.
0に近いほど2つの分布はより似ている.
似ている画像であれば,0に近い.

Jensen-Shannon divergence

Jensen-Shannon Divergenceは,2つの分布の間の類似性を測定する. 分布間の類似度を測るKullback-Leibler Divergenceを平滑化して対称性を持たせることで改良したもの.
0に近いほど2つの分布はより似ており,その情報量の差は小さい
似ている画像であれば,0に近い.

生成する葉の形態の多様化

こちらの仕組みで,L-GAN内のlatent variablesを活用することで,様々な大きさ,角度,曲面を持つ葉を出力した.

参考文献

Autonomous construction of parameterizable 3D leaf models from scanned sweet pepper leaves with deep generative networks | in silico Plants | Oxford Academic (oup.com)
CS 3750 Advanced Topics in Machine Learning (ISSP 3535)
The theory behind Latent Variable Models: formulating a Variational Autoencoder
Latent-Variable Generative Models for Data-Efficient Text Classification
How to Explore the GAN Latent Space When Generating Faces - MachineLearningMastery.com
Variational AutoEncoder( VAE ) - アルゴリズム解説 (octopt.com)
今さら聞けないGAN(1) 基本構造の理解 - Qiita
【Python】Chamfer Distanceを実装した - Qiita
Earth Mover's Distance(1)古くて新しいアルゴリズム - "Truth of the Legend" Notes (hatenablog.com)
Jensen Shannon Divergence (opengenus.org)
機械学習で用いられるDivergence(KL-Divergence)やらEntropy (Cross-Entropy)の世界へ入門する

Useful tools

I compiled the list of useful tools that I use in my research life.
I hope this article helps you to do your research more fruitfully.
If you know any other useful tools, please let me know.

General

ChatGPT

Interactive AI: code generation, correction and improvement of sentences, English proofreading, planning for a trip, writing a story.
https://chat.openai.com/auth/login

Poe

Chatbots based on some chatGPT based AIs. It's easier to chat with them in the original ChatGPT website. Poe - Fast, Helpful AI Chat

Note

Logseq

A notepad that remembers and visualizes information connections
https://note.com/sangmin/n/n29ad21d537cc
https://logseq.com/

Search

Microsoft Edge Previews (Bing)

A search engine having AI chatting function.
When you ask a question in chat, it is answered based on the results of automatic search by AI, and you can ask further questions from the interactive conversation.
Download Microsoft Edge Insider Channels

Perplexity Ask

Interactive search engine, reliable citations
https://twitter.com/gijigae/status/1616305953296756741?s=46&t=ZyrmXQQc5Bf-hFeIqlPW7g
https://www.perplexity.ai/

Elicit

If you ask a question in natural language, they will suggest relevant papers
https://twitter.com/gijigae/status/1526202515091378177

Consensus

Evidence-based answers referencing scientific papers
https://www.consensus.app/

Search engine for datasets
https://datasetsearch.research.google.com/

Translation

DeepL

AI translation tool, the desktop app is very useful because of short cut key
https://www.deepl.com/ja/translator

Grammarly

English correction tool, the desktop app can be used in any apps
https://support.grammarly.com/hc/en-us

Mouse dictionary

A chrome extension, English dictionary, purchasing Eijiro is recommended
https://qiita.com/wtetsu/items/c43232c6c44918e977c9

Read paper

Zotero

Paper management tool, many extensions enable it to connect various tools
https://www.zotero.org/
https://qiita.com/Yarakashi_Kikohshi/items/39dfbf3059aaf0690761
https://sickle-sword.hatenablog.com/

SCISPACE

Read down the paper and automatically answer questions about the paper
https://typeset.io/

Research Rabbit

Visualization of connections among papers, search for related researches
https://www.researchrabbit.ai/
https://twitter.com/mushtaqbilalphd/status/1577907501248430082

Coding

VSCode

Code editor having so many extensions
https://qiita.com/psychoroid/items/6646d45d6a019f5cf16f
https://yurupro.cloud/767/

Cursor

Code generation by natural language
https://twitter.com/amanrsanger/status/1615539968772050946
https://www.cursor.so/

GPT-3 extension in VSCode

Code improvements and bug fixes
https://twitter.com/hakuto00/status/1615918041006759938?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1615918041006759938%7Ctwgr%5E08033a478c29dfb75bb17317adc5f2295ba7686a%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fnote.com%2Firitec%2Fn%2Fn496881202f60
https://qiita.com/tak001/items/c3000b3ce9b6e72b2ae5

Others

runcat

CPU usage manager, work as task manager in PC
very cute
https://kyome.io/runcat/

Diskinfo3

Storage Management
To buy PC having large storage is important
https://forest.watch.impress.co.jp/library/software/diskinfo/

clibor

copy-and-paste management
https://chigusa-web.com/clibor/download/

EarTrumpet

Volume Mixer for indivisual software
https://apps.microsoft.com/store/detail/eartrumpet/9NBLGGH516XP

QuickLook

Space allows you to see a preview of the file.
QuickLook の評価・使い方 - フリーソフト100

Everything

Fast File Search
「Everything」高速なファイル検索ソフト - 窓の杜

TablacusExplorer

Functional Explorer
Tab function is very useful. QuickLook, Everything works in the app by adding them as add-in. Various addins
https://tablacus.github.io/explorer.html

PowerToys

Official Windows Expansion Pack
Tab sorting, color picking, folder renaming, image resizing, etc.
https://github.com/microsoft/PowerToy...

Listary

Launcher & Search & Folder Moving Support App
https://pc-pgalaza.com/listary/

awesomescreenshot

Capture Apps
https://chrome.google.com/webstore/detail/awesome-screenshot-and-sc/nlipoenfbbikpbjkfpfillcgkoblgpmj?hl=ja