Perceiver io
https://github.com/deepmind/deepmind-research/tree/master/perceiver
这个有点儿意思
模型很general
语言,图像,音频
特别是还能直接应用到optical flow
这个自己以前也做过
感觉有些小震撼,也很好奇
花了好几天去理解这个
但其实好多词都只是听说过但是不懂
比如attention, transformer
然后论文里又出来一堆K, V, Q
没办法,回头一个一个查,找tutorial
https://theaisummer.com/attention/
https://theaisummer.com/transformer/
https://theaisummer.com/einsum-attention/
https://towardsdatascience.com/illustrated-self-attention-2d627e33b20a
https://jalammar.github.io/illustrated-transformer/
大概明白是啥情况了
最诡异的是一个input embedding map到三个vector,分别是k, v, q。还说是借用information retrieval的词汇。这就更神奇了。自己search自己么?
感觉完全理解还需要再消化一下。
又仔细看了一下optical flow的描述和代码。
input是两幅图片。output是flow图片。
以前做optical flow基本上都是patch to patch的去找。完全是没有learning的。
现在全是learning based。
这个问题format成一个input output mapping的问题了
通过model来map
Transformer感觉有点儿像图像压缩
一个经典的方法
通过傅立叶变换转到一个space,只需要提取其中少部分值,然后再反变换回来,基本上能跟原始图片差不多
怪不得叫encoder, decoder
整个transformer感觉是一种高度定制化的转换模型
模型通过大量的数据来训练
Perceiver做到通用性的关键在于input 和output弄成最general的array
然后定义专门的preprocessor和post processor把领域数据转换成输入输出。
不知道可不可以应用到工作上?