当前位置:宠物百科>综合>狗狗>正文

怎么用ai说话?AI学会狗叫了

人气:454 ℃/2024-03-05 04:26:34

看到一张狗的图片,就能播放狗的叫声,听到老虎的叫声,就能知道是老虎,并且给出老虎的照片?AI的能力真是日新月异!

Facebook 昨天发布了 ImageBind 模型论文——ImageBind: Holistic AI learning across six modalities。

简单来说,这个开源模型,可以同时学习来自六种传感器的信息,以便机器可以更好地理解和处理现实世界的各种信息。

1. 深度计 2. 红外传感器 3. 惯性测量单元(Inertial Measurement Units,简称IMU。是由陀螺仪、加速度计和可能还带有磁力计或其他传感器组成的设备。IMU 能够测量物体在空间中的线性加速度和角速度,并可以通过积分这些测量值来计算物体的速度和位置。) 看了下论文和 Demo:

1. 训练方法应该是将声音、深度计、红外等数据的向量空间都对齐到图像 Embedding 2. 这个模型并不是特别擅长内容生成(支持通过音频生成图片,但效果一般)。它更擅长对这些数据建立连接,换成场景来解释,更适合「搜索」,比如你可以用一段「狗的叫声」搜索到「狗的图片」,也可以通过一张「老虎的图片」反向搜索到「老虎的叫声」以及适合老虎图片的配乐。甚至可以结合,比如一段「狗的叫声」加一张「海边的图片」,搜索到「狗站在海边的图片」。

利好各种剪辑工具,以及资料存储器。还有视频平台,感觉未来用户能直接通过文字搜索到视频里的内容,而不需要像现在都是靠标题和描述。

感兴趣的可以试试这个Demo:

https://imagebind.metademolab.com/demo

搜索更多有关“怎么用ai说话?AI学会狗叫了”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
CopyRight © 2021-2024 宠物百科 All Rights Reserved. 手机版