看 Qwen2.5-Omni 的演示视频,感觉这种原生多模态的模型有点先天桌宠圣体的味道了(要是能再多加一个物理模拟的话不知道能不能实现一些原生表情和行为)
或许未来会出现集合 屏幕历史记录 + 多模态内容识别 + 自然语言对话 之类功能的
真智能桌宠(显卡起火器)解决方案?

0

If you have a fediverse account, you can quote this note from your own instance. Search https://nya.one/notes/a5w3zz55k3v21d58 on your instance and quote it. (Note that quoting is not supported in Mastodon.)