NotebookLMに(音楽や自然音でなく)会話のオーディオファイルを食わせて、
タイミングについての質問をしたら、

---
※ソースには秒単位のタイムスタンプが記載されていないため、内容の区切り(ソース番号)と、編集の目印となる「開始・終了フレーズ」で指定します。
---

って言われたので、内部では一旦文字起こししてからLLMで処理しているんだね。

画像でいうCLIPみたいに、発話と文字情報を同列に扱うようにしているのかと勝手に思っていたけど、
このアーキテクチャーだとすると、「間」とか「声の調子」とかは分からないんだな。
LLMという資産を生かそうと思うとこうなるのか。

0

If you have a fediverse account, you can quote this note from your own instance. Search https://bookwor.ms/users/KitaitiMakoto/statuses/116052149938174014 on your instance and quote it. (Note that quoting is not supported in Mastodon.)