NotebookLMに(音楽や自然音でなく)会話のオーディオファイルを食わせて、
タイミングについての質問をしたら、
---
※ソースには秒単位のタイムスタンプが記載されていないため、内容の区切り(ソース番号)と、編集の目印となる「開始・終了フレーズ」で指定します。
---
って言われたので、内部では一旦文字起こししてからLLMで処理しているんだね。
画像でいうCLIPみたいに、発話と文字情報を同列に扱うようにしているのかと勝手に思っていたけど、
このアーキテクチャーだとすると、「間」とか「声の調子」とかは分からないんだな。
LLMという資産を生かそうと思うとこうなるのか。