T4 · 第一期 — 幕后制作手记

缘起

两位都叫 Tony Zhang 的人,在一间堆满书的书房里,用中文聊了四十多分钟。三台摄像机同时在拍。后期要做的事说起来简单、做起来琐碎:把原始素材变成一集会跟着说话人切镜头、配上清晰中文字幕、声音像正经播客的成片 —— 而且不需要剪辑师在时间线上一个镜头一个镜头地磨。

下面这一切都是程序自动完成的:识别机位、把几台摄像机对齐、根据"说话人分离"的逐字稿生成镜头切换、撰写并对齐字幕、最后合成输出。这一页记录的,是做了什么、怎么做的,以及每一步为什么这样选择。

第 01 步读懂素材

一共六个文件。文件名先讲了故事的前半段:四个 MVI_* 来自一台佳能(长录像会被切成 4 GB 一段,并在 29:59 处自动停录),一个 IMG_* 来自 iPhone,还有一个是第三个机位早先导出的版本。逐一探测分辨率、帧率、编码和音轨,确认这是一场干净的三机位拍摄 —— 再从每个文件抽一帧,就看清了每台机器对着谁。

这就定下了整集的剪辑语法:一个全景双人定场镜头、一个嘉宾特写、一个主持特写。

第 02 步没有场记板,怎么对齐

三台摄像机开机、关机的时刻各不相同,而且摄像机的时钟会走偏 —— 所以不能靠它们各自的时间戳来对齐。办法是"用听的,而不是用看的":每台摄像机都录到了同一个房间里的声音,于是可以把这几条声轨做互相关,算出彼此之间精确的时间差。

与其去比对原始波形(每只麦克风对声音的染色都不一样),流水线比较的是每条声轨的对数能量包络 —— 也就是说话起音、笑声、停顿的节奏,这个节奏每只麦都听得一样。互相关的峰值就是时间差,并进一步精确到单个采样点。

它给自己验了算

佳能那四段是各自独立对齐的,可结果首尾相接、误差在 ~30 毫秒以内 —— 而且第三段与第四段之间的空隙,恰好落在这台摄像机 30 分钟自动停录该有的位置上。几次独立测量彼此吻合到一帧之内,这在音频对齐里几乎是最强的佐证。iPhone 的匹配置信度是 0.87。

当每个机位都被放到同一条时间线上之后,在同一瞬间从每台摄像机各抽一帧,会看到同一个手势从三个方向呈现 —— 这就是对齐成立的证明。

第 03 步谁说话,就切给谁

这段对话此前已经做过转写和说话人分离 —— 1,179 个带时间戳的片段,每个都标好了是嘉宾还是主持。这份逐字稿就是"导演"。规则很直观:嘉宾说话就给嘉宾,主持说话就给主持,开场用全景,长段独白时也切回全景换换气。

难的地方在于"克制"。这 1,179 段里,有 693 段不到 1.5 秒 —— "嗯""对""是啊"、半秒钟的搭话重叠。每一句都切,画面就会像频闪。所以短的发言会被合并、设了最小镜头时长、搭话被并进周围的镜头里。最终得到一版从容、跟着对话走的剪辑。

自动剪辑结果
生成镜头数	216 个,横跨 43.7 分钟无空档
镜头时长中位数	约 10 秒
画面占比 —— 嘉宾	62%
画面占比 —— 主持	27%
画面占比 —— 全景	11%

第 04 步生成字幕

同一份逐字稿又变成了字幕。每位说话人有自己的颜色 —— 嘉宾用金色,主持用蓝色 —— 一眼就能跟上是谁在说。长句会按逐词时间戳切成可读的短句,让字幕随着语音推进,而不是一次甩一整段上屏。一处转写小毛病(节目名"T4"被识别成重复了十几遍)也被检测出来并合并掉。全片共 1,131 条字幕。

第 05 步合成输出

只切画面,不切声音

镜头只在画面上切换;声音始终是一条连续、做过响度标准化的母带(−16 LUFS)。切镜头永远不会让声音爆音、咔哒或错位。

裁到正片

开头四分钟的调麦、结尾的闲聊都被剪掉。成片从"well… Tony and Tony"开场,到结束语收尾 —— 39:23。

统一、拼接、烧字幕

每个镜头都转码成相同规格,接缝处天衣无缝;最后把字幕硬烧进 1080p 成片。

为什么这样做

对齐靠声音,而不是靠时钟。摄像机的时间戳会骗人,共同的声音不会。互相关是唯一能把三台独立摄像机对齐到一帧的办法。
逐字稿就是剪辑师。画面里该出现谁,应该跟着"谁在说话"走 —— 而带说话人标注的逐字稿,本来就知道每一刻是谁在说。
替观众挡住原始数据的毛刺。真实对话里满是半秒钟的插话,把它们合并掉,才是"剪辑"和"频闪灯"的区别。
一条声音母带。让声音保持连续、只切画面,是专业多机位的做法 —— 也让整个流程更稳。
每一步都自我验证。对齐拿摄像机自身的物理规律来核对;剪辑检查有没有空档;成片逐帧检查。没有一步是想当然。

成片

六个原始文件、约 18.8 GB、三台摄像机进去,一集成片出来:跟着说话人切镜头、带字幕、声音过母带,39 分 23 秒。没有一根时间线是手工拖出来的。

《Tony & Tony Talks in the Triangle》第一期 —— 两位职业与人生的老手,在北卡用中文聊一聊:AI 正在怎样改变一份职业的样子。

从一集,到很多条

一集四十分钟的长视频,本身就是一座"切片矿"。逐字稿已经把每一句话都钉在了毫秒级的时间点上,所以做一条竖屏短视频,不是把整集重看一遍,而是:定位金句 → 取整句的起止 → 套用竖屏字幕模板。

第一步永远是核对时间戳 —— 凭印象写的"大概 28:30",拿 merged.json 一核对,其实在 29:07;六条候选里有两条像这样被纠正。下面是核对后、并已全部产出的六条(★ = 重点推荐):

金句	时间	受众
★ 你们没有八个级别了——我的 AI 只有一个	26:25	药企 / 职场人(最强钩子)
★ 不用任何产品,才是你最大的竞品	16:48	marketing 金句
★ 亲爱的年轻人:你跟我的差距正在缩短	29:07	留学生 / 新毕业生
最好的销售,别让他做管理,让他做培训师	36:26	管理者
彼得原理:所有在岗的人都不称职	37:47	争议款,评论区引爆点
BTS:AI 会像导演一样切镜头	00:58	幕后 / meta,人设差异化

最后一条藏着彩蛋:在正片之前的闲聊里,嘉宾正描述着 AI 该"像导演一样,谁严肃起来、声音一大,就切给谁" —— 而这一集的镜头,正是这套流水线照此剪出来的。

竖屏 1080×1920,自动跟随说话人裁切 + 卡拉OK字幕,复用与正片同一套对齐与剪辑数据。六条全部产出,可直接发布。

在线观看

完整成片与六条竖屏切片都在这里,点开即看 —— 公开链接,无需登录。

▶ 完整成片 · 39 分 23 秒

①没有八个级别了 ②最大的竞品 ③你跟我的差距在缩短 ④销冠该做培训师 ⑤彼得原理 ⑥BTS:AI 像导演切镜头