三台摄像机、一份逐字稿,如何自动变成一集"谁说话就切给谁"、带字幕的成片 —— 全程没有人碰过剪辑时间线。
两位都叫 Tony Zhang 的人,在一间堆满书的书房里,用中文聊了四十多分钟。三台摄像机同时在拍。后期要做的事说起来简单、做起来琐碎:把原始素材变成一集会跟着说话人切镜头、配上清晰中文字幕、声音像正经播客的成片 —— 而且不需要剪辑师在时间线上一个镜头一个镜头地磨。
下面这一切都是程序自动完成的:识别机位、把几台摄像机对齐、根据"说话人分离"的逐字稿生成镜头切换、撰写并对齐字幕、最后合成输出。这一页记录的,是做了什么、怎么做的,以及每一步为什么这样选择。
一共六个文件。文件名先讲了故事的前半段:四个 MVI_* 来自一台佳能(长录像会被切成 4 GB 一段,并在 29:59 处自动停录),一个 IMG_* 来自 iPhone,还有一个是第三个机位早先导出的版本。逐一探测分辨率、帧率、编码和音轨,确认这是一场干净的三机位拍摄 —— 再从每个文件抽一帧,就看清了每台机器对着谁。



这就定下了整集的剪辑语法:一个全景双人定场镜头、一个嘉宾特写、一个主持特写。
三台摄像机开机、关机的时刻各不相同,而且摄像机的时钟会走偏 —— 所以不能靠它们各自的时间戳来对齐。办法是"用听的,而不是用看的":每台摄像机都录到了同一个房间里的声音,于是可以把这几条声轨做互相关,算出彼此之间精确的时间差。
与其去比对原始波形(每只麦克风对声音的染色都不一样),流水线比较的是每条声轨的对数能量包络 —— 也就是说话起音、笑声、停顿的节奏,这个节奏每只麦都听得一样。互相关的峰值就是时间差,并进一步精确到单个采样点。
当每个机位都被放到同一条时间线上之后,在同一瞬间从每台摄像机各抽一帧,会看到同一个手势从三个方向呈现 —— 这就是对齐成立的证明。
这段对话此前已经做过转写和说话人分离 —— 1,179 个带时间戳的片段,每个都标好了是嘉宾还是主持。这份逐字稿就是"导演"。规则很直观:嘉宾说话就给嘉宾,主持说话就给主持,开场用全景,长段独白时也切回全景换换气。
难的地方在于"克制"。这 1,179 段里,有 693 段不到 1.5 秒 —— "嗯""对""是啊"、半秒钟的搭话重叠。每一句都切,画面就会像频闪。所以短的发言会被合并、设了最小镜头时长、搭话被并进周围的镜头里。最终得到一版从容、跟着对话走的剪辑。
| 自动剪辑结果 | |
|---|---|
| 生成镜头数 | 216 个,横跨 43.7 分钟无空档 |
| 镜头时长中位数 | 约 10 秒 |
| 画面占比 —— 嘉宾 | 62% |
| 画面占比 —— 主持 | 27% |
| 画面占比 —— 全景 | 11% |
同一份逐字稿又变成了字幕。每位说话人有自己的颜色 —— 嘉宾用金色,主持用蓝色 —— 一眼就能跟上是谁在说。长句会按逐词时间戳切成可读的短句,让字幕随着语音推进,而不是一次甩一整段上屏。一处转写小毛病(节目名"T4"被识别成重复了十几遍)也被检测出来并合并掉。全片共 1,131 条字幕。


镜头只在画面上切换;声音始终是一条连续、做过响度标准化的母带(−16 LUFS)。切镜头永远不会让声音爆音、咔哒或错位。
开头四分钟的调麦、结尾的闲聊都被剪掉。成片从"well… Tony and Tony"开场,到结束语收尾 —— 39:23。
每个镜头都转码成相同规格,接缝处天衣无缝;最后把字幕硬烧进 1080p 成片。
六个原始文件、约 18.8 GB、三台摄像机进去,一集成片出来:跟着说话人切镜头、带字幕、声音过母带,39 分 23 秒。没有一根时间线是手工拖出来的。
《Tony & Tony Talks in the Triangle》第一期 —— 两位职业与人生的老手,在北卡用中文聊一聊:AI 正在怎样改变一份职业的样子。
一集四十分钟的长视频,本身就是一座"切片矿"。逐字稿已经把每一句话都钉在了毫秒级的时间点上,所以做一条竖屏短视频,不是把整集重看一遍,而是:定位金句 → 取整句的起止 → 套用竖屏字幕模板。
第一步永远是核对时间戳 —— 凭印象写的"大概 28:30",拿 merged.json 一核对,其实在 29:07;六条候选里有两条像这样被纠正。下面是核对后、并已全部产出的六条(★ = 重点推荐):
| 金句 | 时间 | 受众 |
|---|---|---|
| ★ 你们没有八个级别了——我的 AI 只有一个 | 26:25 | 药企 / 职场人(最强钩子) |
| ★ 不用任何产品,才是你最大的竞品 | 16:48 | marketing 金句 |
| ★ 亲爱的年轻人:你跟我的差距正在缩短 | 29:07 | 留学生 / 新毕业生 |
| 最好的销售,别让他做管理,让他做培训师 | 36:26 | 管理者 |
| 彼得原理:所有在岗的人都不称职 | 37:47 | 争议款,评论区引爆点 |
| BTS:AI 会像导演一样切镜头 | 00:58 | 幕后 / meta,人设差异化 |
最后一条藏着彩蛋:在正片之前的闲聊里,嘉宾正描述着 AI 该"像导演一样,谁严肃起来、声音一大,就切给谁" —— 而这一集的镜头,正是这套流水线照此剪出来的。
竖屏 1080×1920,自动跟随说话人裁切 + 卡拉OK字幕,复用与正片同一套对齐与剪辑数据。六条全部产出,可直接发布。
完整成片与六条竖屏切片都在这里,点开即看 —— 公开链接,无需登录。
▶ 完整成片 · 39 分 23 秒