电视机上绝对不乏文字信息。从滚动字幕到覆盖全屏的消息,文本永远存在于电视新闻当中。事实上,大约90%的播放时段之内,屏幕上都至少包含一部分可识别的文本;而在这部分时段内,任何特定时间点中的屏幕上都显示着长度与一条推文类似的文本内容。利用谷歌的云AI对为期一周的电视新闻报道(来自互联网档案馆中的电视新闻档案)进行分析,我们即可探索屏幕文字究竟讲述了怎样的故事。
为了更好地理解电视上的词汇,即CNN、MSNBC以及福克斯新闻台的文本世界,外加驻旧金山的各大传媒集团的分支机构——KGO(隶属于ABC)、KPIX(隶属于CBS)、KNTV(隶属于NBC)以及KQED(隶属于PBS等早晚播出的内容,我们采集了从今年4月15日至4月22日总计812小时的电视新闻,并利用谷歌的Vision AI图像理解API进行分析。随后,我们启用了该服务的全部功能,包括OCR文本识别。
在这七个站点当中,谷歌的API共识别出长度超过3.71亿字符的屏幕文本。
这就引出了一个问题,也就是这些文本到底讲了些什么?
之前提到的“ngrams”是一种已经颇具人气的分析技术,能够快速评估大型文本语料库中的语言模式。在本次分析当中,每个1 fps视频帧上的屏幕文本都被转换为小写形式,并将其中的标点符号剥离出去。而后,该技术将文本拆分成存在空间边界的单词,总计得出59万1千个不同的词汇,其中约有23万500个单词至少出现了两次。
由于滚动字幕会不断移动,因此很多单词可能是在滚动当中被算法捕捉到多次。因此,单纯看字数的方法在动态视频领域似乎没有太大的意义。
另一种更有趣的统计方式,就是检查屏幕文本当中出现频率最高的单词。
首先来看CNN,其中最常出现的单词是“live”,在这一周的统计过程中有59%的时间内霸占着屏幕显示周期。接下来为“CNN”(48%)、“ET”(东部时间,43%)、“Mueller”与“Report”(各占31%)、“AM”与“PM”(各占27%)、“Trump”(20%)、“Notre”与“Dame”(各占9%)以及“Bernie”与“Buttigieg”(各占9%)。
可以看到,CNN最常使用的屏幕文字不出所料是其长期强调的“直播”概念、通用时间戳与台标。Mueller在屏幕文字中被提及的比例也占整周播放时长的近三分之一。而Notre Dame仅在本周播出时长中占9%,与Bernie Sanders以及Pete Buttigieg保持一致。
MSNBC最常用的词汇分别是“live”与“MSNBC”台标,各占55%时长;“Mueller”与“Report”各占32%。“Trump”被提及的时长比例为16%;而“Notre”与“Dame”的占比则为5%,与“Barr”一致。
福克斯新闻台的“live”一词只占全部时长的10%,但“Fox News”则占全部时长的68%。“Mueller”的时长占比为19%,“Trump”为14%,“Notre”与“Dame”分别为5%。
CNN与MSNBC似乎都在着力宣扬自己的“live”放送能力,而且全部三家电视台都会长期在屏幕上显示自己的台标。因此,在通过算法分析电视新闻片段时,没有出现“live”或者台标的内容有很大可能属于商业广告。
目前全部614 GB由AI生成的注释数据都已提供公开下载,其中包括ngram整理出的绝对计数与帧数计数两种版本。
综上所述,虽然这些结果只能代表在90%的电视新闻播出时段之内对于屏幕文本相对简单的分析结论,但这也是第一次证明我们能够利用AI技术探索电视新闻内容倾向性问题。这是一种全新的视角,也许在未来能够揭示出更多有趣的真相。
最后做个总结:在此次分析当中,谷歌的AI算法共处理了长达812个小时的电视新闻。该算法识别出每个1 fps帧中可识别为文本的各个字符,编译为一套数据集,而后将其转换为ngram直方图,最终显示出本周在屏幕上出现频率最高的单词集合。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。