电视机上绝对不乏文字信息。从滚动字幕到覆盖全屏的消息,文本永远存在于电视新闻当中。事实上,大约90%的播放时段之内,屏幕上都至少包含一部分可识别的文本;而在这部分时段内,任何特定时间点中的屏幕上都显示着长度与一条推文类似的文本内容。利用谷歌的云AI对为期一周的电视新闻报道(来自互联网档案馆中的电视新闻档案)进行分析,我们即可探索屏幕文字究竟讲述了怎样的故事。
为了更好地理解电视上的词汇,即CNN、MSNBC以及福克斯新闻台的文本世界,外加驻旧金山的各大传媒集团的分支机构——KGO(隶属于ABC)、KPIX(隶属于CBS)、KNTV(隶属于NBC)以及KQED(隶属于PBS等早晚播出的内容,我们采集了从今年4月15日至4月22日总计812小时的电视新闻,并利用谷歌的Vision AI图像理解API进行分析。随后,我们启用了该服务的全部功能,包括OCR文本识别。
在这七个站点当中,谷歌的API共识别出长度超过3.71亿字符的屏幕文本。
这就引出了一个问题,也就是这些文本到底讲了些什么?
之前提到的“ngrams”是一种已经颇具人气的分析技术,能够快速评估大型文本语料库中的语言模式。在本次分析当中,每个1 fps视频帧上的屏幕文本都被转换为小写形式,并将其中的标点符号剥离出去。而后,该技术将文本拆分成存在空间边界的单词,总计得出59万1千个不同的词汇,其中约有23万500个单词至少出现了两次。
由于滚动字幕会不断移动,因此很多单词可能是在滚动当中被算法捕捉到多次。因此,单纯看字数的方法在动态视频领域似乎没有太大的意义。
另一种更有趣的统计方式,就是检查屏幕文本当中出现频率最高的单词。
首先来看CNN,其中最常出现的单词是“live”,在这一周的统计过程中有59%的时间内霸占着屏幕显示周期。接下来为“CNN”(48%)、“ET”(东部时间,43%)、“Mueller”与“Report”(各占31%)、“AM”与“PM”(各占27%)、“Trump”(20%)、“Notre”与“Dame”(各占9%)以及“Bernie”与“Buttigieg”(各占9%)。
可以看到,CNN最常使用的屏幕文字不出所料是其长期强调的“直播”概念、通用时间戳与台标。Mueller在屏幕文字中被提及的比例也占整周播放时长的近三分之一。而Notre Dame仅在本周播出时长中占9%,与Bernie Sanders以及Pete Buttigieg保持一致。
MSNBC最常用的词汇分别是“live”与“MSNBC”台标,各占55%时长;“Mueller”与“Report”各占32%。“Trump”被提及的时长比例为16%;而“Notre”与“Dame”的占比则为5%,与“Barr”一致。
福克斯新闻台的“live”一词只占全部时长的10%,但“Fox News”则占全部时长的68%。“Mueller”的时长占比为19%,“Trump”为14%,“Notre”与“Dame”分别为5%。
CNN与MSNBC似乎都在着力宣扬自己的“live”放送能力,而且全部三家电视台都会长期在屏幕上显示自己的台标。因此,在通过算法分析电视新闻片段时,没有出现“live”或者台标的内容有很大可能属于商业广告。
目前全部614 GB由AI生成的注释数据都已提供公开下载,其中包括ngram整理出的绝对计数与帧数计数两种版本。
综上所述,虽然这些结果只能代表在90%的电视新闻播出时段之内对于屏幕文本相对简单的分析结论,但这也是第一次证明我们能够利用AI技术探索电视新闻内容倾向性问题。这是一种全新的视角,也许在未来能够揭示出更多有趣的真相。
最后做个总结:在此次分析当中,谷歌的AI算法共处理了长达812个小时的电视新闻。该算法识别出每个1 fps帧中可识别为文本的各个字符,编译为一套数据集,而后将其转换为ngram直方图,最终显示出本周在屏幕上出现频率最高的单词集合。
好文章,需要你的鼓励
铠侠正在测试最新的UFS v4.1嵌入式闪存芯片,专为智能手机和平板电脑设计,可提供更快的下载速度和更流畅的设备端AI应用性能。该芯片采用218层TLC 3D NAND技术,提供256GB、512GB和1TB容量选择。相比v4.0产品,随机写入性能提升约30%,随机读取性能提升35-45%,同时功耗效率改善15-20%。新标准还增加了主机发起碎片整理、增强异常处理等功能特性。
上海AI实验室团队提出创新的异步拍摄方案,仅用普通相机就能实现高速4D重建。该方法通过错开相机启动时间将有效帧率从25FPS提升至100-200FPS,并结合视频扩散模型修复稀疏视角导致的重建伪影。实验结果显示,新方法在处理快速运动场景时显著优于现有技术,为低成本高质量4D内容创作开辟新路径。
谷歌在伦敦云峰会上发布Firebase Studio更新,新增Gemini命令行界面集成、模型上下文协议支持和"代理模式"。代理模式提供三种AI协作层次:对话式"询问"模式用于头脑风暴,人机协作代理需开发者确认代码变更,以及几乎完全自主的代理模式。尽管谷歌声称已有数百万应用使用该平台,但目前仍需精心设计提示词,非工程师用户还无法直接创建成熟应用。
上海AI实验室联手复旦大学提出了POLAR方法,这是一种革命性的奖励模型训练技术。通过让AI学会识别不同策略间的差异而非死记评分标准,POLAR在多项任务上实现了显著提升,7B参数模型超越72B现有最强基线,为AI对齐问题提供了全新解决思路。