谷歌AI算法通过OCR与NGrams提取和分析电视台内容倾向

利用谷歌的云AI对为期一周的电视新闻报道（来自互联网档案馆中的电视新闻档案）进行分析，我们即可探索屏幕文字究竟讲述了怎样的故事。

电视机上绝对不乏文字信息。从滚动字幕到覆盖全屏的消息，文本永远存在于电视新闻当中。事实上，大约90%的播放时段之内，屏幕上都至少包含一部分可识别的文本；而在这部分时段内，任何特定时间点中的屏幕上都显示着长度与一条推文类似的文本内容。利用谷歌的云AI对为期一周的电视新闻报道（来自互联网档案馆中的电视新闻档案）进行分析，我们即可探索屏幕文字究竟讲述了怎样的故事。

为了更好地理解电视上的词汇，即CNN、MSNBC以及福克斯新闻台的文本世界，外加驻旧金山的各大传媒集团的分支机构——KGO（隶属于ABC）、KPIX（隶属于CBS）、KNTV（隶属于NBC）以及KQED（隶属于PBS等早晚播出的内容，我们采集了从今年4月15日至4月22日总计812小时的电视新闻，并利用谷歌的Vision AI图像理解API进行分析。随后，我们启用了该服务的全部功能，包括OCR文本识别。

在这七个站点当中，谷歌的API共识别出长度超过3.71亿字符的屏幕文本。

这就引出了一个问题，也就是这些文本到底讲了些什么？

之前提到的“ngrams”是一种已经颇具人气的分析技术，能够快速评估大型文本语料库中的语言模式。在本次分析当中，每个1 fps视频帧上的屏幕文本都被转换为小写形式，并将其中的标点符号剥离出去。而后，该技术将文本拆分成存在空间边界的单词，总计得出59万1千个不同的词汇，其中约有23万500个单词至少出现了两次。

由于滚动字幕会不断移动，因此很多单词可能是在滚动当中被算法捕捉到多次。因此，单纯看字数的方法在动态视频领域似乎没有太大的意义。

另一种更有趣的统计方式，就是检查屏幕文本当中出现频率最高的单词。

首先来看CNN，其中最常出现的单词是“live”，在这一周的统计过程中有59%的时间内霸占着屏幕显示周期。接下来为“CNN”（48%）、“ET”（东部时间，43%）、“Mueller”与“Report”（各占31%）、“AM”与“PM”（各占27%）、“Trump”（20%）、“Notre”与“Dame”（各占9%）以及“Bernie”与“Buttigieg”（各占9%）。

可以看到，CNN最常使用的屏幕文字不出所料是其长期强调的“直播”概念、通用时间戳与台标。Mueller在屏幕文字中被提及的比例也占整周播放时长的近三分之一。而Notre Dame仅在本周播出时长中占9%，与Bernie Sanders以及Pete Buttigieg保持一致。

MSNBC最常用的词汇分别是“live”与“MSNBC”台标，各占55%时长；“Mueller”与“Report”各占32%。“Trump”被提及的时长比例为16%；而“Notre”与“Dame”的占比则为5%，与“Barr”一致。

福克斯新闻台的“live”一词只占全部时长的10%，但“Fox News”则占全部时长的68%。“Mueller”的时长占比为19%，“Trump”为14%，“Notre”与“Dame”分别为5%。

CNN与MSNBC似乎都在着力宣扬自己的“live”放送能力，而且全部三家电视台都会长期在屏幕上显示自己的台标。因此，在通过算法分析电视新闻片段时，没有出现“live”或者台标的内容有很大可能属于商业广告。

目前全部614 GB由AI生成的注释数据都已提供公开下载，其中包括ngram整理出的绝对计数与帧数计数两种版本。

综上所述，虽然这些结果只能代表在90%的电视新闻播出时段之内对于屏幕文本相对简单的分析结论，但这也是第一次证明我们能够利用AI技术探索电视新闻内容倾向性问题。这是一种全新的视角，也许在未来能够揭示出更多有趣的真相。

最后做个总结：在此次分析当中，谷歌的AI算法共处理了长达812个小时的电视新闻。该算法识别出每个1 fps帧中可识别为文本的各个字符，编译为一套数据集，而后将其转换为ngram直方图，最终显示出本周在屏幕上出现频率最高的单词集合。

来源：Forbes

AI
谷歌

0赞

好文章，需要你的鼓励

谷歌AI算法通过OCR与NGrams提取和分析电视台内容倾向

来源：Forbes

2019

05/23

12:20

分享

点赞

SpaceX疑似向投资者展示AI手持设备原型，马斯克否认

Meta计划对外出租AI基础设施，股价大涨近9%

Instagram算法定制功能升级，用户可更精准掌控内容偏好

AI时代Chiplet设计中不可或缺的可观测性层

从传统CRM迈向智能化客户互动的转型之路

Wonder与Zipline合作，无人机送餐服务将于2027年在德克萨斯州上线

无人机卫星通信突破：轻量化终端助力野火响应

Google承认AI发展速度已超过电网脱碳速度

欧盟拟将AWS和Azure列为数字市场"守门人"

隆湫资本完成对「蓝芯算力」Pre-B轮超3亿元独家投资

Visa、Stripe等140余家机构联合推出Open USD稳定币，剑指Tether

Anthropic发布Claude Sonnet 5大语言模型，编程能力与安全性双升级

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: