谷歌AI算法通过OCR与NGrams提取和分析电视台内容倾向

利用谷歌的云AI对为期一周的电视新闻报道(来自互联网档案馆中的电视新闻档案)进行分析,我们即可探索屏幕文字究竟讲述了怎样的故事。

电视机上绝对不乏文字信息。从滚动字幕到覆盖全屏的消息,文本永远存在于电视新闻当中。事实上,大约90%的播放时段之内,屏幕上都至少包含一部分可识别的文本;而在这部分时段内,任何特定时间点中的屏幕上都显示着长度与一条推文类似的文本内容。利用谷歌的云AI对为期一周的电视新闻报道(来自互联网档案馆中的电视新闻档案)进行分析,我们即可探索屏幕文字究竟讲述了怎样的故事。

谷歌AI算法通过OCR与NGrams提取和分析电视台内容倾向

为了更好地理解电视上的词汇,即CNN、MSNBC以及福克斯新闻台的文本世界,外加驻旧金山的各大传媒集团的分支机构——KGO(隶属于ABC)、KPIX(隶属于CBS)、KNTV(隶属于NBC)以及KQED(隶属于PBS等早晚播出的内容,我们采集了从今年4月15日至4月22日总计812小时的电视新闻,并利用谷歌的Vision AI图像理解API进行分析。随后,我们启用了该服务的全部功能,包括OCR文本识别。

在这七个站点当中,谷歌的API共识别出长度超过3.71亿字符的屏幕文本。

这就引出了一个问题,也就是这些文本到底讲了些什么?

之前提到的“ngrams”是一种已经颇具人气的分析技术,能够快速评估大型文本语料库中的语言模式。在本次分析当中,每个1 fps视频帧上的屏幕文本都被转换为小写形式,并将其中的标点符号剥离出去。而后,该技术将文本拆分成存在空间边界的单词,总计得出59万1千个不同的词汇,其中约有23万500个单词至少出现了两次。

由于滚动字幕会不断移动,因此很多单词可能是在滚动当中被算法捕捉到多次。因此,单纯看字数的方法在动态视频领域似乎没有太大的意义。

另一种更有趣的统计方式,就是检查屏幕文本当中出现频率最高的单词。

首先来看CNN,其中最常出现的单词是“live”,在这一周的统计过程中有59%的时间内霸占着屏幕显示周期。接下来为“CNN”(48%)、“ET”(东部时间,43%)、“Mueller”与“Report”(各占31%)、“AM”与“PM”(各占27%)、“Trump”(20%)、“Notre”与“Dame”(各占9%)以及“Bernie”与“Buttigieg”(各占9%)。

可以看到,CNN最常使用的屏幕文字不出所料是其长期强调的“直播”概念、通用时间戳与台标。Mueller在屏幕文字中被提及的比例也占整周播放时长的近三分之一。而Notre Dame仅在本周播出时长中占9%,与Bernie Sanders以及Pete Buttigieg保持一致。

MSNBC最常用的词汇分别是“live”与“MSNBC”台标,各占55%时长;“Mueller”与“Report”各占32%。“Trump”被提及的时长比例为16%;而“Notre”与“Dame”的占比则为5%,与“Barr”一致。

福克斯新闻台的“live”一词只占全部时长的10%,但“Fox News”则占全部时长的68%。“Mueller”的时长占比为19%,“Trump”为14%,“Notre”与“Dame”分别为5%。

CNN与MSNBC似乎都在着力宣扬自己的“live”放送能力,而且全部三家电视台都会长期在屏幕上显示自己的台标。因此,在通过算法分析电视新闻片段时,没有出现“live”或者台标的内容有很大可能属于商业广告。

目前全部614 GB由AI生成的注释数据都已提供公开下载,其中包括ngram整理出的绝对计数与帧数计数两种版本。

综上所述,虽然这些结果只能代表在90%的电视新闻播出时段之内对于屏幕文本相对简单的分析结论,但这也是第一次证明我们能够利用AI技术探索电视新闻内容倾向性问题。这是一种全新的视角,也许在未来能够揭示出更多有趣的真相。

最后做个总结:在此次分析当中,谷歌的AI算法共处理了长达812个小时的电视新闻。该算法识别出每个1 fps帧中可识别为文本的各个字符,编译为一套数据集,而后将其转换为ngram直方图,最终显示出本周在屏幕上出现频率最高的单词集合。

来源:Forbes

0赞

好文章,需要你的鼓励

2019

05/23

12:20

分享

点赞

邮件订阅