算法工程师向你解释算法和信息传播
文库划重点:通常谈论的算法是指以计算机为工具,利用数学模型来解决各种实际问题。既可以是逻辑确定的一系列步骤;也可以是根据数据来自我学习、优化。比如常见的搜索引擎;比如根据你的历史行为和当前状态推荐你想看的文章、视频;比如自动翻译;比如识别图片中的物品画面,帮助盲人;比如 AlphaGo 下围棋等等。这些都是算法的实际应用。
绘图:谭小清
沈非,算法工程师,本科和研究生都是数学专业,硕士就读于北京大学。2016年10月12日加入新闻实验室会员计划。
Q
你是算法工程师。能否简单介绍一下什么是算法?
A
简单理解,通常谈论的算法是指以计算机为工具,利用数学模型来解决各种实际问题。既可以是逻辑确定的一系列步骤;也可以是根据数据来自我学习、优化。
比如常见的搜索引擎;比如根据你的历史行为和当前状态推荐你想看的文章、视频;比如自动翻译;比如识别图片中的物品画面,帮助盲人;比如 AlphaGo 下围棋等等。这些都是算法的实际应用。
Q
平时和算法机器打交道,有没有什么人机间印象深刻的事情?是爱机器人还是爱人更多?
A
爱机器还是爱人更多,哈哈,这个问题好哲学。现阶段的 AI 还远远没有达到强人工智能的水平,虽然有一些很厉害的结果,但目前为止还没有特别出乎意料的事情。
的确,跟机器打交道要更舒服一些,因为听话。我可以明白到底发生了什么,动手写代码去修改和调整完善。人则不同,更复杂,更难把握,比如猜女孩子情绪比找程序 bug 难多了。人有更多的不完美,更多的不确定性,而这些恰恰是可爱的地方。另一方面人脑在很多领域的奥秘还远远没有揭开,这些仍然是机器暂时无法企及的地方。我最近也在看一些认知科学的东西,很有意思。
Q
你的专业是数学,现在从事算法工作。同时也对政治、法律、新媒体领域感兴趣,是什么促使你对这些领域感兴趣的呢?有没有这方面对你影响大的人或事?
A
应当说并没有特别的人或事来影响这种兴趣。对于公共规则、程序正义的兴趣是天生的。如果要说有的话,2008年可能会是一个节点——那一年发生了很多事情,奥运火炬传递过程中东西方媒体的差异,汶川地震中各种谣言假新闻。我当时人在成都,亲身经历了很多事情。这种公共空间的讨论就发生在身边,对于之后也有些影响。
作为80后,我也算见证了 BBS 讨论时代的末期,挺怀念那个没有表情包,大家真诚码字、认真讨论的空间。此外就是大学精神的影响,虽然被很多人批评现在的大学生研究生是一群精致的利己主义者,但我认为理想主义的精神在社会中仍然存在。这种说起来可能有些矫情,但我们的确应该关心更大范围内的一些事情。
就像淡豹所说的:「我们这代人经常陷在虚无中,表现形式之一是:保卫或珍惜自己的精神生活,放弃公共生活,用职业上的生活给自己提供物质保障,私人生活里有朋友和快感。它实际上割裂了个人与社会、工作与内心。这既是很多知识青年对现实失望的后果,同时也是中国现代化的一个结果。」
Q
你在入会邮件中提到:不喜欢微信公众号的封闭生态环境,能否具体说说?
A
关于微信公众号的封闭生态环境这点很多人提到过,写了不少文章,我的观点也大致相同。但是你看,如果我想在这里引用这些文章,就是一件非常困难的事情,因为一般的公众号是无法添加链接的。
《微信——事实上的局域网》https://apple4us.com/2015/10/wechat-the-de-facto-lan/
《为什么我不在微信公众号上写文章》http://coolshell.cn/articles/17391.html
《淡出微信》https://yihui.name/cn/2017/05/wechat/
《告别微信》https://blog.yitianshijie.net/2016/02/21/byebye-wechat/
我自认为是数字时代的原住民,认为能够平等无障碍地访问网络内容是一种基本权利。超链接是互联网最本质的东西,阉割掉了这个,只在微信自己的生态圈里打转。整个风气是鼓励把所有内容都圈在自己的地盘,最终的结果是劣币驱逐良币。具体来说有这样一些问题:
——外部链接不方便,变相鼓励抄袭,打击原创。
——文章的质量、可信度一个重要的判断技巧就是看是否有给出消息来源链接,这是判断假新闻谣言的重要办法,同时也是判断作者是否有「做足功课」的方法。封闭生态实际上助长了谣言。
——每天数字世界产生的优质内容中,英文的比例远远大于中文,但现在国人被圈养在微信公众号里,加之微信群的泛滥,容易造成信息孤岛。
——文章应该是能被搜索引擎检索,被 RSS feed 订阅的,对于个人作者,一篇文章的生命力应该更长,很多十年前的博客文章现在依然可以被搜索到,被阅读和引用。但现在公众号的文章生命力太短了,大部分不超过一周。
另外多说一点的是,移动互联网时代,随着微信公众号的泛滥,很多人已经丧失了基本的信息素养,比如读不懂 url 的基本规则(公众号链接的丑陋简直难以想象)。
Q
张一鸣创办的今日头条注重的是信息分发效率,你觉得当算法被用于传播,是否需要具有价值观?
A
某种意义上说,算法模型的原理的确是客观的。但实际中,一个真实产品的算法一定是有价值判断在的。这体现在几个方面:
——模型假设:所有算法模型都是对现实世界的简化,数学模型成立一般是有前提假设的。但是针对实际人群,你的假设是什么,这本身就是有价值倾向在。
——算法的优化目标最终都是商业利益:既然最终目的指向的是商业利益,那么这种利益本身同一般意义的公众价值判断就有可能产生矛盾。
——数据的偏差:机器学习算法一般都会根据收集到的数据进行自我学习,但如果机器见到的数据本身就是严重有偏的,那么最终学出来的模型也就带有了「偏见」。
就好像可成老师发起的媒体食谱计划中说的那样,你每天接触的信息就跟吃的饭一样,长久下去会直接塑造这个人的很多方面,包括其怎样看到这个世界,怎样在公共空间与人打交道。当一个算法影响的是亿万人每天能接触到什么时,我想背后的公司决策者,算法背后设计它的工程师应该保有一点敬畏之心。
Q
现在的算法是在迎合人们还是指导人们?
A
可能都是,也可能都不是。
商业公司在设计算法时,并不是从被动迎合人们还是主动指导人们出发的。公司的商业利益才是最终考量。于是两种情况都会出现。
有些算法会专门利用人性弱点。又比如现在很多碎片化、多图流的设计,也是迎合了人背后的信息焦虑感的,吸引你不停地刷新,从而取得更长的停留时间。
所以,「指导」这种说法太理想化,并不现实。用户是不会按照上层设计走的。而且我并不相信商业公司会把社会责任摆到商业利益前面,这里永远有博弈。有时涉及到公众利益,就可能需要公权力的介入,需要媒体的舆论监督。当然,本质要靠普通人提升信息素养。
Q
传播学理论中有“媒介即信息”这一说法,你觉得在算法加入传播后,多大程度上改变了我们的传播方式?
A
之前其实大部分人获取信息的方式也是中心化的,有限的,被动的。比如收看统一的电视新闻,读同样的报纸。现在互联网算法加速后,有好的一面,也有不好的一面。
好处:
之前高高在上的话语权,现在更亲民;
从中心化到分布式,普通人有了更多机会;
更好的监督和验证,信息被检验的速度加快;
信息总量增加,有限到丰富,有助于长尾内容被发掘。
坏处:
噪音和谣言也同时被放大了,而且似乎更懂得利用算法传播(标题党,多图流,SEO,ASO);
在被动性上并没有本质的改变,比如依赖算法推送。
Q
算法通过技术帮人建立起了一个过滤气泡,滤除了与我们意见不符的信息。你觉得算法一定会导致过滤气泡吗?
A
不一定。
过滤气泡往往意味着接触到的始终是类似的内容,愿意看的(潜台词是与自己意见相符的)内容。
通常理解,最原始的推荐算法有两种基本形式,一种是根据相似的物,一种是根据相似的人。前者导致过滤气泡比较容易理解。但后者其实是不一定的。因为人的兴趣品味是多样的,跟你在某方面相似人可能有其他兴趣是你所不知道的。但我们日常接触到的,可能更多是不那么智能的例子。因为靠人来推荐也未必靠谱,毕竟大部分人的数据是很稀疏的,并不足以产生迁移。结果就是,当大多数人都只有很小范围内的数据时,单纯的相似推荐会强化这种结果,于是更容易出现过滤气泡。
但这一点也是可以解决的。虽然从商业角度看,很多场景下只用相似性就可以达到不错的效果,但相似性只是推荐算法的一个方面,而推荐算法技术本身涵盖的方面有很多。
《Recommender System Handbook》一书中对于推荐系统衡量指标的列举:
User perference 用户喜好
Prediction Accuracy 预测精度
Coverage 覆盖面
Confidence 置信度
Trust 信任
Novelty 新鲜感
Serendipity 惊喜度
Diversity 多样性
Utility 效用
Risk 风险
Robustness 稳健性
Privacy 隐私
Adaptivity 自适应性
Scability 可扩展性
通俗的说,这些算法往往最后会归结到一个数学上的优化问题,那么关键在于这个算法背后的优化目标是什么。如果通过一定的建模手段,把多样性,新鲜度等指标形式化成数学度量,放入模型中,机器算法会自动去寻找能优化这些指标的方案,最终看到的推送内容就有可能走出过滤气泡。
总的来说,我个人认为,推荐系统虽然确实可以导致过滤气泡的产生,但推荐算法技术本身的表达能力是可以克服这个问题的,关键在于如何更好的设计算法的优化目标,以及更本质的,如何平衡这些目标与公司商业利益之间的关系。说到底,商业利益是这一切的核心。
Q
当我们已经处于气泡中,我们可以做些什么?
A
我自己也在气泡中做着挣扎,所以只能粗浅地提供一些意见,仅供参考。
——提高信息素养:独立思考。基本的判断信息来源是否可靠的能力,基本的信息检索获取能力。
——走出舒适区,去沟通,去看看外面的世界。人的大脑喜欢确定性的东西,讨厌未知,这是本能。(这点很难,我自己也做得不好,但有更多的人努力,环境会变好)
——始终拥有好奇心,愿意折腾,培养自己的 hacker 精神。比如学一点编程,自己动手整理 RSS,而不只是依赖头条、即刻等的推送。避免总做伸手党。
——培养隐私意识。被算法控制的用户,一个重要原因是出让了太多隐私,于是算法了解你的越多,你越看不到不同的声音(当然,这属于消极抵抗,但也值得做)。
Q
你今后是否会将现有的工作和新闻传播结合起来,如果有会怎么做呢?
A
算法中有很重要的一个方向是自然语言处理 (NLP),而我的不少工作内容也直接与此相关。已经看到有不少论文在讨论利用 NLP 技术处理一些诸如识别假新闻等跟传播学相关的论文,可以考虑实际动手在相关数据集上做些实验,或者整理一下相关的论文材料,写一些小的文章,投稿到新闻实验室。
Q
你大学毕业来北京读研、创业,对这座城市的第一印象是什么?后来有没有发生改变?
A
第一印象是城市和人的多样性,有趣,以及无限的可能。以前觉得遥远的事情,现在身边的人就在做,而且做得很好。会给你自信,同时有压力。我常跟朋友说北京是一座很容易欺骗人的城市,特别对于来这里求学的人,因为往往是九月份开学,而九十月份秋天的北京实在太美好了。
很遗憾的是,这种多样性的包容空间,随着年龄的增长,越来越压缩,信心也在跟公共部门的打交道中一次次被打击。你可能给自己的标签是名校毕业从事科技行业的高素质劳动者,但在官方的话语体系中,你是一个在体制以外没有户口的外地人,是这个城市的不稳定因素。
有趣的人同题问答
Q
你最近关心的公共议题是什么?有什么见解?
A
言论控制的收紧以及对于国外网站访问的限制,特别是科研和技术类的资源。比如最近剑桥大学出版社被迫撤掉论文等。
从之前上大学,读研究生做科研;到现在作为科技行业的从业者,每一次限制的加强,就像方老师前段时间的一条微博里说的,都带来巨大的人力时间精力的消耗成本。很无奈。
Q
你最近最大的困惑是什么?
A
木遥在一条微博里说过,我们这代人是天生的乐观主义者,因为成长过程中一切都在慢慢变好。但最近国内外,保守主义言行,社会阶层间的对立,这些让我开始怀疑这种天生的乐观主义。
Q
如果让你用旁观者的视角,为自己的人生写一篇报道,你会起什么标题?
A
虽然年纪不小了,但自以为还是少年心态,仍然觉得人生还有很多不确定的可能值得探索,很难现在就定个一生的标题啊。如果可以,我希望临死前,发现自己的一生始终抱有好奇心,始终愿意为了更好的事物而折腾,能赢得一个标题:A Lifelong Hacker。
Q
如果你发现亲戚朋友在社交媒体转发谣言,你会怎么做?
A
尽量搜索靠谱信息源,直接在下面贴链接辟谣。
Q
如果生活中的一件事日后要被人工智能替代,你愿意选哪一件?
A
日常跟公务部门打交道办事,很多流程化的事情完全可以替代,而且透明,不会出现一会多要这个证明,一会多要那个签字。
Q
如果你与方可成老师交换一天生活,你会以方老师的身份做什么,你会推荐方老师用你的身份做什么?
A
(这是方老师的迷妹们想出来的问题吗,2333)
用方老师的身份:方老师认识特别多有意思的人,这点让人很羡慕,我想去多和这些人聊聊天,了解自己圈子以外的世界。另外可以尝试下人文社科某个题目的研究流程,作为理科生,对这套方法论非常陌生。但我相信会有借鉴价值。
方老师用我的身份:我写过一些推荐算法,推荐方老师手工追踪一下某个推荐算法的流程,比如就以自己的帐号为例,看看某一天的推送内容到底是怎么从原始的候选池一步步生成的。相当于进到算法黑盒里面走一遍,这样会有更直观的感受。
收录于哈希力量,手机站省略本文固定网址