算法工程师向你解释算法和信息传播

黄佶滢 ☉ 文 来源:新闻实验室
2019-01-23 @ 哈希力量文库

文库划重点:通常谈论的算法是指以计算机为工具,利用数学模型来解决各种实际问题。既可以是逻辑确定的一系列步骤;也可以是根据数据来自我学习、优化。比如常见的搜索引擎;比如根据你的历史行为和当前状态推荐你想看的文章、视频;比如自动翻译;比如识别图片中的物品画面,帮助盲人;比如 AlphaGo 下围棋等等。这些都是算法的实际应用。


45.jpgkwd哈希力量 | 消除一切智能鸿沟

绘图:谭小清kwd哈希力量 | 消除一切智能鸿沟

沈非,算法工程师,本科和研究生都是数学专业,硕士就读于北京大学。2016年10月12日加入新闻实验室会员计划。
kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你是算法工程师。能否简单介绍一下什么是算法?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

简单理解,通常谈论的算法是指以计算机为工具,利用数学模型来解决各种实际问题。既可以是逻辑确定的一系列步骤;也可以是根据数据来自我学习、优化。kwd哈希力量 | 消除一切智能鸿沟

比如常见的搜索引擎;比如根据你的历史行为和当前状态推荐你想看的文章、视频;比如自动翻译;比如识别图片中的物品画面,帮助盲人;比如 AlphaGo 下围棋等等。这些都是算法的实际应用。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

平时和算法机器打交道,有没有什么人机间印象深刻的事情?是爱机器人还是爱人更多?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

爱机器还是爱人更多,哈哈,这个问题好哲学。现阶段的 AI 还远远没有达到强人工智能的水平,虽然有一些很厉害的结果,但目前为止还没有特别出乎意料的事情。kwd哈希力量 | 消除一切智能鸿沟

的确,跟机器打交道要更舒服一些,因为听话。我可以明白到底发生了什么,动手写代码去修改和调整完善。人则不同,更复杂,更难把握,比如猜女孩子情绪比找程序 bug 难多了。人有更多的不完美,更多的不确定性,而这些恰恰是可爱的地方。另一方面人脑在很多领域的奥秘还远远没有揭开,这些仍然是机器暂时无法企及的地方。我最近也在看一些认知科学的东西,很有意思。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你的专业是数学,现在从事算法工作。同时也对政治、法律、新媒体领域感兴趣,是什么促使你对这些领域感兴趣的呢?有没有这方面对你影响大的人或事?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

应当说并没有特别的人或事来影响这种兴趣。对于公共规则、程序正义的兴趣是天生的。如果要说有的话,2008年可能会是一个节点——那一年发生了很多事情,奥运火炬传递过程中东西方媒体的差异,汶川地震中各种谣言假新闻。我当时人在成都,亲身经历了很多事情。这种公共空间的讨论就发生在身边,对于之后也有些影响。kwd哈希力量 | 消除一切智能鸿沟

作为80后,我也算见证了 BBS 讨论时代的末期,挺怀念那个没有表情包,大家真诚码字、认真讨论的空间。此外就是大学精神的影响,虽然被很多人批评现在的大学生研究生是一群精致的利己主义者,但我认为理想主义的精神在社会中仍然存在。这种说起来可能有些矫情,但我们的确应该关心更大范围内的一些事情。kwd哈希力量 | 消除一切智能鸿沟

就像淡豹所说的:「我们这代人经常陷在虚无中,表现形式之一是:保卫或珍惜自己的精神生活,放弃公共生活,用职业上的生活给自己提供物质保障,私人生活里有朋友和快感。它实际上割裂了个人与社会、工作与内心。这既是很多知识青年对现实失望的后果,同时也是中国现代化的一个结果。」kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你在入会邮件中提到:不喜欢微信公众号的封闭生态环境,能否具体说说?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

关于微信公众号的封闭生态环境这点很多人提到过,写了不少文章,我的观点也大致相同。但是你看,如果我想在这里引用这些文章,就是一件非常困难的事情,因为一般的公众号是无法添加链接的。kwd哈希力量 | 消除一切智能鸿沟

《微信——事实上的局域网》https://apple4us.com/2015/10/wechat-the-de-facto-lan/kwd哈希力量 | 消除一切智能鸿沟

《为什么我不在微信公众号上写文章》http://coolshell.cn/articles/17391.htmlkwd哈希力量 | 消除一切智能鸿沟

《淡出微信》https://yihui.name/cn/2017/05/wechat/kwd哈希力量 | 消除一切智能鸿沟

《告别微信》https://blog.yitianshijie.net/2016/02/21/byebye-wechat/kwd哈希力量 | 消除一切智能鸿沟

我自认为是数字时代的原住民,认为能够平等无障碍地访问网络内容是一种基本权利。超链接是互联网最本质的东西,阉割掉了这个,只在微信自己的生态圈里打转。整个风气是鼓励把所有内容都圈在自己的地盘,最终的结果是劣币驱逐良币。具体来说有这样一些问题:kwd哈希力量 | 消除一切智能鸿沟

——外部链接不方便,变相鼓励抄袭,打击原创。kwd哈希力量 | 消除一切智能鸿沟

——文章的质量、可信度一个重要的判断技巧就是看是否有给出消息来源链接,这是判断假新闻谣言的重要办法,同时也是判断作者是否有「做足功课」的方法。封闭生态实际上助长了谣言。kwd哈希力量 | 消除一切智能鸿沟

——每天数字世界产生的优质内容中,英文的比例远远大于中文,但现在国人被圈养在微信公众号里,加之微信群的泛滥,容易造成信息孤岛。kwd哈希力量 | 消除一切智能鸿沟

——文章应该是能被搜索引擎检索,被 RSS feed 订阅的,对于个人作者,一篇文章的生命力应该更长,很多十年前的博客文章现在依然可以被搜索到,被阅读和引用。但现在公众号的文章生命力太短了,大部分不超过一周。kwd哈希力量 | 消除一切智能鸿沟

另外多说一点的是,移动互联网时代,随着微信公众号的泛滥,很多人已经丧失了基本的信息素养,比如读不懂 url 的基本规则(公众号链接的丑陋简直难以想象)。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

张一鸣创办的今日头条注重的是信息分发效率,你觉得当算法被用于传播,是否需要具有价值观?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

某种意义上说,算法模型的原理的确是客观的。但实际中,一个真实产品的算法一定是有价值判断在的。这体现在几个方面:kwd哈希力量 | 消除一切智能鸿沟

——模型假设:所有算法模型都是对现实世界的简化,数学模型成立一般是有前提假设的。但是针对实际人群,你的假设是什么,这本身就是有价值倾向在。kwd哈希力量 | 消除一切智能鸿沟

——算法的优化目标最终都是商业利益:既然最终目的指向的是商业利益,那么这种利益本身同一般意义的公众价值判断就有可能产生矛盾。kwd哈希力量 | 消除一切智能鸿沟

——数据的偏差:机器学习算法一般都会根据收集到的数据进行自我学习,但如果机器见到的数据本身就是严重有偏的,那么最终学出来的模型也就带有了「偏见」。kwd哈希力量 | 消除一切智能鸿沟

就好像可成老师发起的媒体食谱计划中说的那样,你每天接触的信息就跟吃的饭一样,长久下去会直接塑造这个人的很多方面,包括其怎样看到这个世界,怎样在公共空间与人打交道。当一个算法影响的是亿万人每天能接触到什么时,我想背后的公司决策者,算法背后设计它的工程师应该保有一点敬畏之心。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

现在的算法是在迎合人们还是指导人们?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

可能都是,也可能都不是。kwd哈希力量 | 消除一切智能鸿沟

商业公司在设计算法时,并不是从被动迎合人们还是主动指导人们出发的。公司的商业利益才是最终考量。于是两种情况都会出现。kwd哈希力量 | 消除一切智能鸿沟

有些算法会专门利用人性弱点。又比如现在很多碎片化、多图流的设计,也是迎合了人背后的信息焦虑感的,吸引你不停地刷新,从而取得更长的停留时间。kwd哈希力量 | 消除一切智能鸿沟

所以,「指导」这种说法太理想化,并不现实。用户是不会按照上层设计走的。而且我并不相信商业公司会把社会责任摆到商业利益前面,这里永远有博弈。有时涉及到公众利益,就可能需要公权力的介入,需要媒体的舆论监督。当然,本质要靠普通人提升信息素养。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

传播学理论中有“媒介即信息”这一说法,你觉得在算法加入传播后,多大程度上改变了我们的传播方式?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

之前其实大部分人获取信息的方式也是中心化的,有限的,被动的。比如收看统一的电视新闻,读同样的报纸。现在互联网算法加速后,有好的一面,也有不好的一面。kwd哈希力量 | 消除一切智能鸿沟

好处:kwd哈希力量 | 消除一切智能鸿沟

之前高高在上的话语权,现在更亲民;kwd哈希力量 | 消除一切智能鸿沟

从中心化到分布式,普通人有了更多机会;kwd哈希力量 | 消除一切智能鸿沟

更好的监督和验证,信息被检验的速度加快;kwd哈希力量 | 消除一切智能鸿沟

信息总量增加,有限到丰富,有助于长尾内容被发掘。kwd哈希力量 | 消除一切智能鸿沟

坏处:kwd哈希力量 | 消除一切智能鸿沟

噪音和谣言也同时被放大了,而且似乎更懂得利用算法传播(标题党,多图流,SEO,ASO);kwd哈希力量 | 消除一切智能鸿沟

在被动性上并没有本质的改变,比如依赖算法推送。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

算法通过技术帮人建立起了一个过滤气泡,滤除了与我们意见不符的信息。你觉得算法一定会导致过滤气泡吗?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

不一定。kwd哈希力量 | 消除一切智能鸿沟

过滤气泡往往意味着接触到的始终是类似的内容,愿意看的(潜台词是与自己意见相符的)内容。kwd哈希力量 | 消除一切智能鸿沟

通常理解,最原始的推荐算法有两种基本形式,一种是根据相似的物,一种是根据相似的人。前者导致过滤气泡比较容易理解。但后者其实是不一定的。因为人的兴趣品味是多样的,跟你在某方面相似人可能有其他兴趣是你所不知道的。但我们日常接触到的,可能更多是不那么智能的例子。因为靠人来推荐也未必靠谱,毕竟大部分人的数据是很稀疏的,并不足以产生迁移。结果就是,当大多数人都只有很小范围内的数据时,单纯的相似推荐会强化这种结果,于是更容易出现过滤气泡。kwd哈希力量 | 消除一切智能鸿沟

但这一点也是可以解决的。虽然从商业角度看,很多场景下只用相似性就可以达到不错的效果,但相似性只是推荐算法的一个方面,而推荐算法技术本身涵盖的方面有很多。kwd哈希力量 | 消除一切智能鸿沟

《Recommender System Handbook》一书中对于推荐系统衡量指标的列举:kwd哈希力量 | 消除一切智能鸿沟

User perference 用户喜好kwd哈希力量 | 消除一切智能鸿沟

Prediction Accuracy 预测精度kwd哈希力量 | 消除一切智能鸿沟

Coverage 覆盖面kwd哈希力量 | 消除一切智能鸿沟

Confidence 置信度kwd哈希力量 | 消除一切智能鸿沟

Trust 信任kwd哈希力量 | 消除一切智能鸿沟

Novelty 新鲜感kwd哈希力量 | 消除一切智能鸿沟

Serendipity 惊喜度kwd哈希力量 | 消除一切智能鸿沟

Diversity 多样性kwd哈希力量 | 消除一切智能鸿沟

Utility 效用kwd哈希力量 | 消除一切智能鸿沟

Risk 风险kwd哈希力量 | 消除一切智能鸿沟

Robustness 稳健性kwd哈希力量 | 消除一切智能鸿沟

Privacy 隐私kwd哈希力量 | 消除一切智能鸿沟

Adaptivity 自适应性kwd哈希力量 | 消除一切智能鸿沟

Scability 可扩展性kwd哈希力量 | 消除一切智能鸿沟

通俗的说,这些算法往往最后会归结到一个数学上的优化问题,那么关键在于这个算法背后的优化目标是什么。如果通过一定的建模手段,把多样性,新鲜度等指标形式化成数学度量,放入模型中,机器算法会自动去寻找能优化这些指标的方案,最终看到的推送内容就有可能走出过滤气泡。kwd哈希力量 | 消除一切智能鸿沟

总的来说,我个人认为,推荐系统虽然确实可以导致过滤气泡的产生,但推荐算法技术本身的表达能力是可以克服这个问题的,关键在于如何更好的设计算法的优化目标,以及更本质的,如何平衡这些目标与公司商业利益之间的关系。说到底,商业利益是这一切的核心。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

当我们已经处于气泡中,我们可以做些什么?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

我自己也在气泡中做着挣扎,所以只能粗浅地提供一些意见,仅供参考。kwd哈希力量 | 消除一切智能鸿沟

——提高信息素养:独立思考。基本的判断信息来源是否可靠的能力,基本的信息检索获取能力。kwd哈希力量 | 消除一切智能鸿沟

——走出舒适区,去沟通,去看看外面的世界。人的大脑喜欢确定性的东西,讨厌未知,这是本能。(这点很难,我自己也做得不好,但有更多的人努力,环境会变好)kwd哈希力量 | 消除一切智能鸿沟

——始终拥有好奇心,愿意折腾,培养自己的 hacker 精神。比如学一点编程,自己动手整理 RSS,而不只是依赖头条、即刻等的推送。避免总做伸手党。kwd哈希力量 | 消除一切智能鸿沟

——培养隐私意识。被算法控制的用户,一个重要原因是出让了太多隐私,于是算法了解你的越多,你越看不到不同的声音(当然,这属于消极抵抗,但也值得做)。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你今后是否会将现有的工作和新闻传播结合起来,如果有会怎么做呢?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

算法中有很重要的一个方向是自然语言处理 (NLP),而我的不少工作内容也直接与此相关。已经看到有不少论文在讨论利用 NLP 技术处理一些诸如识别假新闻等跟传播学相关的论文,可以考虑实际动手在相关数据集上做些实验,或者整理一下相关的论文材料,写一些小的文章,投稿到新闻实验室。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你大学毕业来北京读研、创业,对这座城市的第一印象是什么?后来有没有发生改变?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

第一印象是城市和人的多样性,有趣,以及无限的可能。以前觉得遥远的事情,现在身边的人就在做,而且做得很好。会给你自信,同时有压力。我常跟朋友说北京是一座很容易欺骗人的城市,特别对于来这里求学的人,因为往往是九月份开学,而九十月份秋天的北京实在太美好了。kwd哈希力量 | 消除一切智能鸿沟

很遗憾的是,这种多样性的包容空间,随着年龄的增长,越来越压缩,信心也在跟公共部门的打交道中一次次被打击。你可能给自己的标签是名校毕业从事科技行业的高素质劳动者,但在官方的话语体系中,你是一个在体制以外没有户口的外地人,是这个城市的不稳定因素。kwd哈希力量 | 消除一切智能鸿沟

有趣的人同题问答kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你最近关心的公共议题是什么?有什么见解?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

言论控制的收紧以及对于国外网站访问的限制,特别是科研和技术类的资源。比如最近剑桥大学出版社被迫撤掉论文等。kwd哈希力量 | 消除一切智能鸿沟

从之前上大学,读研究生做科研;到现在作为科技行业的从业者,每一次限制的加强,就像方老师前段时间的一条微博里说的,都带来巨大的人力时间精力的消耗成本。很无奈。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

你最近最大的困惑是什么?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

木遥在一条微博里说过,我们这代人是天生的乐观主义者,因为成长过程中一切都在慢慢变好。但最近国内外,保守主义言行,社会阶层间的对立,这些让我开始怀疑这种天生的乐观主义。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

如果让你用旁观者的视角,为自己的人生写一篇报道,你会起什么标题?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

虽然年纪不小了,但自以为还是少年心态,仍然觉得人生还有很多不确定的可能值得探索,很难现在就定个一生的标题啊。如果可以,我希望临死前,发现自己的一生始终抱有好奇心,始终愿意为了更好的事物而折腾,能赢得一个标题:A Lifelong Hacker。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

如果你发现亲戚朋友在社交媒体转发谣言,你会怎么做?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

尽量搜索靠谱信息源,直接在下面贴链接辟谣。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

如果生活中的一件事日后要被人工智能替代,你愿意选哪一件?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

日常跟公务部门打交道办事,很多流程化的事情完全可以替代,而且透明,不会出现一会多要这个证明,一会多要那个签字。kwd哈希力量 | 消除一切智能鸿沟

Qkwd哈希力量 | 消除一切智能鸿沟

如果你与方可成老师交换一天生活,你会以方老师的身份做什么,你会推荐方老师用你的身份做什么?kwd哈希力量 | 消除一切智能鸿沟

Akwd哈希力量 | 消除一切智能鸿沟

(这是方老师的迷妹们想出来的问题吗,2333)kwd哈希力量 | 消除一切智能鸿沟

用方老师的身份:方老师认识特别多有意思的人,这点让人很羡慕,我想去多和这些人聊聊天,了解自己圈子以外的世界。另外可以尝试下人文社科某个题目的研究流程,作为理科生,对这套方法论非常陌生。但我相信会有借鉴价值。kwd哈希力量 | 消除一切智能鸿沟

方老师用我的身份:我写过一些推荐算法,推荐方老师手工追踪一下某个推荐算法的流程,比如就以自己的帐号为例,看看某一天的推送内容到底是怎么从原始的候选池一步步生成的。相当于进到算法黑盒里面走一遍,这样会有更直观的感受。kwd哈希力量 | 消除一切智能鸿沟



收录于哈希力量,手机站省略本文固定网址