铁书网

字:
关灯 护眼
铁书网 > 大时代之巅 > 第768章 爬虫

第768章 爬虫

  html=x

    print(html)

    难怪说3月份的时候,北科有两个计算机系的大学生被开除了。

    这技术好像是不太难。

    因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。

    然后成功的爬取到了几百篇相关论文。

    接下来就好办了,摘抄、重组、整合。

    如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。

    可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。

    被发现后,俩人都被开除了。

    要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。

    王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”

    周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”

    王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”

    “嗯!”

    周不器点了点头。

    这就是他想要的答案。

    爬虫黑名单!

    王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”

    周不器道:“我看了一下微知网的数据,过去3个月,有超过11亿的访问量,是来自百度。”

    王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”

    周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”

 >> --
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈
热门推荐
开局被养家抛弃,亲爹来自无上帝族规则怪谈:我欺诈了整个失落之地天剑神狱玄幻:傻子开局,从猎户开始修炼绝症封心后,温小姐顶替了白月光我在大唐行医的那些年