我必须建立我需要抓取过滤网站,或者你可以说阅读50个网站。 然后在阅读那些网站后,我需要过滤新闻e,g与Mercedez benz相关的新闻,然后我需要在该网站上显示该内容并尊重原始来源。
基本上谷歌新闻正在做什么
目前我了解PHP,可以在其中构建复杂的网站。但我不知道如何阅读其他网站。而且我不知道如何继续,我的意思是在尝试制作网站之前我需要学习哪些东西。或者我可以直接潜入网站。
请帮忙,我该怎么办
答案 0 :(得分:1)
我相信谷歌新闻(像许多谷歌的东西;-)是混合使用C ++,Java和Python,加上Javascript也是最重要的 - 但是没有理由你应该使用全部甚至是这些优秀语言中的任何一种(当然,如果您需要具有高度互动的用户体验,您 >几乎任何语言都可以轻松进行网页抓取。例如,对于PHP中的Web爬网程序,请参阅this tutorial!