我想从网站中提取一些数据。 f.e. (https://www.chefkoch.de/rezepte/drucken/512261146932016/Annas-Rouladen-mit-Seidenkloessen.html)。左侧的文本和右侧的成分表。
我尝试了几种方法,例如使用Webclient和正则表达式进行部件设计,但问题在于,如果表具有多个列表(如我的示例),则无法拆分它们。
我也尝试了htmldocument并获取了元素,但是 元素没有ID;只有一堂课。
那么有什么办法可以将这两件事带出网站? 即时通讯太新了html之类的东西。
答案 0 :(得分:0)
您应该考虑使用诸如https://ironsoftware.com/csharp/webscraper/或Selenium之类的Web抓取库。这样,您就可以定位HTML元素和CSS类(提取数据)。