抓取并合并不同的网站

时间:2011-11-17 19:50:19

标签: python information-retrieval web-crawler

我正在抓取来自不同网站的数据,并希望跨网站合并数据。数据格式因站点而异。有没有通用的方法来做到这一点,如,不是手动调查和纠正它?

我确信在第一次尝试时无法完成。假设我手动修复了一些东西,就在那里 一种将人工智能开发到我的代码中的方法,它将处理未来的案例?

+-----------------------------------------+
| 2.0MP                                   |
| NULL                                    |
| 5.0MP                                   |
| 8.0MP                                   |
| 1.3MP                                   |
| 3.2MP                                   |
| 5.0MP; 1.3MP front-facing               |
| 8.0MP; 1.3MP front-facing               |
| 3.0MP                                   |
| 2.0                                     |
| 2.0-8.0MP                               |
| 1.3                                     |
| 5.0MP (rear-facing)                     |
| 640 x 480 VGA                           |
| 5.1MP                                   |
| Yes                                     |
| 2.0 MP                                  |
| 3.2 MP                                  |
| 0.3MP                                   |
| 8.0MP; 1.3MP                            |
| 5.0MP; VGA front-facing                 |
| Up to 8.0MP                             |
| 5.0MP rear facing; 2.0MP front facing   |
| VGA                                     |
| 5.0                                     |
| 5.0MP rear; 1.3MP front                 |
| 0.6MP                                   |
| 8.0MP, VGA front-facing                 |
| Primary: 5.0MP; secondary: 1.3MP        |
| 1.3MP front, 8.0MP rear                 |
| 8.1MP                                   |
| 1680 x 480                              |
| 5.0 MP                                  |
| 5.0MP rear-facing; 1.3MP front-facing   |
| 3.0                                     |
| 5.0MP; VGA                              |
| 3.2MP: rear facing; 0.3MP: front facing |
| 3.1MP                                   |
+-----------------------------------------+

0 个答案:

没有答案