wwwxxx:http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363 2024-04-04 07:36:43 0 0 如果提示http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363 在nutch-site.xml中添加: <property> <name>parser.skip.truncated</name> <value>false</value> </property> 这是因为网站的页面内容采用truncate的方式分段返回,而nutch的默认设置是不处理这种方式的,需要打开之。 收藏(0)