为了获取网页代码,一般人是想到直接ctrl+s,就可以保存了。确实比较方便,但是如果遇到子网页比较多就不行了。
为了方便批量获取网页代码,一个会java或者scala的程序员就不一样了。
比如:
上代码:
import java.io.{File, PrintWriter}
import scalaj.http.Http
/**
* author:liming
* time:2022-01-01
* tittle:爬取网页源码
*
* 需要配置依赖
* <dependency>
* <groupId>org.scalaj</groupId>
* <artifactId>scalaj-http_2.12</artifactId>
* <version>2.4.1</version>
* </dependency>
*/
object GetWeb {
def main(args: Array[String]): Unit = {
//定义遍历变量
var num =1
//定义网址前缀
var web_name1 = "http://www.pingfandeshijie.net/di-san-bu-"
//定义网址后缀
var web_name3=".html"
//源码本地保存路径,three为文件名前缀
var path1 = "C:\\Users\\liming\\Desktop\\pfsj\\平凡世界第三部\\"
//文件名前缀
var fix = "three"
//文件后缀
var path2 =".txt";
//定义爬取次数
var n = 54
//循环获取网址源码并写入文件
while (num<=n) {
//将循环变量的值传递给num0并转化为字符串
var num0=String.valueOf(num)
//原网址序号为01-54
if (num<10) num0 ="0"+num0
//把网址的url拼接起来
var web_name = web_name1+num0+web_name3
//使用http获取网页的源码
val txt =Http(web_name).timeout(100000000,100000000).asString.body
println(txt)
//拼接地址和文件名
var file_name = path1+fix+num0+path2
//把获取的源码写入文件中
val printWriter_name = new PrintWriter(new File(file_name))
printWriter_name.write(txt)
//关闭PrintWriter流
printWriter_name.close
//循环加1
num=num+1
//跑一次休息两秒,防止被封ip
println("为了防止ip被封,程序正在休息中")
Thread.sleep(2000)
}
}
}