Node爬虫记录

之前用爬虫模仿了一个追书神器,哈,当然没有完成.
现在重新拾起来重温一下.

参考资料:

使用 superagent 与 cheerio 完成简单爬虫
使用到的库
- superagent 是个 http 方面的库，可以发起 get 或 post 请求。
- superagent-charset 解决非UTF-8页面乱码
- cheerio 用来从网页中以 css selector 取数据，使用方式跟 jquery 一样一样的。

小说爬虫

根据这个思路,做了个基于chrome扩展的爬虫

源码

var cheerio = require('cheerio')
var fs = require('fs')
const request = require('superagent')
require('superagent-charset')(request)
var async = require('async')

// 目录页获取章节链接
let listURL = 'http://www.biquguo.com/10_10315/'
// 并发连接数的计数器
var concurrencyCount = 0
// 获取当前章节的内容
var fetchUrl = function (url, callback) {
  concurrencyCount++
  let tempURL = listURL + url
  console.log('现在的并发数是', concurrencyCount, '，正在抓取的是', tempURL)
  request.get(tempURL) // 获取网页内容
    .charset('gbk') // 转码-将gb2312格式转成utf-8
    .end(function (err, res) {
      // 常规的错误处理
      if (err) {
        return next(err)
      }
      html = res.text
      var $ = cheerio.load(html) //引入cheerio的方法。这样的引入方法可以很好的结合jQuery的用法。
      // 标题
      var title = $('.bookname h1').text().trim()
      // 文章详情
      var tempStr = $('#content').text().trim().replace(/[<br>|</br>|\?]/g, '\r\n')
      var data = '\r\n' + title + '\r\n' + tempStr.replace(/\s+/g, '\r\n\r\n')
      concurrencyCount--
      callback(null, data)
    })
}
// 获取目录下的章节
getList(listURL)

function getList (url) {
  request.get(url) // 获取网页内容
    .charset('gbk') // 转码-将gb2312格式转成utf-8
    .end(function (err, res) {
      // 常规的错误处理
      if (err) {
        return next(err)
      }
      html = res.text
      var $ = cheerio.load(html)
      let list = []
      $('#list dd a').each(function (i, e) {
        list.push($(this).attr('href'))
      })
      // haha 看过的就不爬了
      list.splice(0, 128)
      console.log(list, list.length)
      async.mapLimit(list, 5, function (url, callback) {
        fetchUrl(url, callback)
      }, function (err, result) {
        console.log('final:')
        console.log(result)
        // 输出文件
        fs.appendFile('cr.txt', result, 'utf-8', function (err) {
          if (err) throw err
          else console.log('大体信息写入成功' + '\r\n' + result)
        })
      })

    })

}