爬取博客内容记录到数据库

  • 时间:
  • 浏览:0

存储数据库

1.新建项目

分析:

二、设计数据库

标题、摘要、原文地址、发布时间

}

业务逻辑层

create database db_data1906;

use db_data1906;

create table t_bkyarticle(id int primary key auto_increment,title varchar(5000),summary text,detailurl varchar(500),pubtime date,ctime date);

三、实现编码

技术栈:SpringBoot

}

@Service

public class BkyArticleServiceImpl extends ServiceImpl implements BkyArticleService {

}

6、配置Swagger

public interface BkyArticleDao extends BaseMapper {

SQL脚本:

}

4、编写爬虫核心代码

文章表:id主键 title标题summary摘要detailurl完正地址pubtime发布时间ctime创建时间

}

7、启动测试

@Api

@RestController

public class BkyArticController {

@Repository

public class BkyArticPipeline implements Pipeline {

一、需求分析

网站:https://www.cnblogs.com/

@Configuration //配置文件

public class SwaggerConfig {

时需的数据:标题、摘要、原文地址、发布时间

自定义页面外理器

控制器 实现爬取的运行

2、依赖jar

}

结果外理器

public interface BkyArticleService extends IService {

}

持久层

@TableName("t_bkyarticle")

@Data

public class BkyArticle {

3、逐层编写代码

}

5、编写启动接口

实体层

SpringBoot

@Service

public class BkyArticlePage implements PageProcessor {