简介

未命名的文档
工作总结
WORK SUMMARY
黄启明
2024年12月20日
实习以来的三周里,共完成了15个爬虫任务,包括国家级、省级、市级国家部门政策信息的爬取。
爬取的信息维度包括政策的名称、发文部门、发文时间、发文内容、以及链接等10个
完善了多个功能不足,如截止时间提取不完全、标题字数问题、以及文章字体显示等问题
运行结果
processing result
75%
55%
85%
65%
正确预测了每一个词的标签、成功提取出我们想要的截止日期信息
本月知识积累
Current month knowledge accumulate
爬虫技术
本月工作以来熟练掌握了requests、http.client、selenium从网页上获取信息的能力,熟悉了多种解析工具如lxml、html.parser等,熟悉了xpath、css选择器等元素定位方法
01
02
03
04
05
数据处理能力
本月多次遇到字符串问题、数据格式问题、内容更新与保存问题,熟悉了pandas、numpy等数据处理库的使用
js逆向技术
接触到了参数加密,内容反扒问题,积极学习逆向技术,以及hook工具。
类的模块化
熟练编写python类、用模块化的代码实现需求功能,提高代码的复用性、
transformer
预训练模型bert+transformer+下游任务=效果很棒
本月工作情况汇报
current month performance report
下阶段工作目标
Work target for the next period
区级爬虫
完成区级爬虫代码的编写,实现爬虫功能和效率的提升
Mars
爬虫代码优化和维护
重构复用性高的模块、优化时间复杂度、和空间复杂度较高的代码模块。
Mercuty
提升爬虫技术
学习新的爬虫框架如scrapy、pyspider等。学习分布式爬虫、并行爬虫、以及爬虫进度的可视化。学习反扒手段、如cookie、header参数加密、混淆技术。
jupiter
目标执行与预期效果
Target execution and expected results
爬虫技术的提升
通过实践、视频、csdn知识分享平台等方式学习并行爬虫、爬虫进度可视化、加密技术等知识。
区级爬虫
花费部分时间,将区级爬虫代码构建起来,将处理好的数据存储到数据库中。
AI工具的使用
多接触如豆包、kimi、chatGPT等AI工具,借助其开发更高质量的爬虫。
爬虫代码的优化和维护
花费部分时间,统计和优化复用性较高的代码、写进一个统一的类中,并将优化时间复杂度较高的代码,提升代码的运行效率
THANKS FOE
WATCHING

查看更多
相关推荐
pudding
布丁
其他
31
未命名用户rwWZNQ
56天前
pudding
读书分享
其他
16
未命名用户iX2yst
106天前
pudding
佛祖PPT
其他
8
未命名用户6Q7ElS
204天前
pudding
data
其他
38
未命名用户L24xkd
1年17天前
pudding
亚马逊为什么在中国市场发展失败
其他
36
呜呼芜湖唔唿
1年21天前
pudding
未命名的文档
其他
17
未命名用户RVRJEO
1年35天前
pudding
test
其他
15
未命名用户RDvqcB
1年41天前