简介

未命名的文档
工作总结
WORK SUMMARY
黄启明
2024年12月20日
实习以来的三周里,共完成了15个爬虫任务,包括国家级、省级、市级国家部门政策信息的爬取。
爬取的信息维度包括政策的名称、发文部门、发文时间、发文内容、以及链接等10个
完善了多个功能不足,如截止时间提取不完全、标题字数问题、以及文章字体显示等问题
运行结果
processing result
75%
55%
85%
65%
正确预测了每一个词的标签、成功提取出我们想要的截止日期信息
本月知识积累
Current month knowledge accumulate
爬虫技术
本月工作以来熟练掌握了requests、http.client、selenium从网页上获取信息的能力,熟悉了多种解析工具如lxml、html.parser等,熟悉了xpath、css选择器等元素定位方法
01
02
03
04
05
数据处理能力
本月多次遇到字符串问题、数据格式问题、内容更新与保存问题,熟悉了pandas、numpy等数据处理库的使用
js逆向技术
接触到了参数加密,内容反扒问题,积极学习逆向技术,以及hook工具。
类的模块化
熟练编写python类、用模块化的代码实现需求功能,提高代码的复用性、
transformer
预训练模型bert+transformer+下游任务=效果很棒
本月工作情况汇报
current month performance report
下阶段工作目标
Work target for the next period
区级爬虫
完成区级爬虫代码的编写,实现爬虫功能和效率的提升
Mars
爬虫代码优化和维护
重构复用性高的模块、优化时间复杂度、和空间复杂度较高的代码模块。
Mercuty
提升爬虫技术
学习新的爬虫框架如scrapy、pyspider等。学习分布式爬虫、并行爬虫、以及爬虫进度的可视化。学习反扒手段、如cookie、header参数加密、混淆技术。
jupiter
目标执行与预期效果
Target execution and expected results
爬虫技术的提升
通过实践、视频、csdn知识分享平台等方式学习并行爬虫、爬虫进度可视化、加密技术等知识。
区级爬虫
花费部分时间,将区级爬虫代码构建起来,将处理好的数据存储到数据库中。
AI工具的使用
多接触如豆包、kimi、chatGPT等AI工具,借助其开发更高质量的爬虫。
爬虫代码的优化和维护
花费部分时间,统计和优化复用性较高的代码、写进一个统一的类中,并将优化时间复杂度较高的代码,提升代码的运行效率
THANKS FOE
WATCHING

查看更多
相关推荐
pudding
布丁
其他
66
未命名用户rwWZNQ
185天前
pudding
读书分享
其他
39
未命名用户iX2yst
234天前
pudding
佛祖PPT
其他
13
未命名用户6Q7ElS
332天前
pudding
data
其他
40
未命名用户L24xkd
1年145天前
pudding
亚马逊为什么在中国市场发展失败
其他
55
呜呼芜湖唔唿
1年149天前
pudding
未命名的文档
其他
26
未命名用户RVRJEO
1年163天前
pudding
test
其他
18
未命名用户RDvqcB
1年169天前