未命名的文档
工作总结
WORK SUMMARY
黄启明
2024年12月20日
实习以来的三周里,共完成了15个爬虫任务,包括国家级、省级、市级国家部门政策信息的爬取。
爬取的信息维度包括政策的名称、发文部门、发文时间、发文内容、以及链接等10个
完善了多个功能不足,如截止时间提取不完全、标题字数问题、以及文章字体显示等问题
运行结果
processing result
75%
55%
85%
65%
正确预测了每一个词的标签、成功提取出我们想要的截止日期信息
本月知识积累
Current month knowledge accumulate
爬虫技术
本月工作以来熟练掌握了requests、http.client、selenium从网页上获取信息的能力,熟悉了多种解析工具如lxml、html.parser等,熟悉了xpath、css选择器等元素定位方法
01
02
03
04
05
数据处理能力
本月多次遇到字符串问题、数据格式问题、内容更新与保存问题,熟悉了pandas、numpy等数据处理库的使用
js逆向技术
接触到了参数加密,内容反扒问题,积极学习逆向技术,以及hook工具。
类的模块化
熟练编写python类、用模块化的代码实现需求功能,提高代码的复用性、
transformer
预训练模型bert+transformer+下游任务=效果很棒
本月工作情况汇报
current month performance report
下阶段工作目标
Work target for the next period
区级爬虫
完成区级爬虫代码的编写,实现爬虫功能和效率的提升
Mars
爬虫代码优化和维护
重构复用性高的模块、优化时间复杂度、和空间复杂度较高的代码模块。
Mercuty
提升爬虫技术
学习新的爬虫框架如scrapy、pyspider等。学习分布式爬虫、并行爬虫、以及爬虫进度的可视化。学习反扒手段、如cookie、header参数加密、混淆技术。
jupiter
目标执行与预期效果
Target execution and expected results
爬虫技术的提升
通过实践、视频、csdn知识分享平台等方式学习并行爬虫、爬虫进度可视化、加密技术等知识。
区级爬虫
花费部分时间,将区级爬虫代码构建起来,将处理好的数据存储到数据库中。
AI工具的使用
多接触如豆包、kimi、chatGPT等AI工具,借助其开发更高质量的爬虫。
爬虫代码的优化和维护
花费部分时间,统计和优化复用性较高的代码、写进一个统一的类中,并将优化时间复杂度较高的代码,提升代码的运行效率
THANKS FOE
WATCHING
工作总结ppt由未命名用户q7C6uN制作并于2024-12-18 17:06:37上传。布丁演示网是一个在线制作PPT的平台,这里提供了各种幻灯片模板,您可以制作类似于工作总结ppt的PPT。
常用分类: 大学生创业计划书PPT模板 | 年度总结PPT模板 | 辩论赛PPT模板 | 幼儿教师PPT模板 | 我图网PPT模板 | 二年级家长会PPT模板 | 大学生个人介绍PPT模板 | 家长会课件PPT模板 | 运动与设计PPT模板 | 爷爷一定有办法绘本PPT模板 | 素材PPT模板 | 总结汇报PPT模板 | 网络安全PPT模板 | 客服年终总结PPT模板 | 军事PPT模板 | 说课PPT模板 | 抽奖PPT模板 | 食品安全PPT模板 | 小学语文课件PPT模板 | 财务报表分析PPT模板 |