About Me

Hi, I’m Chen He(陈贺) from 中科院软件研究所.

长期从事后台开发/计算机视觉研发工作,具有三年以上OCR分析研发经验.对OCR算法与技术有深入的研究.曾负责多个大型垂直OCR项目结构化研发(银行流水识别等).目前研究领域为OCR算法,着重探索结构化方案在通用领域的应用与落地.

你可以联系我通过 Email or Github.

IT技能

网络爬虫
1. 爬虫工具——Scrapy采集框架,requests,urllib数据采集
2. 爬虫策略——Ip轮训，User-Agent切换，Referer伪装
3. 异步加载——Spalsh/Selenium/Phantomjs渲染,用户点选拖拽交互
4. 抓包分析——BurpSuite渗透性工具,chrome开发者工具,EditThisCookie工具
5. 验证码识别——滑块验证码,字符验证码
6. APP爬虫——ADB,安卓模拟器,uiautomator2
数据库
1. Elasticsearch–建立倒排索引,Ik分词,n-gram分词;Nested数组查询,短语搜索等
2. Mongodb 文档数据库
3. Redis 键值数据库
4. MySql–主从分离(基于MyCat)
5. hdfs–flum,kafka,hdfs
机器学习/深度学习
1. 基于聚类技术自动化抽取资讯正文,避免了不同网站写不同的抽取模板。
2. 基于分类技术自动化识别资讯链接，加快了资讯采集速度。
3. 基于语义分割连通域实现了图片表格解析,实现了图像表格的结构化抽取.
前端/后端/运维
1. Vue/Javascript/css–爬虫工程师往往都是一个前端工程师
2. Flask–独立开发了一个内部资讯管理系统
3. 熟悉docker应用部署

我的简历:个人简历