Hi, I’m Chen He(陈贺) from 中科院软件研究所.
长期从事后台开发/计算机视觉研发工作,具有三年以上OCR分析研发经验.对OCR算法与技术有深入的研究.曾负责多个大型垂直OCR项目结构化研发(银行流水识别等).目前研究领域为OCR算法,着重探索结构化方案在通用领域的应用与落地.
IT技能
- 网络爬虫
- 爬虫工具——Scrapy采集框架,requests,urllib数据采集
- 爬虫策略——Ip轮训,User-Agent切换,Referer伪装
- 异步加载——Spalsh/Selenium/Phantomjs渲染,用户点选拖拽交互
- 抓包分析——BurpSuite渗透性工具,chrome开发者工具,EditThisCookie工具
- 验证码识别——滑块验证码,字符验证码
- APP爬虫——ADB,安卓模拟器,uiautomator2
- 数据库
- Elasticsearch–建立倒排索引,Ik分词,n-gram分词;Nested数组查询,短语搜索等
- Mongodb 文档数据库
- Redis 键值数据库
- MySql–主从分离(基于MyCat)
- hdfs–flum,kafka,hdfs
- 机器学习/深度学习
- 基于聚类技术自动化抽取资讯正文,避免了不同网站写不同的抽取模板。
- 基于分类技术自动化识别资讯链接,加快了资讯采集速度。
- 基于语义分割连通域实现了图片表格解析,实现了图像表格的结构化抽取.
- 前端/后端/运维
- Vue/Javascript/css–爬虫工程师往往都是一个前端工程师
- Flask–独立开发了一个内部资讯管理系统
- 熟悉docker应用部署
个人简历
我的简历:个人简历