Hi, I’m Chen He(陈贺) from 中科院软件研究所.

  长期从事后台开发/计算机视觉研发工作,具有三年以上OCR分析研发经验.对OCR算法与技术有深入的研究.曾负责多个大型垂直OCR项目结构化研发(银行流水识别等).目前研究领域为OCR算法,着重探索结构化方案在通用领域的应用与落地.

你可以联系我通过 Email or Github.

IT技能

  • 网络爬虫
    1. 爬虫工具——Scrapy采集框架,requests,urllib数据采集
    2. 爬虫策略——Ip轮训,User-Agent切换,Referer伪装
    3. 异步加载——Spalsh/Selenium/Phantomjs渲染,用户点选拖拽交互
    4. 抓包分析——BurpSuite渗透性工具,chrome开发者工具,EditThisCookie工具
    5. 验证码识别——滑块验证码,字符验证码
    6. APP爬虫——ADB,安卓模拟器,uiautomator2
  • 数据库
    1. Elasticsearch–建立倒排索引,Ik分词,n-gram分词;Nested数组查询,短语搜索等
    2. Mongodb 文档数据库
    3. Redis 键值数据库
    4. MySql–主从分离(基于MyCat)
    5. hdfs–flum,kafka,hdfs
  • 机器学习/深度学习
    1. 基于聚类技术自动化抽取资讯正文,避免了不同网站写不同的抽取模板。
    2. 基于分类技术自动化识别资讯链接,加快了资讯采集速度。
    3. 基于语义分割连通域实现了图片表格解析,实现了图像表格的结构化抽取.
  • 前端/后端/运维
    1. Vue/Javascript/css–爬虫工程师往往都是一个前端工程师
    2. Flask–独立开发了一个内部资讯管理系统
    3. 熟悉docker应用部署

个人简历

我的简历:个人简历