个人简历

邮箱: YWxleDQ0anp5QGdtYWlsLmNvbQ==
微信: NDA1MTQ3NDU3

自我评价

正直,谦虚,专注,积极,实干,团队精神,海外求学工作经历。对数据科学和分析建模有很强的敏锐度,对机器学习和深度学习有一定的积累,对自然语言处理 (NLP) 相关领域有很大的研究热情。2年开发经验,熟悉前后台的敏捷开发流程,善于分析业务和技术的结合点解决实际问题。最后非常愿意学习!!
求职意向:数据科学家,机器学习算法工程师,NLP工程师。

教育背景

2018.01 - 2019.07,新加坡国立大学(新加坡),企业商务分析-机器学习(EBAC),硕士
GPA:3.95,Top 10%
主修课程:商务分析基础,数据分析,决策与优化,文本挖掘,新媒体与情感分析,深度学习与文本处理,用户关系管理,网站分析等。

2013.09 - 2016.06,西南大学(211,重庆),信号与信息处理,硕士
导师:段书凯教授,GPA:4.0,Top 1% (1/51)
研究方向:神经网络,忆阻器件及系统,混沌理论,神经形态系统。
荣誉:2013-2015连续两年研究生科研奖学金,西南大学三好研究生,西南大学研究生优秀毕业生 。

2014.07 - 2014.09,清华大学物联网技术中心(无锡)访问学生,合作导师:刘云浩教授

工作经历

2018.08 - 2019.04,IBM,新加坡,数据科学家(实习)。8个月
2016.06 - 2018.01,Coupang,上海,软件研发工程师。20个月
2015.06 - 2015.09,英语流利说,上海,算法工程师(实习)。3个月

工作项目

2018.08 - 2019.04,IBM Q2C 供应链时间序列预测及聊天机器人优化

  • 基于IBM Watson Chatbot用户输入问题构建文本主题聚类模型(LSI, LDA, ATM, HDP等),基于 topic coherence 搜索确定最优主题数,分析生成主题候选问题集。
  • 研究冷启动情形下文本相似度排名,使用jaccard距离, Fasttext 词向量平均,LDA 主题得分等计算余弦相似度和多种距离设计相似度得分,设定阈值判断直出答案或推荐相似问题,测试降低20%无应答率。后期基于 Flask 实现模型与代码部署,提供 RESTful API 用于线上 Chatbot 应用请求。
  • 研究多轮对话中意图分割语境重置问题,埋点记录用户手动点击重置作为 Label,选取3轮次对话构建基于 Pytorch 的 WordSeq GRU 模型,验证集 F1-score 73%
  • 单日全球用户订单数时间序列预测,进行数据收集、清洗、划分及整合为时间序列。模型角度优化最终采用 Season ARIMA+LightGBM,目标值与 Seasonal ARIMA 预测的残差作为 LightGBM 预测目标。特征方面优化,手动构建历史特征及多组特征,爬虫抓取订单主要国家节假日(强特),预测验证集结果 MAPE 较基线降低13%。

2016.07 - 2018.01,Coupang 全网长途车辆管理分析平台开发

  • 参与 Coupang 长途车辆管理产品线4个阶段(OA-可视化-预测-模拟)前后端整体迭代开发。全网长途车辆定位及可视化,前后端使用 AngularjsGoogle Map APIJava 微服务。
  • 结合配送路程,剩余距离时间,制定监控 KPI 分析长途路线健康状态,并与 Vendor 端集成 Slask 实现消息提醒。针对不同路线车辆载货率不稳定容错率低的问题,开发模拟系统生成所有路线的最优派车方案,与实际业务协调发掘实际派车问题,有效降低长途物流链路成本。
  • Hub 仓储手持设备应用开发,基于 React Native,ReduxRealm 组件化开发安卓 PDA 手持扫码设备应用程序,实现对包裹信息的扫码录入、错误提醒和日志跟踪。基于服务端解析和 CodePush 热更新,设计实现版本发布及灵活热修复模式,前往韩国仁川仓库参与实地部署。

2015.06 - 2015.09,英语流利说大数据算法打分平台

  • 基于 Scala 参与开发英语流利说 Spark 大数据自动化打分系统 Pipeline,并使用 Apache Zeppelin 配置、输出各版本打分结果及各音素细节可视化Demo收录在ZEPL官方展示案例中。

研究比赛经历

2018.10 - 2018.12,天池瑞金医院 MMC 人工智能辅助构建知识图谱大赛,第二赛季 37 / 1629,第一赛季 78 / 1629。
第一赛季NER,基线模型 BiLSTM+CRF,通过调整隐含层层数超参训练3个不同模型,对预测的3组标注结果取并集 Voting 融合,融合结果 F1-score 较单模型提升2%线上最高72%。
第二赛季关系抽取,2大类10组关系(疾病类5组关系,药物类5组关系),采用实体对齐截断语句作为训练样例,生成候选实体对判断是否存在对应关系,为防止训练正负样本比例失调,正样本跨句窗口长度截取1500,负样本构建以2大类实体标注为中心结合统计结果,前后窗口分别截断长度800和1100。模型采用 BiLSTM+TextCNN 实现,后将截断语句进行头尾补齐后,复现 PCNN(Piecewise)进行分段池化有一定提升,线上 F1-score 63.4%。

2018.12 - 2019.01 Kaggle Quora Insincere Questions Classification,Public LB 15 / 4037
模型使用2层BiLSTM串接平均池化,最大池化,注意力机制,并引入 Capsule Net 提升模型表征能力,同统计特征拼接预测有害问题。期间尝试调整多个预训练词向量模型权值得到词向量,引入 BatchNorm 调节 dropout rate 等提分策略。

2015.04,第5届国际信息与技术国际会议(5th IEEE ICIST)发表论文A threshold adaptive memristor model analysis with application in image storage. Information Science and Technology (ICIST), 2015 5th International Conference on. IEEE, 2015(EI索引)。

2018.05,UCI基于多模型融合预测糖尿病患者短期二次入院及关键因素分析 (LR,NN,SVM,XgBoost)。

2018.03,新加坡建屋发展局(HDB)二手组屋多维度销量、价格、区域化趋势分析的Tableau可视化Dashboard。

2015.01,清华大学信息科学与技术国家重点实验室(无锡) 第7届国际物联网和云计算大会,参与国家自然科学基金面上项目(61672436)基于多模感知和移动互联网协作的导盲系统关键问题研究。

2014.07,第9届华为杯研究生电子设计大赛西南赛区二等奖,智能门窗管理系统,通过ARM7、手机GSM模块及外部传感器实现自动化门窗开关。

专业技能

编程语言: Python,Java,Javascript,了解 Bash,函数式编程 Scala。
深度学习 (NLP): Word2Vector, TextCNN, RNN (GRU, LSTM), Transformer (Attention)原理,Capsule Net,关注文本分类,命名实体,文本相似度分析,知识图谱,Chatbot 等。
数据建模工具: Pytorch, Keras, Pandas, Numpy, Scikit-learn, R, Tableau 等。
机器学习: LR,DT,NN,SVM,降维,聚类,LDA,贝叶斯网络,模型融合提升,时间序列分析,深度学习优化方法等。
Web 工程开发: Python (Flask) ,Java (MVC) ,Javascript (ES6,Angularjs,React Native) ,数据库 (MySQL,MongoDB) 等。
其他: 英语听说读写熟练,文献阅读,企业商务分析,Agile,Git 管理等