2020.12-present MSRA-NLC
研究位置编码, 改进语言模型和下游的文本生成任务。(Work in progress)
2020.09-2020.11 字节跳动-AI Lab
研究对话生成, 利用知识增强来提升GPT2在对话生成的任务上的效果。(Work in progress)
2020.02-present
研究多轮检索式对话, 在Persona-Chat、CMUDoG和Wizard数据集上取得sota结果, 发表于CIKM2020:
Learning to Detect Relevant Contexts and Knowledge for Response Selection in Retrieval-based Dialogue Systems
CIKM2020 Full Paper Research Track 一作
2020.04-2020.08 腾讯微信-模式识别中心
担任nlp算法实习生,参与 微信对话开放平台 的FAQ项目, 即检索式 chatbot。
负责 es 后台接口以及数据更新服务。
负责对话反馈分类。
通过预训练模型(GPT2/mass),从标准问生成相似问。
2019.11-2020.03 字节跳动-搜索
担任搜索算法实习生,负责网页信息提取,通过模板引擎及模板配置实现网页信息结构化, 实现了一个json diff组件;负责网页内容的篇章理解,通过根据步骤词建树以及子标题检测实现;负责精准问答,通过规则实现短答案区间检测,类似于Watson DeepQA(不完全相同)。
2018.05-2018.08 志诺维思
担任自然语言处理实习生,负责肿瘤病理数据结构化的工作,通过正则及医学规则实现了病理信息抽取,结构化结果由人工评估,准确率高达99%。并做了一些数据分析工作,使用apriori算法挖掘免疫组化抗体之间的关联性,并实现了可视化。
2019.05
natural language -> logical form
[dataset] [code]
method:
bilstm-crf + ner + seq2seq
TODO: maybe pointer network + seq2seq is better!
2018.11
[dataset] [code]
尝试了5种方法实现中文命名实体词识别:
1.HMM
2.CRF learn CRF tips
3.BiLSTM-viterbi
4.BiLSTM-CRF
5.BiLSTM-CNN-CRF
update: methods above are out of date.
增加了bert的支持。
6.Bert