娱乐【来一读论文吧-第二期】网站之中的数据提取~

AlGoRiThM · 一月 22, 2022

论文标题：Trafilatura: A Web Scraping Library and Command-Line Toolfor Text Discovery and Extraction

论文领域：NLP / Machine Learning / Data Mining

推荐原因：

数据挖掘在数据分析/机器学习的数据收集过程中一个很重要的步骤。这个论文很有意思在于他对于网站结构进行了解析，并且研究出了一个对于大多数网站通用的model。由于还没读完，但是从下图可以看出来这个的表现是很不错的~

如果有人有更好的模型也可以推荐推荐，让我cp一下我下周例会要说点啥hhh

真实原因：

导师让我读的，但总不能我一个人受苦不是~

AlGoRiThM · 一月 22, 2022

8 小时前, rance9 说道:

为什么不来试试最近很火的crispr cas9呢

好活，我去瞅瞅！不对啊，这玩意是有机化学？

一月 22, 2022，由AlGoRiThM修改

AlGoRiThM · 一月 26, 2022

2 小时前, rance9 说道:

啊这你这回复不对劲啊怎么这么正常

因为看论文而已啦，有什么正常不正常的

AlGoRiThM · 一月 26, 2022

1 小时前, GMRK 说道:

读论文都办到第二期了吗

（受到惊吓）

可不是就是个正规学习网站

AlGoRiThM · 一月 26, 2022

37 分钟前, 提辖说道:

草还有这么有意思的活动么下一期带我一个我也整点communication论文折磨大众

发！大家一起受苦吧！

推荐贴