转跳到内容

【来一读论文吧-第二期】网站之中的数据提取~


推荐贴

发布于 · 只看该作者

论文标题:Trafilatura: A Web Scraping Library and Command-Line Toolfor Text Discovery and Extraction

论文领域:NLP / Machine Learning / Data Mining

 

推荐原因:

数据挖掘在数据分析/机器学习的数据收集过程中一个很重要的步骤。这个论文很有意思在于他对于网站结构进行了解析,并且研究出了一个对于大多数网站通用的model。由于还没读完,但是从下图可以看出来这个的表现是很不错的~

20220122012722.png

如果有人有更好的模型也可以推荐推荐,让我cp一下我下周例会要说点啥hhh

 

真实原因:

导师让我读的,但总不能我一个人受苦不是~

注释
Eternalcycle Eternalcycle 30.00节操
发布于 · 只看该作者
37 分钟前, 提辖 说道:

草 还有这么有意思的活动么 下一期带我一个 我也整点communication论文折磨大众:mx059:

发!大家一起受苦吧!

AlGoRiThM收和谐资源时被小萝莉围观良心发现失去-3节操

  • 骚男锁定了本主题
游客
此主题已关闭。
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款