转跳到内容

【来一读论文吧-第二期】网站之中的数据提取~


推荐贴

论文标题:Trafilatura: A Web Scraping Library and Command-Line Toolfor Text Discovery and Extraction

论文领域:NLP / Machine Learning / Data Mining

 

推荐原因:

数据挖掘在数据分析/机器学习的数据收集过程中一个很重要的步骤。这个论文很有意思在于他对于网站结构进行了解析,并且研究出了一个对于大多数网站通用的model。由于还没读完,但是从下图可以看出来这个的表现是很不错的~

20220122012722.png

如果有人有更好的模型也可以推荐推荐,让我cp一下我下周例会要说点啥hhh

 

真实原因:

导师让我读的,但总不能我一个人受苦不是~

注释
Eternalcycle Eternalcycle 30.00节操
链接到点评
  • 骚男锁定了本主题
游客
此主题已关闭。
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款