自动生成文章摘要

自动生成文章摘要

2017-05-2121410 阅读49 评论

博客文章的模型有一个 excerpt 字段，这个字段用于存储文章的摘要。目前为止，还只能在 Django Admin 后台手动为文章输入摘要。每次手动输入摘要比较麻烦，对有些文章来说，只要摘取正文的前 N 个字符作为摘要，以便提供文章预览就可以了。因此我们来实现如果文章没有输入摘要，则自动摘取正文的前 N 个字符作为摘要，这有两种实现方法。

复写 save 方法

第一种方法是通过复写模型的 save 方法，从正文字段摘取前 N 个字符保存到摘要字段。回顾一下我们的博客文章模型代码：

blog/models.py

class Post(models.Model):
    # 其它字段...
    body = models.TextField()
    excerpt = models.CharField(max_length=200, blank=True)

其中 body 字段存储的是正文，excerpt 字段用于存储摘要。通过复写模型的 save 方法，在数据被保存到数据库前，先从 body 字段摘取 N 个字符保存到 excerpt 字段中，从而实现自动摘要的目的。具体代码如下：

blog/models.py

import markdown
from django.utils.html import strip_tags

class Post(models.Model):
    # 其它字段...
    body = models.TextField()
    excerpt = models.CharField(max_length=200, blank=True)

    # 其它方法...

    def save(self, *args, **kwargs):    
        # 如果没有填写摘要
        if not self.excerpt:
            # 首先实例化一个 Markdown 类，用于渲染 body 的文本
            md = markdown.Markdown(extensions=[
                'markdown.extensions.extra',
                'markdown.extensions.codehilite',
            ])
            # 先将 Markdown 文本渲染成 HTML 文本
            # strip_tags 去掉 HTML 文本的全部 HTML 标签
            # 从文本摘取前 54 个字符赋给 excerpt
            self.excerpt = strip_tags(md.convert(self.body))[:54]

        # 调用父类的 save 方法将数据保存到数据库中
        super(Post, self).save(*args, **kwargs)

这里生成摘要的方案是，先将 body 中的 Markdown 文本转为 HTML 文本，去掉 HTML 文本里的 HTML 标签，然后摘取文本的前 54 个字符作为摘要。去掉 HTML 标签的目的是防止前 54 个字符中存在块级 HTML 标签而使得摘要格式比较难看。可以看到很多网站都采用这样一种生成摘要的方式。

然后在模板中适当的地方使用模板标签引用 {{ post.excerpt }} 显示摘要的值即可：

templates/blog/index.html

<article class="post post-{{ post.pk }}">
  ...
  <div class="entry-content clearfix">
      <p>{{ post.excerpt }}...</p>
      <div class="read-more cl-effect-14">
          <a href="{{ post.get_absolute_url }}" class="more-link">继续阅读 <span class="meta-nav">→</span></a>
      </div>
  </div>
</article>

使用 truncatechars 模板过滤器

第二种方法是使用 truncatechars 模板过滤器（Filter）。在 Django 的模板系统中，模板过滤器的使用语法为 {{ var | filter: arg }}。可以将模板过滤看做一个函数，它会作用于被它过滤的模板变量，从而改变模板变量的值。例如这里的 truncatechars 过滤器可以截取模板变量值的前 N 个字符显示。关于模板过滤器，我们之前使用过 safe 过滤器，可以参考支持 Markdown 语法和代码高亮这篇文章中对模板过滤器的说明。

例如摘要效果，需要显示 post.body 的前 54 的字符，那么可以在模板中使用 {{ post.body | truncatechars:54 }}。

templates/blog/index.html

<article class="post post-{{ post.pk }}">
  ...
  <div class="entry-content clearfix">
      <p>{{ post.body|truncatechars:54 }}</p>
      <div class="read-more cl-effect-14">
          <a href="{{ post.get_absolute_url }}" class="more-link">继续阅读 <span class="meta-nav">→</span></a>
      </div>
  </div>
</article>

不过这种方法的一个缺点就是如果前 54 个字符含有块级 HTML 元素标签的话（比如一段代码块），会使摘要比较难看。所以推荐使用第一种方法。

总结

本章节的代码位于：Step17: generate excerpt automatically。

如果遇到问题，请通过下面的方式寻求帮助。

在下方评论区留言。
将问题的详细描述通过邮件发送到 djangostudyteam@163.com，一般会在 24 小时内回复。
在 Pythonzhcn 社区的新手问答版块发布帖子。

-- EOF --

49 评论

登录后回复

DocterWhom

2019-03-12 14:39

注意如果在之前部署到外网的环境中，你已经将settings.py文件中关闭了DEBUG，这时候打开Admin后台，后台是会丢失样式的，你需要重新设置为True,以便你能方便发布文章，测试功能

SamK6517433923

2019-02-20 19:16

按照第一种方法的话，原来已经有的blog是不会重新产生摘要的，只能针对于新建的blog 。请问有方法解决吗？

SamK6517433923 SamK6517433923

2019-02-21 02:51

自己写了个py 遍历了一下数据库，将原来已经有的blog的excerpt字段进行填充，可以了

wozhendeshitangmingze SamK6517433923

2019-06-04 15:26

能说说是怎么做的吗，我也碰到了这个问题

BlueMrD

2018-08-18 22:27

问题：

我使用博主的第一种方法，取文章（我的文章文字数量超过十个）的前十个中文作为摘要，可是取出来的中文却只有七个。

改进：

我在博主的代码上进行了改进，

def save(self, *args, **kwargs):
    if not self.excerpt:
        md = markdown.markdown(self.body[:10], extensions=[
            'markdown.extensions.extra', 
            'markdown.extensions.codehilite',
            'markdown.extensions.toc',
                              ])
        self.excerpt = strip_tags(md)    
    super(Post, self).save(*args, **kwargs)'

这样子就可以摘取十个中文了。

Chen xianmin

2018-08-15 17:15

原来已经有的blog是不会重新产生摘要的，只能针对于新建的blog

HaplessMarm0t

2018-02-15 22:32

5465

xqyxqy

2017-12-05 16:58

博主有个文章摘要小问题(博主大牛，是想考我们这些菜鸟的吧？)。第一次可以获取，第二次就不能了，因为他根据是否为空去判断的，我自己加个elif解决了。
elif self.excerpt != strip_tags(md.convert(self.body))[:54]:

self.excerpt = strip_tags(md.convert(self.body))[:54]

判断这个的摘要是否跟要保存的文章前54字是否相等，不相等，更新。

xqyxqy xqyxqy

2017-12-06 10:20

这样不行，会强制更新为文章默认的前50字，无法自定义摘要。还是按博主的方式吧。

Arrowarcher xqyxqy

2018-10-25 11:36

你每次都保存save，都删掉之前的摘要，保存新的摘要不就行了，不要做那个if判断，然后加个删除摘要的语句

Arrowarcher Arrowarcher

2018-10-25 11:38

哦哦，我弄错了，你也理解错了，博主那个是每次保存时，你在后台保存的时候没有填写摘要，那么就取前54，相当于每次保存都有更新，好像是这样

fshgrym

2017-11-10 23:13

其实1.7以上可以直接truncatechars_html：54这样。亲测有效

fshgrym fshgrym

2017-11-10 23:18

<p>{{ post.body|striptags|truncatewords_html:54 }}</p>这样写比较好看，亲测

Stallionshell fshgrym

2017-11-22 13:57

如果这样做的话，在文章是md格式的时候，会把格式符号如#之类的添加到摘要里边去。

point6013

2017-10-30 16:38

楼主你好，我遇到了一个问题，假如我在新建的文章的内容全部改变了之后，那么按照第一种方法的话，文章的摘要是不会更新的。

孤云飘飘zhao point6013

2018-03-01 11:47

在shell里取出所有的post,在save一下就好了,之前的都可以显示了

point6013 孤云飘飘zhao

2018-03-14 11:50

谢啦

桉树先生

2017-09-22 16:29

建议摘要获取不要以[:54]，而以split('.')[0]来获取第一句完整的话语，来的更加有意义。

桉树先生桉树先生

2017-09-22 16:35

更新：因为有的时候并不一定使用'.'或者句号，可直接使用split()[0]，取第一句话

self.excerpt = strip_tags(md.convert(self.body)).split()[0] + '...'

桉树先生桉树先生

2017-09-22 16:39

shit, 这样只能取到1个单词, 还是按照楼主的来吧

Afetmin 桉树先生

2017-11-17 15:00

笑成猪叫

吉超 Afetmin

2018-01-02 12:31

^_^

fgd 桉树先生

2018-06-02 01:05

哈哈

retli

2017-09-20 21:39

不知道为什么，使用第一种方法，无法保存阅读量到数据库了

gruiyuan retli

2017-11-24 15:36

是不是复写save方法时，把

‘super(Post, self).save(*args, **kwargs)‘

这一句写在if的内层了，导致摘要不为空时不会调用save方法

逢考必过小航桑

2017-09-05 21:49

求教。目前我有一个类是这样的

body = UEditorField('内容', height=300, width=1000,         
default=u'', blank=True, imagePath="uploads/images/%(datetime)s.%(extname)s",         
toolbars='full', filePath="uploads/files/%(datetime)s.%(extname)s",)

我想要在前端仅仅只显示文本，而不显示图片，应该怎么做呢？

追梦人物逢考必过小航桑

2017-09-05 22:13

sorry，我对 UEditorField 不熟悉

小羊仙

2017-08-26 00:00

第一种方法会报错，需要一个id?请问是怎么回事？报错如下：
" needs to have a value for field "id" before this many-to-many relationship can be used.

追梦人物小羊仙

2017-08-27 12:17

你可能保存标签，先要创建标签。

Qiu kong Wong

2017-08-19 14:38

自己摸索了下第三种可行方法..写个filter..亲测可行
import markdown
@register.filter
def get_digest(digest, content):
if not digest:
new_digest = markdown.markdown(content[:50],
extensions=[
'markdown.extensions.extra',
'markdown.extensions.codehilite',
'markdown.extensions.toc',
])
return new_digest
else:
return digest

然后在模板里面改为：

追梦人物 Qiu kong Wong

2017-08-20 10:35

对！方法其实非常非常多。

devilmc8888

2017-08-17 18:23

第一种save方法，是怎么被调用的？没找到调用save函数的地方啊

追梦人物 devilmc8888

2017-08-17 20:52

假设你的模型实例是 post，调用方法为 post.save()，不过由于我们使用 django 后台保存文章，他在内部帮我们调用了。

devilmc8888 追梦人物

2017-08-19 10:00

懂了，谢谢

H-皇兄

2017-08-07 22:51

两个方法都好

reply-1988

2017-08-04 22:55

博主，第一段话的有个错别字，博客问章了。

稀里哗啦NZND

2017-06-17 06:08

博主，，您好，，我用的是第一种方法，复写save方法，，为什么显示的是save方法？？？

稀里哗啦NZND 稀里哗啦NZND

2017-06-17 06:10

搞错了，，，我用的第一种save方法，，显示不出摘要，，只有三个英文句号...

稀里哗啦NZND 稀里哗啦NZND

2017-06-17 06:25

测试了一下 truncatechars 模板过滤器，，这个方法能用，简洁，美观！

rockfire 稀里哗啦NZND

2017-07-21 20:28

要新建的文章才有，本来文章没有的

艾拓CX

2017-06-13 10:21

我的印象中truncatechars好像是不支持中文，可能是python2的原因吧，需要用slice来切分

追梦人物艾拓CX

2017-06-13 10:26

truncatewords 不支持中文，truncatechars 就是切分字符串的。

mensyli

2017-06-10 11:35

你好，重写save方法并不能显示摘要，怎么办？

mensyli mensyli

2017-06-10 12:29

莫名其妙的号了

cz mensyli

2017-06-15 13:53

请问怎么好的，怎么都不显示

我是单永旭 cz

2017-06-29 11:09

重写save方法是不能动态改变摘要的,使用第二种方式可以动态的改变摘要.
另外,如果你重写save方法,需要重新写一篇blog才能看见此种方式生效.

Anderson Shao cz

2017-12-29 10:10

之前的文章已经调用过save了

dengwen168

2017-05-21 18:38

truncatechars不是不支持中文么？

追梦人物 dengwen168

2017-05-21 20:23

支持的。

Django博客教程

复写 save 方法

使用 truncatechars 模板过滤器

总结

目录