Как вы держите строки таблицы вместе в python-docx?

Например, у меня есть общий скрипт, который выводит стили таблиц по умолчанию, используя python-docx (этот код работает нормально):

import docx
d=docx.Document()
type_of_table=docx.enum.style.WD_STYLE_TYPE.TABLE

list_table=[['header1','header2'],['cell1','cell2'],['cell3','cell4']]
numcols=max(map(len,list_table))
numrows=len(list_table)

styles=(s for s in d.styles if s.type==type_of_table)


for stylenum,style in enumerate(styles,start=1):
    label=d.add_paragraph('{}) {}'.format(stylenum,style.name))
    label.paragraph_format.keep_with_next=True
    label.paragraph_format.space_before=docx.shared.Pt(18)
    label.paragraph_format.space_after=docx.shared.Pt(0)
    table=d.add_table(numrows,numcols)
    table.style=style
    for r,row in enumerate(list_table):
        for c,cell in enumerate(row):
            table.row_cells(r)[c].text=cell


d.save('tablestyles.docx')   

Затем я открыл документ, выделил разделенную таблицу и в разделе «Формат абзаца» выбрал «Сохранить со следующим», что успешно предотвратило разделение таблицы на странице:

введите здесь описание изображения

Вот XML-код неповрежденной таблицы:

введите здесь описание изображения

Вы можете видеть, что выделенная строка показывает свойство абзаца, которое должно удерживать таблицу вместе. Поэтому я написал эту функцию и вставил ее в код над строкой d.save('tablestyles.docx'):

def no_table_break(document):
    tags=document.element.xpath('//w:p')
    for tag in tags:
        ppr=tag.get_or_add_pPr()
        ppr.keepNext_val=True


no_table_break(d)     

Когда я проверяю код XML, тег свойства абзаца установлен правильно, и когда я открываю документ Word, флажок «Сохранить со следующей» установлен для всех таблиц, но таблица по-прежнему разделена на страницы. Я пропустил тег XML или что-то, что мешает правильной работе?


person LMc    schedule 10.01.2017    source источник
comment
Я думаю, вам нужно будет более конкретно указать, что такое потерянная строка. Следующим шагом будет проверка того, сможете ли вы добиться того же результата, что и после использования приложения/интерфейса Word. Если вы можете сузить его таким образом, вы можете определить элемент/атрибут XML, который имеет значение. w:cantSplit может определить, разделена ли ячейка по страницам (конечно, с ее строкой).   -  person scanny    schedule 11.01.2017
comment
@scanny все, что я имею в виду под потерянной строкой, это то, что часть таблицы находится на одной странице, а другая часть таблицы - на другой.   -  person LMc    schedule 11.01.2017
comment
Вопрос заключается в том, находится ли разрыв на границе четной строки или внутри строки, например, часть строки на одной странице, а остальная часть в верхней части следующей страницы. Это разные (неправильные) действия.   -  person scanny    schedule 11.01.2017
comment
@scanny в моем случае разрывы находятся на четных границах строк, а не по кругу строки.   -  person LMc    schedule 11.01.2017
comment
Можете ли вы добиться желаемого результата с помощью приложения Word? Если да, то что вы сделали, что сработало? Например, какой вариант диалогового окна или что-то еще?   -  person scanny    schedule 11.01.2017
comment
@scanny, когда я выделяю таблицу, которая разбита на две страницы, и перехожу к диалоговому окну абзаца на вкладке «Разрывы строк и страниц», установка флажка «Сохранить со следующей» делает свое дело.   -  person LMc    schedule 11.01.2017
comment
А, ок, интересно. Теперь я вижу вашу ситуацию. Я не знаю, как исправить это с головы. Это тот момент, когда я бы проверил XML из рабочего примера и сравнил его с тем, который не работает. После того, как вы поняли необходимые элементы/атрибуты XML, вы можете настроить их правильно, возможно, работая с XML напрямую, используя вызовы lxml, такие вещи, которые вы можете найти в примерах использования обходной функции python-docx при поиске.   -  person scanny    schedule 11.01.2017
comment
@scanny После проверки элементов XML таблицы, разделенной на страницу, а не разделенной на страницу, я определил элемент XML, который должен заставить это работать, но он все еще не работает.   -  person LMc    schedule 09.02.2017
comment
Я также изо всех сил пытаюсь сохранить свои столы вместе. Я думаю, что одна путаница здесь заключается в том, что параметр, на который вы ссылаетесь, сохраняет слово для разделения строки таблицы на странице. Кажется, это работает, но держать стол вместе — это то, чего вы (и я) действительно хотите. Было бы полезно, если бы таблицы были добавлены к абзацам, тогда мы могли бы предотвратить наложение абзаца на страницу. Однако, поскольку они добавляются в документ, необходимы некоторые настройки на уровне документа.   -  person TSeymour    schedule 24.07.2018


Ответы (2)


Хорошо, мне это тоже было нужно. Я думаю, мы все сделали неверное предположение, что настройка в свойствах таблицы Word (или эквивалентные способы достижения этого в python-docx) была связана с предотвращением разделения table на страницы. Дело не в том, а просто в том, можно ли разделить строки таблицы на несколько страниц.

Учитывая, что мы знаем, насколько успешно это делается в python-docx, мы можем предотвратить разделение таблиц по страницам, поместив каждую таблицу в строку более крупной главной таблицы. Приведенный ниже код успешно делает это. Я использую Python 3.6 и Python-Docx 0.8.6.

import docx
from docx.oxml.shared import OxmlElement
import os
import sys


def prevent_document_break(document):
    """https://github.com/python-openxml/python-docx/issues/245#event-621236139
       Globally prevent table cells from splitting across pages.
    """
    tags = document.element.xpath('//w:tr')
    rows = len(tags)
    for row in range(0, rows):
        tag = tags[row]  # Specify which <w:r> tag you want
        child = OxmlElement('w:cantSplit')  # Create arbitrary tag
        tag.append(child)  # Append in the new tag


d = docx.Document()
type_of_table = docx.enum.style.WD_STYLE_TYPE.TABLE

list_table = [['header1', 'header2'], ['cell1', 'cell2'], ['cell3', 'cell4']]
numcols = max(map(len, list_table))
numrows = len(list_table)

styles = (s for s in d.styles if s.type == type_of_table)

big_table = d.add_table(1, 1)
big_table.autofit = True

for stylenum, style in enumerate(styles, start=1):
    cells = big_table.add_row().cells
    label = cells[0].add_paragraph('{}) {}'.format(stylenum, style.name))
    label.paragraph_format.keep_with_next = True
    label.paragraph_format.space_before = docx.shared.Pt(18)
    label.paragraph_format.space_after = docx.shared.Pt(0)

    table = cells[0].add_table(numrows, numcols)
    table.style = style
    for r, row in enumerate(list_table):
        for c, cell in enumerate(row):
            table.row_cells(r)[c].text = cell

prevent_document_break(d)

d.save('tablestyles.docx')

# because I'm lazy...
openers = {'linux': 'libreoffice tablestyles.docx',
           'linux2': 'libreoffice tablestyles.docx',
           'darwin': 'open tablestyles.docx',
           'win32': 'start tablestyles.docx'}
os.system(openers[sys.platform])
person TSeymour    schedule 23.07.2018

Несколько часов я боролся с проблемой и, наконец, нашел решение, которое отлично сработало для меня. Я только что изменил XPath в коде старта темы, так что теперь он выглядит так:

def keep_table_on_one_page(doc):
    tags = self.doc.element.xpath('//w:tr[position() < last()]/w:tc/w:p')
    for tag in tags:
        ppr = tag.get_or_add_pPr()
        ppr.keepNext_val = True

Ключевой момент это селектор

[position() < last()]

Мы хотим, чтобы все, кроме последней строки в каждой таблице, соответствовали следующей.

person DeadAd    schedule 10.10.2019